《科创板日报》1月28日讯(修改 宋子乔) 在生成式AI模型的赛道上,谷歌正一路“狂飙”。继文字生成AI模型Wordcraft、视频生成东西Imagen Video之后,谷歌将生成式AI的使用场景扩展到了音乐圈。
当地时间1月27日,谷歌发布了新的AI模型——MusicLM,该模型能够从文本乃至图画中生成高保真音乐,也便是说能够把一段文字、一幅画转化为歌曲,且曲风多样。
谷歌在相关论文中展现了很多事例,如输入字幕“雷鬼和电子舞曲的交融,带有空阔的、超凡脱俗的声响,引发迷失在太空中的体会,音乐的规划旨在引发一种惊讶和敬畏的感觉,一起又合适跳舞”,MusicLM便生成了30秒的电子音乐。
又如以国际名画《跨过阿尔卑斯山圣伯纳关隘的拿破仑》为“题”,MusicLM生成的音乐严肃高雅,将冬日的凌厉肃杀和英雄主义颜色体现地酣畅淋漓。写实油画之外,《舞蹈》《呼吁》《格尔尼卡》《星空》等抽象派画作均可为题。
MusicLM乃至能够来个音乐串烧,在故事形式下将不同风格的曲子稠浊在一起。即使要求生成5分钟时长的音乐,MusicLM也不在话下。
别的,MusicLM具有强壮的辅佐功用,能够规则详细的乐器、地址、门户、时代、音乐家演奏水相等,对生成的音乐质量进行调整,然后让一段曲子幻化出多个版别。
MusicLM并非第一个生成歌曲的AI模型,同类型产品包含Riffusion、Dance Diffusion等,谷歌自己也发布过AudioML,时下最抢手的谈天机器人“ChatGPT”的研制者OpenAI则推出过Jukebox。
MusicLM有何独到之处?
它其实是一个分层的序列到序列(Sequence-to-Sequence)模型。依据人工智能科学家Keunwoo Choi的说法,MusicLM结合了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多个模型,可谓集大成者。
其间,AudioLM模型可视作MusicLM的前身,MusicLM便是利用了AudioLM的多阶段自回归建模作为生成条件,能够经过文本描绘,以24kHz的频率生成音乐,并在几分钟内坚持这个频率。
相较而言,MusicLM的练习数据更多。研讨团队引入了首个专门为文本-音乐生成使命评价数据MusicCaps来处理使命缺少评价数据的问题。MusicCaps由专业人士共建,包括5500个音乐-文本对。
基于此,谷歌用280000小时的音乐数据集练习出了MusicLM。
谷歌的试验标明,MusicLM在音频质量和对文本描绘的恪守方面都优于曾经的模型。
不过,MusicLM也有着一切生成式AI一起的危险——技能不完善、资料侵权、品德争议等。
关于技能问题,比方说当要求MusicLM生成人声时,技能上可行,但作用欠安,歌词杂乱无章、含义不明的状况时有发生。MusicLM也会“偷闲”——起生成的音乐中,约有1%直接从练习集的歌曲中仿制。
别的,由AI系统生成的音乐究竟是不是原创著作?能够遭到版权维护吗?能不能和“人工音乐”同台竞技?相关争议一直未有共同见地。
这些都是谷歌没有对外发布MusicLM的原因。“咱们供认该模型有盗用构思内容的潜在危险,咱们着重,需要在未来展开更多作业来应对这些与音乐生成相关的危险。”谷歌发布的论文写道。
AIGC的风终究是吹到了音乐圈——本年3月,“音乐届的ChatGPT” Suno V3粉墨登场,用户只需求在Suno上输入一句话的提示词,即可在数秒内生成两首两分钟的完好歌曲,从作词、作曲、演奏到人声演唱趁热打铁,大大降低了普通人创造音乐的门槛。
现已习惯了各类“AI歌手翻唱”的听众和用户敏捷拥抱了Suno,从《宫保鸡丁咏叹调》到《让咱们荡起双桨》重金属,从英语、日语、俄语到普通话乃至是粤语,网友们自发上传的著作一应俱全,网易云音乐、QQ音乐等渠道也敏捷上线了SunoAI音乐专区,乃至还推出了定时更新的官方引荐歌单。
本期《硅谷101》约请到了来自音乐和AI音乐生成范畴的两位嘉宾,闻名音乐博主“叨叨冯” 冯建鹏,美国哈特福德大学哈特音乐学院打击乐讲师,百老汇全职演奏家和Roger Chen, Meta Music Tech Lead,共享他们对以Suno为代表的文生音乐模型的观点,以及AI怎样影响音乐工业的未来。
本期亮点:
⭕️为什么咱们感觉是Suno是最火的呢?因为他敢最早把文生音乐模型公之于众
⭕️【测评一】“找不到作业的哀痛摇滚乐”,成果并不哀痛
⭕️能听但没有心情,AI只能写出不愤恨的摇滚乐
⭕️AI写的歌能够到达业界平均水平,但无法出挑成为头部著作
⭕️速度是音乐创造最重要的方针之一,为什么AI写不出80 BPM的音乐?
⭕️AI写歌与人类作曲不是一个逻辑,只能从左到右按次序写,没有大局观
⭕️练习资料满意全面和丰厚,AI或许写出Taylor Swift水平的歌曲?
⭕️相同的音乐,水平不同的演唱者演奏出来也不相同
⭕️【测评二】英豪主题的交响乐,听感能得7分,作为乙方它不及格
⭕️Suno不能按提示词生成指定的乐器,它只寻求听上去大约类似
⭕️AI生成音乐是无法抵抗的激流,但暂时做不到像音乐家相同写歌
⭕️【测评三】应战规矩慎重的赋格,Suno会体现得更好吗?
⭕️赋格研讨在AI音乐有20年前史,不过在巴赫的原曲面前还很幼嫩
⭕️音乐技能与心理学:Mp3技能是怎样被创造出来的?
⭕️音乐的实质是“有安排的声响”,这是文生音乐大模型的底层逻辑
⭕️最怕无聊?艺术需求跳出人类总结
⭕️创造者的脑洞大开:在音乐里参加随机数机制
《硅谷101》:除了 Suno 以外,最近还有其他的几款生成音乐的软件,为什么感觉是 Suno 是最火的呢?
Roger:因为 Suno 是最胆大的,敢最早发布他们的 AI 生成音乐的模型。其他大公司,比方说 Facebook、 Google, 其实技能是抢先的,但有许多的考虑,除了把这个技能发布出去,还要考虑它或许会对社会构成的影响。
特别音乐,不像文字或许图画,它的版权问题其实是一个十分灵敏的论题。假如你有海量的数据,假定你把世界上一切的歌都用来练习一个模型,那它肯定是能够做出一个很好的作用。可是它就会或许面临许多的法律问题,乃至说你把这整个音乐工业的格式给改变了,蛋糕就这么大,终究怎样去分?跟唱片公司、出版商去分钱?这些问题假如没有想清楚的话,成果或许无法想象。
《硅谷101》:听起来很风险。其实不是技能问题,而是版权问题。
那让咱们先听一听Suno究竟实力怎样吧。请冯教师给咱们做一个现场测验,应战一些专业、有难度的音乐生成。咱们也能够帮您出一些题,比方写一首哀痛的摇滚乐,主题是“赋闲”或许“面试失利”。
叨叨冯:好的,那咱们就让Suno自己写歌词,咱们在音乐的特点上做一些约束:sad story of not finding a job, Classic Rock, 80 BPM, Guitar, Base, Drum, Keyboard.
文 | 硅谷101AIGC的风终究是吹到了音乐圈——本年3月,“音乐届的ChatGPT” Suno V3粉墨登场,用户只需求在Suno上输入一句话的提示词,即可在数秒内生成两首两分钟的完好歌曲,从作词...
英伟达在我国现已超越 25 年,现在,英伟达在我国已具有近 4000 名职工,在深圳、香港、北京、上海等地都有建立分公司。
据 21 世纪经济报导,黄仁勋在采访中谈到:“全球 50% 的 AI 研讨人员来自我国,这是迄今为止最大的单一集体,没有挨近的第二名。因而,很自然地,我国在 AI 研讨方面将会做出巨大贡献。事实上,美国的每一家 AI 实验室无一例外都有许多优异的我国研讨人员。”
此前,黄仁勋曾说到,英伟达在我国的研制作业不停步于根底技能,而是与当地的开发者和草创企业严密协作,推进本地科技产业的立异与开展,“现在,咱们在我国具有超越 150 万名 CUDA 开发者,与 3000 多家草创公司协作,一起促进我国科技职业。”
IT之家 3 月 21 日音讯,英伟达创始人兼 CEO 黄仁勋在 GTC 2025 的采访中谈及了英伟达在我国市场开展 AI 的状况。英伟达在我国现已超越 25 年,现在,英伟达在我国已具有近 400...
跟着英伟达本周股价创下前史新高,该公司创始人兼CEO黄仁勋的财物净值初次逾越1000亿美元,位列全球富豪榜第15位。英伟达无疑是这两年最亮眼的明星股,到当地时间5月29日美股收盘,英伟达股价上涨0.8...
OpenAI推出ChatGPT新功用Tasks当地时刻1月14日,OpenAI宣告推出名为Tasks的测验版新功用,ChatGPT Plus、Team和Pro订阅用户能够试用该新功用。Tasks上线后...
最近,我国头部量化私募公司幻方量化旗下专心于AI大模型研讨开发的Deepseek(深度求索公司),宣告旗下的全新系列模型DeepSeek-V3首个版别上线并同步开源。DeepSeek-V3是深度求索自研的MoE模型(混合专家大模型),不仅以杰出的功能逾越或比美全球尖端的开源及闭源模型,更重要的是练习本钱极低,被称为“AI界的拼多多”,以前所未有的性价比被国内外一众圈内大佬点赞,引发广泛重视。
与DeepSeek一同进入咱们视界的,是95后AI“天才少女”罗福莉。她曾在DeepSeek参加了DeepSeek-V2的研制,是这款模型的要害开发者之一。在DeepSeek-V3发布前几天,媒体报道称小米创始人雷军已开出千万年薪,将罗福莉招至麾下,罗福莉将上任于小米AI实验室,领导大模型团队。
“AI界拼多多”刷屏海外
据最新发布的技能陈述,DeepSeek-V3参数量为671B,激活参数为37B,运用的预练习token量为14.8万亿。其多项评测成果逾越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他开源模型,并在功能上和国际顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
“我国AI公司Deepseek发布并开源了一个前沿的大言语模型,而其练习的预算却十分低。”前OpenAI联创、闻名AI科学家AndrejKarpathy在其个人交际渠道上表明,DeepSeek-V3整个练习进程仅用了不到280万GPU小时,相比之下,Meta旗下顶尖的开源模型Llama-3405B的练习时长是3080万GPU小时。假如DeepSeekV3的优秀体现可以得到广泛验证,那么这将是资源有限情况下对研讨和工程的一次超卓展现。
若从本钱上进行更直观的比照,假定H800的租金为每GPU小时2美元,DeepSeek-V3的总练习本钱仅为600万美元不到,是Llama-3405B超6000万美元练习本钱的十分之一不到。
极高的性价比让DeepSeek-V3一经发布便引发国内外广泛重视。Meta的AI研讨科学家田渊栋称“在十分有限的预算下完成微弱体现”,“这是一项了不得的作业”。闻名AI数据公司ScaleAI创始人兼CEOAlexandrWang也表明,DeepSeek-V3“练习所需核算量减少了10倍”,“在美国歇息的时分,他们尽力作业,以更低的本钱、更快的速度和更强的实力迎头赶上。”
这一圈粉许多的大模型,由被称为“AI界拼多多”的DeepSeek研制。揭露材料显现,DeepSeek专心于开发先进的大言语模型和相关技能,由国内闻名量化资管巨子幻方量化于2023年创建,也被美国硅谷称为“来自东方的奥秘力气”。
事实上,DeepSeek并非榜首次“出圈”。早在半年前,其发布的DeepSeek-V2就因功能达GPT-4等级,但开源、可免费商用、且API价格仅为GPT-4-Turbo的百分之一而引发业界重视。关于为何能做到如此高的性价比,DeepSeek官方解说称,DeepSeek-V2采用了立异的架构,例如注意力机制方面的MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等,以完成具有更高经济性的练习作用和更高效的推理。
正因为在练习功率和本钱方面的优势,DeepSeek也是国内最早敞开大模型降价的厂商,也是大模型价格战的源头和推动者。在其发布DeepSeek-V2之后,字节、阿里、百度等厂商纷繁跟进降价。一起,DeepSeek也是我国互联网大厂以外,仅有一家储藏了万张A100芯片的公司,这为其前期的技能研制供应了坚实的算力根底。
“咱们不是有意成为一条鲶鱼,仅仅不小心成了一条鲶鱼。”在回应最初为何打响大模型价格战榜首枪时,DeepSeek创始人梁文锋表明。这位结业于浙江大学电子工程系的80后,一向潜心研讨技能。据媒体报道,梁文锋在作业中一直保持着低沉的风格,和一切研讨员相同,每天“看论文,写代码,参加小组讨论”。
一名人工智能职业资深业界人士向证券时报记者剖析称,DeepSeek以200人左右的小团队,且不依托外部融资,做出了一个有性价比并被全球干流AI界人士所认可的大模型。“一是他们在前期就买了许多算力卡,投入了许多资源做研讨;二是他们是做量化的,不像大厂有其他各式各样的盈余需求,也跟他们不构成竞赛联系,能更专心于模型开发。”该业界人士表明。
背面的AI“天才少女”引发重视
在DeepSeek-V3爆火之后,背面的AI“天才少女”罗福莉也进入了人们的视界。据媒体报道,小米创始人雷军以千万年薪吸引DeepSeek开源大模型DeepSeek-V2的要害开发者之一罗福莉,领导小米AI大模型团队。
揭露材料显现,罗福莉本科就读于北京师范大学核算机专业,硕士结业于北京大学核算言语学专业。2019年,还在北大读硕士的她在人工智能范畴尖端国际会议ACL上宣布8篇论文(其间2篇一作),登上了知乎热搜。罗福莉用自己知乎账号回应称,“这次投稿ACL是我近一年的产出,所以我以为自己是付出了满足的尽力的,当然也或许也有命运成分加持。”
硕士结业后,罗福莉先是进入阿里达摩院做人工智能研讨,从事预练习言语模型相关的作业,担任阿里达摩院AliceMind开源项目,主导开发了多言语预练习模型VECO。2022年,罗福莉参加幻方量化从事深度学习相关战略建模和算法研讨,后又换岗到DeepSeek担任深度学习研讨员,参加研制MoE大模型DeepSeek-V2。
本年5月,在DeepSeek-V2发布今后,罗福莉在知乎上撰文,宣布了关于DeepSeek-V2的观点。她表明,“单论DeepSeek-V2模型的中文水平,是实在处在国内外闭源模型的榜首队伍”,“外加1元/百万输入Tokens的价格,只要GPT4价格的1/100,性价比之王”。
事实上,罗福莉被重金招入小米,是小米全面发力AI大模型的其间一个动作。2023年4月,小米正式组建了AI实验室大模型团队,并表明将不断发掘AI相关的用户场景,发挥本身技能优势,并以敞开的情绪与合作伙伴开辟更多时机。本年11月,小米成立了专门的AI渠道部,小米的元老级技能大牛张铎为担任人。张铎本硕结业于清华核算机系,曾被雷军揭露称誉是“小米的大神”,送以“铎神”的称谓。
兵马未动,粮草先行。除了招募人才以外,最近,媒体报道称小米正着手建立自己的GPU万卡集群,并在曩昔几个月里继续提高算力储藏,为大模型研制供应更充沛的算力供应。雷军在揭露演讲时曾表明,小米做大模型的思路和许多公司不太相同,挑选主力打破的是轻量化和本地布置。关于小米这样不管在手机仍是造车上都考究“性价比”的公司而言,如安在烧钱的大模型事务中平衡本钱,无疑是雷军考虑的核心问题。而这,或许也是具有DeepSeek-V2研制布景的罗福莉被雷军看中的原因。
来历:证券时报国产大模型DeepSeek在全球火了,并带火了一个95后AI“天才少女”罗福莉。最近,我国头部量化私募公司幻方量化旗下专心于AI大模型研讨开发的Deepseek(深度求索公司),宣告旗下...
4月15日,可灵AI举办2.0版别模型发布会,发布可灵2.0视频生成模型及可图2.0图画生成模型。据悉,可灵2.0上线了一种能够将文字、图片、视频等不同格局的文件结合起来一同修改生成视频的新交互形式,...