《科创板日报》1月28日讯(修改 宋子乔) 在生成式AI模型的赛道上,谷歌正一路“狂飙”。继文字生成AI模型Wordcraft、视频生成东西Imagen Video之后,谷歌将生成式AI的使用场景扩展到了音乐圈。
当地时间1月27日,谷歌发布了新的AI模型——MusicLM,该模型能够从文本乃至图画中生成高保真音乐,也便是说能够把一段文字、一幅画转化为歌曲,且曲风多样。
谷歌在相关论文中展现了很多事例,如输入字幕“雷鬼和电子舞曲的交融,带有空阔的、超凡脱俗的声响,引发迷失在太空中的体会,音乐的规划旨在引发一种惊讶和敬畏的感觉,一起又合适跳舞”,MusicLM便生成了30秒的电子音乐。
又如以国际名画《跨过阿尔卑斯山圣伯纳关隘的拿破仑》为“题”,MusicLM生成的音乐严肃高雅,将冬日的凌厉肃杀和英雄主义颜色体现地酣畅淋漓。写实油画之外,《舞蹈》《呼吁》《格尔尼卡》《星空》等抽象派画作均可为题。
MusicLM乃至能够来个音乐串烧,在故事形式下将不同风格的曲子稠浊在一起。即使要求生成5分钟时长的音乐,MusicLM也不在话下。
别的,MusicLM具有强壮的辅佐功用,能够规则详细的乐器、地址、门户、时代、音乐家演奏水相等,对生成的音乐质量进行调整,然后让一段曲子幻化出多个版别。
MusicLM并非第一个生成歌曲的AI模型,同类型产品包含Riffusion、Dance Diffusion等,谷歌自己也发布过AudioML,时下最抢手的谈天机器人“ChatGPT”的研制者OpenAI则推出过Jukebox。
MusicLM有何独到之处?
它其实是一个分层的序列到序列(Sequence-to-Sequence)模型。依据人工智能科学家Keunwoo Choi的说法,MusicLM结合了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多个模型,可谓集大成者。
其间,AudioLM模型可视作MusicLM的前身,MusicLM便是利用了AudioLM的多阶段自回归建模作为生成条件,能够经过文本描绘,以24kHz的频率生成音乐,并在几分钟内坚持这个频率。
相较而言,MusicLM的练习数据更多。研讨团队引入了首个专门为文本-音乐生成使命评价数据MusicCaps来处理使命缺少评价数据的问题。MusicCaps由专业人士共建,包括5500个音乐-文本对。
基于此,谷歌用280000小时的音乐数据集练习出了MusicLM。
谷歌的试验标明,MusicLM在音频质量和对文本描绘的恪守方面都优于曾经的模型。
不过,MusicLM也有着一切生成式AI一起的危险——技能不完善、资料侵权、品德争议等。
关于技能问题,比方说当要求MusicLM生成人声时,技能上可行,但作用欠安,歌词杂乱无章、含义不明的状况时有发生。MusicLM也会“偷闲”——起生成的音乐中,约有1%直接从练习集的歌曲中仿制。
别的,由AI系统生成的音乐究竟是不是原创著作?能够遭到版权维护吗?能不能和“人工音乐”同台竞技?相关争议一直未有共同见地。
这些都是谷歌没有对外发布MusicLM的原因。“咱们供认该模型有盗用构思内容的潜在危险,咱们着重,需要在未来展开更多作业来应对这些与音乐生成相关的危险。”谷歌发布的论文写道。
IT之家 6 月 21 日音讯,据外媒 carscoops 报导,丰田近来发布了一个依据 AIGC(生成式 AI)的东西,可协助职工更快规划出轿车外形。该东西由丰田研究所(TRI)开发,将被运用于构思...