谷歌“狂飙”在生成式AI赛道最新模型可凭文字、图片“创造”音乐

liukang20243个月前 (05-21)吃瓜始末143

《科创板日报》1月28日讯（修改宋子乔） 在生成式AI模型的赛道上，谷歌正一路“狂飙”。继文字生成AI模型Wordcraft、视频生成东西Imagen Video之后，谷歌将生成式AI的使用场景扩展到了音乐圈。

当地时间1月27日，谷歌发布了新的AI模型——MusicLM，该模型能够从文本乃至图画中生成高保真音乐，也便是说能够把一段文字、一幅画转化为歌曲，且曲风多样。

谷歌在相关论文中展现了很多事例，如输入字幕“雷鬼和电子舞曲的交融，带有空阔的、超凡脱俗的声响，引发迷失在太空中的体会，音乐的规划旨在引发一种惊讶和敬畏的感觉，一起又合适跳舞”，MusicLM便生成了30秒的电子音乐。

又如以国际名画《跨过阿尔卑斯山圣伯纳关隘的拿破仑》为“题”，MusicLM生成的音乐严肃高雅，将冬日的凌厉肃杀和英雄主义颜色体现地酣畅淋漓。写实油画之外，《舞蹈》《呼吁》《格尔尼卡》《星空》等抽象派画作均可为题。

MusicLM乃至能够来个音乐串烧，在故事形式下将不同风格的曲子稠浊在一起。即使要求生成5分钟时长的音乐，MusicLM也不在话下。

别的，MusicLM具有强壮的辅佐功用，能够规则详细的乐器、地址、门户、时代、音乐家演奏水相等，对生成的音乐质量进行调整，然后让一段曲子幻化出多个版别。

MusicLM并非第一个生成歌曲的AI模型，同类型产品包含Riffusion、Dance Diffusion等，谷歌自己也发布过AudioML，时下最抢手的谈天机器人“ChatGPT”的研制者OpenAI则推出过Jukebox。

MusicLM有何独到之处？

它其实是一个分层的序列到序列（Sequence-to-Sequence）模型。依据人工智能科学家Keunwoo Choi的说法，MusicLM结合了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多个模型，可谓集大成者。

其间，AudioLM模型可视作MusicLM的前身，MusicLM便是利用了AudioLM的多阶段自回归建模作为生成条件，能够经过文本描绘，以24kHz的频率生成音乐，并在几分钟内坚持这个频率。

相较而言，MusicLM的练习数据更多。研讨团队引入了首个专门为文本-音乐生成使命评价数据MusicCaps来处理使命缺少评价数据的问题。MusicCaps由专业人士共建，包括5500个音乐-文本对。

基于此，谷歌用280000小时的音乐数据集练习出了MusicLM。

谷歌的试验标明，MusicLM在音频质量和对文本描绘的恪守方面都优于曾经的模型。

不过，MusicLM也有着一切生成式AI一起的危险——技能不完善、资料侵权、品德争议等。

关于技能问题，比方说当要求MusicLM生成人声时，技能上可行，但作用欠安，歌词杂乱无章、含义不明的状况时有发生。MusicLM也会“偷闲”——起生成的音乐中，约有1%直接从练习集的歌曲中仿制。

别的，由AI系统生成的音乐究竟是不是原创著作？能够遭到版权维护吗？能不能和“人工音乐”同台竞技？相关争议一直未有共同见地。

这些都是谷歌没有对外发布MusicLM的原因。“咱们供认该模型有盗用构思内容的潜在危险，咱们着重，需要在未来展开更多作业来应对这些与音乐生成相关的危险。”谷歌发布的论文写道。

告发/反应

标签: 生成式赛道 AI 狂飙谷歌

返回列表

FUN吃瓜网