谷歌AI练习生写了首歌,网友听完心率都低了

杨净 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

一段话整出一首歌,甚至是男女唱(跳)rap的那种。

谷歌最新模型MusicLM一经推出就惊艳四座,不少网友惊呼:这是迄今听到最好的谱曲。

3c5881eac5f647067133a58c9a503bdf.png

它可以根据文本生成任何类型的音乐,不管是根据时间、地点、年代等各种因素来调节,还是给故事情节、世界名画配乐、生成人声rap口哨,通通不在话下。

比如这幅《呐喊》(Scream)

29cea7059aadf31415ff646458f41a6e.jpeg

在一段摘自百科的说明提示下,它生成了这样一段音乐。

(蒙克在一次幻觉经历中感受到并听到了整个自然界的尖叫声,它的灵感来源于此,描绘了一个惊慌失措的生物,既像尸体又让人联想到精子或胎儿,其轮廓与血红色天空的旋涡线条相呼应。)

ViT(Vision Transformer)作者在听过一段关键词含“平静舒缓”“长笛和吉他”的生成音乐后,表示自己真的平静下来。

e717672fc746e99541b3bab45d05f9cc.png

也不免有同行表示,这对我来说比ChatGPT更值得关注,谷歌几乎解决了音乐生成的问题。

34d68b30561eaff08dd4c38a480950f9.png

毕竟MusicLM背靠280000小时音乐的训练数据库,事实上从现释出的Demo来看,MusicLM的能力还不止如此。

还可以5分钟即兴创作

可以看到,MusicLM最大的亮点莫过于就是根据丰富的文字描述来生成音乐,包括乐器、音乐风格、适用场景、节奏音调、是否包括人声(哼唱、口哨、合唱)等元素,以此来生成一段30秒的音乐。

即便说的只是那种说不清道不明的氛围,“迷失在太空”、“轻松而悠闲”;又或者是直接用在一些实用场景上,比如“街机游戏配乐”、给绘画配乐等。

1312dfefde08827029dc511750f72283.png

除此之外,MusicLM具备长段音乐创作、故事模式、调节旋律等方面的能力。

在长段音乐方面, 它能完成5分钟即兴创作,即便提示只有一个词。

比如仅在Swing(摇摆)的提示下,听着真就有种想马上下班去跳舞的冲动。(bushi)

而在故事模式中,不同的情标记甚至可以精确到秒的生成,哪怕情境之间完全没有任何联系……

游戏中播放的歌曲(0到15秒)——河边播放的冥想曲(15到20秒)——火(0:30-0:45)——烟花(0:45-0:60 )

0dbd7f5e8bf77c018877f8e1682f3d44.png

更让人惊艳到的是,它还有很强的实用性功能。

一方面,它可以将旋律的提示结合进文本提示当中去,这样一来可以更精细地来调整音乐。有点改甲方爸爸需求那味了。

另一方面,它还能根据具体的乐器、地点、流派、年代、甚至是音乐家演奏水平等文本来生成。

331ada1bac5c04df81a770f7213087c3.png

背后生成模型MusicLM

但有一说一,AI生成音乐模型不在少数,谷歌自己此前也推出有类似的模型AudioLM。

此番MusicLM究竟有何不同?

b4f195d34711a12389ce2f1c71b1c5e4.png

据研究团队介绍,贡献主要有三个方面:

  • 生成模型MusicLM。

  • 把方法扩展到其他条件信号,如根据文本提示合成的旋律,并生成5分钟的demo。

  • 发布了首个专门为文本-音乐生成任务评估数据集MusicCaps。

首先,MusicLM正是基于谷歌三个月前提出AudioLM模型的拓展。

AudioLM不需要转录或标记,只需收听音频,AudioLM就能生成和提示风格相符的连贯音乐,包括钢琴音或人声对话等复杂声音。

而最新的MusicLM,就是利用了AudioLM的多阶段自回归建模作为生成条件,且以此为基础进行拓展,使其可以通过文本提示来生成和修改音乐。

它是一个分层的序列到序列(Sequence-to-Sequence)模型,可以通过文本描述,以24kHz的频率生成音乐,并在几分钟内保持这个频率。

05641feead654b76cf512456c2cca471.png

具体而言,研究团队使用了三个模型来用来预训练,包括自监督音频表征模型SoundStream,它可以以低比特率压缩一般音频,同时保持高重建质量。

还有语义标记模型w2vBERT,促进连贯生成;音频文本嵌入模型Mulan,它可以将音乐及其对应的文本描述投射到嵌入空间(以消除在训练时对文本的不同需求),并允许纯音频语料库上进行训练,以此来应对训练数据有限的难题。

684ff83c244fde63106ed9919abf241a.png

训练过程中,他们从纯音频训练集中提取MuLan音频标记、语义标记和声学标记。

在语义建模阶段,他们用MuLan音频标记作为条件来预测语义标记。随后在声学建模阶段,又基于MuLan音频标记和语义标记来预测声学标记。

每个阶段都被建模为一个序列-序列任务,均使用单独解码器Transformer。

在推理过程中,他们使用从文本提示中计算出的MuLan文本标记作为调节信号,并使用SoundStream解码器将生成的音频标记转换成波形。

在280000个小时的训练后,MusicLM最终学会了保持24kHz的频率生成音乐,哪怕用来生成音乐的文本非常绕口。

类似“迷人的爵士歌曲与令人难忘的萨克斯独奏和独奏歌手”或“柏林90年代低音和强烈的电子乐”之类的。

c7349787bb5a857035c0f1991b5c9f44.gif

研究团队还引入了一个高质量音乐数据集MusicCaps来解决任务缺乏评估数据的问题。

MusicCaps由专业人士共建,涵盖5500个音乐-文本对。研究团队公布了这个数据集,方便大伙进一步的研究。

这么一套操作下来,通过定量指标和人工评估,MusicLM在音频质量和文本契合度等方面都优于此前的音乐生成AI。

ee7107bef0d7194d549b4684a20dc45f.png

不过,谷歌研究团队说了:目前没有对外发布MusicLM的计划。

原因很简单,除了训练过程中难免出现的样本质量失真,最最关键的还有2点。

一来,尽管MusicLM在技术上可以生成合唱和声等人声,但是仔细听来,生成音乐的歌词,有的还勉勉强强听得出是音乐,有的根本就是无人能听懂的外星方言。

再者,研究团队发现系统生成的音乐中,约有1%直接从训练集的歌曲中复制——这已经足以阻止对外发布MusicLM了。

此外,还有批评者质疑,在受版权保护的音乐素材上训练AI模型到底合不合理。

1afd96c9066d1bf21bb2a0da3c3ec80f.gif

不过团队在论文中介绍了下一步动向,主要关注歌词生成改善提示文本准确性以及提高生成质量

复杂音乐结构的建模也将成为团队的重点关注方向之一。

音频生成AI

这个研究的背后团队,是谷歌研究院。

共同一作Timo I. Denk,是谷歌瑞士的软件工程师,每天的工作就是利用ML进行音乐理解。

dbc5463150f438519446c04cfef0faa8.png

在这里多说两句,MusicLM的论文中,研究团队提到,MusicLM在质量和提示依从性方面都优于以前的系统。

“以前的系统”包括哪些?

一个是Mubert,已在Github开源API,是一个text-to-music的AI,系列产品有根据既有标签生成音乐的Mubert Render、听歌软件Mubert Play等。

还有Riffusion,它建立在AI绘图的基础上,但将其应用于声音。

换句话说,Riffusion的工作原理是首先构建一个索引的频谱图集合,上面标记代表频谱图中捕获的音乐风格的关键字。

在频谱图主体上训练时,Riffusion就用Stable Diffusion的同一个方法——干预噪音,来获得与文本提示匹配的声波图像。

还有针对音乐制作人和音乐家的 AI 音频生成工具Dance Diffusion,OpenAI推出的可自动生成音乐的ML框架Jukebox……

要咱说,别成天盯着ChatGPT了,AIGC下一个风口万一是音乐生成呢?

参考链接:
[1]https://google-research.github.io/seanet/musiclm/examples/
[2]https://arxiv.org/pdf/2301.11325.pdf
[3]https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/

量子位红包封面限量发放

最后一次补货红包封面啦!两款任选,先到先得~

扫描下方二维码即可领取量子位人类编辑Stable Diffusion共同创作的红包封面噢 570876deabb283bea36906b3dcaa6d1b.png

ca938738049d4ef54a9d7e9c43a3f6bc.png

cfb0e7d0dba1848c334ff26f2ab7d648.png

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13989.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对话出门问问李志飞:GPT-3 是「暴力美学」的一次胜利

一项在科学家眼中超越 AlphaGo 的技术突破,让人类真切看到了通用语言智能的希望。 今年 6 月,特斯拉创始人 Elon Musk 创立的非盈利性 AI 科研机构 OpenAI 发布了一个名为 GPT-3 的语言模型,堪称具有划时代意义的重大科研突破。近日&#xff…

让ChatGPT设计一个Patch天线

目录 前言1. ChatGPT设计的Patch天线2. 仿真验证3. 设计对比关注“电磁学社”,让电磁仿真不再复杂! 前言 这段时间ChatGPT火了,它的出现把人工智能的应用带入更丰富的场景。今天让它设计一个简单的微带贴片天线,看看能否满足设计…

Excel VBA高级编程-微信群发消息工具

大家好,我是陈小虾,是一名自动化方向的IT民工。写博客是为了记录自己的学习过程,通过不断输出倒逼自己加速成长。功能说明:由于水平有限,博客中难免会出现一些BUG,或者有更优方案恳请各位大佬不吝赐教&…

ChatGpt接入Word文档,让你秒变职场达人!

今天跟大家分享下我们如何使用VBA代码,将ChatGpt接入Word文档,操作非常的简单,但是开始之前我们需要做2项准备 1. 获取ChatGpt的API 2. 魔法上网 准备好这2件事后,我们就可以着手制作了: 一,设置代码 二&…

Excel VBA编程

文章目录 如何创建VBAVBA语法规则声明变量给变量赋值让变量存储的数据参与运算关于声明变量的其他知识变量的作用域特殊的变量——数组声明多维数组声明动态数组其他创建数组的方法数组函数利用UBound求数组的最大索引号利用LBound函数求最小索引号求多维数组的最大和最小索引号…

VBA提高篇_07 Goto跳转 / Exit退出 /VBA错误处理

文章目录 使用逻辑变量控制循环使用Goto语句任意跳转捷径:使用Exit语句跳出结构保险: 使用错误处理改善用户体验On Error Goto Lablex:On Error Resume Next 使用逻辑变量控制循环 使用Goto语句任意跳转 经常在错误处理时使用 捷径:使用Exit语句跳出结构 注意: 避免使用while……

陈表达学VBA-msgbox辨别用户选择和代码调用

今天有个老客户提出需求: 模块:sub 过程A( ) ①如果是单独使用时则显示msgbox选择消息框 ②如果A过程调用B过程,则不显示消息框,默认选择是 msgbox没有设置默认值这个功能,msgbox也没有参数可以失败是用户点击还是代…

chatgpt赋能python:Python调用VBA宏:如何在Python中实现调用VBA宏

Python调用VBA宏:如何在Python中实现调用VBA宏 Python是一种强大的编程语言,它有许多不同的应用场景。在商业和办公自动化领域中,Microsoft Excel在十分重要且广泛使用。 Excel与VBA宏的结合为用户提供了一个灵活易用的工具,能够…

2023高考语文,用ChatGPT挑战全国卷作文,已达到双一流高校学生水平?

前言 2023年高考语文结束啦,今天我们用ChatGPT来挑战高考作文,一起来看看它的表现如何?ChatGPT突然爆火网络,它真的会取代人类的工作吗? 什么是ChatGPT? ChatGPT是由OpenAI开发的,OpenAI是一家…

关于我用chat gpt生成了一篇nba比赛前瞻预测文章,大家觉得怎么样!

4月8日,NBA常规赛将迎来洛杉矶湖人对阵菲尼克斯太阳的比赛。作为联盟中两支实力强劲的球队,这场比赛将是一场值得期待的对决。目前战绩方面,湖人队以31胜18负的战绩排名西部第5位,而太阳队则以38胜13负的战绩排名西部第2位。不难看…

如何用ChatGPT预测和优化市场需求,提前抢占市场份额?

预测和优化市场需求,并在市场份额上提前抢占优势,是市场营销中至关重要的一环。下面是一个简要的方案,利用ChatGPT来实现这一目标。 数据收集和分析: 首先,我们需要收集大量的市场数据,包括消费者行为、购…

在chatGPT的加持下Notes开发的速度

大家好,才是真的好。 chatGPT在国内外引起了广泛的话题讨论,Notes/Domino界的人也不甘示弱,不仅有人研究了怎么样使用chatGPT来进一步加快Notes的应用开发,而且还直接考虑到在Notes/Domino调用chatGPT功能。 是的,No…

还能承认错误,这个AI要杀疯了...

距离我上一篇文章提到ChatGPT,到现在,它又火了好几度,最新的口号是:关于 AI 的问题,可以直接问 AI, ChatGPT号称可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修…

NLP与ChatGPT的碰撞:大模型和小模型联合发力

ChatGPT真的太火了!作为NLP的终结者,ChatGPT又会与NLP发生怎么样的碰撞?大模型可以替代小模型吗?NLP又将何去何从?今天给大家推荐一本好书:《基于NLP的内容理解》! 文章目录 一、背景二、书籍介…

讯鸿喜讯丨民建广州市委科技与信息化委员会莅临讯鸿

2023年2月17日,民建广州市委科技与信息化委员会成员莅临广州讯鸿网络技术有限公司(以下简称讯鸿网络),举办首期“星五分享汇”活动,并召开2023年第一次全体委员会议。此次活动主要围绕科技与信息化等领域的前沿、热点问…

ChatGPT工作提效之在程序开发中的巧劲和指令(创建MySQL语句、PHP语句、Javascript用法、python的交互)

ChatGPT工作提效之程序开发中的巧劲 前言一、创建MySQL数据表1.创建指令2.交互评价 二、PHP交互语句1.创建指令2.交互评价 三、javascript的交互用法1.创建指令2.交互评价 四、python的交互1.创建指令2.交互评价 总结 前言 ChatGPT是一个基于GPT模型训练的聊天机器人&#xff…

微软 Reactor x 广州图书馆公益讲座|ChatGPT 漫谈

点击蓝字 关注我们 编辑:Alan Wang 排版:Rani Sun 微软 Reactor 为帮助广开发者,技术爱好者,更好的学习 .NET Core, C#, Python,数据科学,机器学习,AI,区块链, IoT 等技术&#xff0…

如何正确使用ChatGPT的Prompts

大多数人在使用ChatGPT时可能会遇到一些问题。以下是一些常见问题及其解决方法: 缺乏示例:在提示中没有包含示例,这可能导致结果不准确。为了增加获得所需结果的机会,您可以在标准提示中添加与任务相关的示例。 忽略使用角色&…

宕机超 12 小时,损失过亿,唯品会基础平台负责人被“祭天”

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 对于后端程序员来说,“高并发”并非新鲜的话题,经历过一次服务器宕机,职业生涯才“完整”。 但如果事故超过 12 小时,或许会直接造成职业…

ChatGPT扫盲微服务

1. 微服务架构介绍 微服务架构是一种分布式系统架构,将一个大型应用程序拆分成多个小型服务。每个服务都是独立的、自治的,可以独立部署、升级和扩展。微服务架构的主要特点包括: 松耦合:微服务之间的通信采用轻量级的协议&#x…