谷歌AudioLM :通过歌曲片段生成后续的音乐

AudioLM 是 Google 的新模型,能够生成与提示风格相同的音乐。该模型还能够生成复杂的声音,例如钢琴音乐或人的对话。结果是它似乎与原版没有区别,这是十分让人惊讶的。

为什么生成音乐如此困难?

创作音乐并不是一件容易的事。生成音频信号(音乐、环境声音、人的讲话)需要多尺度的抽象。例如,音乐的结构必须经过长时间的分析,并且音乐是由许多相互作用的信号组成的。而人类的语言就个人言语来说本身就由很多不同的层次无论是简单的声音信号还是语音,也可以是韵律、句法、语法或语义等等。

生成音频的第一次尝试的重点是生成 MIDI 文件(在 2018 年使用transformer创建了一个有趣的项目,他们为钢琴生成 MIDI 音乐)。而另外一些研究则侧重于诸如文本到语音的任务,这类任务的研究表明了在人类交流中,停顿和变化以及其他信号是极其重要的。

比如现在的Alexa 或其他的语音机器人声音听起来依然不自然。尤其是早期,无论发音多么正确,听起来都不自然,给人一种诡异的感觉。

AudioLM

几天前,谷歌宣布发布一个新模型:“AudioLM: a Language Modeling Approach to Audio Generation”(2209.03143)。新模型能够通过听到音频生成后续音频(逼真的音乐和语音)。

近年来自然语言处理 (NLP) 领域有了很大的进步,语言模型已被证明在许多任务中非常有效。这些系统中有许多是基于transformer的,使用过它们的人都知道,最初的预处理步骤之一是标记化(将文本分解成更小的单元,并分配一个数值)。

AudioLM背后的关键理论是利用语言建模中的这些进步来生成音频,而无需使用注解数据进行训练。

AudioLM不需要转录或标记。作者收集了一个声音数据库将其直接输入到模型中。该模型将声音文件压缩为一系列片段(类似于标记)。然后将这些标记用作NLP模型(该模型使用相同的方法来学习各种音频片段之间的模式和关系)。与文本生成模型相同,AudioLM从提示生成声音。

这个结果是非常有趣的,因为声音更加自然。AudioLM似乎能够发现并重现人类音乐中存在的某些模式(比如敲击钢琴键时每个音符中包含的细微振动)。在下面的链接中,谷歌提供了一些例子,如果你想听的话:

https://google-research.github.io/seanet/audiolm/examples/

AudioLM 已经接受过大量声音数据的训练,其中不仅包括音乐,还包括人声。因此,该模型可以生成人类产生的句子。该模型能够识别说话者的口音并添加停顿和感叹词。尽管模型生成的许多句子没有意义,但结果令人印象深刻。

将声音序列视为单词序列似乎是一种聪明的方法,但是仍然存在一些困难:

首先,音频数据速率更高,从而导致序列更长——虽然一个书面句子可以用几十个字符表示,但其音频波形通常包含数十万个值。其次,文本和音频之间存在一对多的关系。这意味着同一个句子可以由具有不同说话风格、情感内容和录音条件的不同说话者呈现。

OpenAI Jukebox 已经尝试过音频标记化方法,只是该模型产生了更多的伪影,而且声音听起来并不自然,而AudioLM中使用的标记器如下

该模型由三个部分组成:

  • 一个标记器模型,它将一系列声音映射到一个离散的标记序列中。这一步也减少了序列的大小(采样率减少了大约 300 倍)。
  • 一个仅包含解码器的transformer ,可以最大化预测序列中下一个标记的可能性。该模型包含 12 层,16 个注意力头,嵌入维度为 1024,前馈层维度为 4096
  • 一个将预测标记转换为音频标记的去标记器模型。

该模型接受了 60,000 小时英语演讲和 40,000 小时音乐的钢琴实验训练。

根据作者描述,听 AudioLM 生成的结果基本不会区分原始录音和生成结果的差异。由于该模型可用于对抗 AI 原则(deep fakes等),因此作者还构建了一个分类器,可以识别使用 AudioLM 制作的音频,并正在研究音频“水印”技术

一些想法

最近几个月,我们看到了几种模型如何能够生成图像(DALL-E,扩散模型),并且有诸如 GPT3 之类的模型能够生成文本序列。生成音频序列因为一些额外的困难所以发展的并不快,但我们似乎很快就会在这方面看到一些更大的进步。

谷歌刚刚推出了 AudioLM,一种能够使用音频提示(语音或钢琴)并生成延续的模型。然后提出扩散模型的同一小组又提出了 Harmonai(实际上,它使用了类似的稳定扩散模型的算法)。

这些技术在未来可用作视频和演示文稿的背景音乐、和其他创造性的工作。另一方面,这些技术可用于deep fakes、错误信息传播、诈骗等。

https://avoid.overfit.cn/post/62705af556bd4b3489e0753693bd1fe2

作者:Salvatore Raieli

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/38145.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“程序员交友网站” SO 突然裁员 10%,网友:ChatGPT 出来后就不咋用了

在ChatGPT影响下,知名开发者问答社区Stack Overflow撑不住要裁员了! 随着用户大规模转战ChatGPT,Stack Overflow访问量大幅骤降,且盈利情况不容乐观。 CEO Prashanth Chandrasekar在公开信中坦言:正处于困难时期。 具…

巴比特 | 元宇宙每日必读:浙江发布2023年元宇宙产业发展工作要点,6月底前组建元宇宙产业联盟,年底打造20家“专精特新”企业...

摘要:据浙江省发改委官网 4 月 24 日消息,浙江省发改委等 5 部门近日联合印发《浙江省元宇宙产业发展 2023 年工作要点》。《工作要点》制定了十六项主要任务,并提出在2023 年 4 月底前建立元宇宙部门工作协同机制;6 月底前组建元…

免费版GPT-4!美国AI初创公司推出Forefront Chat,火到官网崩溃

免费版 GPT-4 到底香不香? AI初创企业正式推出Forefront Chat 近日,Forefront AI 正式推出 Forefront Chat,允许用户免费体验 GPT-4 的强大功能。ForeFront AI 是一家总部位于纽约的软件开发公司,联合创始人分别为 Jimmy Grease…

VTK笔记-生成MIP图像-vtkImageSlabReslice类

MIP MIP(Maximum/Minimum Intensity Projection),最大/最小密度投影重建。   MIP可以较真实地反应组织密度差异,使得血管的异常改变、形态、走形强化;但是只适用于外观形态的显示。   在容积扫描数据中对每条径线上…

重温马云英文演讲:最伟大的成功

“机会在哪呢?”每当创业者发出这个疑问,我们就该重温马云的这段英文演讲,让奋斗的热血重新沸腾起来。你有什么。你有年轻的身体,你有奇妙的想法,你有乐观的心态,你有无限的可能性! 演讲全文&am…

马云退隐前,在年会上说了最重要的三件事

作者:黄小斜 今天是9月10号教师节,也是马老师卸任阿里巴巴董事长的日子,同时也是阿里巴巴召开20周年年会的日子。有幸抽中了门票,在现场见证这具有历史意义的一幕,马老师在中场时给我们带来了一段演讲,也是…

阿里巴巴CTO独家自述:CTO就是要给CEO扫清障碍和风险

CTO可能不是思想家,但一定是行动派。 本文来自《云栖战略参考》第二期,过程中鲁肃非常坦率地探讨了一位合格CTO应该具备的素质,以及他自己一路摔打成长的心路历程。 一 我的经历 我的经历很简单,2004年之前一直在学校读书&#x…

马云现身西班牙度假 半年多来首次在境外露面

这半年里,马云公开露面的次数不到三次,就连前段时间的世界互联网大会也不见他的身影。 极少数出现在公众视野的马老师似乎在努力低调,但是他的一举一动仍然受人关注。 西班牙多家媒体10月19日报道,马云上周六飞抵西班牙, 在伊维…

【历史上的今天】8 月 22 日:改变世界的程序员们;网络直播的鼻祖;何小鹏离开阿里巴巴

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天 2022 年 8 月 22 日。历史上的今天,Masatoshi Shima 出生,他和 英特尔(Intel) 合作设计的芯片让第一个微处理器 Intel 400…

马来西亚热情拥抱阿里巴巴 马云倡议的eWTP首次落地海外

摘要:3月22日,马来西亚总理纳吉布与阿里巴巴集团董事局主席马云一同出现在吉隆坡一场盛大启动仪式上,他们将共同见证马云的eWTP理念落地马来西亚。 3月22日,在邀请阿里巴巴集团董事局主席马云、阿里巴巴集团CEO张勇、蚂蚁金服集团…

基于GPT4All的大型语言模型设计生态系统

GPT4All 一套专为强大、定制的大型语言模型设计的生态系统,能够在消费级CPU上本地运行。在GPT4All中,所使用的模型是一个3GB至8GB的文件,读者可以自行下载该文件,并将其插入到GPT4All的开源生态系统软件中。这一软件生态系统由Nomic AI提供支持并进行维护,其目的是确保系统…

chatgpt赋能python:Python在数据可视化中的应用:如何用Python画图

Python在数据可视化中的应用:如何用Python画图 介绍 随着数据科学和人工智能的不断发展,数据可视化成为了一种重要的工具。通过绘制图表,我们可以更直观地理解数据之间的关系,并发现其中的规律和趋势。Python作为一种灵活的编程…

chatgpt赋能python:使用Python绘制散点图:了解基本语法,数据可视化。

使用Python绘制散点图:了解基本语法,数据可视化。 数据是任何研究的基石,因此对于从事各种数据处理工作的人员来说,数据可视化是一个非常重要的工具。Python作为一种非常受欢迎的编程语言,具有广泛的应用,…

chatgpt赋能Python-pythonpandas雷达图代码

前言 在数据可视化中,雷达图是一种非常常用的图表类型。Python中的pandas库提供了快速而简便的雷达图绘制方法,因此在本篇文章中,我们将着重介绍如何使用pandas库绘制雷达图,并提供一些有用的代码示例。 什么是雷达图&#xff1…

chatgpt赋能python:PythonSegno:一款专业的二维码生成器

Python Segno: 一款专业的二维码生成器 随着二维码的不断普及,二维码的应用场景也越来越广泛。比如在商品、广告等领域,我们经常可以看到精美的二维码。但数字出版、酒店、餐馆等行业也在使用二维码作为访问、付款等操作的工具。当然,对于开…

chatgpt赋能python:用Python绘制柱形图:一篇全面的指南

用Python绘制柱形图:一篇全面的指南 如果你想用数据去解决一些问题,或者向别人展示一些数据,那么绘制柱形图(Bar chart)就是一个好的选择。不仅因为它清晰、易懂,而且因为它是一种数据可视化的方式&#x…

chatgpt赋能python:Python方波绘制代码

Python方波绘制代码 Python是一种高级编程语言,已经被广泛应用于许多领域,包括数据科学、机器学习、Web应用程序开发等。在本文中,我们将介绍如何使用Python编写方波绘制代码。 什么是方波? 方波是一种周期性波形,具…

chatgpt赋能python:Python绘制动画:用代码让图像动起来

Python绘制动画:用代码让图像动起来 Python是一种强大的编程语言,可以用于各种应用领域,包括图形图像处理。利用Python的绘图库和动画库,可以快速、简便地实现动画效果。本文介绍Python绘制动画的基本概念与技巧,帮助…

chatgpt赋能python:Python编程绘制方波无穷级数

Python编程绘制方波无穷级数 在数学领域,方波无穷级数是指一种周期为 T T T 的函数,可以被表示为一组正弦函数的无穷级数。简单来说,它是由许多个正弦波合成的周期函数。 Python作为一种高效的编程语言,可以很容易地用来绘制方…

chatgpt赋能python:用Python绘制区域图,探索数据背后的故事

用Python绘制区域图,探索数据背后的故事 随着大数据时代的到来,数据可视化变得越来越受到重视。而区域图(Area chart)是一种常用的数据可视化图表类型之一。它可以说明一个数量随着时间的变化而发生的趋势,以及各类数…