谷歌推出全能扒谱AI:只要听一遍歌曲,钢琴小提琴的乐谱全有了

晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI

听一遍曲子,就能知道乐谱,还能马上演奏,而且还掌握“十八般乐器”,钢琴、小提琴、吉他等都不在话下。

这就不是人类音乐大师,而是谷歌推出的“多任务多音轨”音乐转音符模型MT3

e8096cd95a4d879540752d30a8114555.png

首先需要解释一下什么是多任务多音轨。

通常一首曲子是有多种乐器合奏而来,每个乐曲就是一个音轨,而多任务就是同时将不同音轨的乐谱同时还原出来。

还原后的多音轨听起来是这样的:

听起来是不是很像原版演奏?事实上,谷歌MT3在还原多音轨乐谱这件事上,达到了SOTA的结果。

谷歌已将该论文投给ICLR 2022。

还原多音轨乐谱

相比与自动语音识别 (ASR) ,自动音乐转录 (AMT) 的难度要大得多,因为后者既要同时转录多个乐器,还要保留精细的音高和时间信息。

多音轨的自动音乐转录数据集更是“低资源”的。现有的开源音乐转录数据集一般只包含一到几百小时的音频,相比语音数据集动辄几千上万小时的市场,算是很少了。

f82d26e3e28ff30e999c073063bdb9ce.png

先前的音乐转录主要集中在特定于任务的架构上,针对每个任务的各种乐器量身定制。

因此,作者受到低资源NLP任务迁移学习的启发,证明了通用Transformer模型可以执行多任务 AMT,并显著提高了低资源乐器的性能。

作者使用单一的通用Transformer架构T5,而且是T5“小”模型,其中包含大约6000万个参数。

该模型在编码器和解码器中使用了一系列标准的Transformer自注意力“块”。为了产生输出标记序列,该模型使用贪婪自回归解码:输入一个输入序列,将预测出下一个出现概率最高的输出标记附加到该序列中,并重复该过程直到结束 。

MT3使用梅尔频谱图作为输入。对于输出,作者构建了一个受MIDI规范启发的token词汇,称为“类MIDI”。

6b1bd955d4a3e320e80123eb7e6a81f0.png

生成的乐谱通过开源软件FluidSynth渲染成音频。

此外,还要解决不同乐曲数据集不平衡和架构不同问题。

作者定义的通用输出token还允许模型同时在多个数据集的混合上进行训练,类似于用多语言翻译模型同时训练几种语言。

这种方法不仅简化了模型设计和训练,而且增加了模型可用训练数据的数量和多样性。

实际效果

在所有指标和所有数据集上,MT3始终优于基线。

训练期间的数据集混合,相比单个数据集训练有很大的性能提升,特别是对于 GuitarSet、MusicNet 和 URMP 等“低资源”数据集。

f49b8c00e12e2f09b9195eea4eceecab.png

最后再展示一段原音频,以及由MT3识别乐谱渲染的音频。大家可以感受一下区别:

原音频:

MT3:

最近,谷歌团队也放出了MT3的源代码,并在Hugging Face上放出了试玩Demo。

ce7a4a061ab4a27f326e571e96b0763d.png

不过由于转换音频需要GPU资源,在Hugging Face上,建议各位将在Colab上运行Jupyter Notebook。

论文地址:
https://arxiv.org/abs/2111.03017

源代码:
https://github.com/magenta/mt3

Demo地址:
https://huggingface.co/spaces/akhaliq/MT3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12582.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Google Bard vs ChatGPT:哪一个更适合创造富有创造性的文学作品?

1、Google Bard,ChatGPT特点、用途、性能和应用场景等方面的讨论 首先,我们来看看Google Bard和ChatGPT的特点。 Google Bard是一种基于AI的诗歌生成器,使用了深度学习技术和自然语言处理技术,旨在创造富有想象力和具有感情的文学…

阿里正式加入ChatGPT战局,“通义千问”上线后表现如何?

ChatGPT发布后,数月间全世界都对AI的能力有了新的认知。 ChatGPT掀起的战局,现在又多了一位选手了! 阿里版类ChatGPT突然官宣正式对外开放企业邀测,由达摩院开发,名为“通义千问” 顾名思义,阿里正式加入Ch…

阿里版ChatGPT——通义千问,开箱初体验

所有行业、所有应用、所有服务都值得基于新型人工智能技术重做一遍,在带来创造性客户体验的同时,生产范式、工作范式、生活范式也将发生变化。——阿里集团董事会主席兼CEO 张勇 2023阿里云峰会上,通义千问大语言模型对外发布,宣称…

活动报名 | 生命科学中的生成式人工智能:如何搭建生命科学的“ChatGPT”

活动议程 日期:3月10日(周五) 时间 主题19:30-19:35开场简介兰艳艳 清华大学教授,青源会会员19:35-20:20Generative Biology: Towards Building the “ChatGPT” in Biology唐建 Mila - Quebec AI Institute助理教授,青…

刚刚,ChatGPT王炸更新!解封了...

推荐阅读: 《太夸张了。。。》 《反击 ChatGPT,谷歌正式推出 Bard!结果..》 1 插件上线 大家知道虽然ChatGPT很厉害,但是你向它了解最近两年的内容,它都会回复不支持。 什么原因呢? 因为ChatGPT模型训练&am…

北京筑龙吴英礼:ChatGPT对采购与招标数字化的影响

2月25日下午,平台经济学沙龙(第八期)在清华大学互联网产业研究院成功举办。本期沙龙以“ChatGPT对招标采购的影响”为主题,由清华大学互联网产业研究院平台经济课题组组长、中国招标投标公共服务平台原总经理、首席经济学家平庆忠…

真吓人 chatGPT-4 几分钟搞定我3天工作量

大家好,我是北妈。 一、 前些天只是在凑热闹,调戏chat和他对话,问他一些问题,看看它到底是不是弱智。 但自从发布了GPT-4.0智能,直接全起飞了。我花20美金/月 买入PLUS账号,主要是申请开发者权限&#xff0…

【使用心得】ChatGPT化身私人助理

使用ChatGPT真的为我的工作和日常生活带来了极大的便利。作为一位私人助理,它可以提供各种实用信息和建议,例如语言翻译、日程管理、邮件发送等等。尤其对于我这样经常需要处理海外事务的职场人士来说,ChatGPT更是成为了必需品。 这种全方位…

CharGPT解封申诉模板

前言 文章目录 前言一、申诉模板图示二、具体操作1、发送邮件2、邮件模板一、申诉模板图示 二、具体操作 1、发送邮件 告诉官方这是一场误会;将自己注册 ChatGPT 的邮箱账号和姓名复制到下面的模板中;登录其它的邮

ChatGPT Plus已重新开放升级!

前天(4月5号)OpenAI声称因为算力不足暂时关闭了升级Plus账号的通道,恢复时间未知。很多用户感慨GPT-4还没体验到就没了。没想到时隔一天,OpenAI就重新开放了升级通道,不知道是真的算力不足还是营销策略。 不过考虑到不…

创始人专访 | Kimi:因为自己淋过雨,所以总想给别人撑把伞

流光溢彩十九载, 初心筑梦再出发。 沃尔得教育成立十九周年系列 沃恩智慧创始人专访——【Kimi】 -- Kimi 沃恩智慧联合创始人 哈工大计算机博士 一作发表数十篇顶会、顶刊论文 多个SCI期刊特邀审稿人 典型的实战派、崇尚用代码解释理论 指导多名本硕博学…

这篇文章,是chatGPT写给网工你的

晚上好,我是chatGPT。 老杨邀请我来和网工们来聊会儿,我感到很荣幸。 今天,我会根据老杨的提问,发表一些我对于网络工程师这行的一些看法和见解。 也希望你看完我的回答之后,可以在留言区告诉我,你的看法…

ChatGPT 可替代?以下7 种 AI 工具更专注于编码

【CSDN 编者按】ChatGPT并不是唯一能帮助你编码的人工智能工具,使用下面这些 7 款工具也能帮助开发者大大的提升编码效率 作者 | Mary Gathoni 译者|陈静琳 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT 是…

ChatGPT:向未来迈进的智能对话伴侣

hello,大家好,我是张张,「架构精进之路」公号作者。 相信最近许多朋友的生活中,可能或多或少都被 ChatGPT 刷屏了。 记得 2023 年初时候,正值 ChatGPT 火热的时候,我当时整理过一篇 一文看懂:近…

(待会删)yyds,疯传全网的ChatGPT,请低调使用!

昨天公司启动 ChatGPT 项目, 项目负责人问我:“ChatGPT 是一门技术?” TA 的确是新技术,但远远不止于此, 项目负责人惊讶看着我,那是什么?! TA 是一个全新的时代, TA 是一…

2023.4.17-4.23 AI行业周刊(第146期):创业要趁早

最近有很多外部拓展培训的需求,联盟的共学课程培训,公司视觉软件的培训,行业课程的培训,每一项培训听起来简单,但是其实都需要大量的时间精力。 前两年也准备过一份《30天入门人工智能》的视频课程,总共31…

钉钉正式接入阿里“通义千问”大模型;金山办公发布“WPS AI”;北大团队推出ChatExcel丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 黑芝麻智能携武当系列智能汽车跨域计算平台、华山开发者计划参加上海车展 4月18日,黑芝麻智能在上海车展现场举办发布会,首席市场营销官杨宇欣介绍了最新公布的武当系列智能汽车跨域计算…

微软工程师带你解密大模型 ChatGPT

ChatGPT 是如何做到打破聊天机器人“人工智障”的刻板印象?在众多实测体验中,它已具备轻松通过图灵测试的能力(即让人误以为是与真人对话),且其回答的详实程度、说服力与连续逻辑推理能力远超当前主流会话机器人。 传统认知里&am…

《花雕学AI》21:ChatGPT能否应对脑筋急转弯?逻辑推理和创造性思维的大考验!

当我们谈到脑筋急转弯时,很多人都会感到兴趣和好奇。脑筋急转弯是一种智力游戏,可以锻炼我们的思维能力以及解决问题的能力。然而,对于许多人来说,脑筋急转弯也是一项相当具有挑战性的任务。在这个过程中,我们需要运用…

ChatGPT技术原理

ChatGPT技术原理 ChatGPT技术原理概要第一阶段:冷启动阶段的监督策略模型第二阶段:训练回报模型,reward model第三阶段:强化学习增强预训练模型的能力 ChatGPT技术相关简介L2R(learning to rank) 相关引用 ChatGPT技术原理概要 第…