TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐)

1. 介绍

摘要:
介绍了一个以文本作为条件,生成高保真、长时间片的音乐音频。比如文本为“由扭曲的吉他重复段伴奏的平静的小提琴旋律”,MusicLM可以可以根据文本条件,生成24kHz采样率,分钟级别的连续音乐音频。

从摘要中可以得知,这篇文章解决的根本问题其实可以非常简单的形容,就是:

文本 -> 音乐

如果加上一些限制条件,那么这个问题可以补充为:

丰富的文本描述 -> 高保真的,长时间连续的音频

假如将这个问题交给普通人来解决,相信很多没有基本乐理知识的人,都很难根据特定的文本,创作出一段长达几分钟的乐曲。

算法模型与人相同的是,它也很难学会乐理知识;但是算法模型比人类强大的地方,在于强大的模仿能力,它可以通过大量的数据,模仿文本和对应音乐的关联。

从文章里面可以了解到,虽然可以设计模仿能力突出的算法模型,但是解决这个问题依然充满了挑战,主要集中在以下两方面:

  • 当前学术界的研究只能生成简单场景的短片段语音,因此将单文本转化为高保真和长时间连续的音乐片段具有很强的挑战
  • 缺乏丰富的“音乐-文本”结对的数据集

2. 背景

2.1 MuLan model


MuLanModel通过AudioEmbeding编码音频,通过TextEmbedding编码文本,将audio和text拉齐到同一维度空间,最后计算对比损失函数比较两者在同一维度空间的差别。

2.2 AudioLM


AudioLM使用SoundStream生成Acoustic tokens,用来合成高质量音频;
使用w2v-BERT生成Semantic tokens,用来维护音频的长期连续性。


分成3个阶段渐进式的合成声音:第1各阶段仅使用semantic tokens;第2个阶段使用semantic tokens + 粗糙的acoustic tokens合成音频; 第3个音频使用semantic tokens + fine acoustic tokens合成音频。

3. 方法

针对上面两个问题,作者首先制作了包含5千多条“音乐-文本“对应的MusicCaps数据集;然后通过下图的方式使用3个预训练模型,利用SoundStream保证高保真,w2v保证长时间连续,利用MuLan将文本和音频编码到同一个维度空间,使得二者具有可对比性

作者设计的模型如下图所示,模型结构分为两个阶段:
第一阶段是语义模型阶段,音频通过MuLan模型生成MuLan tokens, 然后通过语义模型映射为w2v-BERT的Semantic tokens;
第二阶段是声学模型阶段,将MuLan tokens和Semantic token一起输入声学模型,并映射为SoundStream的Acoustic tokens,为了保证长时间连续音频生成,生成过程是一个类似audioLM的coarse-to-fine阶段。

4. 结果

  • 两阶段建模的模型都是transformer-decoder only,24 layers, 16 attention heads,
  • MuLan使用的开源模型,使用 Free Music Archive (FMA) dataset 训练SoundStream and w2v-BERT;
  • AudioLM两阶段模型训练:five million audio clips(~280k hours)。semantic stage,随机裁剪30s音频;acoustic stage,随机裁剪10s音频;AudioLM细粒度的建模基于3s音频。

5. 评价

  • 没开源代码,无法论证真实性能和效果
  • 只是demo,和ChatGPT相比,距离商业化还有很大差距
  • 现在就差text-2-video了
    • AI text-2-essay
    • AI test-2-code
    • AI text-2-image
    • AI text-2-music
    • AI text-2-video

6. 参考

  • MusicLM demo page

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30104.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

神经网络训练中的Tricks之高效BP(反向传播算法)

神经网络训练中的Tricks之高效BP(反向传播算法) zouxy09qq.com http://blog.csdn.net/zouxy09 Tricks!这是一个让人听了充满神秘和好奇的词。对于我们这些所谓的尝试应用机器学习技术解决某些问题的人,更是如此。曾记得&#xf…

Chainlink 预言机的原理解析

本文来自于 8 月19 日 Chainlink 开发者社区中国负责人 Frank ,在 DApp Learning 分享会上对于 Chainlink 预言机的原理的讲解,以下是这节分享会的总结内容。有兴趣的小伙伴可以结合视频一起学习: 为什么区块链无法主动获取外界数据 区块链…

预言机(Oracle)

文章目录 一、概述1.1、为什么需要1.2、应用场景1.3、现有的预言机产品1.4、基本原理 二、蚂蚁区块链 BaaS 平台–外部数据源服务三、主流预言机:Oraclize3.1 使用举例3.2 数据源3.3 收费3.4 真实性:3.5 解析助手3.6 加密查询3.7 原理 四、参考 一、概述…

第147篇 笔记-预言机(Oracle)

定义:区块链预言机是将区块链连接到外部系统的实体,从而使智能合约能够基于现实世界的输入和输出执行。 预言机为分散的 Web3 生态系统提供了一种访问现有数据源、遗留系统和高级计算的方式。去中心化预言机网络(DON)支持创建混合…

语音识别-TDNN

近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", "D&…

语音识别技术对比分析

文章目录 一、语音识别产品对比二、百度语音识别产品1、套餐及价格:2、官网3、调研结果 三、华为语音识别产品四、阿里云语音识别产品1、套餐及价格:2、官网地址3、调研结果 五、腾讯云语音识别产品1、套餐及价格2、官网3、调研结果 六、科大讯飞语音识别…

语音识别SpeechRecognition

语音识别 1. 声音的本质是震动,震动的本质是位移关于时间的函数 Signal: s f(t) 波形文件(.wav)中记录了不同采样时刻的位移 2. 通过傅里叶变换 可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建…

各种情人节,程序员教你5个表白代码,牢牢主抓她的心

刚过完年就来到了一个相当重要的节日:情人节。一个有人欢喜有人愁的节日,虽然对一些单身人士不太友好,但还有不少人都在等这个节日进行表白。毕竟这个日子的成功率会高一些。 情人节少不了送花送礼物,作为一个程序员,…

技术创业者必读:从验证想法到技术产品商业化的全方位解析

导语 | 技术创业之路往往充满着挑战和不确定性,对于初入创业领域的人来说,如何验证自己的创业想法是否有空间、如何选择靠谱的投资人、如何将技术产品商业化等问题都需要认真思考和解决。在「TVP 技术夜未眠」第六期直播中,正马软件 CTO、腾讯…

麦肯锡给CEO的元宇宙指南

ChatGPT突然大张旗鼓地登上全球新闻的头条时,元宇宙似乎如明日黄花般过气了,未来渺茫起来。而麦肯锡的4位合伙人在今年1月给全球CEO们的“元宇宙指南”中强调,“太大元宇宙 ,不容忽视”。《元宇宙日爆》编译了这份指南供企业管理者…

AI大模型只能沦为“锦上添花”吗?

出品 | 虎嗅科技组作者 | 齐健编辑 | 廖影头图 | 虎嗅 “每个人咨询的第一个问题都是:你们在大模型方面做了什么?” 7月8日,2023世界人工智能大会(下称WAIC),一位参展商告诉笔者他的感受。——“大模型”&a…

chatgpt赋能python:Python在Win7上的安装教程

Python在Win7上的安装教程 如果你是一名Win7用户,并且打算开始学习或者使用Python编程语言,那么本文将会为你提供一个简单易懂的Python安装教程。 1. 下载Python 在安装Python之前,你需要先去Python的官方网站(https://www.pyt…

chatgpt赋能python:Python安装两个版本详细教程

Python安装两个版本详细教程 Python是一种广泛使用的编程语言,由于不同版本之间的差异,部分开发者需要同时安装两个不同版本的Python。本篇文章将为大家详细介绍Python安装两个版本的方法。 为何需要安装两个不同版本的Python Python的发行版&#xf…

chatgpt赋能python:使用Python编写的程序如何运行

使用Python编写的程序如何运行 Python是一种高级编程语言,适用于多种应用,例如Web开发,数据分析和人工智能。很多人都知道Python是一种很强大的语言,但是他们可能不知道如何运行Python程序。在这篇文章中,我们将介绍P…

chatgpt赋能python:Python程序运行方法介绍

Python 程序运行方法介绍 在 Python 编程中,了解如何运行程序是非常重要的。本篇文章将介绍 Python 中如何运行程序,以及不同的运行方法及其优缺点。作为一名有10年 Python 编程经验的工程师,我相信这篇文章将对 Python 新手和有经验的开发者…

chatgpt赋能python:Python怎么post请求

Python怎么post请求 Python作为一种高级编程语言,拥有丰富的库和模块来处理各种编程任务。其中,处理网络请求和数据交互是Python非常擅长的领域之一。在Python中,我们可以使用标准库或第三方库的HTTP模块来实现HTTP协议的请求和响应。 本篇…

chatgpt赋能python:Python导入包的完整指南

Python导入包的完整指南 如果你是一个Python程序员,你一定知道模块和包在Python中的重要性。Python中有很多内置的模块和包,但是有时候这些内置模块和包不能满足我们的需求,这时就需要导入外部的模块和包。本文将介绍Python中如何导入包和模…

chatgpt赋能python:Python:如何直接运行?

Python:如何直接运行? 如果你想学习编程,或者已经是一名资深工程师,你一定听说过Python这门编程语言。Python是一门易于学习和理解的语言,被广泛应用于很多领域,例如科学计算、数据分析、Web开发和人工智能…

chatgpt赋能python:Python如何直接运行?一篇详细指南

Python如何直接运行?一篇详细指南 Python是一种高级编程语言,可作为通用编程语言进行使用。它被广泛应用于数据科学,Web开发,人工智能等领域。Python最大的优势之一就是其容易学习和使用。本文的主旨是向大家介绍如何直接运行Pyt…

全国海关分区图(含副厅)

全国海关分区图(含副厅)