VITS 语音合成完全端到端TTS的里程碑

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech(ICML 2021)

KAKAO公司与KAIST韩国科学院,近年在TTS领域佳作频出,目前最主流的HiFiGAN声码器也是其成果。

目录

概览:

突破点:

high level的优缺点总结:

VITS优点                            

缺点:

模型详解:

看懂需要的前置知识,推荐苏神的生成模型系列文章:

1. 变分推断(Variational Inference)

2. 随机时长预测模块​

3. 解码器模块​


概览:

提出一种TTS模型框架VITS,用到normalizing flow和对抗训练方法,提高合成语音自然度,其中论文结果上显示已经和GT相当。结合VAE和FLOW的前沿架构。

代码: https://github.com/jaywalnut310/vits

Demo地址: https://jaywalnut310.github.io/vits

论文地址:https://arxiv.org/abs/2106.0610


突破点:

  • 首个自然度超过2-stage架构SOTA的完全E2E模型。MOS4.43, 仅低于GT录音0.03。声称目前公开系统最好效果。

  • 得益于图像领域中把Flow引入VAE提升生成效果的研究,成功把Flow-VAE应用到了完全E2E的TTS任务中。
  • 训练非常简便,完全E2E。不需要像Fastspeech系列模型需要额外提pitch, energy等特征,也不像多数2-stage架构需要根据声学模型的输出来finetune声码器以达到最佳效果。
  • 摆脱了预设的声学谱作为链接声学模型和声码器的特征,成功的应用来VAE去E2E的学习隐性表示来链接两个模块
  • 多说话人模型自然度不下降,不像其他模型趋于持平GT录音MOS分

 

  


high level的优缺点总结:

VITS优点                      

  • 合成速度足够快

    • 三个主要网络结构均为可并行的非自回归结构保证了合成速度:
      • 和Fastspeech系统相同的transformer作为文本Encoder
      • 和Glow-TTS相同的Flow结构作为VAE的主体
      • 和HiFiGAN生成器相同的反卷积作为Decoder
  • 长文本稳定性好
    • 采用了Glow-TTS相同的单调对齐搜索算法(MAS), 保证生成对齐的稳定性
  • 语音多样性好
    • 在预测音素时长的模块中也引入Flow结构增加生成韵律的多样性


缺点:

  • 多样性,稳定性的trade off
  • 训练收敛速度慢
  • 全局信息学习能力较弱(韵律,风格略平淡)

                                

                                接近GT,但是单独做CMOS还是比GT要低的。


模型详解:

看懂需要的前置知识,推荐苏神的生成模型系列文章:

1. VAE系列文章,看到你自己觉得懂了:变分自编码器(一):原来是这么一回事 - 科学空间|Scientific Spaces

VAE变分自编码机详解——原理篇 - 知乎

2. Flow/Glow:

细水长flow之NICE:流模型的基本概念与实现 - 科学空间|Scientific Spaces

细水长flow之RealNVP与Glow:流模型的传承与升华 - 科学空间|Scientific Spaces

3. 上述两者的结合,也就是本篇论文主要部分:

细水长flow之f-VAEs:Glow与VAEs的联姻 - 科学空间|Scientific Spaces


了解一个模型就从它的Loss入手:

Loss:

三部分Loss对应三个主要模块:


1. 变分推断(Variational Inference)

优化目标:最大化条件下界(ELBO)


 

符号解释:
z 为线性谱经过后验编码器后得到的隐变量
y_hat 为 z 经过decoder后得到预测音频序列
x 为真实音频的Mel谱
c 为文本, d为音素时长duration,A为对齐矩阵
p(x|c) 和 p(x|z) 分别为目标 x 对 c 和 z 的最大似然


 

 重构Loss:

  • 预测音频 y_hat 提取的Mel谱和真实Mel谱的L1 Loss
  • Decoder为HiFiGAN声码器的generator生成器

 



2. 随机时长预测模块

  •  通过单调对齐搜索算法(MAS),  获得文本编码后预测的均值方差和隐变量 z 通过Flow后的正态分布的最优对齐矩阵。
  • 时长预测模块去学习这个对齐矩阵序列
  • Flow应用到此模块增加生成序列的多样性

3. 解码器模块

  •  Decoder即为HiFiGAN的生成器,两个Loss也对应原论文中相同的对抗Loss和特征鉴别器Loss, 想深入了解可以参考原论文。

总结与思考

整篇文章总体还是很优美,通过合理的应用vae-flow架构,得到了不错的效果。后续微软谭旭的natrual TTS工作也是很大程度借鉴了这篇文章,给出了更多的解释。 

目前生成模型包括新的Diffusion模型在常规数据集上都能做到不错的效果,更高难度的高表现力数据的还原将成为未来热点方向。但大概率突破仍然会产生在类似的生成模型架构上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16423.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MS-TTS:免费微软TTS语音合成工具(一键合成导出MP3音频)

声明 本工具是个免费工具,遇到问题,还请自行解决,下面有文字教程,B站有视频教程(链接在文章末尾); 其次,微软接口卡顿,连接超时等问题下方有详细说明,请仔细…

某团mtgsig逆向学习

声明:本文仅限学习交流使用,禁止用于非法用途、商业活动等。否则后果自负。如有侵权,请告知删除,谢谢!本教程也没有专门针对某个网站而编写,单纯的技术研究 目录 案例分析参数分析效果展示 案例分析 目标案…

高通量代谢组学四路筛选法,揭秘“神药”二甲双胍延长寿命的机制

百趣代谢组学分享—研究背景 目前据统计中国糖尿病患者人数达9700万以上,数量达到世界第一。这其中2型糖尿病占到了90%以上。二甲双胍是目前治疗2型糖尿病的一线“明星”药物,因其较少出现低血糖和体重增加副作用而受到广大患者和医生的青睐。代谢组学文…

推荐:ChatGPT指令大全(37个)

使用时,可参考这些语境。会问问题,才是最重要的。 AGI 时代必备:《提问的艺术——让ChatGPT导出高质量答案》38 赞同 7 评论文章 1. 写报告:我现在正在 [报告的情境与目的]。我的简报主题是 [主题],请提供 [数字] 种…

启蒙教师周志华亲自讲解,机器学习视频课上线了

主讲:周志华,南京大学教授 人工智能从1956年正式成为一个学科,机器学习是人工智能的核心研究领域之一。今天的“人工智能热潮”正是由于机器学习等技术取得了巨大进展,并基于大数据、大算力发挥出巨大威力。 《机器学习初步》课…

斯坦福| ChatGPT用于生成式搜索引擎的可行性

文|智商掉了一地 随着 ChatGPT 在文本生成领域迈出了重要一步,Bing 浏览器也接入了聊天机器人功能,因此如何保证 Bing Chat 等搜索引擎结果的精确率和真实性也成为了搜索领域的热门话题之一。 当我们使用搜索引擎时,往往希望搜索结…

ChatGPT应用-ArxivGPT谷歌插件 解放正在苦苦读论文的你

一句话介绍 总结arXiv中论文的关键点,并提供重要见解 详细介绍 ArxivGPT是一个谷歌Chrome插件,可帮助您快速了解arXiv论文的内容。只需单击一下,即可总结论文并提供关键见解,节省您的时间并帮助您快速掌握主要思想和概念。无论…

【ChatGPT】【Sloved】Access denied,Error reference number: 1020

问题描述 You do not have access to chat.openai.com. The site owner may have set restrictions that prevent you from accessing the site. Ray ID: 7b25a4dfce2a985bTimestamp: 2023-04-04 01:05:37 UTCYour IP address: 2602:feda:dd7:a0ba:4166:9982:e009:2e35Reque…

旋律生成学习日记(一)

123因为自己做音频方向,偶然看见了旋律生成这个东西,就想自己学着做一做,网上现有文章不多,我自己瞎琢磨琢磨。 第一章转自:(64条消息) 基于深度学习LSTM算法生成音乐_lstm生成音乐_lbship的博客-CSDN博客 MID数据集…

国内唯一可以在本地搭建Stable Diffusion WebUI教程-安装时无需魔法安装全程流畅到尖叫

Stable Diffusion是什么 Stable Diffusion简称SD是一款Ai图片生成工具。“输入几句话,生成精美图片。” 比如说我一开头这幅图片就是用的SD生成的。 我在我的“ChatGPT让我变成了“超人”-如何提升团队30%效能质量提高100%的阶段性总结报告”里提到过midjourney,但是midjou…

电子表格软件的开山鼻祖 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 5 月 11 日,在 1995 年的今天,我国成为第六个研制成功磁悬浮列车的国家。磁悬浮列车利用“同性相斥,异性相吸”的原理&#…

行业报告 | AIGC发展研究

原创 | 文 BFT机器人 01 技术篇 深度学习进化史:知识变轨 风起云涌 已发生的关键步骤: 人工神经网络的诞生 反向传播算法的提出 GPU的使用 大数据的出现 预训练和迁移学习 生成对抗网络 (GAN) 的发明 强化学习的成功应用 自然语言处理的突破 即将发生的关键…

手把手带你快速实现直播聊天室

废话不多说,直接开干! 工具要求: (1) Android Studio 3.2或更高版本。 (2) SDK targetVersion至少为26。 本文聊天室是集成环信IM SDK实现聊天功能,及实现发送礼物、点赞和弹幕等功能。视频直播采用的是七牛相关的推拉流SDK。app …

地摊叫卖、超市播音工具-简洁的文字转语音播音软件

简介: 文件名称 : 播音员.exe 文件大小 : 0.5MB (568KB) 文件类型 : application/x-dosexec 运行平台 : Windows7 / Windows10 软件功能 : 自定义语录文字、图片,快捷发送聊天 软件特色 : 无需安装、永久免费、无自启、无广告 关于软件: 1、…

海威超市播音易源码+成品

介绍: 源码介绍: 目前一直在用的超市播音软件,送给不会编程的人,下载后打开直接可用! 会编程的人,可以修改后使用! 网盘下载地址: http://kekewangLuo.cc/VM4aIepRMTH 图片&#x…

养成这个好习惯,让播音主持成为你的加分项

我们都知道,习惯的力量是很大的,我们只有在日常生活中养成一个良好的习惯,才能为我们的学习“添砖加瓦”。 养成下面四个习惯,可以让学习播音主持的你在学习和考试中都会加分哦! 科学用声和护嗓 对于播音主持专业的学生来说&…

内容创业洗稿,知识付费拆书

作者: 深几度 来源: https://mp.weixin.qq.com/s/WXGURnbutf1BUV54ytuzjw 罗振宇又因为跨年演讲的问题成为众矢之的了,顺带着他的得到APP知识付费模式再一次被拖出来,被人批判了一番。 批判知识付费的理由已经屡见不鲜。此前公众号…

518超市播音软件如何放大音量到150的,传统播音软件声音太小(0-100)

518超市播音软件(http://www.518boyin.com/)最新版6.2 支持放大语音音量,最多可放大150%,而传统的播音软件声音太小。就是说播放音乐的时候音量挺大,到播放语音就感觉音量降低了很多。这可能是由于讲话天然没有歌曲喊的…

基于STM32的录音与播音

基于STM32的录音与播音 设计方案 本设计通过STM32的内置ADC加一个麦克风和放大电路(可以在网上买模块)实现音频的采集,然后存放在SD卡中(这里可以参考我之前的博客FATFS文件系统),然后再读取SD卡里存放的…

海威超市播音源码+成品

源码介绍: 目前一直在用的超市播音软件,送给不会编程的人,下载后打开直接可用!会编程的人,可以修改后使用! 网盘下载地址: http://www.bytepan.com/8sfiNvAioAc 图片: