【文字到语音的论文总结】

1.文字到语音的整个过程

文字到语音的一般整体结构

主要是下面这个流程,每个网络可能会把其中两者或是三者融合在一起来;
在这里插入图片描述

长度不同的问题

生成的语音可能和文字的长度并不一样,因此需要解决这个问题

  • Tactron使用的是交叉注意力的方式解决他们长度不同的问题
  • fastSpeech直接预测了输出的长度,通过将文本信息拷贝几分的方式,获得了相同的长度。

2.各种具体的网络结构

2.1WaveNet

2.1.1研究动机

  • 原有的语音生成模型大多采用RNN这个东西太慢了,不如采用一个卷积的结构,来进行替代;
  • 卷积是前后都感知的这不合适,因此改一下,只让其卷进去前面的部分,这样就合理了。称为“因果卷积”
  • 既然使用了卷积,那么使用空洞卷积就自然而然了。

2.1.2结构和类型

输入输出

将声学模型和发声器全部都融合在一起了
输入处理过的字符串信息,输出语音

类型是自回归

2.1.3不能解决的问题

  • 虽然训练的时候比较快,但是在预测的时候,开始启动时候因为空洞卷积的问题需要多轮。(这里不确定需要再确认)

2.2tactron

在这里插入图片描述

2.2.1研究动机

1.前人的融合工作还是不太够,不能真正的端到端,因此作者这里再融合一下;
2.文本序列较长的时候会导致较大的累计误差,作者使用交叉注意力机制来解决这个问题,这个貌似也是交叉注意力本身的研究动机;
3.预测较慢,由于语音信息前后比较相近,因此作者就直接一次预测三帧。

2.2.2结构和类型

输入输出

将字符串分析和声学模型融合在一起了
输入是字符串,输出是梅尔频谱

网络结构

使用机器翻译借鉴过来的模型CBHG

类型是自回归

2.2.3奇怪的点

虽然声学模块用的是自回归的,但是这个交叉注意力一进去,其实每个节点不都有全局信息了吗

2.3fastSpeech

2.3.1研究动机

  • 采用自回归是有一定问题的,因为自回归是非常缓慢的,并且由于累计误差会在最终结果当中产生重大错误;
  • 前人采用自回归的问题是被迫为之,主要是不知道每个文字需要说多长时间,于是本文作者发明了一个先预测每个字说多长时间再整体预测全流程该怎么说的网络结果。
  • 想要实现这个预测说多久其实也不是很复杂,因为可以用别人训练好的TTS模型直接来进行得到。

2.3.2 结构和类型

输入输出

也是将文本分析和声学模型融合在一起
输入是文字串输出是梅尔谱

类型是非自回归

2.4fastSpeech2

  • 之前的网络较为复杂,消除蒸馏可以更好的简化网络
  • 之前通过长度预测可以调整输入的长度对齐,那么是否可以通过类似位置加入其他模块来增加更多语音信息(音高、能量、情感等);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/125977.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数学建模】2023数学建模国赛C题完整思路和代码解析

C题第一问代码和求解结果已完成,第一问数据量有点大,经过编程整理出来了单品销售额的汇总数据、将附件2中的单品编码替换为分类编码,整理出了蔬菜各品类随着时间变化的销售量,并做出了这些疏菜品类的皮尔森相关系数的热力图&#…

MySQL——select语句的简单介绍和查询时常用的参数

select语句详解 基本的select语句 select 要查询的列名 from 要查询的表 where 限制条件; 如果要查询表的所有内容,则把要查询的列名用—个星号*号表示(之间的案例中都已经使用过),代表要查询表中所有的列。 而大多数情况,我们只需要查看…

AI绘画:StableDiffusion实操教程-完美世界-魔女(附高清图下载)

前段时间我分享了StableDiffusion的非常完整的教程:“AI绘画:Stable Diffusion 终极宝典:从入门到精通 ” 尽管如此,还有读者反馈说,尽管已经成功安装,但生成的图片与我展示的结果相去甚远。真实感和质感之…

【Mysql】给查询记录增加序列号方法

在MySQL 8.0版本中,你可以使用ROW_NUMBER()函数来添加序号。以下是一个示例查询,演示如何添加序号: SELECT ROW_NUMBER() OVER (ORDER BY column_name) AS serial_number,column1, column2, ... FROMyour_table;请将column_name替换为你想要…

微电网的概念

微电网分布式控制理论与方法  顾伟等 微电网的概念和作用 微电网是由多种分布式电源、储能、负载以及相关监控保护装置构成的能够实现自我控制和管理的自治型电力系统,既可以与电网并网进行,也可以以孤岛运行。 分布式发电是指将容量在兆瓦以内的可再…

C++笔记基础全部完整版

01 面向对象 基本概念 面向对象程序设计(Object-Oriented Programming,OOP)是一种新的程序设计范型。程序设计范型是指设计程序的规范、模型和风格,它是一类程序设计语言的基础。 面向过程 面向过程程序设计范型是使用较广泛的…

gitlab 合并分支

打开我们的gitlab,找到我们的项目,在左侧菜单中找到Merge requests,点击Merge requests,进入下一个页面 点击New merge requests,创建一个新的merge,进入下一个页面 选择自己分支和目标分支,自己…

jmeter 线程组 Open Model Thread Group 阶梯式压测、高峰流量压测

简介 Open Model Thread Group 是5.4.1 版本中引入的一个实验性线程组,可以弹性模拟负载测试。例如设置多个线程模式,再根据这些线程模式调整不同的并发数、暂停时间。由于Open Model Thread Group 是一个实验性线程组,可能会存在一些限制和不…

记一次诡异的Cannot find declaration to go to,Cannot resolve method

记一次诡异的 Cannot find declaration to go to, Cannot resolve method getOnExpressions in Join 对于项目中通常问题,清除缓存,重启idea,或者仔细检查语法通常都能解决问题,但是这次却失效了,以下是原…

十一、做高并发内存池项目过程中遇到的bug以及调试bug的方法和心得

十一、做高并发内存池项目过程中遇到的bug以及调试bug的方法和心得 第一个bug是内存问题,程序直接崩溃,问题出现在:GetOneSpan函数中的切分span的时候结尾的span1的next没有置空。 第二个bug是还小内存块给span的时候找不到小内存所属的spa…

微服务06-Dockerfile自定义镜像+DockerCompose部署多个镜像

常见的镜像在DockerHub能找到,但是我们自己写项目得自己构造镜像 1 镜像结构 作用:提高复用性,当应用需要更新时,不再是整个系统重装进行更新 ,而是对需要更新的部分进行更新,其他地方不动——>这就是分…

Web安全——穷举爆破下篇(仅供学习)

Web安全 一、常见的端口服务穷举1、hydra 密码穷举工具的使用2、使用 hydra 穷举 ssh 服务3、使用 hydra 穷举 ftp 服务4、使用 hydra 穷举 mysql 服务5、使用 hydra 穷举 smb 服务6、使用 hydra 穷举 http 服务7、使用 hydra 穷举 pop3 服务8、使用 hydra 穷举 rdp 服务9、使用…

分类预测 | MATLAB实现PCA-GRU(主成分门控循环单元)分类预测

分类预测 | MATLAB实现PCA-GRU(主成分门控循环单元)分类预测 目录 分类预测 | MATLAB实现PCA-GRU(主成分门控循环单元)分类预测预测效果基本介绍程序设计参考资料致谢 预测效果 基本介绍 Matlab实现基于PCA-GRU主成分分析-门控循环单元多输入分类预测(完整程序和数据…

HTTP代理如何设置

HTTP代理是一种非常重要的网络工具,它可以帮助我们在访问互联网时提高访问速度,保护用户隐私等等。在使用HTTP代理时,需要先进行设置。下面就来介绍一下HTTP代理如何设置。 一、了解HTTP代理 在开始设置HTTP代理之前,我们需要先了…

2023 INCLUSION·外滩大会丨拓数派科技战略深度披露,大模型数据计算系统蓄势待发

近日,被亿欧网誉为最值得关注的全球化大模型数据计算科技新锐拓数派亮相在黄浦区世博园举行的2023 INCLUSION外滩大会。作为国际顶尖的科技盛会,来自全球各地的著名经济学家、诺奖得主、企业家和技术大咖们济济一堂,围绕“科技创造可持续未来…

电器布线电线电缆外贸出口UL758测试标准

UL 758,第 3 版,2014 年 5 月 2 日- UL 安全电器布线材料标准 这些要求涵盖了电器布线材料 (AWM),形式为单绝缘导体、多导体电缆、光纤、独立绝缘导体和光纤用作多芯电缆组件的构件。 本标准要求所涵盖的器具布线材料仅用作器具和其他设备整…

用Python实现一个可定制风格的绘图系统

文章目录 调用绘图风格控件代码组织源代码base.pyaframe.pyalist.pyds.py Python绘图系统: 📈从0开始的3D绘图系统📉一套3D坐标,多个函数📊散点图、极坐标和子图自定义控件:📉绘图风格&#x1…

2023国赛数学建模E题思路代码 - 黄河水沙监测数据分析

# 1 赛题 E 题 黄河水沙监测数据分析 黄河是中华民族的母亲河。研究黄河水沙通量的变化规律对沿黄流域的环境治理、气候变 化和人民生活的影响, 以及对优化黄河流域水资源分配、协调人地关系、调水调沙、防洪减灾 等方面都具有重要的理论指导意义。 附件 1 给出了位…

C++新特性:智能指针

一 、为什么需要智能指针 智能指针主要解决以下问题: 1)内存泄漏:内存手动释放,使用智能指针可以自动释放 2)共享所有权指针的传播和释放,比如多线程使用同一个对象时析构问题,例如同样的数据…

MySQL——笔试测试题

解析: 要查询各科目的最大分数,可以使用如下的SQL语句: SELECT coursename, MAX(score) FROM t_stuscore GROUP BY coursename; 这条SQL语句使用了MAX()聚合函数来获取每个科目的最大分数,并使用GROUP BY子句按照科目进行分组…