论文阅读|ERNIE-SAT: SPEECH AND TEXT JOINT PRETRAININGFOR CROSS-LINGUAL MULTI-SPEAKER TEXT-TO-SPEECH

原文链接:https://arxiv.org/pdf/2211.03545v1.pdf

代码链接:https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/aishell3_vctk/ernie_sat

一、摘要 & 引言

1. 语音表示学习方法(Speech Representation Learning)既改善了对于单一语种语音的可理解性,又提高了单一语种语音合成任务的效果。然而,对于跨语种任务来说,其效果不太好。

2. 该论文提出了一种语音-文本联合预训练框架——在给定语音和文本的情况下,随机掩蔽(mask)语音频谱特征和音素序列,通过学习重建语音输入的被掩蔽部分,来达到语音合成(语音克隆)的目的;提出了一种新的掩蔽策略——非重叠掩蔽策略(Non-overlapping Masking Strategy)。

3. 该框架相较基于说话人(语种)嵌入的多说话人(跨语种)语音合成模型来说,效果有较大的提升。可用于跨语种语音合成、语音克隆和语音编辑。

4. 支持跨语种、多说话人语音合成;适用于域外说话人语音合成;训练&推理阶段都是端到端的,不用微调;

二、模型 & 方法

a52a8404a49d48dfb19fa0f489db9d2c.png

(1)输入:语音文本对 <s, x> ——声学特征 s(谱 or mel谱)、音素序列 x 。

(2)非重叠掩蔽策略:分别对声学特征以及音素序列进行掩蔽。

                a. 对声学特征:随机几个掩蔽范围,范围大小由参数 gif.latex?%5Clambda 确定;

        ​                                0c21a07968c7438188a2ae37ed6cfde5.png        

                b. 对音素序列:在 a 中未被掩蔽的部分中,随机选取一半掩蔽;

                                         975034102d484c37856651ac2f7c252f.png

        被掩蔽部分都使用随机初始化向量 gif.latex?%5Cepsilon_s%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bd_s%7D%2C%20%5Cepsilon_x%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bd_x%7D 替代。

(3)输入层:采用非线性前馈层作为声学信息编码器(Acoustic Encoder),将被掩蔽后的声学特征 gif.latex?%5Chat%7Bs%7D 编码为声学嵌入向量 gif.latex?e_%7B%5Chat%7Bs%7D%7D ,被掩蔽后的音素序列 gif.latex?%5Chat%7Bx%7D 编码为音素嵌入向量 gif.latex?e_%7B%5Chat%7Bx%7D%7D 。

        为了加强语音和文本之间的联系,分别将二者的位置编码信息(Positional Encoding)以及对齐信息(Alignment Information)与嵌入向量合并(相加)。

(4)编码器:采用 Conformer 架构作为编码器的主要架构,输入为声学向量和文本向量的拼接。

(5)训练损失:由谱特征重构损失和文本信息重构损失两个部分构成。

                                42ba0daa28c84082870657ccc1d75dd2.png

                其中谱特征重构损失包含经过 Post-Net 前的谱特征重构损失以及经过 Post-Net 后的谱特征重构损失,采用MAE损失计算:

                ​​​​​​​                4cb5f04ac38e48458885b0e7ae40b505.png

                 文本信息重构损失为经过 Conformer Block后得到的重构文本信息与真实文本信息的损失,采用交叉熵损失计算:

        ​​​​​​​        ​​​​​​​                ​​​​​​​6dc5db492145490a8b459804256ea89e.png

(6)跨语种语音合成预训练:将中文数据集与英文数据集混合训练。

三、对于跨语种多说话人语音克隆场景的应用

采用基于提示的解码方法(Prompt-based Decoding Method)

1. 将源语种提示文本与目标语种文本拼接在一起;

2. 使用预先训练好的持续时长预测器(Duration Predictor)预测目标语音的长度;

6632f49a546a4055a4aac761645acec6.png

3. 在源语种语音后拼接相同长度的随机初始化掩码向量,将未知的目标语种语音视为被掩蔽的部分;

45548cdc355e48c3a0d2296b00994ef9.png

4. 将拼接好的语音和文本送入编码器,重建被掩蔽部分,得到目标语种音频。

四、实验

1. 数据集:中文数据集AISHELL3 & 英文数据集VCTK。中文包含 193 个音素,英文包含 73 个音素,经过合并得到 262 个跨语种音素。

2. 模型结构:非线性前馈层、8 层Conformer编码器和 5 层一维卷积Post-Net。

3. 实验结果:略。

包含个人理解,欢迎批评指正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/56373.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文献阅读:Training language models to follow instructions with human feedback

文献阅读&#xff1a;Training language models to follow instructions with human feedback 1. 文献工作简介2. 模型优化设计3. 实验结果4. 总结 & 思考 文献链接&#xff1a;https://arxiv.org/abs/2203.02155 1. 文献工作简介 这篇文章是OpenAI在上年提出的一篇对于…

[工具分享] 如何快速的添加海外客户的whatsApp和line进入通讯录

很多做外贸的朋友经常需要和海外的朋友联系&#xff0c;我们经常有时候需要添加海外客户的whatsApp和line等海外社交软件更好的与客户沟通&#xff0c;其他的App呢也是类似的,一下分享的方法 第一步、首先下载软件&#xff1a; 腾讯网盘&#xff1a;https://share.weiyun.com…

高等数学(第七版)同济大学 习题8-5 个人解答

高等数学&#xff08;第七版&#xff09;同济大学 习题8-5 函数作图软件&#xff1a;Mathematica 1. 一球面过原点及 A ( 4 , 0 , 0 ) 、 B ( 1 , 3 , 0 ) 和 C ( 0 , 0 , − 4 ) 三点&#xff0c;求球面的方程及球心的坐标和半径 . \begin{aligned}&1. \ 一球面过原点及A…

高等数学——积分

目录 一&#xff0c;求积分 二&#xff0c;积分题目 三&#xff0c;积分表推导 &#xff08;1&#xff09;含有axb的积分 &#xff08;2&#xff09;含有的积分 &#xff08;3&#xff09;含有的积分 &#xff08;4&#xff09;含有(a>0)的积分 &#xff08;5&#x…

高数教材班复习Hint(3.1-3.6)

Chapter 3 Lesson 1 H i n t 1 {Hint}^1 Hint1&#xff1a;微分中值定理——联系函数和导数 费马引理&#xff1a;对于邻域 U ( x 0 ) U(x_0) U(x0​)&#xff0c;如果对于 f ( x ) ≤ f ( x 0 ) f(x) \leq f(x_0) f(x)≤f(x0​)(或 f ( x ) ≥ f ( x 0 ) f(x) \geq f(x_0) f…

《高等数学》 第七版 同济大学

《高等数学》 第七版 同济大学 上册 第一章 函数与极限 第一节 映射与函数 一 映射 映射概念 法则像原像定义域值域构成映射的三要素满射【映射】单射双射【一一映射】 逆映射与复合映射 只有单射才存在逆映射 二 函数 函数的概念 自变量 因变量 定义域 值域 对应法则…

高等数学(第七版)同济大学 习题10-4 (前7题)个人解答

高等数学&#xff08;第七版&#xff09;同济大学 习题10-4&#xff08;前7题&#xff09; 函数作图软件&#xff1a;Mathematica 1. 求 球 面 x 2 y 2 z 2 a 2 含 在 圆 柱 面 x 2 y 2 a x 内 部 的 那 部 分 面 积 . \begin{aligned}&1. \ 求球面x^2y^2z^2a^2含在圆…

高等数学(第七版)同济大学 习题10-2(中5题) 个人解答

高等数学&#xff08;第七版&#xff09;同济大学 习题10-2&#xff08;中5题&#xff09; 函数作图软件&#xff1a;Mathematica 11. 画 出 积 分 区 域 &#xff0c; 把 积 分 ∬ D f ( x , y ) d x d y 表 示 为 极 坐 标 形 式 的 二 次 积 分 &#xff0c; 其 中 积 分 区…

高数教材班复习Hint(1.1-1.7)

Chapter 1 Lesson 1 H i n t 1 &#xff1a; {Hint}^1&#xff1a; Hint1&#xff1a;单调函数一定有反函数。 P S &#xff1a; PS&#xff1a; PS&#xff1a;非单调的比如 y x 2 yx^2 yx2&#xff0c;反过来不具有函数性质。 H i n t 2 &#xff1a; {Hint}^2&#xff1a;…

T 基础 高数 上:函数

文章目录 &#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;导数公式表&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;1.1 函数与反函数1.1.1 yf(x) xg(y)互为反函数 1.2基本初等函数1.2.1基本…

高等数学笔记

目录 1.1集合 1.2 函数 1.4数列极限 1.5函数的极限 1.6无穷小和无穷大 1.7极限的运算准则 1.8极限存在准则 定义一&#xff1a;夹逼定理 定义二&#xff1a;单调有界数列必有极限 1.8两个重要极限 第一个重要极限 第二个重要极限 1.9无穷小的比较 1.10函数的连续性 2.1导数的…

高数教材班复习Hint(1.8-2.5)

Chapter 1 Lesson 8 H i n t 1 {Hint}^1 Hint1&#xff1a;设函数 y f ( x ) yf(x) yf(x)在点 x 0 x_0 x0​的某邻域内有定义&#xff0c;如果 lim ⁡ Δ x → 0 Δ y lim ⁡ Δ x → 0 [ f ( x 0 Δ x ) − f ( x 0 ) ] 0 \lim\limits_{\Delta x \to 0}\Delta y\lim\limi…

高等数学(第七版)同济大学 习题8-4 个人解答

高等数学&#xff08;第七版&#xff09;同济大学 习题8-4 函数作图软件&#xff1a;Mathematica 1. 求过点 ( 4 , − 1 , 3 ) 且平行于直线 x − 3 2 y 1 z − 1 5 的直线方程 . \begin{aligned}&1. \ 求过点(4, \ -1, \ 3)且平行于直线\frac{x-3}{2}\frac{y}{1}\frac{…

高等数学笔记(上下)

目录 不定积分定积分微分方程线性微分方程解的结构常系数齐次线性微分方程常系数齐次线性微分方程特解的求法 计算机解法 不定积分 第一类换元积分法&#xff1a;灵感来自于复合函数的求导&#xff0c;利用中间变量替换得到复合函数的积分法&#xff1a;设 f ( u ) f(u) f(u)具…

五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

五分钟了解GPT 模型背后的原理是什么&#xff1f;为什么 GPT 模型能生成有意义的文本&#xff1f;为什么 GPT 模型不会做简单的数学题&#xff1f;为什么有人担心 GPT 模型可能会危害人类&#xff1f; 0. 导读1. 为什么 GPT 模型能生成有意义的文本&#xff1f;2. 为什么 GPT 模…

图灵、图灵机和图灵测试

关注&#xff1a;灰质&#xff0c;有趣有料的AI技术分享 说到人工智能就不得不提到图灵&#xff0c;大家现在手头使用的智能手机、计算机都可以说是一种图灵机&#xff0c;即通过对输入进行计算得到输出的机器&#xff0c;图灵最早给出了这种机器形式化的定义和理论证明&#x…

2023年的深度学习入门指南(15) - 大模型的幻觉

2023年的深度学习入门指南(15) - 大模型的幻觉 大模型的能力最另人惊讶的&#xff0c;一个是强大的能力&#xff0c;另一个就是时不时一本正经地胡说八道。如果你用的是小一点的模型&#xff0c;可能还见过输出循环内容之类的情况。我们将这种生成不良内容的现象称为幻觉-hall…

a*算法代码 python,astar算法 python

这篇文章主要介绍了a*算法代码 python&#xff0c;具有一定借鉴价值&#xff0c;需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获&#xff0c;下面让小编带着大家一起了解一下。 1、python哪个版本opencv可以直接调用sift 这几天继续在看Lowe大神的SIFT神作&#xff…

GPT-2 面试题

简介 1、GPT-2 是什么&#xff1f;它是基于什么模型的&#xff1f; GPT-2 是一种人工智能的大型语言模型&#xff0c;由 OpenAI 在2019年提出。它是基于变压器&#xff08;Transformer&#xff09;模型的&#xff0c;使用了自注意力&#xff08;Self-Attention&#xff09;机…

最新闲鱼数据采集软件【2019年4月更新】

闲鱼采集软件可以采集商品标题、成色、用户名、地区、价格、链接等&#xff01;无需登录&#xff0c;无屏蔽&#xff01; 2019年3月初旧的接口全部不能用了&#xff0c;新的接口比较稀缺哦&#xff1b; 转载于:https://www.cnblogs.com/xtfnpgy/p/10778344.html