读《EMOQ-TTS: EMOTION INTENSITY QUANTIZATION FOR FINE-GRAINED CONTROLLABLE EMOTIONAL TEXT-TO-SPEECH》

0 Abstract
虽然近年来文本到语音(TTS)的研究取得了显著进展,但仍局限于情感语音合成。为了产生情感话语,大多数作品都利用了从情感标签或参考音频中提取的情感信息。然而,由于话语层面的情绪条件,它们导致了单调的情绪表达。在本文中,我们提出了EmoQ-TTS,它通过调节具有细粒度情绪强度的音素级情绪信息来合成具有表现力的情绪言语。在这里,情感信息的强度是通过基于距离的强度量化来表示的,不需要人为标记。我们也可以通过人工调节强度标签来控制合成语音的情绪表达。实验结果表明,EmoQ-TTS在情感表现力和可控性方面具有优越性。

1 Introduction
最近,由于深度学习的发展[5,6],端到端文本到语音(TTS)系统得到了显著的改进[1,2,3,4]。虽然目前基于TTS模型的合成语音已经取得了优异的性能,但在合成具有音高、声调、语速等副语言特征(paralinguistic features)的表达性语音方面仍存在一定的局限性。特别是情感语音合成是一项具有挑战性的任务,因为情感信息受到语音各种副语言特征的影响.
对于情感语音合成,常用的方法是从参考音频[7,8]或情感标签[9,10]中提取全局情感信息。但是,这些方法的缺点是,合成语音只有一个全局信息,表达单调。为了产生类似于人类自然语言的富有表现力的情感语言,应在音素层面考虑根据情感强度进行细粒度的情感表达。已有几项研究试图通过对具有代表性的情绪嵌入进行缩放[11,12]
在这里插入图片描述
在这里插入图片描述

或插值[13,14]来反映细粒度的情绪表达。然而,它们也存在音频质量不稳定的问题,并且很难找到合适的缩放或插值参数。在[15]的情况下,该模型预测从学习到的排序函数[16]【文章提出了一个新的Idea, 不再是用传统的二值去标记一幅图像含不含attribute,而是用对比的关系去描述图像,对于某个attribute,一幅图像呈现的比另一幅图像多】中提取的按音素的强度标量。但是,该方法对全局标签的依赖较大,因此,基于强度标量的情绪表达控制不稳定。

为了解决上述问题,本文提出了EmoQ-TTS,它通过基于细粒度情感强度的音素级情感信息来合成表达性情感语音。为了反映适当的情绪表达,我们使用强度伪标签,并通过基于距离的强度量化,而无需人类标签。EmoQ TTS通过仅从文本中预测适当的情绪强度,更具表现力地合成语音。此外,我们可以通过手动调节强度标签来轻松控制情绪表达。实验结果表明,我们的系统成功地实现了比传统方法更好的情感表达和可控性。

2.1 Model Architecture
在这里插入图片描述

EmoQ TTS的整个架构如图1a所示。EmoQTTS基于FastSpeech2[17],它由编码器、解码器和方差适配器组成。为了合成细粒度情感语音,我们对FastSpeech2架构进行了如下修改:首先,我们引入了一个情感渲染器,根据细粒度情感强度提供音素级的情感信息。这使得所有方差信息,包括音调、能量和持续时间,都会受到细粒度情绪强度的影响。其次,将持续时间预测器移到方差适配器的末尾。这导致所有方差信息都在音素级进行处理,这在语音质量方面已被证明优于帧级方法(Fastpitch提出)。

2.2 Emotion Renderer
H-pho + Emotion_strength[x] ->【0,1】-> MSE-loss
情感渲染器根据细粒度情感强度提供音素级情感信息。如图1b所示,情感渲染器由强度预测器、强度量化器和强度嵌入表组成。当提供音素隐藏序列H-pho和第k个情感类别emotion-k时,强度预测器将适合emotion-k的音素情感强度标量序列预测为0到1之间的值。强度预测器通过平均绝对误差(MAE)[19]损失进行优化,使预测强度标量序列和地面真值强度标量序列之间的差异最小化。
对于鲁棒性训练,强度标量通过情绪强度量化器定期量化为N-I大小的情绪强度伪标签集(pseudo-labels)。这里,N-I表示量化强度伪标签的总数。此外,我们还引入了一个强度嵌入表。量化强度伪标签集是每个情绪嵌入表的条目索引。最后,将音素强度嵌入序列连接到音素隐藏序列。图1b中的“C”表示串联。通过情绪强度建模,设计了地面真值强度标量和强度嵌入表。
在推理过程中,EmoQ TTS通过调节预测强度标量的量化强度嵌入来合成情感表达语音。此外,EmoQ TTS通过手动控制自定义标签的强度来控制合成语音的情感表达

3 EMOTION INTENSITY MODELING
3.1. Emotion Feature Extraction
在这里插入图片描述

在第一阶段,我们训练参考编码器从mel谱图中提取聚类情感嵌入。参考编码器由三个1D卷积层组成,它们为每一帧维护时间信息。为了提取有区别的情感嵌入,我们应用了情感分类器和带有梯度反转层(GRL)的音素分类器[20],如图1c所示。这些分类器在不中断音素信息的情况下,根据情感对特征向量进行聚类。这两种分类器都使用softmax层进行了优化,然后使用交叉熵损失。在音素分类器的情况下,在反向传播过程中通过梯度反转层乘以负标量来反转梯度
然后,令牌池层(Token-wise Pooling)通过在每个音素边界的范围内求平均值,将帧级序列转换为音素级序列。在这里,我们添加了两个辅助预测器,分别预测音高和能量。这些预测因子通过预测与情绪直接相关的副语言特征,使得聚类嵌入能够很好地反映情绪信息。使用均方误差(MSE)[21]损失优化辅助预测器
(((参考音频编码器除了把情绪作为标签外,把基频和能量等作为预测值反传是否也能对信息解离起到一定的效果???)))

3.2. Distance-based Emotion Intensity Quantization
在第二阶段,我们通过强度量化生成情绪强度伪标签和强度嵌入表。
如图1d所示,第k个情绪嵌入E-kj和中性嵌入项E-nj的两个簇被送入情绪强度提取器
其中j∈ {1,2,···,Nk} Nk是Ekj的总数。在这项工作中,我们对从参考编码器中提取的每个情感使用整个情感嵌入

为了提取合适的强度,我们引入了情感距离,它表示向量与中性情感质心的相对距离
两个假设
1中性情绪是其他情绪中强度最低的。
2情绪强度随着远离中性情绪而增加。

由于多维空间太不稳定,无法测量距离,情绪强度提取程序将提供的情绪嵌入到单个向量,实验选择了线性判别分析(LDA)[22]方法,这是一种对类敏感的投影方法。最优投影向量w∗ 通过最大化二元类LDA的目标函数得到
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

提取情感距离后,去除每种情感的异常值。通过最小-最大归一化,情感距离变为强度标量,其值介于0和1之间。这个强度标量以固定的间隔量化为NI大小的情绪强度伪标签。
在这里插入图片描述

  1. EXPERIMENTS AND RESULTS
    4.1 Experimental Setup
    在情感强度量化器中,对于每个情感,作为量化强度伪标签总数的NI被设置为16。在多说话人EmoQ TTS的情况下,我们在参考编码器中添加了一个带有GRL的说话人分类器,以去除情感嵌入中的说话人信息。

4.2. Model Performance
对照组:对于基线,我们使用了两种方法:TP-GST[8]和细粒度情感预测模型(FEP),前者预测文本中的全局风格嵌入,后者也预测文本中的音素级强度标量。

评价指标:MCD MOS RMSE 基于语音情感识别的外部模型计算情感分类器准确性
在这里插入图片描述

4.3. Emotion Controllability
为了展示控制情绪表达的能力,我们将音调和能量的趋势可视化
可以看出,即使在一个样本中,音高和持续时间也能根据情绪和强度很好地反映出来
在这里插入图片描述

4.4 ablation Study
此部分证明了LDA模型和强度量化策略的优越性
在这里插入图片描述

  1. CONCLUSION AND FUTURE WORKS
    本文提出了EmoQ-TTS,它通过预测音素方面的情感信息和细粒度的情感强度来合成富有表情的情感语音。为了在没有人为标记的情况下反映情感表达,我们提出了情感强度模型。此外,我们通过基于距离的量化强度伪标签和强度嵌入表实现了合成语音的鲁棒性。实验结果表明,EmoQ-TTS在情感表达方面具有优越性。此外,我们还证明了通过手动强度标签可以轻松控制情绪表达。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21575.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

专家担心 ChatGPT 很快会被用于毁灭性的网络攻击

听到这个新闻,我是挺震惊的,​ChatGPT 近几个月来风靡全球,但就在它以其技术能力让人们惊叹的同时,也有人对其潜在的滥用提出了担忧。 现在,似乎一些 IT 领导者担心它将很快被用于重大网络攻击,并有可能在未…

英文润色网站-英文质量改写改进软件

英文改写软件 英文改写软件是一种全新的工具,它可以方便快捷地对不同语种的图文内容进行批量改写和转换,包括但不限于英语、法语、德语、中文等。无论用户需要将哪种语言的文章进行改写和转换,都可以轻松实现。该软件支持任何文档格式和文本…

OpenAI Translator Bob Plugin Bob上一款翻译、润色、语法修改插件

OpenAI Translator Bob Plugin 一款可以在Bob进行即时翻译的插件。它基于 OpenAI 的 GPT 系列模型,能够提供高质量、准确的翻译服务。该插件支持多种语言的翻译,包括中文、英文、法语、德语、日语等。用户只需在页面中选中需要翻译的文本,然…

pg数据库数据导出

首先得在postgresql的安装包下找到bin目录,找到路径。其次在cmd下面,输入导出路径: 导出数据库的命令: > pg_dump -U postgres -h ip地址 数据库名> f:\data\数据库名.dump >口令:密码

如何进行数据的导出?

如何进行数据的导出? 以前有进行过填写资料并且把资料导出Excel表格,当时就觉得好神奇,又想知道这样的功能是怎么实现的,可是那时的头脑简单,没有知道答案,可是现在我终于知道为什么可以直接导出数据了&am…

图像搜索:以图搜图

以图搜图 随着数字时代的到来,单单的文字搜素已经无法满足人们的搜索了,图像搜索,甚至是视频搜索都已经比较成熟。本文大致讲解下图像搜索: 发展历程 原理 搜索项目:主要分为三个部分——图像特征抽取,构…

图片搜索引擎网站大全,以图搜图网站

当我们需要搜索一些图片的时候使用图片搜索引擎网站可以帮我们更快地找到自己需要的图片,那么有哪些图片搜索引擎网站可以搜索图片呢?下面小编就来和大家分享几个以图搜图的网站。 1.百度图片搜索引擎网站 百度是最大的中文搜索引擎,百度的图…

查找照片的来源

想要知道照片的来源,可以使用百度识图或其他识图工具,但得到的信息可能不多,不过还可以通过多种手段获取更多信息。 以以下照片为例,查找是哪家麦当劳。 (1).进入电脑pc端,右键单击照片&#xf…

如何使用谷歌“以图找图”图片搜索功能

谷歌不愧为搜索界的大佬,谷歌在前几个月开放了一个新功能,叫做“图像搜索”,也就是说,可以用图片搜索到图片,图片可以是网络链接的,也可以是上传的。有了这个功能后,人肉搜索 又上了一个新的层次…

BERT模型解析

1. 概述 Bidirectional Encoder Representation from Transformers(BERT)[1],即双向Transformer的Encoder表示,是2018年提出的一种基于上下文的预训练模型,通过大量语料学习到每个词的一般性embedding形式&#xff0c…

接入 GPT-4 的 AI 虚拟女友,一周狂挣 50 万!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 随着 ChatGPT 的爆火,互联网上也衍生出不少令人直呼脑洞大开的 AI 应用。 最近,国外一位名为 Caryn Marjorie 的小姐姐搞了个骚操作,基于 GPT-4 调教出来…

AI读心重磅突破登Nature!大脑信号1秒被看穿,还能预测未来画面

最近,来自洛桑联邦理工学院的研究团队提出了一种全新的方法,可以用AI从大脑信号中提取视频画面。论文已登Nature,却遭网友疯狂「打假」。 现在,AI不仅会读脑,还会预测下一个画面了! 利用AI,一个…

快看!这只猫两次登上 Github Trending !!!

前几天我在逛 Github Trending,无意间发现这个 Postcat 登上榜单 ! 好奇心驱使我去了解这个 Postcat。 近期它上新了几个有意思的插件,其中 ChatGPT 插件,用户可以直接省去复杂的流程,直接体验 ChatGPT,懂的都懂&#…

baichuan-7B模型介绍及微调

文章目录 baichuan-7B介绍baichuan-7B 推理baichuan-7B 微调使用微调后的模型推理 baichuan-7B介绍 2023年6月15日,搜狗创始人王小川创立的百川智能公司,发布了70 亿参数量的中英文预训练大模型——baichuan-7B。 baichuan-7B 基于 Transformer 结构&a…

与老范对谈:ChatGPT等AIGC技术对内容产业的影响和趋势判断

昨日,我和老范线下面基,用一下午的时间深入探讨了AIGC对内容产业影响的话题,这次聊天收获满满,我迫不及待将这次讨论的内容整理成了文章。但在这之前,请让我先介绍一下老范。 老范曾就职于盛大创新院、猎豹移动&#x…

安卓星座查询app

一款简单的星座查询app 运行截图&#xff1a; 代码部分&#xff1a; 采用listview&#xff0c;和intent跳转和intent传值实现该功能。 界面代码1&#xff1a; <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"h…

我开发的“小灵”,自认为比微软“小冰”好多了

不管是微软的刻意炒作&#xff0c;还是腾讯的出于安全的考虑&#xff0c;总之&#xff0c;东嫂捧出来的“小冰”就这么没了。这件事无论最后结果如何&#xff0c;微软肯定是达到目的了。这一搞&#xff0c;被微信封杀&#xff0c;卖卖萌&#xff0c;恶心一下微信&#xff0c;博…

pyqt实现聊天机器人

环境要求 通过调用openai接口实现聊天机器人功能&#xff0c;支持各种参数得调整&#xff0c;文章末尾有各个参数得说明 python3.9pyqt5环境安装 pip install pyqt5 pip install openai pip install pyinstaller源码如下&#xff1a; chat.py import sys from PyQt5.QtWid…

【微信聊天机器人】基于python实现的PC端个人微信聊天机器人

文章目录 前言一、运行环境二、使用步骤1.引入库2.根据文本内容自动生成回复3.接收消息的回调函数4.启动客户端5.程序入口 三、代码全文总结 前言 微信自动回复、聊天机器人应该是一个很多人迫切需要的功能&#xff08;如时间管理大师&#xff09;&#xff0c;网上能搜到的大多…

Python基于PC版微信实现机器人

在github中有基于web版的微信实现的实时收发消息api&#xff0c;python调用起来非常简单。但是目前来说&#xff0c;大部分的用户没法登录web版的微信&#xff0c;因此也就没法使用。 今天我们介绍基于windows版的微信&#xff0c;实现实时收发信息。本文站在巨人的肩膀上&…