用语言模型探索语音风格空间:无需情感标签的情 感TTS

用语言模型探索语音风格空间:无需情感标签的情感TTS

原文:Exploring speech style spaces with language models: Emotional TTS without emotion labels

今天我们要说的是 一种无需情感标签的情感TTS。提出了一个基于FastSpeech2的E-TTS框架,该框架经过两个阶段的训练,直接从未标注情感的训练数据中学习情感表示。我们利用风格标记构建情感风格空间,并使用微调后的BERT模型有效探索此空间。
下面先来看一下这个两阶段训练方法,
第一阶段:构建情感样式空间,
训练声学模块,包括文本、方差适配器、解码器和GST网络(由参考编码器和样式嵌入组成),如图1所示。编码器将音素嵌入转换为音素隐藏序列,而方差适配器则引入引入了音高、时长和能量的变化。解码器然后将这个隐藏序列翻译成梅尔频谱图输出
第二阶段:使用语言模型探索样式空间
第二阶段包括三个模块,
情感数据修剪: 为了捕捉语音-文本对之间的情感关联,我们使用微调后的DistilRoBERTa-base语言模型,从文本中预测情感类别概率。对于每个样本,我们使用该模型计算主导情感。如果主导情感类别的概率超过实验选择的阈值Pth,则将该样本包含在第二阶段的训练数据集中。这和我之前在群里说的用分类器收集语音很像哦(识别是正常人的语音舍弃,构音障碍的语音就收录。)
情感文本嵌入:为了表示文本中的情感内容,我们使用微调后的DistilRoBERTa-base语言模型的最后一层的平均池化提取情感文本嵌入。
适配模块:我们建立了文本中情感上下文与语音中情感韵律之间的情感关联。可以看图2 主要是 对情感样式空间和情感文本嵌入空间的可视化及概念链接。
然后,看一下实验,
我们使用两个数据集的组合训练TEMOTTS的第一阶段:LJSpeech和情感TTS数据集。将数据集
划分为训练集、验证集和测试集,比例为1.8:1:1 。
对于第二阶段,我们使用情感数据修剪方法来选择情感数据集[35]的一个子集。
对于评估,我们使用GPT-3 生成的句子创建两个测试集。第一组包含随机生成的句子,用于评估词错误率(WER)和字符错误率(CER)。第二组包含高情感内容丰富的句子,旨在评估模型的情感文本感知能力。
评估又包括了 客观评估 和主观评估。
对于客观评估
为了评估模型合成情感语音的能力,我们在情感TTS数据集上微调Wave2Vec2.0 [39] 训练了一个SER。我们使用GPT3 [14] 合成每个情绪类别(愤怒、快乐、中立、悲伤)的50个句子。我们使用训练好的SER评估模型从文本合成预期情感的能力。
对于主观评估
可以看到这两个折线图,只有这个模型是最接近真实值的。

引言

研究背景

  • 许多情感文本转语音(E-TTS)框架依赖于人工标注的情感标签,这些标签往往不准确且难以获取。
  • 情感韵律的学习具有挑战性,因为情感本身具有主观性。

研究目标

  • 提出一种无需明确情感标签或文本提示的新型E-TTS方法TEMOTTS。
  • 展示该方法在情感准确性和自然度方面的改进。

相关工作

减少情感标签使用的研究

  • 数据集标注成本高,限制了E-TTS研究的发展。
  • 半监督学习等方法被用于减少情感标签的数量。
  • 本文强调通过文本感知的方法来利用音频-文本对中的内在情感联系。

文本感知TTS

  • 探索利用文本学习韵律表示的研究,如TP-GST和MsEmoTTS。
  • 使用BERT等语言模型增强韵律建模和情感表示。
  • 最近的研究尝试减少风格文本输入和参考语音之间的模态差距。

TEMOTTS框架

在这里插入图片描述

阶段一:构建情感风格空间

  • 训练声学模块,包括文本编码器、方差适配器、解码器和GST网络。
  • GST网络由参考编码器和风格嵌入组成,用于为各种说话风格条件化TTS模型的编码器。
  • 模型隐式学习代表情感的说话风格。
    在这里插入图片描述

阶段二:使用语言模型探索风格空间

情感数据剪枝
  • 使用细调的DistilRoBERTa-base语言模型预测文本的情感类别概率。
  • 如果主导情感的概率超过阈值Pth,则将样本纳入训练数据集。
情感文本嵌入
  • 提取情感文本嵌入,使用均池化从细调的语言模型最后一层中获得。
适应模块
  • 建立文本情感上下文与语音情感韵律之间的情感关联。
  • 通过t-SNE可视化情感风格空间和情感文本嵌入空间的关系。
  • 引入适应模块,将情感文本嵌入映射到相应的情感风格表示。

推理阶段

  • 推理时仅需文本作为输入,生成情感文本嵌入。
  • 预测GST权重,访问由风格令牌构建的情感风格空间。
  • 合成文本感知的情感语音。
    -在这里插入图片描述

实验结果

在这里插入图片描述

客观评估

  • 计算CER和WER以评估合成语音的可理解性。
  • 使用SER评估模型合成预期情感的能力。
  • 结果显示,TEMOTTS在情感准确性和表达能力上优于基线模型。
    在这里插入图片描述

主观评估

在这里插入图片描述

  • 进行听觉实验评估语音质量和合成文本感知情感语音的能力。
  • MOS评估表明,TEMOTTS在自然度方面表现更好。
  • BWS测试显示,TEMOTTS在合成文本-情感准确性方面表现最佳。

结论

  • TEMOTTS克服了人工标注情感标签和情感韵律学习复杂性的挑战。
  • 利用文本感知获取情感风格,消除了训练时对明确情感标签的需求和推理时的辅助输入。
  • 实验展示了在情感准确性、自然度和可理解性方面的显著改进。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16515.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Ubuntu2404搭建k8s-1.31集群

k8s 1.31 环境初始化安装Container安装runc安装CNI插件部署k8s集群安装crictl使用kubeadm部署集群节点加入集群部署Calico网络配置dashboard 本实验基于VMware创建的Ubuntu2404虚拟机搭建k8s 1.31版本集群,架构为一主一从,容器运行时使用Container&#…

linux的三剑客和进程处理

Linux三剑客: grep:查找 sed:编辑 awk:分析 grep - 正则表达式 [rootlocalhost ~]# grep ^a hello.txt abc grep - 忽略大小写,还有一些场景需要查询出来对应字符串所在的行号,方便我们快速在文件中定位字…

渗透利器:Burp Suite 联动 XRAY 图形化工具.(主动扫描+被动扫描)

Burp Suite 联动 XRAY 图形化工具.(主动扫描被动扫描) Burp Suite 和 Xray 联合使用,能够将 Burp 的强大流量拦截与修改功能,与 Xray 的高效漏洞检测能力相结合,实现更全面、高效的网络安全测试,同时提升漏…

时间序列分析(三)——白噪声检验

此前篇章: 时间序列分析(一)——基础概念篇 时间序列分析(二)——平稳性检验 一、相关知识点 白噪声的定义:白噪声序列是一种在统计学和信号处理中常见的随机过程,由一系列相互独立、具有相同…

CEF132编译指南 MacOS 篇 - 构建 CEF (六)

1. 引言 经过前面一系列的精心准备,我们已经完成了所有必要的环境配置和源码获取工作。本篇作为 CEF132 编译指南系列的第六篇,将详细介绍如何在 macOS 系统上构建 CEF132。通过配置正确的编译命令和参数,我们将完成 CEF 的构建工作&#xf…

deepseek + kimi 高效生成PPT

1.在deepseek中生成ppt大纲 2.将大纲复制到kimi中生成PPT kimi:https://kimi.moonshot.cn/

CSS 属性选择器详解与实战示例

CSS 属性选择器是 CSS 中非常强大且灵活的一类选择器,它能够根据 HTML 元素的属性和值来进行精准选中。在实际开发过程中,属性选择器不仅可以提高代码的可维护性,而且能够大大优化页面的样式控制。本文将结合菜鸟教程的示例,从基础…

【嵌入式Linux应用开发基础】read函数与write函数

目录 一、read 函数 1.1. 函数原型 1.2. 参数说明 1.3. 返回值 1.4. 示例代码 二、write 函数 2.1. 函数原型 2.2. 参数说明 2.3. 返回值 2.4. 示例代码 三、关键注意事项 3.1 部分读写 3.2 错误处理 3.3 阻塞与非阻塞模式 3.4 数据持久化 3.5 线程安全 四、嵌…

进程状态

目录 1.进程排队 硬件的队列 进程排队 2.进程的三大状态 什么是状态 运行状态 阻塞状态 挂起状态 3.Linux系统中的进程状态 4.僵尸状态 5.孤儿进程 1.进程排队 硬件的队列 计算机是由很多硬件组成的,操作系统为了管理这些硬件,通常需要为这…

项目复盘:提炼项目成功与失败的经验

项目复盘,顾名思义,就是在项目结束后,对整个项目过程进行全面、系统、深入的回顾与总结。它不仅仅是对项目成果的简单评价,更是对项目执行过程中所有细节、决策、挑战与解决方案的深入剖析。通过复盘,我们可以清晰地看…

Rhel Centos环境开关机自动脚本

Rhel Centos环境开关机自动脚本 1. 业务需求2. 解决方法2.1 rc.local2.2 rc.d2.3 systemd2.4 systemd附着的方法2.5 tuned 3. 测试 1. 业务需求 一台较老的服务器上面业务比较简单,提供一个简单的网站,但已经没有业务的运维人员. 想达到的效果: 由于是非标准的apache或者nginx…

网络安全威胁是什么

1.网络安全威胁的概念 网络安全威胁指网络中对存在缺陷的潜在利用,这些缺陷可能导致信息泄露、系统资源耗尽、非法访问、资源被盗、系统或数据被破坏等。 2.网络安全威胁的类型 物理威胁系统漏洞威胁身份鉴别威胁线缆连接威胁有害程序危险 (1&#x…

网络工程师 (30)以太网技术

一、起源与发展 以太网技术起源于20世纪70年代,最初由Xerox公司的帕洛阿尔托研究中心(PARC)开发。最初的以太网采用同轴电缆作为传输介质,数据传输速率为2.94Mbps(后发展为10Mbps),主要用于解决…

Java 循环结构进阶

二重循环 1.一个循环体内又包含另一个完整的循环结构 2.外城循环变量变化一次,内层循环变量要变化一遍。 二重循环-冒泡排序

SSL域名证书怎么申请?

在数字化时代,网络安全已成为企业和个人不可忽视的重要议题。SSL(Secure Sockets Layer,安全套接层)域名证书,作为保障网站数据传输安全的关键工具,其重要性日益凸显。 一、SSL域名证书:网络安…

玩转观察者模式

文章目录 什么是观察者模式解决方案结构适用场景实现方式观察者模式优缺点优点:缺点:什么是观察者模式 观察者模式通俗点解释就是你在观察别人,别人有什么变化,你就做出什么调整。观察者模式是一种行为设计模式,允许你定义一种订阅机制,可在对象事件发生时通知多个“观察…

使用mermaid画流程图

本文介绍使用mermaid画流程图,并给出几个示例。 背景 目前,除有明确格式要求的文档外,笔者一般使用markdown写文档、笔记。当文档有图片时,使用Typora等软件可实时渲染,所见即所得。但如果文档接收方没有安装相关工具…

【JVM详解四】执行引擎

一、概述 Java程序运行时,JVM会加载.class字节码文件,但是字节码并不能直接运行在操作系统之上,而JVM中的执行引擎就是负责将字节码转化为对应平台的机器码让CPU运行的组件。 执行引擎是JVM核心的组成部分之一。可以把JVM架构分成三部分&am…

Vim操作笔记

注:本篇文章是追加笔记,用于记录自己的常用操作。 将文本中A字符串替换成B字符串 基本语法: :{范围}s/{目标}/{替换}/{标志} 作用范围 分为前行(:s)、全文(:%s)、选区(:start,ends)等。选区可以在Visual模式下选择区域后输入&#xff1a…

Linux之kernel(1)系统基础理论(2)

Linux之Kernel(1)系统基础理论(2) Author: Once Day Date: 2025年2月10日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: Linux内核知识_Once-Day的…