THUHCSI人机语音交互实验室9篇论文被语音旗舰国际会议INTERSPEECH录用

2023年ISCA国际语音通讯学会年会(2023 Annual Conference of the International Speech Communication Association, INTERSPEECH 2023)将于2023年8月20日-24日在爱尔兰都柏林召开,清华大学人机语音交互实验室(THUHCSI)将在本次会议上发表9篇论文。这些论文涉及语音合成、语音识别、语音增强、语音分离、视频配音等多个研究领域。

01 Diverse and Expressive Speech Prosody Prediction with Denoising Diffusion Probabilistic Model

作者:Xiang Li, Songxiang Liu, Max M.Y. Lam, Zhiyong Wu, Chao Weng, Helen Meng

合作单位:腾讯 AI Lab、香港中文大学

论文主要创新点:本文针对表现力语音合成中的自动韵律控制,首次提出了一种基于去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)的语音韵律预测器(prosody predictor)。该预测器使用文本内容特征作为生成条件,基于 DDPM 的生成式建模框架完成从文本内容特征到韵律表征的建模。相较于现有的最小化韵律表征预测误差训练的方法,该方法不再受到对目标韵律特征分布的简化假设的限制,而是直接利用 DDPM 对韵律表征的概率分布进行建模;同时,由于 DDPM 的采样结果多样性,该方法可以实现在同一句输入文本上生成不同的韵律预测结果,避免了生成语音风格的同质化。在高表现力有声读物数据上的实验结果表明,将该预测器替换到 FastSpeech 2 语音合成框架中用于预测音素的韵律特征(即时长 duration、基频 pitch、能量 energy),可以有效改善对真实韵律特征分布的拟合效果,并改善现有方法中的过平滑问题。主观评测结果也显示,使用所预测的韵律表征控制合成的语音表现力得到了显著提升。

图片

包含基于 DDPM 的韵律预测器的 TTS 系统框架及训练、推理图示

 基于 DDPM 的韵律预测器的主客观评测结果

02 Towards Spontaneous Style Modeling with Semi-supervised Pre-training for Conversational Text-to-Speech Synthesis

作者:Weiqin Li, Shun Lei, Qiaochu Huang, Yixuan Zhou, Zhiyong Wu, Shiyin Kang, Helen Meng

合作单位:元象科技有限公司

论文主要创新点:本文针对自发风格的对话语音合成(Spontaneous-style Conversational TTS)提出了一种基于半监督预训练的自发现象建模方法,并加入一个语言学感知网络加强对话中的上下文信息建模。自发风格中包含很多不流畅的现象(例如:嗯、啊、尾音的延长等),这些副语言学特征称为自发现象,是自发风格TTS和阅读风格TTS的主要区别。但是高质量、带标签的自发风格数据集获取的成本太高,因此本文针对填充停顿(filled pause)和延长(prolongation)这两种自发现象提出了一种半监督预训练方法来增加自发现象标签的数量,利用高质量数据集训练一个标签检测器,从大量低质量数据集中提取伪标签,再用大量的低质量数据集对TTS模型进行预训练,最后用高质量数据集进行微调,加强TTS模型对自发现象的预测能力。对话中的语言学信息指的是对话中各个句子的联系,本文提出一个基于多头注意力机制的语言学感知网络来建模对话中的语言学信息,使得合成的音频更加自然。主观测评实验结果表明所提出的方法能提升模型建模和预测对话中自发现象的能力。

 所提方法的基本结构

图片

03 Prosody Modeling with 3D Visual Information for Expressive Video Dubbing

作者:Zhihan Yang, Shangsong Liu, Xu Li,

Haozhe Wu, Zhiyong Wu, Ying Shan, Jia Jia

合作单位:腾讯科技有限公司

论文主要创新点:自动视频配音任务是为了满足个人和行业对配音的需求而提出的。目前的方法大多关注时长匹配,忽略了韵律的同步性,缺乏表现力。在本文中,我们引入了3D视觉韵律建模来提高视频配音的表现力,3D视觉韵律被定义为3D空间中的表情和头部姿势,其优点是:1)与话语的语气和重音高度相关;2) 比2D图像更准确;3) 从诸如说话者身份之类的无关因素中解脱出来。我们提出了一种3D-VD(3D视频配音器)系统来结合3D视觉韵律,利用视觉文本逐步对齐器来控制生成的韵律。实验表明,该方法在自然度、唇语对齐以及视觉和听觉韵律的同步性方面优于以前只考虑2D人脸图像的方法。案例研究验证了表达和音高之间的相关性。

图片

所提方法的基本结构

04 ZeroPrompt: Streaming Acoustic Encoders are Zero-Shot Masked LMs

作者: Xingchen Song, Di Wu, Binbin Zhang, Zhendong Peng, Bo Dang, Fuping Pan, Zhiyong Wu

合作单位:地平线信息技术有限公司、

WeNet开源社区

论文主要创新点:在本论文中,我们介绍了ZeroPrompt(下图1(a))和相应的Prompt-and-Refine策略(下图3),这是两种简单但有效的无需训练的方法,用于降低流式自动语音识别(ASR)模型的令牌显示时间(TDT),而无需牺牲准确性。ZeroPrompt的核心思想是在推理过程中向每个chunk附加空白帧,空白帧充当了一种提示,以鼓励模型预测未来的单词。我们认为流式声学编码器自然具备Masked Language Models的建模能力,我们的实验表明ZeroPrompt在工程上是廉价的,并且可以应用于任何数据集上而不会造成准确性的损失。具体来说,与基准模型相比,我们在首个令牌显示时间(TDT-F)上实现了350至700毫秒的减少,在最后一个令牌显示时间(TDT-L)上实现了100至400毫秒的减少,并且在Aishell-1和Librispeech数据集上,在理论和实验上实现了相等的识别错误率(WER)。

图片

图片

05 SememeASR: Boosting Performance of End-to-End Speech Recognition Against Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge

作者:Jiaxu Zhu,Changhe Song,Zhiyong Wu,Helen Meng

合作单位:鹏城实验室、香港中文大学

论文主要创新点:本文提出了一个基于义原(Sememe)知识的语义增强的端到端语音识别模型,以提高模型对长尾数据的识别效果,并增强模型的领域泛化能力。根据语言学定义,义原是语言中的最小语义单元,能够非常显式地表示每个单词背后的隐式语义信息。考虑到基于知识驱动的方法能够有效缓解基于数据驱动方法带来的如长尾数据识别差等问题,我们在首次在语音识别任务中引入基于义原的知识。因此,本文使用了一系列方法把义原信息引入到端到端语音识别模型中。其中主要的是引入义原表征和文本表征进行结合,以提高文本的表征能力。其次是使用多任务训练方法,引入义原预测任务进一步加强模型对于义原知识的建模能力。我们的实验表明,引入语义信息可以提高语音识别的有效性。此外,我们的进一步实验表明,义原知识可以提高模型对长尾数据的识别。并增强模型的域泛化能力。

图片

所提方法的基本结构

06 Text-Only Domain Adaptation for End-to-End Speech Recognition Through Down-Sampling Acoustic Representation

作者:Jiaxu Zhu,Weinan Tong,Yaoxun Xu,Changhe Song,Zhiyong Wu,Zhao You,

Dan Su,Dong Yu,Helen Meng

合作单位:腾讯科技有限公司、鹏城实验室、

香港中文大学

论文主要创新点:本文面向使用新领域纯文本对端到端语音识别进行领域适应(Text-only Domain Adaptation)的工作,提出了一种新的语音模态和文本模态共享表征空间的方法。不同于之前的相关工作通过上采样文本表征和语音表征对齐的方法,我们通过引入Continuous integrate-and-fire(CIF)机制对声学表征进行下采样并与相应文本单调对齐,使得声学表征和文本表征长度一致。此外,我们引入拼音作为语音模态和文本模态的中间桥梁,让语音和文本两种模态映射到共同的表征空间。在使用新领域的纯文本进行领域适应时,我们利用文本转成拼音,并通过拼音编码器把拼音映射到和声学模态共享的表征空间,获得对应的表征以代替缺失的声学表征,从而在新领域对端到端语音识别模型的Decoder部分进行微调,达到提高语音识别模型在新领域上识别效果的目的。

图片

所提方法的基本结构

07 Focus on the Sound around You: Monaural Target Speaker Extraction via Distance and Speaker Information

作者:Jiuxin Lin, Peng Wang, Heinrich Dinkel, Jun Chen, Zhiyong Wu, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang

合作单位:小米科技有限公司

论文主要创新点:目标语音提取(Target Speaker Extraction,TSE)在语音增强和语音分离的某些应用场景中表现出优异的性能。然而,在存在显著混响的嘈杂环境中获取辅助说话人相关信息以及提取目标说话人语音仍然具有挑战性。受最近提出的基于距离的声音分离的启发,我们提出了NS-Extractor,它能够利用距离信息在不需要说话人信息注册的前提下,提取指定距离范围内的目标说话人语音。同时,我们引入全带与子带建模以增强我们的NS-Extractor在存在显著混响环境情况下的鲁棒性。在多个数据集上的实验结果表明了我们的改进的有效性以及我们所提出的NS-Extractor在不同应用场景中的出色性能。

图片

所提方法的基本结构

08 MC-SpEx: Towards Effective Speaker Extraction with Multi-Scale Interfusion and Conditional Speaker Modulation

作者:Jun Chen,Wei Rao,Zilin Wang,

Jiuxin Lin, Yukai Ju, Shulin He, Yannan Wang, Zhiyong Wu

合作单位:腾讯天籁实验室、香港中文大学

论文主要创新点:先前的SpEx+在说话人提取方面取得了出色的表现,引起了人们的广泛关注。然而,它仍然存在对多尺度信息和说话人嵌入的利用不足的问题。为此,本文提出了一种新的高效的说话人提取系统,该系统中包括多尺度融合机制和有条件的说话人调制(ConSM)机制,被称为MC-SpEx。首先,我们设计了权重共享的多尺度融合器(ScaleFusers),以有效地利用多尺度信息,并保证模型特征空间的一致性。然后,为了在生成掩模时考虑不同的尺度信息,我们提出了多尺度交互式掩模生成器(ScaleInterMG)。此外,我们还引入了ConSM模块,以充分利用语音提取器中的说话人嵌入。Libri2Mix数据集上的实验结果表明了我们的改进的有效性,并且,我们提出的MC-SpEx达到了最先进的性能。

图片

所提方法的基本结构

09 Gesper: A Restoration-Enhancement Framework for General Speech Reconstruction

作者:Wenzhe Liu, Yupeng Shi, Jun Chen, Wei Rao, Shulin He, Andong Li, Yannan Wang, Zhiyong Wu

合作单位:腾讯天籁实验室、中科院声学所

论文主要创新点:本文文描述了一个提交在2023年ICASSP的语音信号改进(SSI)挑战赛的实时通用语音重建(Gesper)系统。这一新提出的系统是一个两阶段的架构,在这一架构中,我们首先执行语音修复操作,随后紧接着进行语音增强。我们首次提出一个基于复数谱映射的生成对抗网络(CSM-GAN)作为第一阶段的语音修复模块。对于噪声抑制和去混响,增强模块采用全带-宽带并行处理。在ICASSP 2023 SSI挑战赛的盲测集上,本文所提出的的Gesper系统满足实时条件,获得了3.27 P.804的总体平均意见分数(MOS)和3.35 P.835的总体MOS,在track 1和track 2中均排名第一。

图片

所提方法的基本结构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/102193.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud教程 | 第四篇:断路器(Hystrix)

在微服务架构中,根据业务来拆分成一个个的服务,服务与服务之间可以相互调用(RPC),在Spring Cloud可以用RestTemplateRibbon和Feign来调用。为了保证其高可用,单个服务通常会集群部署。由于网络原因或者自身…

CentOS7安装部署Doris

文章目录 CentOS7安装部署Doris一、前言1.简介2.环境 二、正文1.Doris基础1)架构图2)通讯端口 2.部署服务器3.安装基础环境1)安装JDK 112)安装GCC3)设置文件句柄数4)关闭交换分区(swap&#xff…

Ruoyi安装部署(linux环境、前后端不分离版本)

目录 简介 1 新建目录 2 安装jdk 2.1 jdk下载 2.2 解压并移动文件夹到/data/service目录 2.3 配置环境变量 3 安装maven 3.1 进入官网下载最新的maven 3.2 解压并移动文件夹到/data//service目录 3.3 配置环境变量 3.4 配置本地仓库地址与阿里云镜像 4 安装git 4.…

SQL窗口函数

1、什么是窗口函数 窗口函数可以看作是在分区对记录执行操作的函数,窗口函数功能与group by相似,但不会改变记录行数,因此常用于排名,TopN操作。 2.窗口函数语法形式 窗口函数 over ([partition by 字段名] [order by 字段名]) …

java开源 VR全景商城 saas商城 b2b2c商城 o2o商城 积分商城 秒杀商城 拼团商城 分销商城 短视频商城 小程序商城搭建 bbc

​ 1. 涉及平台 平台管理、商家端(PC端、手机端)、买家平台(H5/公众号、小程序、APP端(IOS/Android)、微服务平台(业务服务) 2. 核心架构 Spring Cloud、Spring Boot、Mybatis、Redis 3. 前…

湖北黄石三维扫描文物保护修复文物建模3d打印-CASAIM中科广电

三维激光扫描技术在博物馆领域的运用,主要在以下3个方面:文物保护、文物数字化、虚拟博物馆。随着时间的流逝和人类活动的影响,文物不可避免地会受到来自自然或者人为的侵蚀和破坏。由于CASAIM三维激光扫描技术具有不用接触被测量目标、扫描速…

【AIGC】AI工具合集人脸动漫化,老照片修复和视频补帧工具

Paper2GUI: 一款面向普通人的 AI 桌面 APP 工具箱,免安装即开即用,已支持 40AI 模型,内容涵盖 AI 绘画、语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR 识别等领域。支持 Windows、Mac、Linux 系统。 小白兔AI 3.0版起永久免费A…

如何使用NLP库解析Python中的文本

Python是一种强大的面向对象的编程(object-oriented programming,OOP)语言,在人工智能领域有着广泛的用途。正是鉴于其实用性,以Google为首的大型科技公司,已经对其开发了Tensorflow等代码库,帮…

机器人制作开源方案 | 滑板助力器

我们可以用一块废滑板做些什么呢? 如今,越来越多的人选择电动滑板作为代步工具或娱乐方式,市场上也涌现出越来越多的电动滑板产品。 (图片来源:Backfire Zealot X Belt Drive Electric Skateboard– Backfire Board…

开源TTS+gtx1080+cuda11.7+conda+python3.9吊打百度TTS

一、简介 开源项目,文本提示的生成音频模型 https://github.com/suno-ai/bark Bark是由Suno创建的基于变换器的文本到音频模型。Bark可以生成极为逼真的多语种演讲以及其他音频 - 包括音乐、背景噪音和简单的声音效果。该模型还可以产生非言语沟通,如…

服务器安装centos7踩坑

1、制作启动工具 下载iso https://developer.aliyun.com/mirror/?spma2c6h.25603864.0.0.20387abbo2RFbn http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/?spma2c6h.25603864.0.0.1995f5ad4AhJaW下载 UltraISO https://cn.ultraiso.net/插入u盘启动 到了如图所示页面…

大数据分析案例-基于LightGBM算法构建糖尿病确诊预测模型

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

iPhone如何录屏?详细教程大揭秘(最新)

“iphone怎么录屏呀,有人知道吗?用了很久的iphone12了,却不知道录屏功能在哪里,现在需要用来录教程,找也找不到,有人知道iphone录屏在哪里吗?很急!” iphone作为一款备受欢迎的智能…

春秋云镜 CVE-2019-16692

春秋云镜 CVE-2019-16692 phpIPAM 1.4 - SQL Injection 靶标介绍 phpIPAM 1.4后台存在SQL Injection。 启动场景 漏洞利用 后台SQL注入,admin/admin888登陆成功。 exp POST /app/admin/routing/edit-bgp-mapping-search.php HTTP/1.1 Host: xxx.com Content-Le…

寻找重复数-快慢指针

给定一个包含 n 1 个整数的数组 nums ,其数字都在 [1, n] 范围内(包括 1 和 n),可知至少存在一个重复的整数。 假设 nums 只有 一个重复的整数 ,返回 这个重复的数 。 你设计的解决方案必须 不修改 数组 nums 且只用常…

selenium中处理验证码问题

验证码 基本作用:可以实现当前访问页面的数据安全性、还可以减少用户的并发数; 类型:1、纯数字、纯字母;2、汉字组合;3、数学运算题;4、滑动;5、图片(选不同的、选相同、成语顺序&…

学Python静不下来,看了一堆资料还是很迷茫是为什么

一、前言 最近发现,身边很多的小伙伴学Python都会遇到一个问题,就是资料也看了很多,也花了很多时间去学习但还是很迷茫,时间长了又发现之前学的知识点很多都忘了,都萌生出了想半路放弃的想法。 让我们看看蚂蚁金服的大…

ubuntu查看网速

使用speedomster测试网速 sudo apt-get install speedometer 查询需要测速的网卡 speedometer -r ens33 -t ens33 -r: 指定网卡的接收速度 -t: 指定网卡的发送速度 使用nload测试 sudo apt-get install nload 测速 nload -t 200 -i 1024 -o 128 -U M 参数含义&#xff0…

如何使用CSS实现一个响应式视频播放器?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 使用CSS实现响应式视频播放器⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅!这个专栏是为那些对Web开发感兴趣…

企业工程项目管理系统源码(三控:进度组织、质量安全、预算资金成本、二平台:招采、设计管理) em

​ 工程项目管理软件(工程项目管理系统)对建设工程项目管理组织建设、项目策划决策、规划设计、施工建设到竣工交付、总结评估、运维运营,全过程、全方位的对项目进行综合管理 工程项目各模块及其功能点清单 一、系统管理 1、数据字典&#…