技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成

这一篇内容将围绕语音识别与合成方向,继续为大家带来相关技术解析。

“风物长宜放眼量”。面向人机交互更加自然流畅的未来,智能语音技术进展如何?该走向何方?

以下内容根据讯飞研究院杰出科学家潘嘉在NCMMSC 2022上的主题演讲《科大讯飞语音技术前沿进展》整理。


技术专业度:⭐⭐⭐⭐⭐

目录

语音识别

1、主流框架均为自回归端到端建模

2、提出基于文本语音统一空间表达的非自回归ASR框架

3、进一步提出多元语义评价的多任务学习框架

语音合成

1、提出SMART-TTS

2、虚拟音色生成

语音识别

  • 主流框架均为自回归端到端建模

当前,基于自回归方式的端到端建模已经成为语音识别的主流框架。主要包含Attention-based Encoder-Decoder以及引入预测网络的Transducer结构。所谓自回归方式相当于在语音识别模型中引入了语言模型机制,其特点是预测当前识别结果需用等待先前历史的识别结果。

但是在真正大规模部署时,自回归的性质会影响并行程度和推理效率,因此我们思考是否能建立一个高准确率的非自回归的框架,便很自然想到了CTC(Connectionist temporal classification,连接时序分类)——作为非自回归的框架,其特性会将输出表现为尖峰的形式。

  • 提出基于文本语音统一空间表达的非自回归ASR框架

如果做汉字的CTC建模,其隐层表征能抓到汉字级别上下文的关系,除了时长不一样以外,与自然语言里mask恢复或纠错任务是非常接近的。

为了解决语音和文本长度不匹配问题,讯飞研究院设计了一种有效的方案,即在文本中增加blank等来实现帧级的扩展。最终实现的效果是加入海量的纯文本数据与语音字级CTC数据联合训练后,将文本数据里包含的上下文语言模型类似信息吸收到整个模型中,结果也证明并不逊色于自回归的ED和Transducer,甚至更好。

  • 进一步提出多元语义评价的多任务学习框架

同时,讯飞研究院进一步提出了多元语义评价的多任务学习框架来提高语音识别的可懂度。看上图左边,虽然识别率达到了93%,但其中一些关键部分识别错误影响了理解。

我们在字级CTC后又接了一些层,将其收到句字级的表征之后去做意图分类、语法评价等目标,希望整句话除了识别结果高之外,还能在意图上等较好地分类,提高语音识别系统的可懂度。

语音合成

  • 提出SMART-TTS(Self-supervised Model Assisted pRosody learning for naTural Text To Speech)

近几年围绕语音合成通用框架所做的工作很丰富,例如VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)这种端到端建模,以及韵律表征等。

讯飞研究院提出了SMART-TTS框架,核心思路就是将语音合成的学习过程进行模块化拆解,通过预训练加强各个模块学习,而非一开始就直接学习文本与声学特征的映射。

首先做文本编码预训练。通过将文本先和语音联合在一起做预训练,希望在文本的表征里就能包含一些跟发音韵律相关的信息,在此基础上再做韵律建模、提取韵律表征相对就容易一些。

除了传统的基频能量或时长等一些人为设计的统计特征,我们用对比学习的方式提取韵律特征,使得对语音韵律的表征能力更强。

有了韵律特征之后,我们再去恢复最终的声学特征,声学特征用到了VAE等一些编码,在编码的基础上通过声码器最终去恢复它的语音。

目前,SMART-TTS已经上线讯飞开放平台,在学习强国、讯飞有声APP中都可以直接体验到其语音合成效果。

关于讯飞在线语音合成技术的更多应用信息点击查看:

在线语音合成_免费试用-讯飞开放平台

  • 虚拟音色生成

除了SMART-TTS之外,讯飞研究院还在语音合成领域做了另外一项工作:虚拟音声的生成。

元宇宙是当下很火的一个话题,元宇宙空间中NPC(non-player character,非玩家角色)可以说无处不在。如果NPC的语音跟自己的人设不符,会很明显影响我们的体验感受。而面对海量的NPC,想要为每个NPC都寻找合适的发音人是极为费时费力的一件事。

同样的情况也出现在有声小说中,繁多的角色如果用同一个声音朗读,会让我们感觉比较乏味。怎样才能贴合每个角色的性格去实现声音的“角色扮演”呢?

虚拟音色生成,就是将海量说话人的语音联合在一起训练语音合成模型首先通过音色编码模块提取说话人的相关表征,这些表征是为了说话人识别服务的,在音色空间构成上是区分性的表征,不像生成式模型在空间层面有很多内插等的属性。因此,我们通过流模型将音色表征进一步投影到新的隐层表征空间,将这个空间的表征和前面的文本表征、韵律表征联合做语音合成。

因为在训练时会有非常多说话人的数据,且训练时还会标出一些说话人的音色特征标签,例如年龄、性别、特点(甜美、浑厚等)等,有了这些标签引导后使得最后的音色空间表征Z具有很强的指示性,同时还具有很好的内插等属性。

有了相关模型后,使用就变得更加简单了。我们可以输入一些希望生成的语音,例如“青年 甜美的女声”等,然后通过语义编码模块训练一个和Z的映射关系,最后可以根据采样得到符合音色控制标签的音色。

目前我们已经用这一模型生成了500多个虚拟的合成音色,合成语音自然度超过了4.0MOS。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66184.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python人机对话:探究开发中的人工智能交互

Python 人机对话:探究开发中的人工智能交互 随着人工智能领域的不断发展,人机对话已经成为了一个不可避免的趋势。在Python开发中,人机对话技术已经得到了广泛的应用。在这篇文章中,我们将探究Python人机对话的基本原理、应用场景…

chatgpt赋能python:Python人机对话中的性别年龄名字

Python人机对话中的性别年龄名字 在Python人机对话中,获取用户的性别、年龄和名字信息对于定制化的用户体验非常重要。本文将介绍如何使用Python编写代码来获取用户的性别、年龄和名字信息,以及如何使用这些信息来改善用户体验。 性别 获取用户的性别…

chatgpt赋能python:编写程序实现人机对话python

编写程序实现人机对话python 介绍 人机对话在现代技术中越来越常见,随着语音识别和自然语言处理技术的不断进步,程序可以更加容易地和用户进行交互。本文将介绍如何使用Python编写程序实现人机对话。 准备工作 在开始编写人机对话程序之前&#xff0…

chatgpt赋能python:Python简单人机对话—一种交互式的编程体验

Python简单人机对话—一种交互式的编程体验 Python是一种高级编程语言,它与其他编程语言相比,更为简单易学。Python之所以广受欢迎,是因为它具有非常优秀的人机交互能力,可以轻松地进行人机对话。在Python中,我们可以…

chatgpt赋能python:Python简单的人机对话代码

Python简单的人机对话代码 Python是一种非常流行的编程语言,因为它易于学习和使用,而且非常灵活。其中一个应用是它可以用来创建交互式人机对话代码,这种代码可以让用户轻松地与计算机进行交互并获取所需的信息。在本文中,我们将…

关于数据治理ChatGPT是如何回答的?

这两天你的朋友圈是不是被火爆全网的ChatGPT霸屏了? 你是不是已经迫不及待感受过ChatGPT带来的惊喜? 那你知道ChatGPT是什么吗? 面对掀起的一波话题热潮,好奇使然,小编去特别关注了一下最近火热的ChatGPT,看…

马斯克狠狠地给马云上了一课 | 对话全文实录

来源| ifanr、洞见沙龙 在2019世界人工智能大会(WAIC)上,马云和埃隆 马斯克进行了一场对话。 结果,对话变成一场围绕人工智能、宇宙、教育、人类命途等问题的科普课。 马斯克的讲话极具启发性、前瞻性。相比之下,商人…

使用APICloud 科大讯飞SDK快速实现语音识别功能

语音识别功能已经是一个很普及的功能,在特定情境下,能带给人们方便的交互的体验,比如驾驶时使用语音进行唤醒手机,各类智能音响产品,语音控制智能电视等。本文主要介绍在APICloud平台使用科大讯飞的SDK快速实现语音识别…

Android 科大讯飞、语音听写集成指南

前提说明:讯飞SDK与appID(后台申请)是一一对应的、否则就会导致初始化不成功! 1、创建appID并下载SDK(没有账号的先行注册) https://console.xfyun.cn/app/myapp 创建完成后、如图 下载解压包 simple就是…

tp中如何调用科大讯飞的语音转写

1.首先注册科大讯飞(https://www.xfyun.cn/),拿到语音转写的APPID以及SecretKey 2.将我的压缩包放到tp的扩展类库目录(extend)中。解压 3.在控制里面的调用方式 重点注意: 1.一定要是科大讯飞语音转写的A…

android语音识别之科大讯飞语音API的使用

Android系统本身其实提供有语音识别模块,在它的APIDemo里也有关于语音识别的sample,不过经过大多开发者的真机测试,发现很多真机并不能使用哪个sample,在网上查找了一下原因,大部分是因为开发者在刷机的时候&#xff0…

如何调教ChatGPT,让它成为生产力工具

我希望您充当 Graphviz DOT 生成器,创建有意义的图表的专家。该图应该至少有 n 个节点(我在我的输入中通过写入 [n] 来指定 n,10 是默认值)并且是给定输入的准确和复杂的表示。每个节点都由一个数字索引以减少输出的大小&#xff…

3月18日英超两场足球比赛分析推荐

不知不觉文章分析的场次推荐已经4连红,昨日文章写的纽卡没有问题,扫盘中错的两场实属无奈,比勒费前半场领先2球优势被最后一分钟点球扳平。海牙带球入场结果后半场乏力被打穿!球场上就是这么变化莫测,让人悲伤让人疯狂…

足球胜平负数据这样分析竞猜准确率超高,你敢相信吗?

作为足球爱好者和竞猜玩家,使用一款好用的工具软件能够帮助我们更全面地分析比赛数据和情况, 提高我们的赛事预测准确率。因此,选择一款最好用的足球胜平负竞猜分析工具软件是我们必须要做的事情。下面我为大家介绍一款非常好用的数据分析工具…

周鸿祎自传

​ 1.那共通之处就是——人们如何在没有前车之鉴的判例中进行决策,又如何在泰山压顶般的压力之下做出最优的判断。对于创业者来说,每一天都是压力测试。----决策 2.真正的勇敢,并非骁勇善战&am…

马斯克回应多年前嘲笑比亚迪;360 周鸿祎训练数字人代替演讲;微软发布自己的 Linux | 极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

史上最全最详细的多语言调用 3.5 Turbo 的 API 教程(持续更新中)

3.5 Turbo 模型是 Chat 所使用的模型,现 OpenAI 已正式开放 Chat 的 API 能力供广大开发者使用,它可以提供超高准确性、可靠性和可扩展性,让机器学习和自然语言处理的开发者以极低的成本获取精准的结果。 那么我们如何通过API 的方式调用 3.…

寻找新奇有趣的AI工具合集,一个网站就够了

随着ChatGpt横空出世,越来越多的AI工具涌现出来,利用这些工具,我们就可以玩转智能办公,尽享高效快捷。那么,我们从哪里可以即时获取到这些产品的信息呢?又如何调兵遣将,化种类繁多的AI工具为各种…

云炬Android开发笔记 17商品详情功能开发

阅读目录 1.商品详情ui框架设计 1.1 自定义圆形控件 1.2 底部栏的布局 1.3 整体布局 2.商品详情UI-MD风格伸缩渐变效果实现 2.1 ui的绑定 2.2 服务器中商品详情页的数据的取出 3.商品详情页的中间信息的完善 4. 商品详情页下部滑动Tab页面的实现 4.2 填充的ImageDele…

chatgpt赋能python:Python怎么断行-让代码更易读

Python怎么断行 - 让代码更易读 大多数Python程序员都知道,代码可读性非常重要。好的代码应该易于阅读和理解,而不是让人困惑和痛苦。 然而,我们经常会发现一些Python代码在一行中拥挤着多个表达式、长变量名混杂其中,让人感到相…