听见文本的魅力:AI 与未来的语音交互

AI 与未来的语音交互

      • 引言
      • 什么是文本转语音(TTS)?
      • 当前 TTS 技术现状
      • 国内海外文本转语音能力调研
      • 文本转语音能力说明
        • 多情感风格
        • SSML语音合成标记语言
      • 未来趋势

引言

随着人工智能(AI)技术的迅猛发展,文本转语音(Text-to-Speech, TTS)技术逐渐进入了我们的日常生活中。
已广泛应用于不限于以下示例场景:

  • 流式语音实时翻译对话;
  • 非流式语音对话机器人一问一答式对话;
  • 类似豆包、Kimi等AI工具的智能助手;
  • 用户友好的功能引导提示;
  • 游戏NPC交互;
  • 儿童读物;
  • 影视配音;
  • 电子书;

什么是文本转语音(TTS)?

文本转语音(TTS)是一种将书面文本转换为语音的技术。用户可以通过输入文本,利用 TTS 系统生成听起来自然流畅的语音。TTS 系统通常由以下几个主要组件组成:

  1. 文本分析:解析输入的文本,识别分词、语法、标点和其他语言特征。
  2. 语言处理:根据语言特征,将文本转换为音素(phonemes)和音节(syllables)。
  3. 语音合成:将音素和音节转换为实际声音,通常采用预录音频或合成方式。

当前 TTS 技术现状

  1. 神经网络与深度学习:近年来,随着神经网络和深度学习技术的突破,TTS 的质量得到了显著提升。尤其是 WaveNet、Tacotron 和 FastSpeech 等模型,在合成的自然度和表现力上远超传统 TTS 系统。这些模型能够生成更加流畅、自然的语音,甚至模仿特定说话者的音色。

  2. 多语言支持:现代 TTS 系统已支持多种语言,适应全球用户需求。许多大厂商的 TTS 技术能够处理包括中文、英文、西班牙文等多种语言,并且提供不同地区的口音和方言。

  3. 个性化语音:个性化语音合成技术的出现,使得用户可以定制语音特征,如音调、语速和情感风格。这种个性化的体验在教育和娱乐等领域尤为重要。

国内海外文本转语音能力调研

三方厂商服务多音色SSML标记语言多情感Emotion语速rate音调pitch音量volumeAPI价格备注
出门问问魔音工坊标准音色:100元/百万字符;精品音色:300元/百万字符支持多情感,国内语音合成效果非常好的一款产品,英文语音效果亦佳
阿里云TTS1.80元/千次部分中文音色支持多情感,英文音色不支持多情感
腾讯云语音合成标准音色:0.2元/万字符; 精品音色:0.3元/万字符英文不支持多情感
火山云语音技术5.5元/千次慵懒女声-Ava、情感女声-Lawrence、亲切女声-Anna支持通用、开心、悲伤、生气、害怕、厌恶、惊讶等情感。男声不支持多情感
科大讯飞TTS 1、会员月/45元,权益-80次/天;2、单次付费120字5元;2150字10元;51100字20元;101300字30元;3011000字45元;10015000字78元;5001~20000字168元;图形化操作不支持API,英文不支持多情感
Elevenlabs$99/500min;$330/2000min/英文场景优先推荐,英文音色效果很好;多情感需要文本中包含情感描述,导致合成语音存在情感描述。对情感类支持灵活性低。
Google Cloud标准语音:$4.00/100万字符Neural2 语音:$16.00/100万字符英文语音效果好,可通过SSML实现语音控制
Azure AI$15.00/100万字符英文场景优先推荐,英文音色效果很好;支持多情感音色
AWS Polly标准语音:$4.00/100 万字符; 神经语音:$16.00/100 万字符多情感,只能通过选择不同的音色,配置不同的语速和语调,来表达积极或失落的情感
ArtList$11.99/月,50,000积分(约1个小时音频)语音效果较好。支持多情感,但情感分类较少。图形化操作不支持API
Play.ht$49.00/月,25万字符需要通过声音参数表现力稳定性、声音相似性、情绪强度来调整语音设置;类似elevenlabs,对情感类支持灵活度较低。

文本转语音能力说明

在这里插入图片描述
此处以出门问问的序列猴子开放平台音色为例,介绍下音色主要的能力。
首先音色有分类,男声、女声、儿童、青年、中年、老年、中文、英文、韩语、法语这些最基本的大类。

  • 音色
    每个人的音色都不一样,不同的AI音色也不一样
  • 语速
    控制指定音色制作语音讲话的快慢
  • 音调
    控制指定音色制作语音的音调大小
  • 音量
    控制指定音色制作语音的音量大小
多情感风格

然后重要介绍下音色的多情感风格,训练出一款好的AI音色不局限于一种中性风格。例如出门问问会支持开心、难过、惊喜、生气、呢喃、新闻等各种情感色彩;Azure会支持友好、充满希望、柔和等情感风格;
一个普通的AI模型是没有感情色彩的,通常为中性,通过中性音色制作的语音,听起来有明显的AI感、机械化没有感情色彩。一个支持多情感的音色,是可以处理短文故事文案中各种复杂场景的,且语音合成没有AI感,更接近真实的人声。

此处以Azure AI语音Style为例。

情感风格风格描述
friendly表达一种愉快、怡人且温暖的语气。 听起来很真诚且满怀关切。
hopeful表达一种温暖且渴望的语气。 听起来像是会有好事发生在说话人身上。
whispering表达一种柔和的语气,试图发出安静而柔和的声音。
empathetic表达关心和理解。
chat表达轻松随意的语气。
serious表达严肃和命令的语气。 说话者的声音通常比较僵硬,节奏也不那么轻松。
excited表达乐观和充满希望的语气。 似乎发生了一些美好的事情,说话人对此满意。
SSML语音合成标记语言

正常语音合成输入纯文本即可,语音合成引擎内部会使用基于规则或者统计学习模型的方法,去做文本分析,尝试预测合理的注音和韵律等。
使用SSML标签标记文本中的关键文字,可以指定文字的发音、语速、停顿、多音字处理、情感风格等。提到这些功能,大概可以知道SSML标签可以更加细化的控制我们的语音合成效果。实际生产过程中对制作语音要求高的场景,往往建议你通过SSML标签来控制。

示例:

9月10日,庆祝2019年教师节暨全国教育系统先进集体和先进个人表彰大会在京举行。
XXX在XXX亲切会见受表彰代表,向受到表彰的先进集体和先进个人表示热烈祝贺,向全国广大教师和教育工作者致以节日的问候。

文本转语音API调用:

{"signature": "appkey+secret+timestamp的MD5值","timestamp": "1665717322","appkey": "开发者应用appkey","speaker": "cissy_meet","ignore_limit": true,"gen_srt": true,"audio_type": "mp3","text": "910日,庆祝2019年教师节暨全国教育系统先进集体和先进个人表彰大会在京举行。
XXXXXX亲切会见受表彰代表,向受到表彰的先进集体和先进个人表示热烈祝贺,向全国广大教师和教育工作者致以节日的问候。","speed": "1.0"
}

SSML标签处理后示例:
此处对"教师节"制定了读音及读第几声。通过break控制停顿500ms。更多能力请参考官方文档语音合成标记语言SSML使用说明

<speak version="1.0" xml:lang="zh-CN" xmlns="http://www.w3.org/2001/10/synthesis">9月10日,庆祝2019年<w phoneme="jiao4 shi1 jie2">教师节</w>暨全国教育系统先进集体和先进个人表彰大会在京举行。<break time="500ms" />XXX在XXX亲切会见受表彰代表,<break time="500ms" />向受到表彰的先进集体和先进个人表示热烈祝贺,<break time="500ms" />向全国广大<p phoneme="jiao4"></p>师和教育工作者致以节日的问候。</speak>

文本转语音API调用:

{"signature": "appkey+secret+timestamp的MD5值","timestamp": "1665717322","appkey": "开发者应用appkey","speaker": "cissy_meet","ignore_limit": true,"gen_srt": true,"audio_type": "mp3","text": "<speak version=\"1.0\" xml:lang=\"zh-CN\" xmlns=\"http://www.w3.org/2001/10/synthesis\">9月10日,庆祝2019年<w phoneme=\"jiao4 shi1 jie2\">教师节</w>暨全国教育系统先进集体和先进个人表彰大会在京举行。<break time=\"500ms\" />XXX在XXX亲切会见受表彰代表,<break time=\"500ms\" />向受到表彰的先进集体和先进个人表示热烈祝贺,<break time=\"500ms\" />向全国广大<p phoneme=\"jiao4\">教</p>师和教育工作者致以节日的问候。</speak>","speed": "1.0"
}

未来趋势

  1. 更自然的语音生成:目前的语音合成很多时候虽然还是被吐槽一听就有AI感,但是已存在部分厂商的音色去AI感了。未来的 TTS 技术将继续朝着更高的自然度和声音表现力发展,甚至可能实现像人声一样真实的交互。
  2. 专属AI语音模型训练:目前已经很多厂商在做训练用户专属的AI语音模型,并已经作为功能开放出来,供开发者训练指定音色模型,比如我们投喂姚明的大量的语音资源,可以训练出姚明的音色模型出来。
  3. 情感语音合成:随着情感计算技术的发展,TTS 将能够生成不同情感的语音,自动分析前后文,动态的切换感情色彩,提升人机交互的情感表达能力。
  4. 跨模态学习:结合图像、视频和文本等多种模态的信息处理,未来的 TTS 系统将能够更好地理解上下文,从而生成更恰当的语音输出。
  5. 隐私与安全:随着个人语音数据的增加,确保用户隐私和数据安全将成为 TTS 技术发展的重要课题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/456942.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV视觉分析之运动分析(4)背景减除类:BackgroundSubtractorKNN的一系列set函数的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 BackgroundSubtractorKNN类有一系列的set函数&#xff0c;下面我们一一列举他们的名字和用法。 一系列set函数 函数setDetectShadows() setDe…

笔记整理—linux驱动开发部分(1)驱动梗概

驱动可以分为广义上的和狭义上的驱动。广义上的驱动是用于操作硬件的代码&#xff0c;而狭义上的驱动为基于内核系统之上让硬件去被操作的逻辑方法。 linux体系架构&#xff1a; 1.分层思想 &#xff1a;在OS中间还会有许多层。 : 2.驱动的上面是系统调用&#xff08;API&…

JavaScript网页设计案例教程:从零开始构建一个响应式网页

JavaScript网页设计案例教程&#xff1a;从零开始构建一个响应式网页 前言 在当今互联网时代&#xff0c;网页设计已成为一项重要技能。JavaScript作为网页开发的核心技术之一&#xff0c;能够让网页变得更加生动和交互。本文将带您通过一个实际案例&#xff0c;逐步学习如何…

万字图文实战:从0到1构建 UniApp + Vue3 + TypeScript 移动端跨平台开源脚手架

&#x1f680; 作者主页&#xff1a; 有来技术 &#x1f525; 开源项目&#xff1a; youlai-mall &#x1f343; vue3-element-admin &#x1f343; youlai-boot &#x1f343; vue-uniapp-template &#x1f33a; 仓库主页&#xff1a; Gitee &#x1f4ab; Github &#x1f…

【C语言】控制台学生成绩管理系统

文章目录 C语言编程&#xff1a;学生成绩管理系统一、程序概述二、代码实现三、程序解释 C语言编程&#xff1a;学生成绩管理系统 在这篇文章中&#xff0c;我们将一起探讨如何使用C语言来创建一个简单的学生成绩管理系统。这个系统将允许用户输入学生数量、学号和成绩&#x…

钉钉录播抓取视频

爬取钉钉视频 免责声明 此脚本仅供学习参考&#xff0c;切勿违法使用下载他人资源进行售卖&#xff0c;本人不但任何责任! 仓库地址: GItee 源码仓库 执行顺序 poxyM3u8开启代理getM3u8url用于获取m3u8文件userAgent随机请求头downVideo|downVideoThreadTqdm单线程下载和…

水轮发电机油压自动化控制系统解决方案介绍

在现代水电工程中&#xff0c;水轮机组油压自动化控制系统&#xff0c;不仅直接关系到水轮发电机组的安全稳定运行&#xff0c;还影响着整个水电站的生产效率和经济效益。 一、系统概述 国科JSF油压自动控制系统&#xff0c;适用于水轮发电机组调速器油压及主阀&#xff08;蝶…

Golang | Leetcode Golang题解之第503题下一个更大元素II

题目&#xff1a; 题解&#xff1a; func nextGreaterElements(nums []int) []int {n : len(nums)ans : make([]int, n)for i : range ans {ans[i] -1}stack : []int{}for i : 0; i < n*2-1; i {for len(stack) > 0 && nums[stack[len(stack)-1]] < nums[i%…

01 springboot-整合日志(logback-config.xml)

logback-config.xml 是一个用于配置 Logback 日志框架的 XML 文件&#xff0c;通常位于项目的 classpath 下的根目录或者 src/main/resources 目录下。 Logback 提供了丰富的配置选项&#xff0c;可以满足各种不同的日志需求。需要根据具体情况进行配置。 项目创建&#xff0…

Nginx、Tomcat等项目部署问题及解决方案详解

目录 前言1. Nginx部署后未按预期显示结果1.1 查看Nginx的启动情况1.2 解决启动失败的常见原因 2. 端口开启问题2.1 Windows环境下的端口开放2.2 Linux环境下的端口开放 3. 重视日志分析3.1 Nginx日志分析3.2 Tomcat日志分析 4. 开发环境与部署后运行结果不同4.1 开发环境与生产…

redis的配置文件解析

我的后端学习大纲 我的Redis学习大纲 1.1.Redis的配置文件&#xff1a; 1.Redis的配置文件名称是&#xff1a;redis.conf 2.在vim这个配置文件的时候&#xff0c;默认是不显示行号的&#xff0c;可以编辑下面这个文件&#xff0c;末尾加上set nu&#xff0c;就会显示行号: 1.…

kafka 如何减少数据丢失?

大家好&#xff0c;我是锋哥。今天分享关于【kafka 如何减少数据丢失?】面试题&#xff1f;希望对大家有帮助&#xff1b; kafka 如何减少数据丢失? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Apache Kafka 是一个高吞吐量的分布式消息队列&#xff0c;广泛用…

初探Vue前端框架

文章目录 简介什么是Vue概述优势MVVM框架 Vue的特性数据驱动视图双向数据绑定指令插件 Vue的版本版本概述新版本Vue 3Vue 3新特性UI组件库UI组件库概述常用UI组件库 安装Vue安装Vue查看Vue版本 实例利用Vue命令创建Vue项目切换工作目录安装vue-cli脚手架创建Vue项目启动Vue项目…

Java应用程序的测试覆盖率之设计与实现(三)-- jacoco cli 客户端

一、背景 上文已把覆盖率数据采集好了,并提供远程连接的tcp地址及端口。 jacoco cli文档jacoco cli jar包jacococli.jar 我下载好了,放在github工程里。 本文主要是介绍如何使用jacoco cli 客户端读取并生成覆盖率报告。 二、使用 1、dump覆盖率统计 java -jar doc/jacoc…

提升数据处理效率:TDengine S3 的最佳实践与应用

在当今数据驱动的时代&#xff0c;如何高效地存储与处理海量数据成为了企业面临的一大挑战。为了解决这一问题&#xff0c;我们在 TDengine 3.2.2.0 首次发布了企业级功能 S3 存储。这一功能经历多个版本的迭代与完善后&#xff0c;逐渐发展成为一个全面和高效的解决方案。 S3…

vue计算属性报错:Computed property “energyTotal“ was assigned to but it has no setter.

我页面中的应用 <el-input-number v-model"energyTotal" placeholder"请输入" disabled class"" :precision"2" :max"100000000" :controls"false"></el-input-number>computed:{carbonTotal(){/*…

ubuntu20.04上使用 Verdaccio 搭建 npm 私有仓库

安装nvm 首先安装必要的工具&#xff1a; apt update apt install curl下载并执行nvm安装脚本&#xff1a; curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.7/install.sh | bash添加环境变量&#xff08;如果安装脚本没有自动添加&#xff09;。编辑 ~/.bash…

Python爬虫教程:从入门到精通

Python爬虫教程&#xff1a;从入门到精通 前言 在信息爆炸的时代&#xff0c;数据是最宝贵的资源之一。Python作为一种简洁而强大的编程语言&#xff0c;因其丰富的库和框架&#xff0c;成为了数据爬取的首选工具。本文将带您深入了解Python爬虫的基本概念、实用技巧以及应用…

【Qt聊天室客户端】聊天界面功能

1. 发送消息 1.1 实现逻辑分析 发送消息的具体实现&#xff0c;通过输入框右下角的发送按钮输入框中发送的内容&#xff0c;通过网络传输给服务器客户端&#xff0c;发送消息成功后&#xff0c;消息展示区中要显示刚刚发送出去的消息 1.2 具体实现 消息输入区域设置信号槽处…

Cout输出应用举例

Cout输出应用 在main.cpp里输入程序如下&#xff1a; #include <iostream> //使能cin(),cout(); #include <stdlib.h> //使能exit(); #include <sstream> #include <iomanip> //使能setbase(),setfill(),setw(),setprecision(),setiosflags()和res…