在2020年小米开发者大会(MIDC)上,小米宣布小爱同学5.0正式上线。小爱同学在声音体验上做了很多创新,如奶萌泡芙童声、多情感语音、粤语合成、定制声音等。
在语音合成技术的支持下,小爱同学做了很多创新
小爱同学声音体验升级的背后,其实正是小米自研语音合成技术的迭代创新。
01
什么是语音合成?
语音合成(Text to Speech),简称TTS,是将人类语音用人工方式产生、将任意文字信息实时转化为标准流畅的语音朗读出来的技术。
TTS涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,即让机器像人一样开口说话。
语音合成是最近几年很火的一个词,知名AI企业如科大讯飞、思必驰、谷歌、华为等纷纷发力语音合成领域,研发的语音助手、智能音箱、语音翻译等应用渗入到生活的各种方面。
语音合成是信息处理的一项前沿技术
虽然TTS已经取得了可观的成就,但是仍存在很大的进步空间。
目前TTS的自然度和可懂度基本可以满足,但是到句子和篇章一级时,自然度还是一个较大的问题。其次,人类语音有不同的情感、语气语速和说话方式,丰富性是语音合成需要进一步努力的方向。
数据堂作为专业的人工智能数据服务提供商,致力于攻克技术瓶颈、推动TTS更广泛的落地应用。针对上述情况,数据堂推出了语音合成数据解决方案。
基于海量语音文本数据标注经验与领先的人工智能语音合成技术,针对客户提出的不同场景、音色、音质、类型等需求,数据堂支持快速合成定制化声音效果,让机器像人类一样能说会道。
02
数据堂的服务能力
数据堂具有丰富的数据资源、突出的技术优势和丰富的数据处理经验,支持按场景、语种、年龄、性别、发音人定制采集语音数据。
01
安全合规
为保障公司为客户提供安全合规的数据服务,同时保障数据堂自身的安全合规,数据堂根据世界范围内主要国家有关数据的法律政策,制定了本公司数据业务的安全合规体系。
数据堂规定数据采集必须以被采集人本人签署的授权书为准,取得数据采集的授权。
02
专业环境
数据堂拥有专业语音级录音棚,专业级人声电容麦克风和监听设备。数据堂录音棚符合NR15声学标准:混响时间小于0.1秒,背景噪声小于20dB,并获得了清华大学建筑物理实验室认证。
数据堂拥有专业录音设备
03
资源丰富
数据堂拥有全球上千名专业发音人资源和上百人专业团队。
数据堂支持中文普通话、英语等多种语言,支持主要方言区、中英混读等语音合成。同时,数据堂拥有男声、女声、童声等多种音色,每种音色均有不同类型发音人,全面满足多样化语音合成需求。
04
质量保障
在录制过程中,数据堂配置了专业监听确保录音质量。通过请教专家、调研论文,参考各种词典、谷歌翻译和百度翻译上的单词发音,数据堂整理出了一套完整的发音规则,制作了发音词典。
03
数据堂TTS数据解决方案应用场景
数据堂TTS数据解决方案支持大部分应用场景,如客服、有声读物、语音交互、歌声合成等。
· 智能客服
目前智能客服在业界已经能够提供整套的本地化服务,且能满足用户的许多客制化需求。
智能客服是语音合成的重要应用之一
数据堂拥有丰富的语音合成音库,能够模拟发音人真实工作状态,助力打造对话式客服,以便促进客户体验的提升,实现营销效果的转化。
· 有声读物
现代社会人们拥有的完整的阅读时间越来越少,识别文字并精准转化为语音并用最接近人声的效果朗读出来成了书友们最迫切的需求。
数据堂TTS数据解决方案支持新闻、书籍等读物场景
数据堂的语音合成数据解决方案支持小说、新闻、书籍等读物场景,提供媲美人声的听觉体验,帮助人们解放双眼,保障内容的流畅清晰,能够有效降低有声内容创作门槛。
· 车载场景
语音导航、语音控制、车载信息娱乐系统等车载交互系统,解放车主双手的同时,也为车主带来了便捷出行与娱乐享受的驾驶体验。
语音合成技术在车载场景得到了广泛的应用
把文字转语音应用于车载场景,可快速实现低成本为车主及乘客提供更多资讯的服务,提升用户在驾驶过程中的体验感,安全驾驶的同时还可以增加更多乐趣。
· 音乐合成
音乐合成系统从数据中学习,提供对音色和音乐力度变化的直观控制,可以创造出人工方法不可能实现的音乐。
数据堂以TTS标准录制音乐,包含乐谱制作、音字标注、音准校对等,二次元音色都可驾驭。
目前的语音合成技术已经应用于各种场景,满足了市场上绝大部分需求,是较成熟可落地的产品。当前主要的问题在于不同场景的具体需求,例如不同的数字读法,如何智能的判断当前场景应该是哪种播报方式,以及什么样的语气和情绪更适合当下的场景等。
数据堂深耕人工智能数据服务领域多年,时刻保持创新意识,积极探索新领域和新应用,不断完善自身TTS数据解决方案,致力于将更多研究成果转化为实际应用。