一键定制个性化语音,微软的AI语音落地实践

近日,微软与周迅AI语音红丹丹公益项目发起人鹿音苑文化传播公司、以及来自微软及各界的150名余志愿者,将创作的首批人工智能有声内容,包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品、红丹丹文化期刊,正式捐赠给北京市红丹丹视障文化服务中心(下文简称“红丹丹”)“心目图书馆”。

这些作品是基于微软Azure云认知服务语音合成平台Speech Studio及其丰富的人工智能(AI)语音创作,其中包括艺人周迅授权的定制声音、红丹丹视障人士播音员董丽娜授权的定制声音,以及多个微软智能语音合成平台声音(如晓晓、云野等)。

微软在智能语音领域已深耕长达二十余年。智能语音作为人工智能的核心技术之一,早已融入于微软全球产品,这其中包括Windows朗读、Skype、Office等产品,并随着微软云认知服务(Cognitive Services)的推出,形成面向开发者和合作伙伴的开放平台体系,提供强大而灵活的语音服务。 

语音技术最新进展视频:

微软AI语音最新进展介绍

 

媲美专业发音人的智能语音系统


近年来,结合深度神经网络技术的不断创新,微软智能语音合成(Text-To-Speech,TTS)技术取得了诸多突破性进展。2018年12月,微软率先在全球范围内推出端到端的深度神经网络语音合成服务,使计算机和智能设备拥有了媲美真人的人工智能声音。

在探索提升语音自然度的同时,微软语音合成技术也不断挖掘语音的表现力、丰富度和智能度。通过多情感、多角色和情感强度可调节等技术升级,微软智能语音极大程度地丰富了合成语音的风格。更进一步,为了大大降低有声内容的创作成本,微软针对复杂长文本,提供了智能情感和角色的预测功能,让AI语音具有更强的理解力,让有声内容创作变得轻松又便捷。 

具体而言, 智能语音多情感技术创造性地从人类语音中挖掘出情感语音特征,赋予了合成语音拟人的表现力,让合成语音不仅可以根据不同场景进行变化,也有了“自己的喜怒哀乐”。声音因此更富有表现力,不仅得以更贴切地表达文字内容,也让语音更容易理解、更生动。

譬如,中文晓晓的声音已达到14种情感风格,可以用“抒情”、“新闻”、“聊天”等不同风格来演绎不同使用场景下的作品,也可以用“开心”、“悲伤”、“生气”、“恐惧”等多样情感在对话中表达不同的情绪和态度。 

人的情绪就好比是色谱,色谱的颜色从深到浅,人的情绪也一样,有从强到弱的变化。微软智能语音情感强度可调节技术,可以加强或者减弱情感强度,让情绪的表达更加细腻,从而大大扩展了情感矩阵,丰富了多情感语音的表达;在实际的人与人对话中,情感的变化是微妙的,通过情感程度可控技术,可以让人工智能对话或聊天机器人变得更流畅、真实,人设也更加统一。 

微软智能语音提供众多声音角色供用户选择,覆盖不同的年龄、性别和个性特征,其中一些声音还可以扮演不同角色,比如男声演绎女声、年轻声音扮演年老声音等。通过微软高质量的声音家族,用户可以挑选更符合实际场景的不同音色,满足自然的对话需求,也可以创作更有趣的多播剧。大大扩展了有声内容的创作空间。 

微软智能语音也在探索更加智能、更具理解力的语音系统,在创造出丰富、自然、具有表现力的有声内容的同时,进一步降低人工的操作成本。根据上下文信息,微软语音能够识别出来旁白和对话,人物角色,以及语气和情绪,并自动推荐一个最合适的声音。

为了让每个人都可以轻松创作有声内容,微软提供了一套智能有声内容创作工具平台。输入文本后,工具可以先针对角色和情绪进行预测,然后选择合适的声音进行演绎。创作者可以对声音、情感、韵律、发音等进行调优,创造出不一样的有声内容。 

作为情感的延伸,唱歌是人类表达情感的重要方式。微软语音也在基于神经网络的唱歌技能上取得了突破。微软人工智能语音晓晓和朱婧汐一起合唱高难度的《人类零件》歌曲,展示了中英双语演唱以及说唱能力,合成效果逼真自然。

微软云拥有全球覆盖最多的数据中心,其认知服务智能语音技术面向全球市场,覆盖语言数量世界领先。目前,微软的语音合成支持54个国家和地区的语言,提供超过150个声音供选择。

 

个性化定制深化品牌价值

 

在人工智能时代,AI声音已经不仅仅是一项基本能力,更被赋予了很多品牌属性。在诸多行业的实际应用中,客户往往需要一个具有高识别度的个性化的声音,而“深度定制”恰是微软智能语音平台的一大强项。

基于客户提供的声音数据,微软可以实现“细粒度”的定制,包括语音合成的音色、说话的风格、特殊的发音需求甚至演唱等特色功能等。在使用方面,微软语音也相当灵活,不仅服务于云平台,也支持本地化和离线部署等多种场景。 

微软云计算与人工智能事业部资深产品总监丁秉公认为,个性化时代,声音即品牌。微软的语音合成技术可以为企业定制丰富的音色,实现品牌价值的最大化。 

2019 年 11 月,微软推出了基于深度神经网络语音合成技术的声音定制服务(Custom Neural Voice)平台,将高质量的语音合成引擎开放给第三方,使得微软合作伙伴和客户可以通过简单的自助服务定制有标识度和个性化的声音。 

微软语音定制涵盖了从声音画像的设计、到数据的收集和整理、模型的优化和系统部署的方方面面。用户更可以通过Custom Voice声音定制平台实现一键定制的自助服务。 

传统技术定制的语音模型,由于需要发音人录制成千上万句话,需要耗费几个月的时间,成本巨大。而微软基于深度神经网络技术的定制化语音,可以用更少的数据达到更加高拟人度和自然真实的效果。通过微软语音涵盖超过50个语言的UNI-TTS基础模型和深度神经网络强大的迁移学习能力,微软声音定制还支持跨语言定制,实现一个音色多个语种的多语言能力。 

据悉,这一技术已经率先在多个知名企业得到应用。这包括新媒体、通信、教育、金融等多个行业,涉及客户服务、AI对话和内容生产的多个场景。 

譬如英国广播公司 BBC 就在微软声音定制和语音合成技术的帮助下,打造了一款虚拟助手 Beeb用于多模态的客户服务和有声内容创作。具体而言,BBC不仅需要Beeb发出标准英式发音,甚至细化到英国北部某个特定地区的口音风格,还有多风格的要求,比如在跟真人打招呼时,声音需要符合个人助理身份的互动风格,而在播报政治、军事类新闻时,就需要严肃的声音风格。 

面对这一挑战,微软在 BBC提供的不到2小时的录音人数据量中,与语言专家、客户挑选和分析其中特定口音的发音特点,汇总成模型能识别的规律,最后构建到定制化模型里,生成高质量、多风格的声音。

在教育行业,微软语音团队协助知名独角兽公司多邻国Duolingo打造具有多语言能力和丰富角色特征的声音。据多邻国艺术总监Greg Hartman介绍,“每一个角色的声音都是和它的人物性格的一部分。微软定制声音平台基于我们的角色特性,赋予了每一个人物生动的声音风格。” 

此外,微软智能语音团队还帮助 AT&T时代华纳、Swisscom(瑞士电信)、Progressive等多家知名企业创建了他们的个性化声音,实现与用户的自然对话和交互。 

在中国,目前语音服务也落地到由世纪互联运营的Azure云服务上,中国用户可以使用和全球一样质量的语音合成服务。 

2019年春节前夕,央视新闻联合微软推出互动融媒体产品《你的生活 AI为你唱作》,其中央视主播康辉和微软AI智能语音中文晓晓为用户唱作专属歌曲,央视主播康辉的声音即是利用微软智能语音的声音定制技术生成。此外,周迅为红丹丹图书馆录制有声书、知名作家土摩托录制三联生活周刊音频内容时,都用到了微软定制语音合成技术。微软以少量真人语音为训练样本,为他们合成了专属于自己的智能TTS声音。 

除语音合成之外,微软AI speech 还能够提供全面的核心语音能力,例如语音识别、语音评测、语音翻译,这些能力都支持多语种以及基于不同场景的定制。 

其中,微软的语音识别支持全球 30 个地区和国家语言,能够提供近场和远场识别,在线(real-time)和离线(batch)的灵活调用方式。语音识别还可以支持关键词识别,说话人分离,语言识别,情绪识别等多种功能。 

而微软语音评测产品可支持包括英语在内的全球 40 多个国家和地区的语言,广泛适用于教育领域解决方案的合作伙伴、APP开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。 

总体而言,随着深度神经网络算法的突破,数据的爆发,基础设施的完善,AI语音技术正在走向大规模应用增长的发展方向。

 

体验有声内容创作工具平台:

https://speech.microsoft.com/audiocontentcreation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32906.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 深度学习AI - 声音克隆、声音模仿、模拟特朗普声音唱《See You Again》,Real-Time-Voice-Cloning项目的安装与使用

Python 深度学习AI - 声音克隆、声音模拟 第一章:环境准备与安装① Real-Time-Voice-Cloning 项目源码下载② requirments 必要库安装③ TensorFlow 安装④ PyTorch 安装⑤ FFmpeg 下载环境变量配置⑥ 下载训练包第二章:效果测试① 命令行合成音频测试&a…

微软小冰的服务器在哪,微软小冰解锁三大小米入口

原标题:微软小冰解锁三大小米入口 微软小冰与小米小爱加深合作,解锁更多小米入口。具体内容请关注今天的小熊微科技【每日必读】栏目。 微软小冰解锁三大小米入口 好闺蜜,就是要形影不离。9月4日,微软小冰宣布解锁更多小米入口&am…

关于微软小冰

今天在微博上看到微软小冰的一篇博文,原文如下: 小冰是什么?参见百科: 微软Bing搜索中国团队2014年5月29日发布一款智能聊天机器人,并取名“微软小冰”。添加这个机器人的微信账号为好友之后,便可以与这个…

【小沐学NLP】Python实现聊天机器人(ALICE)

🍺NLP开发系列相关文章编写如下🍺:1🎈【小沐学NLP】Python实现词云图🎈2🎈【小沐学NLP】Python实现图片文字识别🎈3🎈【小沐学NLP】Python实现中文、英文分词🎈4&#x1…

微软小冰 | 接入微信公众号平台初体验

文章目录 智能回复(聊天)基础设置行业知识自主学习智能知识库需求识别引擎什么是需求识别引擎智能知识库与需求识别引擎区别 技能插件语音翻译功能介绍体验 拍照翻译功能介绍体验 测关系功能介绍体验 拼颜值功能介绍体验 人工客服推荐阅读 微软小冰人工智…

沈向洋回归,从微软独立的小冰要弯道超车了

文 | 静静 定西 出品 | 网易科技《态℃》栏目组 一条消息,让沈向洋在八个月后再次“刷屏”。 微软今日宣布,将人工智能小冰业务分拆为独立公司运营,并委任沈向洋为新公司董事长,李笛为首席执行官。 大佬明星产品,会带来…

基于ZelinAI的周报小助手

ZelinAI是一家领先的人工智能公司,专注于创新的AI解决方案。ZelinAI团队由科学家、工程师和领域专家组成,拥有丰富的经验和专业知识。提供自然语言处理、计算机视觉、数据分析和智能助理等领域的解决方案,帮助客户实现业务增长和效率提升。在…

微信小程序bindtap与catchtap的区别

1、什么是事件 (1) 事件是视图层到逻辑层的通讯方式。 (2) 事件可以将用户的行为反馈到逻辑层进行处理。 (3) 事件可以绑定在组件上,当达到触发事件,就会执行逻辑层中对应的事件处理函数。 (4) 事件对象可以携带额外信息,如 id,dataset,touch…

国内镜像版4.0上线啦

chatGPT国内中文镜像官方原版在线免费体验A conversational AI system that listens, learns, and challengeshttps://chatx.taiyangyukeji.com

基于ChatGPT API的PC端软件开发过程遇到的问题的分析

如果喜欢本文章,记得收藏哦! 关注我,一起学Java。 一、基于ChatGPT API的PC端软件开发过程遇到的问题的分析 最近这个OpenAI公司推出的GPT-4.0模型真是太火了。当然由于OpenAI目前还没有正式全面对外开放GPT-4.0 API,所以本次使用…

网站链接被微信屏蔽拦截了怎么办?VJump帮你解除屏蔽

出现这种情的原因呢,我相信大家也去了解了很多,但是对于商家来说,我们要避免出现这种情况,或出现了要立马解决。了解原因再去想解决办法是技术的事情。一天没解决,就多一天的损失。原因大同小异,无非是域名…

聊天消息敏感词屏蔽系统(字符串替换 str.replace(str1, *) )

Python 官网:https://www.python.org/ 这里,才 python 前沿。可惜是英文原版。所以,我要练习英文阅读。🧐🧐 我的CSDN主页My Python 学习个人备忘录我的HOT博老齐教室 自学并不是什么神秘的东西,一个人一辈…

域名被微信/QQ红了(被封锁、被屏蔽、被和谐)后最好的解决方法

关于域名总被微信封杀、屏蔽、拦截,等问题。简单说下自己的经验。有不少用户私信我。累死了,统一说下: 域名被微信封杀,显示的是链接无法访问; 域名被微信拦截,是跟淘宝一样 - 如需浏览,请长按…

Adguard Home导致bilibili图片视频被屏蔽记录

Adguard Home导致bilibili图片视频被屏蔽记录 一、问题 使用openwrt中的Adguard,出现了打开bilibili后,里面的视频图片无法显示,点进去的视频也无法观看的问题。 二、尝试解决 跳过Adguard,即设置DNS不通过Adguard。没效果。关闭…

四种方法检测网站是否被微信、QQ等拦截屏蔽

如今公司的线上网站、App业务都离不开微信、QQ这样的社交软件来推广,有时候分享链接一旦点击的人多了,就被微信、QQ拦截或标红了,非常影响业务的发展和用户体验。那如何监控线上业务的持续性呢?今天我们就介绍几种方法来知道域名有…

保存图片到本地和分享多张图片到QQ、微信、WhatsApp、Facebook等平台

保存图片到本地和分享多张图片到QQ、微信、WhatsApp、Facebook等平台 一、分享图片到各个平台多种方式:如第三方的sdk:ShardSDK,直接通过分享到的平台的包名来分享图片的原生方法 1.通过ShareSDK分享图片,不要忘记导入相应的应用包和初始化…

这样写代码,同事乐开花

往期热门文章: 1、Java接口开发,不用写Controller、Service、Dao、Mapper、XML、VO,自动生成! 2、为什么说程序员是一个极度劳累的工作? 3、Spring6的新特性,正式“抛弃”feign了 4、微软美国全职员工福利&…

【资源分享】经典老歌、KTV必点歌曲分享

不知道各位小伙伴有没有遇到过这种情况。长辈叫你帮他下载一些老歌放U盘里面,于是打开搜索引擎正准备大展手脚时,却发现是一个又一个的付费购买。 本人也是在这上面与搜索引擎做了不少斗争,以下包含了KTV必点歌曲五百多首,经典粤…

基于GPT3.5模型搭建的聊天系统BAIChat

1. 使用chatgpt前提条件 需要特殊的网络环境。如果是小白,不会搭建网络环境,可以关注我私信我,在线帮你搭建网络环境。 2.BAIChat链接 https://chatbot.theb.ai/#/chat/1686535596065 GPT3 研究背景 最近的研究表明,在 pretrai…

【编程必备】保姆级教学:简单教你使用 Python 调用 ChatGPT-3.5-API

前天 OpenAI 开放了两个新模型的api接口,专门为聊天而生的 gpt-3.5-turbo 和 gpt-3.5-turbo-0301。 ChatGPT is powered by gpt-3.5-turbo, OpenAI’s most advanced language model. 从上面这句话,我们可以知道现在 chat.openai.com 官网就是由 gpt-3.5…