全球首个AI合成主播发布,效果以假乱真!揭秘背后技术原理

边策 李根 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

640?wx_fmt=png

搜狗又在乌镇世界互联网大会上搞了大新闻。

2016年,王小川在正式论坛里秀出AI同传,那是机器实时翻译技术,首次在高规格国际会议上实战应用。

而这一次,依然世界互联网大会,搜狗联手新华社,发布的是一项名为AI合成主播的技术。

这项新技术,可比AI同传所需的语音识别、机器翻译更复杂,需要的AI能力更全面。

直白言之,就是“克隆”出与真人主播拥有同样播报能力的“分身”。

此前,类似技术尝试的有,商业化产品发布的无。

新华社给出评价:

这不仅在全球AI合成领域实现了技术创新和突破,更是在新闻领域开创了实时音视频与AI真人形象合成的先河。

这究竟是一项怎样的技术?

AI合成主播

其实所谓“AI合成”,主要强调了其技术原理。

“AI合成主播”是通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。

该项技术要能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。

如果从落地场景去看,就是喜闻乐见的虚拟主播。

但在此之前,出现在大众媒体上的虚拟主播,多半只有声音,或者匹配一个量身定制的虚拟形象。

比如微软小冰在东方卫视担任天气预报员,就是如此。

640?wx_fmt=png

不过搜狗的“AI合成主播”,讲究的是以假乱真,需要的技术难度和产品打磨挑战,几乎不能相提并论。

640?wx_fmt=gif

 搜狗AI合成主播效果

如果没有提前告知,是不是难辨真假虚实?

要实现这样的效果,2大要求缺一不可:

  • 一、高逼真度。要能够自动生成:语音、表情、唇动等信息完全一致的自然视频,并已达到商用级别。

  • 二、低成本的个性化定制。小数据的学习模型,使用少量用户真实音视频数据,快速迁移生成虚拟的分身模型,快速定制出高逼真度的分身模型。

最后,使用时输入一段文本,即可生成与真人无异的同步音视频。

听起来不难,实现却要经历“九九八十一难”。

人前近乎炫技的综合能力,幕后是一项又一项来不得半点马虎的小技术达成。

技术原理

背后包含了2大AI引擎。

一是语音合成引擎。在语音合成引擎中,基于用户少量音频数据,使用搜狗个性化语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联。

另一个是图像生成引擎。使用搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,生成输出分身视频。

最后,2大引擎协作打磨,最终才能实现“AI合成主播”——能够逼真模拟人类说话的声音、嘴唇动作和表情,并将三者自然匹配,做到惟妙惟肖,让机器以更逼真自然的形象呈现在用户面前。

应用场景

虽然媒体领域应用,就已足够惊人。

因为和真人主播相比,“AI合成主播”能够不知疲倦地工作24小时,同时还掌握多国语言,大大提升效率、降低成本。

甚至写好文字稿,“ AI合成主播”就能即可播送了——还不会有口误或NG.

但“AI合成主播”出现,更是让个性化内容生成的门槛大为降低,娱乐、医疗健康、教育、法律等多个领域和场景,无一不适用。

虚拟教师、虚拟医生,虚拟客服等需要人类参与的内容表达场景,都能发挥价值。

当然,To B商业应用居多,但如果你想试,搜狗方面称,在手机上借助“搜狗制音坊”小程序,也能通过录制用户一段讲话,让其转化为各种名人的声音——这就是语音合成技术在作用。

视觉方面的合成也能试,比如秒变吴彦祖:

640?wx_fmt=gif

总之,技术已经ready,就看怎么找场景落地了。

外媒评价

640?wx_fmt=gif

此外,因为史无前例,所以这个“AI合成主播”,确实也让外媒对中国AI惊叹了一把。

《南华早报》评价,知名主播在新闻制作中的稀缺资产,现在通过AI,克隆而成的“他们”有能力一天工作24小时。

CNET称:搜狗技术支撑,新华社亮相了新主播,不细看不知道不是真人。

Theverge也评价:AI开始进入官方新闻播报这样的场景,说明技术已不是早期阶段了。

总之,对一家中国公司的AI技术进展如此应用如斯,确实震惊了。

进击的搜狗

不过,如果回顾搜狗今年以来的种种AI技术进展,或许这个大新闻,也情理之中:

  • 语音识别:借助搜狗输入法等产品落地,搜狗语音识别准确率突破98%(口音、噪音条件较可控环境下),行业领先;

  • TTS:语音合成界国际顶级大赛Blizzard Challenge 2018 中,搜狗获“可懂度”和“语音停顿”两项子任务全球第一;

  • 机器翻译:机器翻译在国际翻译顶级学术赛事WMT 2017中获中英机器翻译全球第一、IWSLT2018国际口语机器翻译评测大赛全球第一;

  • 人机对话:在NLPCC 2018比赛中,搜狗语义理解技术获得第一名、NTCIR 2017评测比赛短文本对话任务第一;

  • 机器视觉:在自动驾驶领域国际顶级评测CVPR WAD 2018道路目标检测任务全球第一、Pascal VOC 2018挑战赛目标检测Competition 3,4两项子任务,全球第一、国际自动驾驶领域权威评测集Cityscapes 2018实例分割评测任务全球第一、MegaFace 2018人脸识别任务,以99.939%的准确率,获全球第一。

所以天道酬勤,AI进程中的搜狗,此时发布全球首个AI合成主播,个人奋斗得偿而已~

年度评选申请

640?wx_fmt=jpeg

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47379.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python控制AI虚拟主播说话聊天源码分享

Python是非常简单可用的脚本语言,本次我们将介绍如何实用Python控制一个AI虚拟主播说话聊天。通过分析目前市场上可用的虚拟主播软件,发现Motionface是一个简单可用的虚拟主播软件,它提供简单的http接口,是实时响应的,不像其他虚拟主播软件(baidu,xunfei等)需要很高的算…

AI虚拟主播软件系统 搭建24小时不间断运营的数字人直播间的操作教程分享

现在直播都必须真人直播,没法做到24小时不间断直播。虚拟人直播系统,一天24小时在线直播,不要吃饭,也不要工资,每时每刻都在赚音浪,带货,那么具体AI虚拟主播软件是怎么操作的呢?今天…

虚拟主播怎么做出来的?今日安利:AI虚拟人物怎么弄?

某天,一位品牌店的老板向我寻求帮助,大概内容就是:“他最近要开拓线上店铺的直播渠道,直播时间较长,雇一位主播又费钱又辛苦,想制作一个符合品牌调性的AI虚拟人物来带货。”于是我跟他分享了制作虚拟主播的…

一文了解虚拟人主播

这两年,相信很多人都能在抖音、快手、微视等平台看到虚拟人主播的视频,形象逼真,表情动作自然,语言流畅,乍一看,就是一位真人!那为什么会有这么多人或者企业选择用虚拟人来做主播呢?…

AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】

前言 建议直接阅读飞书文档:Docshttps://yv2c3kamh3y.feishu.cn/docx/S5AldFeZUoMpU5x8JAuctgPsnfg 近期很多饱子私信,想知道关于AI数字人主播的技术实现。现本篇就AI数字人虚拟主播的Wav2Lip技术进行实现与评测,后续还会有其他的相关技术实现…

什么是虚拟主播?虚拟数字人直播,不用出镜,不用露脸的直播方式

“虚拟主播”(Virtual Youtuber,简称Vtuber)是于2016年在Youtube等视频平台新出现的一类非真实视频主播。此类主播无需真人露脸,视频主体角色多为3D建模,是以依靠数字技术、人声、动作结合后的新产物。截止2018年7月&a…

虚拟主播频繁爆火,想了解虚拟主播的制作过程看这里

随着元宇宙概念的火热,以及我国经济向全面数字化发展转型,作为元宇宙入口的虚拟数字人是目前相关产业中最接地气、最先落地的产业。如果说虚拟人是一座冰山,那么我们看到的部分就是冰山水面以上的部分,而看不到的水面以下则是支撑…

基于大模型的虚拟数字人__虚拟主播实例

基于大模型的虚拟数字人__虚拟主播实例 本文目录: 一、技术的背景: 二、创意名称: 三、创意背景 四、创意目标 五、创意设计 六、技术实现路径 七、完整代码实现 八、创意总结 九、人工智能虚拟人物的一些优秀代表作品及其特点 十、…

科大讯飞今日发布“星火”认知大模型;谷歌一名高级软件工程师跳楼身亡;InsCode 支持 AI 编程|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

用Chat GPT来处理工作问题、Chat GPT处理重启auditd服务后/etc/audit/audit.rules文件内容消失和openssl对文件的加解密的使用说明

文章目录 说明Chat GPT处理重启auditd服务后/etc/audit/audit.rules文件内容消失Chat GPT咨询openssl对文件的加解密的使用说明【1,对文件的加解密(示例,需输入口令):]【2,通过内核模块ecryptfs和软件包ecr…

【小尘送书-第一期】自动化办公应用大全(ChatGPT版):从零开始教编程小白一键搞定烦琐工作

大家好,我是小尘,欢迎关注,一起交流学习!欢迎大家在CSDN后台私信我!一起讨论学习,讨论如何找到满意的实习! 本文目录 一、前言二、作者简介三、内容简介四、抽奖方式 一、前言 在现代社会&…

前沿重器[35] | 提示工程和提示构造技巧

前沿重器 栏目主要给大家分享各种大厂、顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。(算起来,专项启动已经…

【活动总结】0723-COC深圳社区职言职语第1季活动总结之第1视角

0723-COC深圳社区职言职语第1季活动总结 地球有自转,活动不能断,话题不能停。一场愉快的户外职场的畅谈交流会,就这样落下了帷幕…请大家跟随我的第一视角,一起看看我们的活动现场吧。 文章目录 1 活动简介2 活动过程2.1 活动宣传…

手把手教你如何微信公众号开发

最近的话,发现微信开发其实也有很多挺有意思的地方,比如最近很火的一款游戏“跳一跳”,也让我如此着迷。。但是,今天我所要讲的并不是对于小程序的开发,而是要说一下,关于微信开发的另外一个内容&#xff0…

微信公众号开发教程

本教程为看微信公众号视频做的笔记,原视频链接:尚硅谷公众号开发,微信公众号开发实战_哔哩哔哩_bilibili 平台 微信公众号管理:公众号 (qq.com) 微信公众测试号平台:微信公众平台 (qq.com) 微信公众号开发文档&…

公众号推文制作及发布保姆级教程

在这个新媒体的时代,无论是我们刚步入大学,加入了部门,做一些宣传方面的工作,还是想在微信公众号平台发布一些自己的日常生活,写一些文章,甚至以后从事一些关于新媒体的工作……推文这个玩意儿确实越来越吃…

Python预测糖尿病

今天给大家讲解一个实战案例:如何根据现有数据预测糖尿病。在这个案例开始之前,希望大家回忆一下大学里讲过的线性回归的知识,这是数据挖掘里非常重要的一部分知识。当然,鉴于大家都学过,本篇就不再赘述。 一. 数据集介绍 diabe…

小组作业:糖尿病预测

提示:该Blog仅用于作业汇报展示,大佬请绕路 文章目录 一、作业介绍二、数据处理三、数据分析四、特征选择五、模型训练与评价六、模型优化七、与原模型进行对比八、作业总结 一、作业介绍 该项目依托于某医院处理好之后的体检数据,首先进行了…

python糖尿病数据挖掘

有人说21世纪,我们的生活越来越便捷,电子通讯越来越发达,美食越来越多。这一点也不假。但现代生活方式也有不利一面,工作越来越忙,身体锻炼越来越少,体重一天一天增加。有一种疾病叫做糖尿病,你…

数据挖掘——糖尿病预测

一、问题描述 糖尿病数据集是Sklearn 提供的数据集。它从442例糖尿病患者的资料中取10个特征:年龄、性别、体重、血压和6个血清测试量值,以及患者在一年后疾病发展的量化值(标签)。 二、实验目的 根据上述10个特征,预…