科大讯飞高建清:「底座+能力+应用」是科大讯飞AIGC整体布局的三层架构

明敏 整理自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT掀起AIGC浪潮后,关于它的影响,成为了行业内外最为热议的话题之一。

宏观的观点已不胜枚举:改变世界、AI的iPhone时刻……

但如果回归到技术本质,它到底会带来哪些变革?

我们认为,它会改变信息分发获取的模式。革新内容生产模式,变革人机交互模式,同时也会促进多个产业的升级。

这是科大讯飞AI研究院常务副院长高建清,在首届中国AIGC产业峰会上给出的答案。

1d84ca215f774e90782b7e088ce92bb7.png

作为国产AI的中坚力量,在这股最新趋势下,科大讯飞始终被寄予厚望。

尤其在2月初,他们率先给出类ChatGPT技术与产品跟进情况及定档时间,更是把行业内外的期待值拉满了。

具体如何?还得5月6日见分晓。

但提前剧透已经来了。

在首届中国AIGC峰会现场,在语音识别、语音合成、自然语言理解等领域拥有深厚积累和成果的科大讯飞AI研究院常务副院长高建清,分享了科大讯飞对于AIGC趋势的理解、技术进展、产品应用,以及认知智能大模型相关思考等内容。

为了完整体现他的思考,在不改变原意的基础上,量子位对其演讲内容进行了编辑整理,以飨读者。

中国 AIGC 产业峰会是由量子位主办的行业峰会,近 20 位产业代表与会讨论。线下参与观众 600+,线上收看观众近 300 万,得到了包括 CCTV2、BTV 等在内的数十家媒体的广泛报道关注。

演讲要点

  • “底座+能力+应用”是科大讯飞AIGC整体布局的三层架构。

  • 语音合成将会向着交互更加拟人化、情感化、口语化的方向发展,并且要控制好音色、音律、口音等语义信息。

  • ChatGPT引发的创新,让AI在逻辑推理、多角色、多风格文本生成上都有了巨大进步。

  • 大模型会改变信息分发获取的模式,并给内容生产模式、人机交互带来变革。

以下为高建清演讲全文:

音频创作也会向大模型方向发展

非常荣幸能有这样的机会和大家分享科大讯飞在AIGC方面的技术探索与应用创新方面的一些进展。

如下是科大讯飞在整个AIGC领域的布局情况。

3849b323c13f7fc30429fb564f9ae7ee.png

科大讯飞在AIGC的三大模块:音频创作视觉创作文本创作,都有一些自己的理解和进展。

在音频创作方面,讯飞是一家以语音起家的公司,我们在音频创作方面有语音合成的全栈能力;在视觉创作方面,积累了以虚拟人为核心的完整视频创作能力;在文本生成方面,讯飞这些年主要围绕行业应用做了很多工作。

今天将主要围绕这三个方面展开介绍。

首先看一下音频创作

在这一领域,我们认为最重要的技术之一是语音合成

现阶段,播报式的语音合成已经接近或达到真人水平,接下来的发展趋势是什么?

我们认为,首要的发展趋势是如何在交互领域实现更好的拟人化、情感化以及口语化,总之让它更像真人。

另外,在内容生产领域,如何更好控制音色、音律、口音等语音里最重要的语义信息,也是一个重要的发展方向。

62732e998999a71c265f75e5b55c8dde.png

这两年我们也在这些领域有了一些进展。

首先是虚拟声音自动创作方面。

语音合成里,和声音相关的两个最主要元素:

  • 第一是音色

  • 第二是韵律信息

我们对这两部分进行显示建模,这样当你给系统输入一个人设时,比如青年甜美的女声,就可以生成对应的音色。

目前我们通过这一技术已经虚拟生成了500个声音,并在讯飞开放平台上开放。在满分为5.0MOS分的情况下,我们生成的声音超过4.0MOS分,已经达到了可用的阶段,有了这种虚拟生成声音的方式,大家可以选择生成喜欢的一些声音。

fae57f65d0b327efca6a45781f8a249f.png

第二方面,怎样向多情感、多风格方面拓展?

去年,科大讯飞发布了全新的语音合成系统,即多情感多风格SMART-TTS系统。

这是一个端到端的方案,输入文本直接得到语音输出。其中有三个关键模块,第一是跨模态预训练,第二是韵律预训练,第三是声学预训练。三部分各司其职。

第一个模块可以提高语音合成中韵律的自然度;第二个模块是一个中间模块;最后一个模块可以提高声音整体的音质。

通过这样一个系统合成的声音,和专业声音演员录音水平的差距0.05MOS,已经取得了非常好的进展。

MOS是Mean Opnion Score的缩写,译为平均意见得分,是音频质量主观评估方法的一种。在语音合成领域,常见的有自然度MOS(MOS of naturalness),相似度MOS(MOS of similarity)。

40fb6cb877919dbc0b447da57f49a636.png

在这个系统中,我们还拓展了多个风格。

以往大家熟悉的语音合成主要用于播报、交互等领域,现在我们可以支持纪录片、游戏解说、广告直播等十多个领域。

同时,语音的情感能得到控制,SMART-TTS提供11种情感,每个情感有20档调节能力。我们发现,停顿、重音、语速等关键属性对于声音的表现力非常重要,这些也可以进行调节。我们也将这些能力开放给开发者,让大家都能创造并得到想要的声音。

6bef1562e6b8946aec3e5c0db7de68a6.png

下面是一个简单的demo,其中有各种不同风格的声音。

还有通过声音合成制作的二十四节气纪录片。

可以看到,近年来声音合成已经不是传统意义上的播报、机器风格,已经向多感情、更多场景去拓展。

接下来音频创作会向什么方向发展?

我们认为有两个大方向:

第一,大家今天谈论最多的是大语言模型。在声音领域,大语言模型也是一个重要方向,ChatGPT给声音创作领域带了很多启示。

如果我们用Audio大语言模型方案,有可能对语音合成中的一些关键因素,比如口音、韵律等特征,进行很好的控制。

另外就是声音艺术。其实现在追求的不仅是声音能够表达意思,而是怎样能从自然可懂到悦耳享受。比如在声音中插入音效、环境音,会对整个语音合成的感受有很大改善。

bdb6f9a51673016d951689821c0d9ec6.png

5月发布大模型新成果

接下来来看第二部分,即科大讯飞在视觉创作方面的一些进展。

在虚拟人多模态合成方面,科大讯飞从2018年首发多语种虚拟人口唇驱动,2021年发布了2D真人捏脸系统。目前已经形成了3D虚拟口唇表情和动作的AI驱动到AI贯穿3D形象构建的全流程。

首先看一下虚拟人领域的关键技术——动作生成

众所周知肢体语言对虚拟人来说非常关键,业界传统方法是采用动作库。

要知道,动作生成和两个因素有很大关系:

  • 第一是语音发音中的韵律节奏

  • 第二是动作意图

针对这两部分进行建模,能够很好实现动作合成,讯飞研究院提出的语义驱动虚拟人动作技术,在虚拟人动作的拟人度和契合度方面,都较传统方案有很大改善,从2.63分提升到3.75分左右。

da5b9947bcd66ec1225f368d11b9bc5f.png

第二个方面也一样,我们希望实现语音可控的半身数字人像生成。

通过文本语义约束的人像语义空间构建、基于扩散模型的人像语义向量生成两个阶段,输入一个人设,就能动态生成下图右边这些图像。这些图像是半身数字人的形象。

02f0e04bd2980395c47c335bcd723620.png

最后一个虚拟人的关键因素就是3D虚拟人的动态生成

近两年科大讯飞研究院打造了个性化3D虚拟人复刻系统,实现了基于一张图片、一段语音就能驱动3D虚拟人,同时还支持3D虚拟人发型、眼睛、嘴型进行动态二次编辑。

13ef6e684a214cc2d804d0c61e13b60d.png

在这些虚拟人技术的基础上,我们在产品方面也有一些探索。

讯飞音乐发布了AI虚拟歌手Luya,通过上述所说的音色创作技术,给这个虚拟歌手赋予了一定声音的能力。通过AI变声以及歌曲合成,现在TA已经发布了十多首歌曲,其中一些歌曲也得到了大众的喜爱。

66bea434da01957958ba9cb5d01ea075.png

那么问题来了,虚拟人未来的发展趋势是什么?

首先我们认为,现在虚拟人制作过程中还有很多人工环节,如果把AI能力融合进去的话,全流程加入AI会解决很多问题。

另外AIGC这一两年的发展速度非常迅猛,从文本到声音到图像,这些全栈能力的集合,让我们觉得可以形成以虚拟人为中心的全栈视觉生成能力。

64f40ff36dc26b79b84d6b648d539fa6.png

接下来,再看一下科大讯飞在AIGC方面产品创新的一些探索。

首先是我们推出了讯飞智作APP,这个APP结合了以上很多AIGC能力,希望能够打造一个音视频内容的AI创作基地,这里有一个简单的demo:

第二个是讯飞音乐的词曲家平台。

通过AI的辅助作词作曲,可以帮助创作者提高生产力。通过歌曲试音及质量分析,能够使采买人和音乐人之间的沟通变得更加顺畅。

最后再简单介绍一下科大讯飞在文本生成方面的思考。

关于文本生成,我们在教育、医疗等行业应用上做了很多工作。过往的一些进展今天不做过多赘述,主要分享一下我们在大模型基础能力上的一些理解和布局。

首先,ChatGPT基于所谓大语言模型,正是因为模型数据量巨大,使得它对信息记忆非常完整。

第二个是它范式上的最大变化,是将以往NLP里面每一个任务进行单独建模,ChatGPT是典型多任务的对话式理解的建模,正是因为它对多任务同时建模,使得模型在底层的语义理解能力极大增强;

另外,它采用学习的方法,能够将人类反馈非常好地融入到模型中。

正是这几方面创新,让AI在逻辑推理、多角色、多风格文本生成等方面都有了很大进步。

同时,大模型也会给产业带来非常大变革。

我们认为它会改变信息分发、获取模式,首先会给搜索引擎带来非常大的影响,其次也会给内容生产模式带来革新;第三对于人机交互会产生一个大变革。

e23e1ef2ea7f322cc5e44829ca2aa643.png

在这个趋势下,科大讯飞在大模型方面也在开展一些工作。主要会基于我们对自身所在领域的理解,包括场景、数据、场景中的行为等方面,以及在教育、医疗、人机交互、办公这些方向。

之前讯飞研究院也在认知智能大模型上有一定积累和探索,5月6日我们也将有新的发布,敬请大家期待!

7bc822ffa4d801b1e0ddb10837f1a177.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24982.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“千模千测”——针对大语言模型认知能力的高效测试方法

©PaperWeekly 原创 作者 | 庄严、宁雨亭 单位 | 中国科学技术大学BASE课题组 论文标题: Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing Perspective 作者: Yan Zhuang, Qi Liu, Yuting Ning, Weizhe Huang, Rui Lv, …

【烟雨星河】情绪哲学

目录 【情绪篇】 自信,自强,自我 诫己书 【哲学篇】 生命是什么? 序 时间浩大而渺远, 我站在时川之上 ,涛声滚滚,雨落惊雷。 总感觉在时间浪花里,得留下些什么。 仿佛应该是一些自己奇奇怪…

是在变好吗?

写这篇文章缘起于尹烨在节目中提到了他不喜欢大家说达尔文的学说是“进化论”,而更喜欢叫做“演化论”。 因为进化代表着越来越好,越来越进步;而演化只是在适应新的要求的变化,是合适的,但并不一定是在进步&#xff1b…

在弱肉强食的世界里,人类的美德意识为何能够超越其他物种?

来源:混沌巡洋舰 本文摘编整理自《人性悖论:人类进化中的美德与暴力》 中信出版集团 2022年6月 狭隘利他主义假设,战争可能导致自我牺牲,似乎只适用于其文化效应方面,而不能解释为进化上的选择力量。然而,该…

腾讯技术工程 2019 年十大最受欢迎文章出炉!

马上要过年了,大家是在回家的路上还是已经到家了?祝各位过一个好年,大鱼大肉吃个够,今天我们腾讯技术工程也给大家准备了点「精神食粮」。从 2019 年发布的近 300 篇文章中精挑细选出了十大最受欢迎文章,以供各位闲暇之…

腾讯游戏是如何使用Docker的

转自:http://www.infoq.com/cn/articles/how-tencent-game-use-docker 干货 | 腾讯游戏是如何使用Docker的? 作者 郭蕾 发布于 2015年8月15日 | 讨论 分享到: 微博 微信 Facebook Twitter 有道云笔记 邮件分享 稍后阅读我的阅读清单 腾…

好家伙,渣男基因被发现了?还能让直男变弯?

导读:“渣男基因被发现了!”这是怎么回事呢? 作者:宛平城外的胖子 来源:大数据DT(ID:hzdashuju) 01 渣男的必要条件:D4DR基因 上世纪末,耶路撒冷的理查德埃布…

2021金蝶全球创见者大会成功举办, 500强企业共话EBC数字战斗力

11月27日,由金蝶主办的“2021全球创见者大会”成功举办。大会以“用数字战斗力,向管理要效益”为主题,求索不确定时代,EBC如何帮助500强及中小企业拥抱数字战斗力,构建企业韧性。 据了解,金蝶全球创见者大…

复旦-华盛顿大学EMBA科创的奥E丨从《生命密码》看生命之趣

复旦大学-华盛顿大学EMBA项目【科创的奥E】读书栏目本期带来《生命密码》。      如果把地球的发展史浓缩到365天,人类的历史几乎可以忽略不计。虽然微生物渺小到要通过高倍显微镜才能窥见一斑,但是说它是地球之王并不过分。地球上的种种都由微生物构…

元账户层是进入Web3元宇宙的传送门

当前的 Web3.0 更像是一个有限集合,可见的元素仅有去中心化金融(DeFi)、去中心化创作者经济(NFT&Gamefi&Metaverse)、去中心化账户与身份(Connect Wallet)。可谓稀少,甚至没…

编程能够带来食物和水吗?

导言: 读完我这篇文章或许能让你颠覆认知,亦或许能让你深受启发,也或者你也有和我一样的想法…… 最近在回顾《黑客帝国》前三部,准备看第四部,你这个问题突然激发了我一些思考,觉得蛮有意思的&#xff0…

[2021年新鲜出炉]K8s工程师资料合辑,书籍推荐,面试题,精选文章,开源项目,PPT,视频,大厂资料

【推荐收藏】68道常见的Kubernetes面试题总结 本内容节选自:https://github.com/0voice/k8s_awesome_document 如果想学习更多关于云原生、K8s的知识,可以点击订阅更新,关注本Github。 跟大厂一起认识K8s Kubernetes 的概述—官方Kubernetes…

Istio 中实现客户端源 IP 的保持

作者 尹烨,腾讯专家工程师, 腾讯云 TCM 产品负责人。在 K8s、Service Mesh 等方面有多年的实践经验。 导语 对于很多后端服务业务,我们都希望得到客户端源 IP。云上的负载均衡器,比如,腾讯云 CLB 支持将客户端源IP传…

【读书笔记】万物原理——打开客观世界与主观情感的大门

被尹烨老师推荐种草的,以为是一本讲生命科学的科普书,看上了又以为是说量子物理等高端科学研究的,最后被互补性理论惊到了。这哪里只是一本打开认知客观世界的大门,还让我重识内心。那些看不见摸不着的情感,比如同情心…

屌丝评:阿里云计算总裁胡晓明《让计算成为中国的能力》

2015年12月23日有幸参加由广东省人民政府和阿里巴巴集团举行的“数据引领,飞粤云端”2015年云栖大会广东峰会暨广东省云计算大数据开发者大会,也很荣幸现场听了阿里云计算总裁胡晓明先生的精彩演讲《让计算成为中国的能力》,作为IT界非著名的…

《循序渐进学Docker》——1.3 为什么使用Docker

本节书摘来自华章出版社《循序渐进学Docker》一书中的第1章,第1.3节,作者李金榜 尹烨 刘天斯 陈纯,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.3 为什么使用Docker 当深入了解Docker后,你想在公司或部门推广Dock…

生命密码:你的第一本基因科普书

内容简介 生命如此美妙,我们却知之甚少。芸芸众生蕴藏哪些造化之妙?基因组学、生命科学为何包含无穷魅力?它有趣、有用,又有科学严谨的态度,用人人都看得懂的语言,轻松地解答那些古怪而让人忧心的问题&…

这一年,这些书:2022年读书笔记

Note: 以下 markdown 格式文本由 json2md 自动转换生成,可参考JSON转Markdown:我把阅读数据从MongoDB中导出转换为.md了了解具体的转换过程。 为什么是中国 作者:金一南[中] ISBN:9787559639134 出版社:北京联合出版…

Docker基础 --循序渐进学Docker(李金榜、尹烨......)学习笔记

docker基础 Docker三个重要的概念:仓库(Repository),镜像(Image)和容器(Container),他们是Docker的三大基础组件。 容器都是基于镜像创建的,基于一个镜像可以创建若干个…

华大基因尹烨的一些语录记录

不谋万事者不足谋一时,而不谋全局者不足谋一域。 技术的发展从来不以人的意志为转移。 实际上到那个点上就要认知,我们的人智是有穷尽的,生命是有尽头的。这个时候就一定要升维,不能还是在一个频道上去学了,一定要向上…