明敏 发自 凹非寺
量子位 报道 | 公众号 QbitAI
英伟达是推出黄仁勋手办了吗???
看上去还挺可爱的呢。
不过事情可没有这么简单,接下来这一幕或许就会让你大为震撼。
因为,这个萌版老黄,是 会 动 的。
不仅如此,他还能说会道,上知天文下知地理的那种。
气候变化带来的最大威胁是什么?天文学家如何寻找行星?蛋白质在细胞中的作用是什么?
这些问题通通难不倒他,简直是行走的百科全书。
而且连说话的声音都是老黄同款,反差感极大。
所以,这么一个集可爱智慧与成熟男人魅力的化身,到底是什么来头啊?
老黄的AI化身
以上这个萌物,当然不是手办,但也不是机器人,甚至你都无法摸到它。
这其实是老黄在GTC 2021上发布的虚拟人形象——Toy-Me。
它最擅长的事情就是和人聊天,可以快速回答人们提出的问题。
怎么有点语音助手那味儿了?
还真是,这不老黄还带来了一个Toy-Me的同类,它就是一个可以引导顾客点餐的餐厅客服虚拟形象。
屏幕中这个小机器人,可以通过语音识别、眼神追踪来推断顾客的意图,并能在2秒左右作出反应,回答顾客提出的问题或要求。
并且还放在更多场景里,比如自动驾驶。
小机器人能够在和驾驶员沟通后,调整车辆的行驶模式,摇身一变成为小管家。
而除了这些可爱的虚拟助手,老黄的“虚拟大法”还用在了视频会议上。
平常我们视频会议时,难免会出现需要低头看手机、或者查看其他窗口的情况,这会造成不好的观感。
由此,英伟达就做出了一个虚拟的画像,让人们即使没有注视屏幕时,也能保持和屏幕的眼神交流。
并且还能将人们讲的话实时翻译成多种语言,声音也会贴合本人原声。
背后全是英伟达自家技术
以上这些所有炫酷的效果,其实都来自于英伟达在GTC 2021上发布的一个新平台——NVIDIA Omniverse Avatar。
(就是阿凡达那个Avatar)
它可以让人们可以在此创造不同的虚拟形象,还是有光追的那种哦。
△看老黄眼镜上的反光
这背后当然也需要多种技术的支持,比如语音识别、自然语言理解、计算机视觉等等。
其中最让人眼前一亮的,莫过于软件开发包Riva。
它能识别多种语言的语音,还能生成类人声音。
据英伟达官方介绍,Riva只需要30分钟的音频数据,就能合成出相似的语音效果。
Q版老黄的声音、视频会议中实时翻译后保持原声,靠的都是这项技术。
而能让“黄仁勋”陪你聊星辰大海,就要靠Megatron 530B了。
其实就是一个月以前发布的全球最大规模NLP模型威震天-图灵(Megatron Turing-NLG)。
5300亿参数、4480块英伟达A100 GPU训练后,该模型能够很好识别、理解和生成人类语言。
官方介绍,Megatron 530B可以在很少或没有训练的情况下完成句子、回答主题广泛的问题、总结长而复杂的故事、翻译成其他语言,并应对许多它未接受过专门训练的情景。
除此之外,推荐引擎NVIDIA Merlin可以让虚拟助手提出明智的建议。
计算机视觉框架NVIDIA Metropolis能够赋予虚拟形象感知能力。
生动自然的动画形象则由NVIDIA Video2Face和Audio2Face™支持。
当然,要把这些都结合在一起,最离不开的就是Omniverse。
它能跨平台支持所有用户的物理渲染、模拟和仿真,还能让创作者、审核者在任何地方,只通过软件应用就在一个共享的虚拟世界中进行合作。
在Omniverse里,可以做火山模拟、可以构建虚拟工厂、也能还原一个老黄的厨房。
国内央视的《飞向月球》太空纪录片,也同样有用到Omniverse,尤其是里面的数字人:
数字人产业发展如何了?
在GTC 2021大会上,老黄对数字人的未来可以说是非常看好,他表示:
智能虚拟助手的前景一片光明。
针对数字人产业,量子位智库在充分调研海内外状况,深度采访国内十余家头部企业的基础上,撰写了数字虚拟人产业报告。从关键分类、技术细节、发展阶段、细分场景、中外对比等角度全面分析这一产业,提供专业参考。
我们同时成立了虚拟数字人的专业读者社群,欢迎添加智库小助手扫码进入。
下载原版报告PDF
点击如下链接打开百度网盘,即可下载量子位智库出品《虚拟数字人深度产业报告(完整版)》。
链接: https://pan.baidu.com/s/11F7dOpe6BUI0uBBz0eJ0jw 提取码: 7cae
或在量子位公众号后台回复“虚拟数字人”亦可完成下载。
参考链接:
https://nvidianews.nvidia.com/news/nvidia-announces-platform-for-creating-ai-avatars