元宇宙大潮来袭？业内首个虚拟形象实时互动融合 SDK 来了！

元宇宙，火得猝不及防。

短短几个月时间，Minecraft、Roblox 进入了更多人的视野，GREE、英伟达、微软等陆续发布相关产品解决方案，韩国、日本还从国家层面宣布大力布局元宇宙赛道。《头号玩家》描绘的情景似乎明天就能成为现实。

（来源：清华大学新媒体研究中心-《2020-2021元宇宙发展研究报告》）

彭博行业研究报告预计元宇宙将在 2024 年达到 8000 亿美元市场规模，普华永道预计元宇宙市场规模在 2030 年将达到 1.5 万亿美元。市场潜力无限。

究竟什么是元宇宙？简单来说，元宇宙可以理解为平行于现实世界始终在线的虚拟世界。在这个世界中，除了吃饭、睡觉需要在现实中完成，其余包括工作、社交、娱乐等都可以在虚拟世界中实现。

神秘、未知，曾经只可能出现在梦中的幻境或许在不久的将来就能实现，想想就兴奋不已。

然而一个不得不承认的现实是：高拟真度的虚拟世界还没有建成，人们在虚拟世界的形象还没有立起来，终端还支撑不起那样的数据计算量，交互体验还不够好……一系列问题等着被攻克，元宇宙的大门还没有打开。

元宇宙两大核心技术

虚拟人和实时互动

正如前文所述，互联网的终极目标——元宇宙，可以打破人类社会活动的空间与时间的界限。在一个创造的虚拟空间里，来自世界各地的人们进行着真实的社会活动，社交、商业、娱乐...而其中“虚拟人”和“实时互动”能力是必不可少的两大核心技术。

虚拟人代表了个体可辨识度的形象和身份，实时互动能力可以实现沉浸式真实的社交活动，最终模糊虚拟和现实的边界。

元宇宙中虚拟人是指具有数字化外形的虚拟人物，与具备实体的机器人不同，虚拟人依赖显示设备存在。

一般来说，我们将虚拟人分为两类：一类是真人可驱动的虚拟人，另一类是具有人工智能的 AI 智能虚拟人。

元宇宙是另一个真实的人类社会活动的无限广阔空间，所以技术上实现真人可驱动的虚拟人是迈入“新世界”的第一步，当然如《失控玩家》里具有自我意识的 NPC 虚拟人物如果也能在元宇宙中实现，更是让人无限遐想。

（电影《失控玩家》）

因此元宇宙的虚拟人应具备以下三方面特征：

虚拟人外在形象，拥有人的外观或者卡通等有趣生动的外貌，具有特定的相貌、性别和性格等人物特征；
虚拟人表达能力，拥有人的行为，具有用语言、面部表情和肢体动作表达的能力；
虚拟人感知互动能力，拥有人的思想，具有识别外界环境、并能与人交流互动的能力。

外在、表达、感知，这些我们几乎每个现实人类都拥有的能力，对技术和设备的要求其实很高。

首先，爱美之心人皆有之，现实生活中的我离“盛世美颜”还有那么一小段距离，也许在新的世界里，我可以拥有“人生如果再来一次”的机会，倾国倾城走向人生巅峰。但是创建一个“美而好”虚拟形象，并不是一件容易的事情。AI 和图像的技术门槛很高，例如 3D 建模，高算力和渲染对设备性能要求等都是是一个业界难题。

其次，拥有了“沉鱼落雁、闭月羞花、倾国倾城”的盛世美颜后，光是一个静态形象，没有表情、没有肢体表达，元宇宙的世界瞬间变成“行尸走肉”的世界。这里涉及到语音生成（TTS、ASR、NLP 等）、动画合成（驱动、渲染）等 AI 相关技术，对技术要求的门槛可想而知。

最后，元宇宙映射的是真实人类世界，那么人类社会活动的基本元素“互动”是构建元宇宙的最关键一环，为了还原真实线下的无违和感的互动体验，需要低延时、高质量的实时通信服务保障，但是当前复杂多变的公网环境、终端设备等因素对通信传输是一大挑战。

为了能够在“新世界”里“自由翱翔”，虚拟形象要“美好”，表达要“清楚”，沟通互动要“顺畅”……需要解决很多问题，但是目前互联网广大用户还是以移动端手机为主，机型种类等也复杂多样。

因此，不需要外戴设备，又能解决实现虚拟人互动所需强大算力引起的性能问题，同时在复杂网络环境也能保障实时互动效果的解决方案，是当前最契合实际也是最好切入“元宇宙”的不二之选。

网易云信，来了！

发布虚拟形象实时互动融合 SDK

迈出进入元宇宙的第一步

针对当前面临的诸多难题，网易云信联合网易伏羲实验室推出业界首个「虚拟形象+RTC」融合 SDK，并且基于该融合 SDK 形成网易云信虚拟形象实时互动解决方案。

（网易云信虚拟形象实时互动解决方案）

该解决方案不仅可以生动还原虚拟人形象，同时结合了网易云信 WE-CAN（Communications Acceleration Network）实时传输能力，可以实现虚拟人实时互动，帮助企业客户 0 门槛也可实现虚拟形象实时互动场景，迈出元宇宙的第一步。

（虚拟形象实时互动 DEMO）

具体来说，网易云信虚拟形象实时互动解决方案具备六大优势：

1. 形象：高度还原，极致灵动。

网易云信虚拟形象实时互动解决方案可以通过摄像头或上传的视频检测用户面部表情动作，从而驱动 3D 虚拟人物做出相同表情，包括五官表情、头部姿态、眼球运动、吐舌头等均能还原追踪。

（虚拟形象展示）

部分传统的做法为了减少设备性能要求，往往以牺牲用户体验作为代价，例如动画合成方式：当用户进行说话，或者动作行为后，在预设的“表情、动作数据库”进行帧动画的匹配，最后对一系列帧进行合成播放实现虚拟人的“表达”。但是人类的行为是多样化的、随机的，不可能对所有行为进行预知预设，可想而知会出现所谓的“面瘫”或者“僵尸”。

而网易云信虚拟形象实时互动解决方案采用的是“端上实时捕捉、云上实时驱动”的方案，相比动画合成方案，更真实灵动。

2. 硬件：无需穿戴设备，手机即可实现。

网易云信虚拟形象实时互动解决方案支持使用普通单目摄像头进行迁移，无需其他动捕设备，简单便捷。只需普通的移动端设备或者 PC 端设备安装网易云信 SDK 后即可生成并驱动虚拟人，和远端真人驱动的虚拟人进行实时互动。

3. 性能：端-云协同，千元机也可畅玩。

用户通过终端设备（移动端或者 PC 端）进行音视频采集后，通过网易云信的 SDK 进行动作模型数据输出，连同采集到的音视频数据传输到云端进行虚拟形象重建合成。

通过在云端进行动捕数据分析建模渲染，网易云信虚拟形象实时互动解决方案极大地减轻双端算法性能压力，降低了用户入门门槛，让更多千元机用户也可以提前体验虚拟互动的乐趣，感受元宇宙福利。

4. 互动：低延时无卡顿，堪比“面对面沟通”。

作为融合通信云专家，网易云信的 RTC 能力在行业一直处于领先地位。针对元宇宙中必不可少的“实时互动”场景，网易云信 WE-CAN 全球智能路由网络为“0 距离”沟通保驾护航。

面对复杂多样的网络环境、良莠不齐的终端设备，WE-CAN 可以稳定提供全球范围内毫秒级延时的实时互动能力，通过智能路由网络择优选择最佳路线，百毫秒内触达全球数百个国家和地区，为 99.9% 的通话提供无卡顿的音视频服务。基于高可靠低延时的网易云信 WE-CAN 全球智能路由网络，网易云信虚拟形象实时互动解决方案可以实现虚拟人实时互动，像现实世界面对面对话一样。

5. 便捷：1 个 SDK 实现 2 大核心技术。

面对元宇宙中虚拟形象和实时互动两大难题，网易云信的一体化解决方案将虚拟形象和 RTC 在技术层面深度结合封装，客户再也无需对接多个供应商，只需一个 SDK 就可以构建一个充满遐想的高体验的虚拟形象实时互动场景。