建设元宇宙基础设施——PPIO边缘云在云渲染/云游戏的思考和实践

关于“元宇宙”的讨论越发火热，而建设元宇宙不可避免需要布设基础设施，LiveVideoStackCon 2022 北京站邀请到PPIO边缘云联合创始人——王闻宇，同大家探讨元宇宙网络时延的最优解–边缘云基础设施的架构与建设，并介绍PPIO边缘云在泛云游戏领域的一些思考和实践。

文/王闻宇

编辑/LiveVideoStack

“元宇宙“源于1992年出版的美国著名科幻小说——《雪崩》（Snow Crash）。

在他的描绘中，所有现实世界中的人在元宇宙中都有一个“网络分身”。数字世界主干道灯火通明，可容纳数百万人的“网络分身”在街上往来穿行。

包括后来的《黑客帝国》《头号玩家》《赛博朋克2077》等所有元宇宙作品，都描述的是在视网膜级视觉体验中，也就是人的视觉完全沉侵在虚拟的计算机世界中。

2014年，Facebook以23亿美元收购了Oculus，并在VR业务上持续投入了大量研发费用。Facebook和Ray-Ban公司研发轻便型AR眼睛——Ray-Ban Stories，并且研发Project Nazare从而实现MR眼镜。

Facebook提炼出了元宇宙的8个特点：

①身临其境感（Feeling of Presence）②虚拟形象（Avatar）；

③家庭空间（Home Space）④远距离传输（Teleporting）；

⑤互操作性（Interoperability）⑥隐私安全（Privacy and Safety）；

⑦虚拟物品（Virtual Goods）⑧自然界面（Natural interfaces）。

第一要素是身临其境感，即完全把人类的视听觉包裹在沉浸世界中。

近期AIGC发展势头很足，包括ChatGPT及AI作图Midjourney等产品的诞生，都彰显着AI已经进入新的高速发展的时代。元宇宙和AI结合的终局会是怎样呢？我设想未来会有一款超级设备，首先用脑机接口从人脑中读取信息，再通过AIGC实时生成完全3D且高清的画面，通过AI设备实时回传到人的神经视觉中，从而实现“所想即所得”的状态，即想到的事情会瞬间反映为所见所听。

在我看来，不论科幻还是现实，元宇宙终极追求的是，类真实世界的音视频体验。我提出了“视网膜级视觉体验”，那么技术上要如何做到呢？且看下文分享。

我是王闻宇，现任PPIO边缘云联合创始人、CTO。我从2004年开始做音视频，当时的网络情况较差，我在学生宿舍写出PPTV第一版，后来主导了PPTV的音视流，P2P/CDN，点播，直播，编解码等，担任PPTV首席架构师。2014年暂时地离开音视频行业，联合创办极豆车联网，服务BBA车厂。2018年与原PPTV创始人姚欣联合创办了PPIO边缘云，发展靠近用户侧的边缘节点，提供边缘的算力，传输，存储业务，主要服务音视频行业。

VR的视觉原理是靠双眼产出不同图像后在大脑中产生视觉差，继而大脑通过细微差距计算输出3D效果。也就是说要使人眼产生3D视觉，就必须渲染出两种不同的画面。

大家可能疑惑多少分辨率才能实现视网膜级体验。图中是人眼结构，PPD是每度像素，FoV是视域/视场角。视网膜屏最初由苹果定义，假设手机屏幕距离人眼40cm，视场角为10度，覆盖640像素，推演得到300PPI，此时的人眼分辨率最精准。iPhone 14的PPI已经提升到了460，这是因为iPhone 14假设屏幕距人眼25cm。根据iPhone 4和14进行倒推，同时我浏览了大量关于人眼精度的测验报告，根据多项实验证明，视网膜分辨率大概是60PPD，即每度60像素。

图中数据来自多位科学家的实验结果，既然我们已经知道了PPD是60，那么FoV又是多少？人眼是一个非常精细的器官，中心地带的视觉比较清晰，周围则较模糊。大量资料中提到窄域和宽域，窄域是人眼感知非常精确的部位，视场角大概是60度，宽域是眼球不刻意转动时单眼的视场角，大概是25度，双眼会更高。

为了达到视网膜级视觉体验，元宇宙设备需要覆盖宽域，这是因为戴在眼睛外，需要达到全方位清晰。将124度乘以60PPD，得出7740，由于人眼是球状的，所以分辨率接近7740*7740，计算得出像素在6000万左右。

对比当前常见的分辨率，人眼宽域最高精度是单眼超过的8K多一些，也就是说元宇宙设备的分辨率必须达到8K，才能实现视网膜级视觉体验。

图中是当今世界主流VR设备的参数，目前最先进的是Pimax 8K X，分辨率达到单眼3840*2160，当然其价格较贵，（不属于消费级产品，用于工业为主），距离视网膜级视觉体验要求还差3-5倍，所以可能还需5-10年才能出现一款达到要求的设备。

AR设备运用了光学反射原理，其FoV难以做高。右侧是市面上所有AR设备的参数，可以推断AR设备达到视网膜级视觉体验至少还需10年。

另一个概念是刷新率，即达到类真实事件体验时每秒出现的画面帧数，目前没有严格的评测人眼的刷新率。电影界共识是24帧/s可以让人眼感受不到画面晃动。从现在手机/显示器的实际体验来看，60帧基本满足显示效果，120帧完美满足高速动作（一般PFS射击游戏玩家会比较在意），240帧则为发烧级。在后面的测算都采用的60帧。

那么60帧、8K的画面需要多少码率呢？以上是截止2020年的音视频编解码算法评测数据，其中表现较好的是AV1，即单眼68Mbps的码率。这里差不多，内容不同，会有些差些，我们暂时采纳这个数字来作为测算。

图中总结了目前消费级的能够支持8K分辨率，120Hz的渲染显卡。整体看来，无论是NVIDIA还是AMD，它们的功率基本在350w左右，重量大概为2kg，所以实时渲染8K高清画面的发热量和重量都非常高。

我以最新的NVIDA GeForce RTX 4090为样本进行了测算，试想无论是VR或AR设备，在终极状态下，为了实现双眼8K的算力，需要承载两张4090显卡，其发热量相当于一匹空调，重量达到5kg，再加上电磁辐射，结论是不可能在人们的头上戴这样的设备。要解决视网膜级视觉体验，唯一的办法就是引入串流方案。从云端或者局域网，通过串流方式到达VR/AR设备，此时的VR/AR设备仅仅作为渲染和反馈的终端，而非计算终端，这是未来必然的趋势。

大家可能会说，芯片技术不断发展，也许几年后能够做小做轻。

右侧是iPhone芯片工艺的发展历史，从2007年的90nm到2022年的4nm，其遵循的摩尔定律即将达到极限，1nm相当于3-5个原子紧密排列的长度，若继续压缩，会出现热效应、量子效应、成本及工艺问题，这都意味着其不可能性。

从事芯片相关行业的同学可能会提出SIP封装技术，但SIP封装技术只是更高密度的工程优化，并不是纳米技术的本质突破，它可以通过堆叠提高算力，但无法降低重量和发热量。

前不久可能大家也听说了，量子计算机取得了大的突破，资料显示量子计算机的原理主要包括超导原理和离子阱原理，前者需在超低温下运行，后者在高温下运行，无论如何都无法存在于日常家庭中，即使要用也只可能放在云端机房。

综上，在能预见到的未来，要实现终极的视网膜级视觉体验，是无法摆脱音视频串流技术方案的。

提到串流，不得不考虑一个问题：VR设备为什么会导致眩晕？

这是由于大脑感觉“被欺骗”，包括瞳距、景深等问题，但难解决的是M2P时延问题，即运动到光子的时延，当人的头移动后，画面是否能足够低时延地反映效果，若是慢了，大脑会产生“被欺骗”的感觉，从而引发M2P时延。许多评测数据显示，低运动状态下，M2P时延不能高于20ms，高运动状态下，M2P时延不能高于7ms。

在当下的串流方案中，包括编码、解码和传输环节，即使做到极限，也很难达到20ms的响应值，基本在30-100ms之间。最复杂的瓶颈在网络时延环节，因为它和基础设施有关，和非常分散的网络环境部署相关，不是仅仅单方面的努力就能改善的。

因此，要用边缘云的方案来解决这样的问题，也就是要将算力放在靠近用户的边缘，在这可以分布式应对高并发、大带宽、能真正地做到低时延。

只有将云计算的算力从千里之外放到社区周边，才可能实现超低时延。

图中是我们进行的数据测量，在大流量高负载的传输中评估的（至少是每秒50Mb的传输），即达到城域网级别时，时延可以达到5ms及以下，再结合编解码等其他环节的时延优化，才能控制在20ms以下，达到M2P时延要求，这非常具有挑战性，也是未来需要长期坚持的事。

再推演一下，全国需要多少节点才能实现这件事呢？

城域网节点基本覆盖在县级，全国三大运营商，考虑部分人口密集的城域网要布设多个节点，边缘云差不多要覆盖1w+个节点才能覆盖所有的城域网。

PPIO正通过汇聚边缘碎片化算力资源，提供超低时延的边缘计算服务。我们要和中心云形成良好的协同，边缘云并非中心云的替代品，而是起到补足的作用，从而更好地解决客户需求。

在我看来，凡是需要边缘节点，利用算力进行实时渲染，通过RTC技术，流媒体方式、端通信技术，统称为“泛云游戏”，包括云游戏、云手机、数字孪生、VR/AR等，泛云游戏可以说是元宇宙的音视频初级形态。

随着未来设备的升级，其终局可能就是视网膜级视觉体验。

PPIO也正在建设未来元宇宙的基础设施，应用场景包括长短视频、互动直播、云通讯、云游戏、AR/VR。随着方案的逐步升级，时延会越来越低，这里的时延指的是触控时延。

云游戏的时延只要达到50ms就能让玩家获得良好的体验，但VR/AR需要20ms的时延（M2P时延要求），其中AR要求时延更低，因为它存在和现实世界同频的问题。

PPIO边缘云在发展的同时，也在全国高速建设节点，至今已经覆盖了200+个城市，1000+个区县，达到了30T的带宽规模。

PPIO服务了云游戏平台及元宇宙场景。前者包括跨端随心玩，支持在移动端、TV端随时随地玩PC端游，让玩家游戏不中断，后者包括元宇宙营销、元宇宙社交、元宇宙空间及元宇宙线上发布会。

我们也沉淀出了比较完善的云游戏IaaS实践案例，从硬件，基础服务到业务接入一系列的过程。此外还支持X86及ARM，能够在云端运行安卓程序。

在机房部署方面，我们也有完善的云端解决方案，通过控制台引入需求，再通过接口依靠无盘系统，通过高速内网调用周围机器，及RTC转发服务，使用户形成streaming的效果。

图中是无盘方案的细节，既能支持游戏下载、镜像存储，还支持回写，将用户存档有区别地保留下来。

PPIO主张高性价比、强大云能力及对游戏体验进行优化。

关于元宇宙未来发展趋势的思考，我设计了一个公式：音视频服务用量=使用服务的在线用户数*算力用量=设备数*联网率*平均使用渗透率*算力用量（算力用量包括码流率和渲染/AI算力）。

目前国内视频CDN约500T，70%左右集中在移动设备上，10亿移动用户每人每天上网7～8小时，其中30%时间用于视频。试想，未来实现了视网膜级视觉体验，双8K+分辨率，它所带来的整个音视频服务用量会是现在的几十倍甚至上百倍。虽然短期流量有些波动，但从3～10年是未来看，我相信各位从业者的前景都非常好。