《头号玩家》口碑炸裂,给似乎已进入低谷期的 VR 产业带来了新一轮的热度。VR 技术因其充分的沉浸性、高真实性和高交互性等特点,在 2016 年曾受到广泛关注,并被寄予厚望。但由于一些老生常谈的问题,如成本过高、内容质量低、技术瓶颈制约、体验较差等,导致热度在这两年未能成功延续。纵观当今市场,VR 的身影虽然已有出现在影视、游戏、医疗、教育、直播等多个行业应用中,但均未有特别亮眼的表现。如何攻克现有的技术难点,成为整个 VR 产业最迫切需要解决的问题。
拿目前相对成熟一点的 VR 视频来说,全景摄像机等设备的出现,降低了 VR 视频内容制作的门槛,能简单粗暴的录制和生成三自由度或六自由度的全景图像。但由于视频清晰度不够理想,画面粗糙,播放卡顿等因素,导致用户观感较差,容易产生眩晕感。其衍生而来的 VR 直播同样存在类似的问题。VR 直播可为观看者营造较好的临场沉浸感,但它的技术难点在于视频清晰度不理想,高码率传输成本高和对转码实时性与终端解码性能要求非常高。
如上图所示,从全景采集到网络分发,再到对用户端方面的多终端适配播放,实现 VR 直播的各个环节都需要较高的技术支持。抛开采集和拼接这两个极度依赖软硬件的环节不说,VR 视频最终需要通过互联网分发给用户,如何提供清晰、流畅的 VR 体验,映射和传输方法起到了关键性作用,如何在有限的带宽上传输高质量 VR 视频也是目前最大的挑战。而映射过程与传输又紧密相关:为便于存储和压缩编码,摄录的全景球面视频内容需被几何映射到平面,映射过程影响了 VR 视频编码前的像素量,在一定程度上也决定了视频内容所包含的信息量。
目前的传输方法主要分为两类:全景传输和视点自适应传输。
全景传输
全景传输是指将全景视频以同等质量、完整的发送给用户,优点是保留信息量大,完整保留了原始球面视频的所有内容,而且可以直接使用现有的编码器和传输方式。但由于播放设备和视角的限制,用户在某一时刻只关心视角范围内的部分内容,导致造成较高的资源浪费,对带宽消耗大。
全景传输对应的映射方法是均匀映射,包括矩形映射(ERP)、立方体映射(CMP)、八面体映射、二十面体映射、柱状映射等等。理论上,使用面数越多的正多面体,可以使得映射后的数据量越小。但同时这些正多面体都需要通过“再拼接”形成矩形平面,会导致拼接过程中内容上的不连续,影响编码效率。
视点自适应传输 视点自适应传输,指的是根据用户视点动态传输视角范围内的视频,从而避免资源浪费。在相同带宽条件下,它可分配更多带宽给视角区域,从而提高用户视窗内视频的质量,增强观看体验。然而,若用户当前视点与视频预估的视点不符,看到的画面就会出现黑屏或质量很差等问题。
视点自适应传输对应的是非均匀映射和分块传输。非均匀映射在对球面内容采样时,会对球面上的像素点有不同的权重,从而保证关键视频内容得到保留。目前 Facebook 和高通等公司已提出多种非均匀映射传输方式 ,包括多分辨率立方体、金字塔映射、偏移立方体、阶段金字塔等,均是在保持视点区域质量的前提下,降低整体分辨率。不同的映射方式都还存在不同的问题,比如变形、失真、边界等等。
分块传输是另一种视点自适应传输方式,它灵活地将全景视频按照空间划分为若干个子视频块,客户端可根据网络状况和用户头部运动有针对性的向服务器端请求视频片段。对比非均匀映射,分块传输进一步减少了传输数据量,因为它只传一部分内容。分块传输也包括许多种切分方式,像是六面几何式、18 格矩形分割方 式、12 格矩形分割方式等。在视频传输过程中,切分粒度越小,视频块的组合就越贴近用户视角,浪费的视频内容也就越少。但由于在切分后像素之间的相关性被破坏,使得切分后编码数据量之和会略大于切分前的数据量,所以如何决定分块大小也是一个值得斟酌的问题。
当然,上面更多的是理论层的东西。如何根据现实业务,在映射和传输过程中尽可能的保证视频质量和降低资源占用,有待实际摸索和尝试。即将于 4 月 21 日举办的武汉源创会上,开源中国邀请到了优酷视频 VR 技术 leader 张天若,从优酷现有的 VR 业务出发,对应用的多机位采集、视频编解码、视频分发与多终端适配播放等核心技术与原理进行深入解读及答疑解惑,感兴趣的切勿错过。
传送门:https://www.oschina.net/event/2276486