【论文解读】Learning based fast H.264 to H.265 transcoding

时间: 2015 年
级别: APSIPA
机构: 上海电力大学

摘要

新提出的视频编码标准HEVC (High Efficiency video coding)以其比H.264/AVC更好的编码效率,被工业界和学术界广泛接受和采用。在HEVC实现了约40%的编码效率提升的同时,其计算复杂度也显著增加。因此,迫切需要一种高性能的AVC到HEVC转码器。本文提出了一种基于学习的快速转码算法,可以加快CU的判定过程。该方法首先对视频流进行JM解码,然后提取重要特征。这些特征被用作机器学习模型的输入,从而得到特定的CU深度。在x265中,我们跳过未选择的深度,并使用早期剪枝提前终止拆分。实验结果表明,与x265相比,所提转码算法在码率平均下降0.078dB的情况下,最多可节省41%的编码速度。该算法在性能和转码速度之间取得了较好的折中。

介绍

H.264 / AVC是2004年推出的视频压缩行业标准。在过去的十年中,它已经逐渐被接受并应用于在线内容压缩领域。由于带宽、频谱和存储空间的不足,迫切需要新一代视频压缩标准的提出。高效视频编码(HEVC)是由ISO和ITU-T共同制定的新一代视频压缩标准,是H.264的后续标准。这让人们对即将需要将日益增长的超高清内容用于多平台交付产生了巨大的乐观情绪。该算法采用灵活的分块策略,引入了编码树单元(CTU),但没有引入H.264中常用的宏块(MB)。实验结果表明,与H.264相比,HEVC在保证相近视频质量的前提下,可以节省约40%的码率。HEVC帧内编码采用35个方向模式进行预测。采用并行处理架构,加快编码速度,提高性能。

H.264到H.265的转码可能面临平衡码率性能和转码速度的挑战。这两个因素之间的权衡是代码转换框架的关键。H.264采用宏块(MB)作为基本单位。运动估计采用宏块(MB)和子块(subMB)的灵活划分。而在HEVC中,64x64 CTUs是进行进一步拆分的基本单位。HEVC编码器对CU四叉树进行递归遍历。当编码器检查当前深度上的所有候选模式时,当前深度将被分割为子 CU直到最小CU大小。编码器比较所有RD代价,选择RD代价最小的CU深度作为最终深度。转码框架首先对H.264码流进行解码,提取大量信息并使用合适的特征对H.265码流进行重编码。

为了解决码率转换性能和转码速度之间的矛盾,已有许多研究工作。CU的快速判定是一个有意义的研究课题。沈立权等人提出了一种HEVC帧内CU大小和模式选择的快速算法,跳过了一些在空间邻近的CU中很少使用的特定深度级别。Dong Zhang等人提出了一种基于功率谱的率失真优化(PS-RDO)模型,利用残差、模式和运动矢量来估计最佳CU。通过减少CU和PU分区候选个数,可以降低转码复杂度。Fangshun Mu采用一种H.264/AVC编码器级联的HEVC概念编码器架构,加速HEVC编码器的CTU拆分过程。收集H.264/AVC宏块(MBs)的细节信息,减少CU和PU候选模式,以加速CTU拆分过程。郑飞阳等人提出了一种基于H.264解码器残差信息和运动信息的快速转码算法,提出了一种相对有效的CU模式和预测单元(PU)模式选择策略。

为了使预测更加精确,使用机器学习来选择准确的CU深度。一些早期的工作是用这种方法完成的。Xiaolin Shen将CU分裂问题转化为基于支持向量机(SVM)的二分类问题,Luong Pham Van等人提出了一种利用机器学习技术对P图划分分裂标志进行早期预测的快速算法。在每个深度上,该方法帮助确定是否进行分割。

提出了一种基于学习的编码器框架。首先,对输入流进行JM解码,提取有价值的特征;然后使用基于学习的模型,使用这些特征计算每个8x8 CU的特定深度。最后采用早跳、早剪枝的方法跳过无意义深度。

本文的其余部分组织如下。在第二节中,我们简要介绍了CU的划分和我们的编码器框架。在第三节中,我们将介绍详细的结构,包括特征选择、MBs到CUs的映射以及CU深度的跳跃和修剪。第四节给出了实验结果,第五节对本文进行了总结。

问题分析

高清和超高清视频的出现推动了H.265/HEVC的发展,因为更高分辨率的帧需要在相对较大的编码单元中编码。HEVC采用CU代替AVC中的MB。在H.265中,CUs的范围从64x64到8x8,它们基本上替代了之前标准中的MBs和块。HEVC将帧划分为 CTU,并引入了编码单元(coding unit, CU)、预测单元(prediction unit, PU)和变换单元(transform unit, TU) 3个概念,以方便对块层次结构的语法表示。

编码结构可以分析为递归计算不同大小的CU和PU。图1显示了一个典型的CTU拆分方式。CU以递归的方式划分,从64x64到8x8。对于每种尺寸的CU,计算RD代价,直到遍历所有尺寸的CU。然后采用具有最小RD代价的CU尺寸,并放弃其他拆分方式。因此,编码器必须尝试所有可能的CUs和PUs组合,这大大增加了编码器的计算负担。
在这里插入图片描述
由于H.264的编码结构与HEVC类似,因此可以重用H.264码流中的细节信息来帮助判断特定的CU和PU模式。图2说明了H.264和HEVC之间的相似性。
在这里插入图片描述
两种编码器都会在纹理特征重要的部分进行分割,在信息较少的部分保持原始大小。通过这种方式,我们可以使用从H.264流中提取的信息来确定CU是否需要拆分。在这个过程中,我们可以通过机器学习显著提高我们的预测。

在帧间预测中,同质区域更可能由较大的块表示。通过对H.264/AVC码流最终分割结果的观察,粗分割通常应用在运动平滑的区域,导致剩余能量较小。如图3所示,HEVC为0到3的四种深度范围内的树单元编码开辟了一种新方法。深度值取决于编码单元的大小,而64x64表示深度0。与H.264中固定大小的MBs进行了比较。该方法对兴趣内容具有较好的适应性。当深度为2时,CU的大小为MB,即16x16。这样就可以通过H.264和HEVC建立CU深度模式映射。直观地说,如果在H.264中对16x16的MBs进行了划分,那么相邻的MBs也进行了划分,那么相应的CU至少要划分到深度2。反过来,CU甚至可能不会被划分为深度1。
在这里插入图片描述

提出的算法

正如在第二节中简要介绍的,x264和x265之间的模式映射非常有意义。H.264中16x16大小的MBs可以映射为同帧中x265编码器中对应位置的16x16单元。在H.265/HEVC中,两种编码规则之间必须存在一定的相关性才能支持深度选择。因此,由于有价值的映射,转码框架可以以相对较快的速度工作良好。

系统结构:
采用IPPP帧结构,提出了一种基于JM解码器和x265编码器的H.264/AVC到H.265/HEVC转码框架。如图4所示,我们在接收流时首先对流进行解码。在解码过程中,所有需要的信息都从流中提取并存储在x265编码器中。然后对提取的特征进行常规计算,并将其作为我们提出的基于学习的模型的输入。基于学习的模型就像一个黑盒,输出精确的指定深度。然后x265精确计算指定深度的RD代价,而不是递归计算所有深度的RD代价。传统上,为特定的CTU计算最佳CU深度是复杂而繁琐的。我们需要遍历从8x8到64x64的所有大小的CTU,计算RD成本并相互比较,以找到最优的选择。
在这里插入图片描述
使用SVM作为CU深度映射的深度预测:
该算法基于模式映射,特别是H.264和HEVC之间的CU深度选择。

如图4所示,所提算法的总体框架分为两部分:(i) H.264到HEVC的转码。(ii)训练最佳CU深度映射模型。首先使用JM解码器对输入流进行解码,并在前期工作的基础上提取特征。Eduardo Peixoto提出,MV相位方差和DCT系数也可以帮助预测深度。我们尝试将这些特征加入到SVM模型中,以提高准确率。结果显示BDRATE增加了。由于特征与视频之间的相关性可能紧密或微弱,视频与MV相位方差之间相对较弱的相关性可能会对CU深度决策产生负面影响。对于快速CU深度决策来说,选择正确合适的特征并获得良好的结果比使用所有特征更合理。因此,该算法使用分区和MB信息。

这些特征可以分为三类:(i) CTU的QP值,CTU的QP值在22 ~ 37之间,我们将其分为四类(22,27,32,37)。由于QP值对结果有很大影响。(ii)表示数据流中Skip或16x16 Mb大小的Mb类型(iii)表示具体Mb的详细信息的分区类型(16x8,8x16,8x8 Mb大小)。由于H.264需要16mb的数据流,考虑到特定区域中相邻Mb的空间相关性,并构成16x16 Mb到64x64 CTU之间的CU深度映射,因此需要考虑MBs的相邻特征。如图5所示,由于HEVC的CTU采用了表示深度1和0的两种尺寸,因此我们使用32x32和64x64尺寸作为范围来计算不同相邻MBs之间的空间相关性。在32x32和64x64的情况下,以16x16为基本单元计算两个特征的和和方差。因为和代表深度0到1的划分,而方差更多地反映了深度2到3。当我们获得特征时,首先预测QP,并根据QP值进入不同的模型。对于不同的QP值,求和和方差计算函数相同,具体值不同。
在这里插入图片描述
图6给出了SVM训练和预测的具体过程。如上所述,提取三类特征并进行分类。然后根据这些特征的空间相关性对其进行预处理;计算不同尺度MBs的和和方差。在支持向量机(SVM)的基础上训练模型,由支持向量机(SVM)训练特征得到CU深度预测映射模型。该模型根据不同特征的范围输出指定的深度。在训练过程中,采集大量训练视频的特征作为SVM训练模型的输入。如图6所示的第二步,预处理后的特征可能包括不同尺度的特征之和和方差。我们计算4个较小块在一定尺度下的值的总和,以及一个较小块与其他3个较小块的方差,作为我们的预处理。所有特征的组合可能有上万种,每个特定特征的范围可能非常大,每个特征的波动范围也很大。SVM训练模型首先给出所有特征的组合及其对应的深度。
在这里插入图片描述
但我们不会计算特征的所有组合,因为在许多情况下,输出深度可能会发生变化,即使其中一个特征只有一点点变化。这可能会导致判断上的一些错误。因此,当其中一两个特征在一定范围内发生变化而深度不变时,将这些特征与其对应的深度进行组合。

提前跳过和提前剪枝:
SVM训练模型将根据输入计算特征并获得指定的深度。然后将此深度设置为在x265中执行的深度,以进行提前跳过和提前修剪。

深度范围从0到3,深度0表示64x64的尺寸,而深度3将尺寸缩小为8x8。当预测深度介于1到3之间时,将执行早期跳跃。如果我们跳过不必要的深度,可以节省大量不必要的计算。当深度小于预测深度时,跳过所有PU模式的RD代价计算。

图7描述了所提算法的过程,标志EP表示CU分裂提前结束。它表示早期剪枝,预测深度首先计算所有PU模式,我们假设最小RD成本模式必须存在于此深度。超过这个深度的可以放弃。x265采用递归四叉树编码策略对图像块进行划分。当EP等于1时,递归停止,这意味着进行剪枝。

该算法还采用了决策树的动态剪枝方法来降低预测误差。这意味着可能需要考虑一些特殊情况。图6列出了特征的预处理结果。其中,一些组合可能导致模糊预测。当特征表明预测深度至少为2时,如果16x16 CU的和和方差都超过一定的阈值。深度可以转到2或3。在这种情况下,EP被赋值为0,只会多计算一个深度。这意味着深度2和3将被计算。在保证编码速度的前提下,大大降低了预测误差。
在这里插入图片描述

实验结果

由于之前的工作和分析,所提算法没有在H.265/HEVC参考模型(HM)上实现,该科学模型不适合实际应用。我们采用x265作为基准编码器,而不是HM,因为它在工业上的常用。x265是HEVC编码的开源实现,目标是在基于通用多核CPU平台上进行实时编码。因此,在现代多核计算机上,x265的编码速度几乎是原始HM的数百倍。目前x265已经被FFMPEG、VLC等著名工具所使用。

对于转码框架,首先使用JM对流进行解码,提取信息,因为JM可以获得更多的特征,且解码速度较快。

为了测试算法的效果,使用4个QPs(22,27,32,37)对所有测试用例进行编码和比较,x265采用相同的QPs。我们定义了两个参数来比较性能和分析质量退化。他们是PSNR和Bits。定义如公式 1 和 2
在这里插入图片描述
为了使结果更加直观和令人信服,我们计算了BD-PSNR。采用了应用最广泛的Bjontegaard失真度-psnr (BD-PSNR)[8]为了评估编码效率的提高,时间节省如下公式 3 表示
在这里插入图片描述

利用B类和E类的所有标准测试序列,每个类中只测试一个视频,训练其他视频,建立SVM训练模型。我们用这种方式交叉验证结果。在测试和验证算法的过程中,通过检测原始深度和预测深度来修正算法以提高精度。我们可以从我们的方法中推断出深度0和1一定达到了真实的深度,因为深度0和1占据了大部分的深度,并且会显著地影响结果。显然,要更准确地预测深度0和1要简单得多。实验结果为我们的代码转换架构提供了一个相对较好的映射表。

表1展示了算法的运行结果。在BD-PSNR仅下降0.078dB的情况下,平均节省了x265 41%的编码速度。在所有测试序列中,720p序列的编码时间节省较少,BD-PSNR值增加较多。
在这里插入图片描述
分辨率在一定程度上影响了转码算法的性能,可以作为转码算法的一个特征,因为以往的实验大多是在速度非常慢的HM上进行的。基于x265的实验结果更具有参考价值和实用性。

图8展示了本文算法和x265全rdo预置的RD曲线。基于transcoding的CU映射算法的性能与x265相当。码率较低时,码率失真性能略有下降。在节省编码速度和码率性能之间取得了很好的折中,BD-PSNR平均损失不超过0.08dB。
在这里插入图片描述

结论

针对H.264到H.265的转码,提出了一种基于学习的快速CU判决算法。该方法为基于机器学习的快速转码提供了一种新的途径。在转码框架中,整个算法包括三个重要方面:(1)首先经过JM解码的比特流;针对x264中每个特定的16x16 MB,提取了几个重要的特征。(2) x265跳过了不必要的CU深度,即深度小于上面提到的确定深度。这些深度的计算是不需要的。直接跳到确定的深度,无需冗余计算。(3)如果确定的深度不是上一个深度,可以放弃后续的深度计算。换句话说,只计算选定的深度。跳过CU和提前剪枝可以在不影响编码性能的前提下降低x265编码的复杂度。实验结果表明,在比特率损失很小的情况下,该算法可以节省40%以上的编码时间。进一步的工作将集中在基于4k甚至8k视频的快速PU决策映射上,以满足时代的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/225778.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle下载

前言: 官网上提供都是最新的什么19c 21c这些版本,我要的是 11g 12c 或者更老的 8i 9i 这些版本。 准备下载一个oracle12c 版本,但是找了很久,最终…详情请看下面 oracle 数据库版本介绍 Oracle数据库有多个长期支持版本&#x…

LabVIEW在横向辅助驾驶系统开发中的应用

LabVIEW在横向辅助驾驶系统开发中的应用 随着横向辅助驾驶技术的快速发展,越来越多的研究致力于提高该系统的效率和安全性。项目针对先进驾驶辅助系统(ADAS)中的横向辅助驾驶进行深入研究。在这项研究中,LabVIEW作为一个强大的系…

LDO线性稳压器与开关电源的原理

线性稳压器LDO典型代表:LM7805 ,AMS1117,还有一下性能比较好的LDO: 开关稳压器典型代表:LM2596,MP1584,TPS5430,MP2315S LDO靠发热分散能量,纹波较小一般在30mv以下;DCDC通过开关开断…

嵌入式单片机的存储区域与堆和栈

一、单片机存储区域 如图所示位STM32F103ZET6的参数: 单片机的ROM(内部FLASH):512KB,用来存放程序代码的空间。 单片机的RAM:64KB,一般都被分配为堆、栈、变量等的空间。 二、堆和栈的概念 …

[SWPUCTF 2021 新生赛]finalrce

[SWPUCTF 2021 新生赛]finalrce wp 注&#xff1a;本文参考了 NSSCTF Leaderchen 师傅的题解&#xff0c;并修补了其中些许不足。 此外&#xff0c;参考了 命令执行(RCE)面对各种过滤&#xff0c;骚姿势绕过总结 题目代码&#xff1a; <?php highlight_file(__FILE__); …

运动障碍疾病常用量表汇总,赶快收藏!

根据神经内科医生的量表使用情况&#xff0c;常笑医学整理了神经内科临床上常用的运动障碍疾病评估量表&#xff0c;均支持量表下载和在线使用&#xff0c;建议收藏&#xff01; 1.统一帕金森病评定量表(UPDRS 3.0版) 统一帕金森病评定量表(UPDRS 3.0版)-常笑医学网​http://w…

小狐狸GPT付费2.4.9 去除授权弹窗版

后台安装步骤&#xff1a; 1、在宝塔新建个站点&#xff0c;php版本使用7.2 、 7.3 或 7.4&#xff0c;把压缩包上传到站点根目录&#xff0c;运行目录设置为/public 2、导入数据库文件&#xff0c;数据库文件是 /db.sql 3、修改数据库连接配置&#xff0c;配置文件是/.env 4、…

对于c++的总结与思考

笔者觉得好用的学习方法&#xff1a;模板法 1.采用原因&#xff1a;由于刚从c语言面向过程的学习中解脱出来&#xff0c;立即把思路从面向过程转到面向对象肯定不现实&#xff0c;加之全新的复杂语法与操作&#xff0c;着实给新手学习这门语言带来了不小的困难。所以&#xff…

如何在Android Termux中使用SFTP实现远程传输文件

文章目录 1. 安装openSSH2. 安装cpolar3. 远程SFTP连接配置4. 远程SFTP访问5. 配置固定远程连接地址6、结语 SFTP&#xff08;SSH File Transfer Protocol&#xff09;是一种基于SSH&#xff08;Secure Shell&#xff09;安全协议的文件传输协议。与FTP协议相比&#xff0c;SFT…

Analytify Pro Google Analytics Goals Addon谷歌分析目标插件

Analytify Pro Google Analytics Goals Addon谷歌分析目标插件是一款极其巧妙且具有开创性的工具&#xff0c;它赋予用户细致跟踪和全面分析其网站性能的卓越能力。有了这个非凡的插件&#xff0c;个人可以毫不费力地建立并认真监控他们的Google Analytics目标&#xff0c;从而…

在 Unity 中获取 Object 对象的编辑器对象

有这个需求的原因是&#xff0c;在编辑器的 Inspector 逻辑中&#xff0c;写了许多生成逻辑。 现在不想挨个在 Inspector 上都点一遍按钮&#xff0c;所以就需要能获取到它们的编辑器对象。 发现可以借助官方的 UnityEditor.Editor.CreateEditor 方法达到目的&#xff0c;如下…

一.windows2012搭建fpt服务器和常见端口介绍

一.windows2012搭建fpt服务器和常见端口介绍 1.打开防火墙2.创建组2.1打开计算机管理2.2创建组并且设置名称和描述 3.创建用户3.1设置用户密码和名称3.2把用户归属于组3.3把user删除掉3.4点击添加然后点高级3.5点击立即查找选择之前设定的组 4.安装ftp服务器4.1点击添加角色和功…

千巡翼X4轻型无人机 赋能智慧矿山

千巡翼X4轻型无人机 赋能智慧矿山 传统的矿山测绘需要大量测绘员通过采用手持RTK、全站仪对被测区域进行外业工作&#xff0c;再通过方格网法、三角网法、断面法等进行计算&#xff0c;需要耗费大量人力和时间。随着无人机航测技术的不断发展&#xff0c;利用无人机作业可以大…

软件测试/测试开发丨Pytest 测试框架学习笔记

前言 自动化测试前&#xff0c;需要提前准备好数据&#xff0c;测试完成后&#xff0c;需要自动清理脏数据&#xff0c;有没有更好用的框架&#xff1f;自动化测试中&#xff0c;需要使用多套测试数据实现用例的参数化&#xff0c;有没有更便捷的方式&#xff1f;自动化测试后…

第2课 用FFmpeg读取rtmp流并显示视频

这节课我们开始利用ffmpeg和opencv来实现一个rtmp播放器。播放器的最基本功能其实就两个:显示画面和播放声音。在实现这两个功能前&#xff0c;我们需要先用ffmpeg连接到rtmp服务器&#xff0c;当然也可以打开一个文件。 1.压缩备份上节课工程文件夹为demo.rar&#xff0c;并修…

蓝牙物联网智能门控系统设计方案

随着电子信息技术的飞速发展&#xff0c;物联网技术提升到国家战略高度&#xff0c;研发和应用进程加速并不断取得实质性进展。物联网核心技术包括传感测试技术、网络通信技术、云计算等&#xff0c;具有广域覆盖、大容量、超低功耗和低成本等特点&#xff0c;目前在远程监控、…

Git使用教程 gittutorial

该教程对该文章的翻译&#xff1a;https://git-scm.com/docs/gittutorial 本文介绍怎用使用 Git 导入新的工程、修改文件及如何其他人同步开发。 首先&#xff0c; 可以使用以下指令获取文档帮助 git help log笔者注&#xff1a;不建议看这个文档&#xff0c;标准的语法介绍…

《Spring Cloud学习笔记:微服务保护Sentinel》

Review 解决了服务拆分之后的服务治理问题&#xff1a;Nacos解决了服务治理问题OpenFeign解决了服务之间的远程调用问题网关与前端进行交互&#xff0c;基于网关的过滤器解决了登录校验的问题 流量控制&#xff1a;避免因为突发流量而导致的服务宕机。 隔离和降级&#xff1a…

前后端分离下的鸿鹄电子招投标系统:使用Spring Boot、Mybatis、Redis和Layui实现源码与立项流程

在数字化时代&#xff0c;采购管理也正经历着前所未有的变革。全过程数字化采购管理成为了企业追求高效、透明和规范的关键。该系统通过Spring Cloud、Spring Boot2、Mybatis等先进技术&#xff0c;打造了从供应商管理到采购招投标、采购合同、采购执行的全过程数字化管理。通过…

【头歌实训】PySpark Streaming 数据源

文章目录 第1关&#xff1a;MySQL 数据源任务描述相关知识PySpark JDBC 概述PySpark JDBCPySpark Streaming JDBC 编程要求测试说明答案代码 第2关&#xff1a;Kafka 数据源任务描述相关知识Kafka 概述Kafka 使用基础PySpark Streaming Kafka 编程要求测试说明答案代码 第1关&a…