【论文解读】CNN-Based Fast HEVC Quantization Parameter Mode Decision

时间:2019 年
级别:SCI
机构:南京信息工程大学

摘要

随着多媒体呈现技术、图像采集技术和互联网行业的发展,远程通信的方式已经从以前的书信、音频转变为现在的音频/视频。和 视频在工作、学习和娱乐中的比例不断提高,高清视频越来越受到人们的重视。由于网络环境和存储容量的限制,原始视频必须进行编码才能高效地传输和存储。高效视频编码(HEVC)需要大量的编码时间 递归遍历自适应量化过程中编码单元所有可能的量化参数值。通过比较率失真代价计算出最优量化参数。本文提出了一种基于卷积神经网络的HEVC量化参数快速选择方法,节省了视频编码时间。

介绍

随着多媒体成像技术、图像采集技术和互联网产业的发展,人们的远程通信方式已经从以前的书信方式转变为音视频结合的方式。视频在工作、学习和娱乐中的比重越来越高。此外,高清视频可以提供更清晰、更逼真的图像,对于会议格式、监控精度等各个行业的发展都起着至关重要的作用。然而,随着视频清晰度和分辨率的提高,视频内容需要更多的比特来存储。高效的压缩是超高清视频能否广泛应用于市场的关键。为应对不断变化的视频编码需求,国际联合视频团队发布了HEVC。

新一代标准在技术上进行了深度更新,如在编码结构中采用四叉树算法提高编码树单元的划分水平、使用更大的分辨率和非对称预测单元、多参考帧运动估计等。此外,HEVC将基于块的运动补偿用于帧间预测。HEVC可以计算连续帧之间在空域和时域上最佳匹配块的偏移距离。这是运动矢量MV。通过选择空域或时域上相邻的MV来预测当前MV,然后对MV的预测残差进行编码,从而节省了大量的MV编码比特数。在MV预测方面,HEVC提出了AMVP和Merge两种新技术。这两种新技术都建立一个候选MV列表,然后选择率失真代价最小的MV作为当前主用户的预测MV。两者的区别主要在于Merge模式主要传输候选PU块的索引,而不需要传输MV信息。AMVP模式需要传输当前编码PU的MV信息进行帧间预测。其次,候选链表长度不同;Merge模式的候选列表长度为5,而AMVP模式的候选列表长度仅为2。H.265/HEVC的视频压缩效率得到了很大提高在保证视频压缩质量与先进的视频编码标准H.264编码的高清视频质量无差异后得到显著改善。

HEVC中的变换和量化模块主要根据图像内容计算相关系数,从而减少图像内容的冗余,更高效地压缩视频数据。对于视频编码量化过程,编码单元需要花费大量时间进行最优自适应量化参数选择。该过程被建模为编码单元量化参数的分类,预训练网络模型直接预测不同类型的编码块。最优自适应量化参数。 最后,在视频压缩后的视频质量和码率与原始编码没有显著差异的情况下,实现了视频编码复杂度的优化。

旨在解决视频编码过程中最优量化参数决策计算复杂度高的问题。研究了一种基于卷积神经网络的快速量化参数决策方法。首先,明确了原始高效视频编码标准码的基本量化参数;根据编码提供的方法,通过递归计算视频每帧中包含的所有CUs的率失真代价,得到最优的量化参数偏移。将CU图像与对应偏移量一一对应作为卷积神经网络的训练集,参与卷积神经网络的分类训练。将原有的最优量化参数计算过程替换为训练好的模型和相关代码。实验结果表明,与HEVC中选择最优量化参数的方法相比,所提方法的编码时间平均减少34%,而码率和PSNR的损失基本可以忽略不计。

本文的剩余内容组织如下。第二部分介绍了相关工作。建议工作的详细内容见第3节。第4节给出了实验结果。最后,第五部分对本文进行了总结。

相关工作

目前,视频编码引起了学术界、研究机构和大公司越来越多的关注。在视频编码复杂度优化过程中,根据优化模块的不同,可分为HEVC帧内模块复杂度优化和HEVC模块间复杂度优化两部分,用于消除视频中单帧或多帧之间的冗余信息。有两个重要的方向需要人们去优化,一个是优化不同预测单元的大小,另一个是减少帧内预测方向。根据相邻编码的时空信息, Tang, Jing, Chen等缩小了CU的遍历范围,并通过判断当前最佳预测模式是否为平面模式来优化其他CU的预测模式选择。Tian等提出了一种高效的帧内PU选择算法,根据该算法计算编码树单元及其子编码单元的内容信息。然后他们决定是否直接进行下一轮的PU模式选择过程。Belghith等使用Sobel算子检测CU的边缘并分析CU的纹理含量。如果CU的内容比较简单,编码直接在当前深度执行。否则,如果当前CU的内容是复杂的,则继续划分。Yao等利用纹理的像素排列信息为不同的PUs选择不同的编码模式。Min等通过分析视频帧的纹理特征来分割不同大小的CUs。Qi等利用Soble算子根据图像像素值和空间相关性计算纹理方向信息,选择帧内模式进行预测。Shen等提出了一种基于纹理信息与视频图像时空关系的快速帧内选择算法,通过计算平均绝对误差获得纹理信息。帧间预测的优化在于更好地选择CU和PU。在Kim 中,将运动矢量、跳跃模式下PU的关系以及对应的残差一起作为一个模型。这样可以降低PU决策过程的复杂度。Shen等利用空时域信息确定编码树单元的CU深度范围。他们通过跳过或提前终止不常用的CU深度来动态调整CTU水平。 Kim等通过计算skip模式编码CU的率失真代价,建立了预测当前CU的模型。Feng等利用CU在当前深度的运动信息来判断相邻帧中相同区域的CU划分。该方法通过计算不同CU的深度来减少预测模式的决策方案数量。

目前,视频编码优化的方法可以分为两类:基于统计的方法和基于机器学习的方法。基于统计的方法是根据统计信息提前终止或跳过不必要的模式。 Lee等提出利用失真特征确定合并模式,使用跳过模式跳过不必要的模式。Zupancic等提出了一种自适应的方法,根据更高CU深度的编码信息自底向上反向检测CU。Jung和Park采用了一种利用码率和码率数据自适应加速HEVC编码过程的方法。Jung等人使用了一种基于非零离散余弦变换系数的快速TU决策算法,通过裁剪四叉树来降低复杂度。李,金,林等(提出了一种快速CU判决算法,该算法参考了跳跃模式判决、CU跳跃估计和CU提前终止算法,并利用贝叶斯决策理论确定CU终止阈值。Xiong等提出了一种基于绝对差值估计的快速决策算法。Ahn等提出了一种快速高效的CU编码方法,利用样本自适应偏移量、MV和TU大小等纹理参数来估计纹理复杂度和时间复杂度。上述所有方法都是基于统计分析,过早终止或跨越不相关的CUs/PUs/Tus检查。这可能会限制它对其他序列的适用性。

从机器学习的角度来看,视频编码过程的模式选择可以看作是一个分类问题。例如,HEVC中的CU划分可以被认为是一个二分类任务。现有的机器学习算法用于预测HEVC中CU、PU或TU的大小。Shen等使用贝叶斯决策理论将残差系数的方差映射到TU大小。Kim等提出了一种基于贝叶斯决策理论的CU过早终止算法。在Correa等的研究中,Correa等使用决策树来预测CU的大小。Zhang等设计了一个三输出联合分类器和一个灵活的CU深度决策结构。Alencar等提出了一种基于Pegasos算法的快速CU决策方法,通过在线学习终止CU划分过程。Zhu等设计了一种基于机器学习的决策函数来控制预测精度。Peixoto等构建了一种新的H.264 /AVC到HEVC的转换架构。他们利用H.264/AVC编码参数来确定HEVC编码标准的CU划分模式。利用线性判别函数将H.264/AVC编码参数映射到HEVC编码标准的CU划分上。这些方法通过机器学习预测CU, PU和TU算法。然而,这些算法仅使用弱分类器来实现模式选择。过多的错误分类可能导致较差的RD性能和没有降低复杂度。

上述复杂度优化算法大多集中于HEVC帧内/帧间预测模块中CUs/ PUs的复杂度优化技术。研究人员经常依靠主观推理来解决复杂的计算机视觉问题。这种行为往往会忽略隐含但有用的特征。对于量化模块,上述方法在量化过程中仍然采用递归搜索的方法来选择最优的量化参数。计算最优量化参数的过程占据了整个编码周期的很大一部分。由于视频编码效率受到影响,需要对最优量化参数选择过程进行优化。

提出的方法

在本节中,我们将介绍一种基于卷积神经网络的H.265/HEVC量化参数的快速决策方法。
QP选择的问题表述
HEVC标准参考软件- HM在定量过程中采用两种方式计算定量参数。一是采用传统的计算方法。首先指定一个基于基本QP的量化参数,然后根据该参数计算偏移量不同CUs的复杂性。最后,将基本QP和量化参数偏移量相加得到量化参数。该方法计算速度快,但编码后的视频主观质量较差,给出了编码所对应的量化参数单位不是最好的。二是采用自适应方法计算最优量化参数。修改HM编码配置文件,指定偏移量参数的取值范围为-7~7。每个CU从64×64到8×8 递归遍历所有可能的量化参数,计算率失真代价。通过比较不同率失真代价的15个量化参数,计算出最优量化参数。不仅对视频的质量进行编码使用 该方法的性能优于前者,但比特率有所降低。然而,该方法在计算QPs时需要大量的时间。
我们的方法
提出将HM中最优量化参数的递归遍历方法简化为卷积神经网络在图像分类问题中的应用。训练模型直接推导量化参数值。得到最终的量化参数,替换HM原有的量化参数计算模块,如图1所示。由于HEVC编码视频的大部分时间都集中在量化参数的计算上,因此最终在理想状态下的编码时间可以节省约14/15。
在这里插入图片描述
我们的网络结构
考虑到如果使用复杂的网络结构,可能会给量化模块带来新的复杂度问题。训练模型使用简单的卷积神经网络,如图2所示。卷积层1使用64个卷积核(3×3×3),步幅设置为1,填充设置为相同,激活函数使用ReLU。池化层1选择最大池化,3×3滤波器,步幅设置为2,池化后进行局部响应归一化。卷积层2使用16个卷积核(3×3×64),填充也设置为相同,激活函数使用ReLU。池化层2也选择最大池化,使用3×3过滤器,步幅设置为1,池化完成后执行局部响应归一化操作。全连接层1通过操作将池化层输出的数据转换为一维列表,设置节点数为128,激活函数使用ReLU。全连接的第2层也是128个节点,激活函数使用ReLU。softmax回归层完全输出前一个连接层并执行线性回归,然后计算每个类的得分。Loss使用交叉熵损失,学习率设置为0.0001。
在这里插入图片描述
其中N表示CU的大小(64×64, 32×32, 16×16, 8×8),不同大小的CU分别训练和预测。
实验结果和分析
本文使用国际视频编码组提供的15个视频测试序列,收集如表1所示的训练数据,并使用帧内编码结构对HM参考软件的性能进行测试。
在这里插入图片描述
为了增加结果的可信度和网络模型的可行性,将基本QP分别设置为22、27、32、37。对每个视频序列的前200帧进行HM编码。记录视频帧的索引、每帧中各编码单元的位置以及编码过程中对应的量化参数。由于相邻帧之间的内容差异不大,因此每10帧提取用于训练的帧。然后,根据编码单元在整个原始视频帧中的位置对原始图像中包含的用于训练的编码单元进行裁剪;最后,总共训练了16种基于不同基本QPs、不同CU大小、不同QP偏移量的不同卷积神经网络模型,分别对应四种基本量化参数下的四种不同编码单元大小。

为了保证实验结果的真实性和可信性,我们将HM16.0原始的最优量化参数模块替换为我们提出的方法结果。编码时间、码率、峰值信噪比(PSNR)均基于原始HM参考软件。

视频编码需要在编码质量、码率和编码时间之间进行权衡。这些参数是评价视频编码方法优劣的基础。在编码过程中,利用训练好的模型预测与最优QPs相比的量化参数。判断该方法计算出的不同编码单元对应的量化参数是否与HM16.0量化相同参数。训练得到的最优QPs的平均准确率为81.2%。

为了验证所提方法对HEVC编码性能的影响,采用编码时间、BDBR和BDPSNR作为性能评价指标。综合考虑预测时间、硬盘读写速度等环境因素测量的编码时间如表2所示。

从表2可以看出,与原始方法相比,Johnny视频序列在整个测试结果中表现最好。当基本QP设置为37时,总体时间节省约34.56%。实验结果受硬件环境的限制,时间仅证明了该方法在此应用中的可行性。结合实验环境,平均编码时间可以节省约34.29%,大大提高了编码效率。
在这里插入图片描述
为了验证所提方法与原方法在码率和编码视频质量方面的差异,采用BDBR和BDPSNR作为测量指标。结果如表3所示。
在这里插入图片描述
从表中可以看出,BDBR和BDPSNR的损失与视频分辨率的关系不大。平均BDBR提升0.98%,即码率提升0.98%。BDPSNR平均降低了0.05 dB,即编码后的视频质量降低了0.05 dB。

为了更直观地观察码率和视频质量之间的差异,给出了码率失真曲线。如图3所示,蓝色线表示HM16.0最优自适应量化参数对编码效果的影响。红线表示所提方法对编码效果的影响。可以清楚地看到,与原始方法相比,本文方法编码的码率和视频质量损失可以忽略不计。
在这里插入图片描述

结论

为了解决超高清视频无法在日常生活中广泛应用的问题,国际联合编码小组JCT-VC头脑风暴,推出了HEVC。虽然编码效率等方面的性能都超过了上一代编码标准H.264。HEVC选择最优的自适应量化参数仍然需要花费大量时间。
为了优化HEVC在量化参数选择算法中的复杂度,提升HEVC的编码性能,利用卷积神经网络将复杂的量化参数计算问题简化为卷积神经网络图像分类问题。
实验结果表明,与自适应最优量化参数选择方法相比,提出的量化参数快速判定方法在HEVC参考代码中可以节省约34%的平均视频编码时间,其他损失基本被忽略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/224069.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微服务-springcloud(eureka实践, nacos实践)

Spring 体系图 版本关系 eureka 实践 1 父工程依赖 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.6.14</version> </parent> <dependencyManage…

SD卡写保护怎么解除?这3个方法很实用!

“我的sd卡用了很久了&#xff0c;一直都可以正常使用的&#xff0c;但是最近不知道为什么&#xff0c;突然就显示sd卡写保护了。我无法存入任何数据&#xff0c;请问有什么方法可以解决该问题吗&#xff1f;” SD卡是一种常见的存储设备&#xff0c;被广泛应用于手机、相机、平…

为什么react call api in cDidMount

为什么react call api in cDM 首先&#xff0c;放到constructor或者cWillMount不是语法错误 参考1 参考2 根据上2个参考&#xff0c;总结为&#xff1a; 1、官网就是这么建议的&#xff1a; 2、17版本后的react 由于fiber的出现导致 cWM 会调用多次&#xff01; cWM 方法已…

05-垃圾收集器ParNewCMS与底层三色标记算法详解

文章目录 垃圾收集算法分代收集理论标记-复制算法标记-清除算法标记-整理算法 垃圾收集器Serial收集器Parallel Scavenge收集器ParNew收集器CMS收集器 CMS的相关核心参数亿级流量电商系统如何优化JVM参数设置(ParNewCMS) 垃圾收集底层算法实现三色标记多标-浮动垃圾漏标-读写屏…

模式识别与机器学习(八):决策树

1.原理 决策树&#xff08;Decision Tree&#xff09;&#xff0c;它是一种以树形数据结构来展示决策规则和分类结果的模型&#xff0c;作为一种归纳学习算法&#xff0c;其重点是将看似无序、杂乱的已知数据&#xff0c;通过某种技术手段将它们转化成可以预测未知数据的树状模…

7.串口通信uart编写思路及自定义协议

前言&#xff1a; 串口是很重要的&#xff0c;有许多模块通信接口就是串口&#xff0c;例如gps模块&#xff0c;蓝牙模块&#xff0c;wifi模块还有一些精度比较高的陀螺仪模块等等&#xff0c;所以学会了串口之后&#xff0c;这些听起来很牛批的模块都能够用起来了。此外&#…

盒子 Box

UVa1587 思路&#xff1a; 1.输入每个面的长宽并将每个面较长的一边放在前面 2.判断是否存在三对面分别相等 3.判断是否存在三组四棱相等 #include <stdio.h> #include <stdlib.h> #define maxn 100int cmp(const void* e1, const void* e2) {return (int)(*(d…

深度神经网络下的风格迁移模型(C#)

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载请在显著位置标明本文出处以及作者网名&#xff0c;未经作者允许不得用于商业目的。 这个是C#版本的&#xff0c;这里就只放出代码。VB.Net版本请参看 深度神经网络下的风格迁移模型-CSDN博客 斯坦福大学李飞飞团队的…

新零售模式:重新定义商业未来

随着科技的飞速发展&#xff0c;我们的生活方式正在经历着前所未有的变革。其中&#xff0c;新零售模式正逐渐成为商业领域的新热点&#xff0c;它正在重新定义我们的购物方式&#xff0c;并为企业带来更多的商业机会。 一、新零售模式概述 新零售模式是指将互联网、大数据、…

图论 | 网络流的基本概念

文章目录 流网路残留网络增广路径割最大流最小割定理最大流Edmonds-Karp 算法算法步骤程序代码时间复杂度 流网路 流网络&#xff1a; G ( V , E ) G (V, E) G(V,E) 有向图&#xff0c;不考虑反向边s&#xff1a;源点t&#xff1a;汇点 c ( u , v ) c(u, v) c(u,v)&#xff…

单片机原理及应用:Keil μVision4和Proteus 8的配置介绍

笔者所在的专业最近开设了单片机课程&#xff0c;对笔者而言&#xff0c;虽然之前有一定的代码基础。但还是第一次面对既要求代码架构又要求电路仿真的领域。为了巩固知识和增强记忆&#xff0c;特此创建了这个专栏&#xff0c;谨以一名非电专业初学者的身份记录和分享知识。 …

OLED显示原理7T1C基础分析(PWM与DC调光)

文章目录 一、7T1C设计要点分析1、先回顾一下上篇 发光过程三个阶段---复位、补偿、发光2、设计关键点一&#xff1a;复位、补偿、发光三阶段 控制信号严格分离3、基本亮度控制策略---DC调光 && PWM调光4、PWM调光频率 之 低频PWM/高频PWM---EM信号的控制细节5、功耗优…

swing快速入门(二十七)

注释很详细&#xff0c;直接上代码 上一篇 新增内容 1.为按钮指定图标 2. 列表框的并列 3.菜单项绑定快捷键 4.控件悬浮提示信息 5.菜单项设置小图标 6.五种布局风格右键选择切换 package swing21_30;import javax.swing.*; import java.awt.*; import java.awt.event.…

使用 Elasticsearch 检测抄袭 (一)

作者&#xff1a;Priscilla Parodi 抄袭可以是直接的&#xff0c;涉及复制部分或全部内容&#xff0c;也可以是释义的&#xff0c;即通过更改一些单词或短语来重新表述作者的作品。 灵感和释义之间是有区别的。 即使你得出类似的结论&#xff0c;也可以阅读内容&#xff0c;获得…

【MybatisPlus快速入门】(2)SpringBoot整合MybatisPlus 之 标准数据层开发 代码示例

目录 1 标准CRUD使用2 新增3 删除4 修改5 根据ID查询6 查询所有7 MyBatis-Plus CRUD总结 之前我们已学习MyBatisPlus在代码示例与MyBatisPlus的简介&#xff0c;在这一节中我们重点学习的是数据层标准的CRUD(增删改查)的实现与分页功能。代码比较多&#xff0c;我们一个个来学习…

如何用Python写一个双均线策略

(永久免费&#xff0c;扫码加入) 本篇是量化系列的内容&#xff0c;已经购买小册的不要看了。 我的小册:(小白零基础用Python量化股票分析小册) ,原价199&#xff0c;限时特价39&#xff0c;满100人涨10元。 双均线策略应该是所有的股票软件&#xff0c;股票网站都必备的一个策…

【English】水果单词小小汇总~~

废物研究生&#xff0c;只要不搞科研干啥都是开心的&#xff0c;啊啊啊啊啊科研要命。作为一个水果怪&#xff08;每天不吃水果就要命的那种哈哈哈哈&#xff09;突然发现竟然就知道什么apple、banana、orange&#xff01;惭愧惭愧&#xff0c;正好兴致正浓&#xff0c;来整理一…

Python 爬虫之下载视频(四)

爬取某投币视频平台的小视频 文章目录 爬取某投币视频平台的小视频前言一、基本内容二、基本思路三、代码编写1.引入库2.设置手机模式3.跳过手动点击等操作4.获取视频下载地址5.获取视频标题6.下载保存 总结 前言 这篇用来记录一下如何爬取这个平台的视频&#xff0c;比如一些…

NUAA-云计算-考试

19级期末 问题 答案: md格式 自己想办法看 # 随堂测验#### 一、请简述GFS 的系统架构和特点。**1. 系统架构**- GFS将整个系统节点分为三类角色&#xff1a;- Client&#xff08;客户端&#xff09;&#xff1a;Client是GFS提供给应用程序的访问接口&#xff0c;以库文件的…

C语言如何生成随机数以及设置随机数的范围。(超详细)

文章目录 前言一、随机数的生成1.rand函数2.srand函数3.time函数4.生成随机数的代码如下&#xff1a; 二、设置随机数的范围总结 前言 博主将会这篇文章介绍c语言如何生成随机数以及设置随机数的范围。创作不易请大家点点赞&#xff0c;点点关注。 一、随机数的生成 1.rand函…