ECCV 2024 | 融合跨模态先验与扩散模型,快手处理大模型让视频画面更清晰!

计算机视觉领域顶级会议 European Conference on Computer Vision(ECCV 2024)将于9月29日至10月4日在意大利米兰召开,快手音视频技术部联合清华大学所发表的题为《XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution》——基于扩散模型和跨模态先验信息的图像修复模型的最新研究成果被会议收录。

图片

ECCV是计算机视觉领域的顶级国际会议,与CVPR、ICCV共同被称为三大顶会。其收录的论文代表了计算机视觉和模式识别领域的创新技术与重大成果,是该领域学术研究与行业发展的风向标。ECCV 2024共收到8,585篇有效投稿,其中有2,395篇论文被接收,接收率为27.9%。

  • 论文链接:

    https://arxiv.org/pdf/2403.05049

  • 代码链接:

    https://github.com/qyp2000/XPSR

「 01 背景 」

视频技术在生活中各种场景的作用日益凸显,其相关服务在多领域发挥了重要作用,短视频、直播等新模式新业态快速涌现。围绕流媒体视频展开的相关技术,如视频增强、视频压缩、视频修复以及虚拟现实等,也成为了学术界和工业界共同的研究热点。

近年来,基于深度学习尤其是GAN-based(Generative Adversarial Network)的处理算法取得了较好的修复增强效果 [1,2],但是在细节纹理和主观画质上仍有较大提升空间。随着AIGC的发展,基于扩散模型 [3](Diffusion Model)的文生图和文生视频模型(如可图、可灵)在生成能力上取得了令人惊艳的效果。如何将这种生成能力与视频处理进行结合,增强视频细节纹理、修复低质损伤,进一步改善画质为用户提供更好的观看体验,是一个亟待解决的问题。

图1:引入生成能力进行处理的效果对比,左边为低质图,右边为处理后

「 02 方法 」

在这篇论文中,快手提出了一种基于扩散模型和跨模态先验信息的图像修复增强算法XPSR(Cross-modal Priors for Super Resolution),结合丰富且准确的语义信息,生成模型在处理任务上展现了巨大的潜力,生成了相较于原图具有较高保真度、细节纹理丰富的高分辨率图像。

算法的框架如图1所示,包含两个阶段:

(1)使用多模态大语言模型生成待修复图像的语义信息;

(2)将待修复低分辨率图像和语义信息输入到生成模型中进行修复增强。具体来说,低分辨率低质图像(Low Resolution,LR)首先经过图像编码送入ControNet [4] 分支,与第一阶段产生的语义描述作为状态信息送入生成模型的UNet结构中,经过多步迭代的特征经过VAE解码重建得到修复后的高分辨率高质图像(High Resolution,HR)。以下是具体的算法细节,包括语义描述的产生、扩散模型的状态信息融合、退化消除约束和训练优化目标。

图片

图2:XPSR的算法框架

语义描述的产生

图片

图3:不同类型语义信息对修复效果的影响

如图2所示,在使用文本到图像(Text2Image,T2I)的扩散模型作为基础模型进行修复任务时,文本状态信息对修复的效果产生了较大的影响:针对原始低分辨率图像,给定准确的内容描述有助于生成细节纹理更加丰富的物体,结合详细的画质信息描述有助于去除对应的低质损伤。

为此,我们引入了当前业界SOTA的多模态大语言模型LLaVA [5],如图3所示,通过这种方式产生的内容语义信息包含物体描述、位置关系、场景等其他相关信息;产生的画质语义信息包含整体的观感质量、清晰度、噪声、色彩等其他维度的信息,能够有效描述图片在拍摄或者编码阶段引入的退化损失。

图片

图4:针对待修复图像,使用多模态大语言模型产生的语义描述

扩散模型的状态信息融合

为了将不同语义信息与扩散模型进行结合,一种直观的做法是采用顺序的方式将Cross-Attention串联起来,计算形式如下:

图片

但是由于两类语义信息不同,串行处理会导致一部分信息被覆盖而获得次优解。因此我们设计了一种新的语义融合注意力机制(Semantic-Fusion Attention,SFA),它采用两个并行的Cross-Attention,然后从两个分支中分别获得QK和V特征进行融合,计算形式如下:

图片

通过这种方式,SFA可以在不同语义之间取得平衡,进行状态信息的自适应选择。

退化消除约束

现实世界中的图像可能会经历各种退化,例如噪声、块效应等,从而导致像素空间和隐空间中高频和低频信息的失真,为了减轻退化的影响从图像中提取稳健的信息,进而提升重建的保真度与画质,在训练过程中,我们提出了一种退化消除约束(Degradation-Free Constraint)。如图1所示,我们在像素空间与隐空间约束LR与HR在多尺度下的相似度:

图片

通过这种约束,LR特征表示更多关注于内容本身,避免了生成模型将低质与内容混淆。

优化目标

在训练过程中,XPSR依赖于LR图像x_{\textit{lr}},噪声隐空间特征z_{\textit{hr}}^t,内容语义特征c_h和画质语义特征c_l去预测第t步的噪声分布:

图片

结合退化消除约束,整体的优化目标可以表示为:

图片

在推理过程中,我们引入了Classifier-free Guidance策略,通过引入负面提示词来提升扩散模型的生成画质。在实践过程中,我们采用了“blurry, dotted, noise, unclear, low-res, over-smoothed”。

「 03 实验结果 」

我们选择了有参考(PSNR、SSIM、LPIPS、DISTS、FID)和无参考(MANIQA、CLIPIQA、MUSIQ)的评价指标来衡量修复的画质。如表1所示,在人工构建的测试场景下,XPSR在无参考质指标上超越了以往GAN-based和Diffusion-based的算法。

图片

表1:XPSR与GAN-based和Diffusion-based算法效果对比

如表2所示,在真实场景的数据下XPSR在主观指标和user study的被选择概率均能够胜出。

图片

图片

表2:基于真实场景的测试结果和User Study报告

如图4所示,在主观画质的提升、细节纹理的生成、主体信息的保持上也取得了优秀的效果。

图片

图5:XPSR与其他处理算法的主观画质对比

相较于GAN-based方法,Diffusion-based方法在有参考指标上存在一些差距,这表明Diffusion-based方法在保真度上仍有较大的提升空间。同时,如图5所示,这些指标也存在一些问题(更好的主观画质却更低的有参指标),希望未来有更多与主观一致的指标被探索和使用。

图片

图6:现有有参考指标的局限性

「 04 总结与展望 」

在本篇论文中,我们提出了一种基于扩散模型和跨模态先验信息的图像处理算法。通过引入基于多模态大语言模型的语义先验,设计适合扩散模型的状态信息融合机制,以及适合处理场景的退化消除约束,XPSR在主客观指标上取得了业界领先的效果,持续为快手视频处理体系(Kuaishou Enhancement Processing,KEP & Large Processing Model,LPM)提供算法支持。

目前,快手视频处理体系已经应用在内部多个业务场景,如快手视频清晰度提升、基于内容的自适应处理和编码、电商/商业化赋能等。未来,快手音视频技术团队将持续推动视频处理算法的提升,探索更为广泛的应用场景。

参考文献:

[1] Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data, ICCV Workshop 2021.

[2] SwinIR: Image Restoration Using Swin Transformer, ICCV Workshop 2021.

[3] Denoising Diffusion Probabilistic Models, NeurIPS 2020.

[4] Adding Conditional Control to Text-to-image Diffusion Models, ICCV 2023.

[5] Visual Instruction Tuning, NeurIPS 2024.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/435788.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Visual Studio Code下载安装及汉化

官网:https://code.visualstudio.com/ 按照指示一步步操作即可: 汉化:

②EtherCAT转Modbus485RTU网关多路同步高速采集无需编程串口服务器

EtherCAT转Modbus485RTU网关多路同步高速采集无需编程串口服务器https://item.taobao.com/item.htm?ftt&id798036415719 EtherCAT 串口网关 EtherCAT 转 RS485 (接上一章) 自由协议通信步骤 (以MS-A2-1041为例) 接收与…

C++ 3 个有序点的方向(Orientation of 3 ordered points)

给定三个点 p1、p2 和 p3,任务是确定这三个点的方向。 平面中有序三重点的方向可以是 逆时针 顺时针 共线 下图显示了 (a,b,c) 的不同可能方向 如果 (p1, p2, p3) 的方向共线,则 (p3, p2, p1) 的方向也共线。 如果 (p1, p2, p3) 的方向是顺时针&a…

鸿蒙HarmonyOS开发生态

1、官网 华为开发者联盟-HarmonyOS开发者官网,共建鸿蒙生态 2、开发工具IDE下载及使用 https://developer.huawei.com/consumer/cn/ 3、使用帮助文档 4、发布到华为应用商店 文档中心

迈威通信闪耀工博会,以创新科技赋能工业自动化

昨日,在圆满落幕的第24届中国国际工业博览会上,迈威通信作为工业自动化与智慧化领域的先行者,以“创新打造新质通信,赋能工业数字化”为主题精彩亮相,向全球业界展示了我们在工业自动化领域的最新成果与创新技术。此次…

Qt的互斥量用法

目的 互斥量的概念 互斥量是一个可以处于两态之一的变量:解锁和加锁。这样,只需要一个二进制位表示它,不过实际上,常常使用一个整型量,0表示解锁,而其他所有的值则表示加锁。互斥量使用两个过程。当一个线程(或进程)…

给自己的项目(vue3)中添加 下雪/樱花飘落的背景

查看更佳效果前往我的博客, 可切换 snows_ls BLOGhttp://124.223.41.220/ 0、效果图 樱花飘落 雪花飘落 1、安装 yarn add jparticles / npm i jparticles 2、引入 import { Snow } from jparticles; // 引入粒子效果库 引入雪花效果库 3、使用 在项目中的app.…

Pygame中Sprite实现逃亡游戏4

在《Pygame中Sprite实现逃亡游戏3》中实现了玩家跳跃飞火的效果,接下来通过精灵类的碰撞检测来判断飞火是否击中玩家、飞火是否击中飞龙以及飞龙是否抓住玩家。 1 飞火是否击中玩家的判断 判断飞火是否击中玩家的代码如图1所示。 图1 判断飞火是否击中玩家的代码 …

C++入门基础知识91(实例)——实例16【求两数最小公倍数】

成长路上不孤单😊😊😊😊😊😊 【14后😊///C爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】 今日分享关于求两数最小公倍数的相关内容&#xff01…

慢病中医药膳养生食疗管理微信小程序、基于微信小程序的慢病中医药膳养生食疗管理系统设计与实现、中医药膳养生食疗管理微信小程序的开发与应用(源码+文档+定制)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

智融-SW6003 双向移动电源IC

描述 ETA6003 是一款具有动态电源路径控制和输入电流限制功能的开关锂离子电池充电器。连接电池后,根据电池电压,DC-DC 开关稳压器会对电池进行预处理、快速充电,或者仅将系统电压 (VSYS) 调节到预设电压。它不需要外…

加油站智能视频监控预警系统(AI识别烟火打电话抽烟) Python 和 OpenCV 库

加油站作为存储和销售易燃易爆油品的场所,是重大危险源之一,随着科技的不断发展,智能视频监控预警系统在加油站的安全保障方面发挥着日益关键的作用,尤其是其中基于AI的烟火识别、抽烟识别和打电话识别功能,以及其独特…

【mmengine】配置器(config)(进阶)继承与导出,命令行修改配置

一、配置文件的继承 1.1 继承机制概述 新建optimizer_cfg.py: optimizer dict(typeSGD, lr0.02, momentum0.9, weight_decay0.0001)新建runtime_cfg.py: device "cuda" gpu_ids [0, 1] batch_size 64 epochs 100 num_workers 8新建resnet50.py: _base_ […

微服务MongoDB解析部署使用全流程

目录 1、什么是MongoDB 1、非关系型数据库 2、非关系型数据库分类 3、MongoDB?bson格式什么样? 2、MongoDB的优势 3、MongoDB应用场景 4、术语 5、操作 1、安装MongoDB 1、查询镜像文件【不操作】 2、拉取镜像文件 3、创建数据挂载目录 4、启…

MySQL_连接查询

课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :&#x1…

C# 利用simd比较两个文件是否相等(高性能)

主要用到两个指令集&#xff0c;CompareEqual指令与MoveMask指令&#xff0c;因为电脑cpu原因&#xff0c;我们采用Avx2。 Avx2.CompareEqual&#xff0c;比较两个Vector256<byte>向量&#xff0c;如果元素相同返回255&#xff0c;否则返回0。 Avx2.MoveMask如果Vector…

前端工程规范-3:CSS规范(Stylelint)

样式规范工具&#xff08;StyleLint&#xff09; Stylelint 是一个灵活且强大的工具&#xff0c;适用于保持 CSS 代码的质量和一致性。结合其他工具&#xff08;如 Prettier 和 ESLint&#xff09;&#xff0c;可以更全面地保障前端代码的整洁性和可维护性。 1、安装 VSCode …

xxl-job--03--分片广播 动态分片

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 xxl-job通过分片广播模式前言1.定义什么是分片广播&#xff1a;即xxl-job调度中心发出一次调度&#xff0c;所有相关节点全部执行一次 采用分片广播调度优点 2.API介…

助农小程序|助农扶贫系统|基于java的助农扶贫系统小程序设计与实现(源码+数据库+文档)

助农扶贫系统小程序 目录 基于java的助农扶贫系统小程序设计与实现 一、前言 二、系统功能设计 三、系统实现 5.1.1 农户管理 5.1.2 用户管理 5.1.3 订单统计 5.2.1 商品信息管理 5.3.1 商品信息 5.3.2 订单信息 5.3.3 商品评价 5.3.4 商品退货 四、数据库设计 1、…

基于微信小程序的旧衣回收系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏&#xff1a;…