ICLR 2024 Spotlight|SEAL:面向真实场景超分辨率的系统性评估框架

图片

研究背景 

现实世界图像超分辨率(Real-World Super-Resolution, Real-SR)技术,作为提升图像清晰度的关键技术,正变得越来越重要。然而,如何准确评估Real-SR方法的性能,一直是该领域的一大挑战。目前的评估方式往往通过从一个大退化空间中随机选取的一小组退化来构建测试集,并计算出小测试集上的平均性能来对模型进行评估,这样的方式往往无法全面了解 real-SR模型的整体性能,还可能会产生不一致且具有误导性的结果。为了解决这个问题,我们提出了SEAL--一个real-SR系统评估框架。

SEAL通过对退化空间进行聚类,找到了一组具有代表性的退化样本,用于构建大尺度测试集。进一步,SEAL提出了一个从粗到细(coarse-to-fine)的评估协议,以衡量真实SR方法在测试集上的分布和相对性能。该协议包含两个新的系统性评估指标:接受率(AR)和相对性能比(RPR)。在SEAL的评估下,我们对现有的real-SR方法进行了基准测试,获得了系统性的对比结果和新的观测现象。

本文获得了 ICLR 2024 Spotlight, 点击底部“阅读原文”即可获取论文全文!

回顾真实超分辨率模型的评估策略 

为了评估Real-SR 方法的性能,现有的工作直接根据 IQA 指标(如 PSNR)计算随机抽样的小尺寸测试集上的平均性能[1][2]。然而,我们发现这种评估方案存在很严重的缺陷。由于退化空间的广阔性,随机选择的小测试集无法可靠地表示退化空间,可能会导致评估结果出现严重偏差和随机性。此外,目前的评估策略不足以全面的 real-SR 方法在整个退化空间中的泛化性,因为它们通常是对所有测试样本的量化结果进行平均,而无法判断在哪些退化任务上取得了好的性能。

图片

如图 1 (b)所示,一种方法可能在 60% 的退化类型上优于另一种方法,但它在一个小的测试集中可能无法获得更高的平均 PSNR 值。平均分不能充分体现整体性能和分布。此外,如果我们的目标是提高平均分数,那么我们可以只专注于提高简单的退化任务(如小噪声或模糊)的性能,但这会对困难的退化任务产生不利影响。这将违背我们的主要目标。相反,一旦我们在简单的情况下取得了令人满意的结果,我们就应该把重点转向具有挑战性的情况,以提高整体性能[3]。综上,我们需要一个能够全面评估真实 SR 方法性能的新框架。 

通过以上分析,我们发现当前的真实超分辨率模型评估面临着如下挑战: 

(1)由于退化空间包含海量的退化任务,如何评估它们的整体性能?直接对所有退化进行测试显然是不可行的,如何选择代表性的退化任务,进而构建大尺度的测试集? 

(2)在大尺度的测试集上,传统的使用均值来代表模型的性能难以反映模型的整体性能,如何设计新的指标来反映模型在大尺度测试集上的综合性能?

SEAL:一个大尺度系统性评估框架 

我们提出了SEAL(Systematic Evaluation of Real-World Super-Resolution)框架来解决上述挑战。通过退化聚类表征技术,SEAL能够将复杂的退化空间进行稀疏化,形成具有代表性的退化任务,为Real-SR方法的大尺度系统性评估提供了新的解决路径。 

如下图所示,我们提出的评估框架包括基于聚类的退化空间表示方法和一套基于代表性退化任务的系统性评价指标。具体来说,我们将退化空间划分为 K 类,并使用类中心的退化参数创构建了K 个退化任务数据集。为了对大尺度的测试集上的性能提供参考,我们采用了经典的real-SR模型和 SOTA 的 real-SR模型作为及格线(Acceptance Line)和优秀线(Excellence Line)。待测试的真实 SR 模型在 K 个测试数据集上的分布式性能将与及格线和优秀线进行比较,并通过一系列指标进行评估,包括 AR(及格率)、RPR(相对性能比)、RPR_A(可接受退化任务的平均 RPR)和 RPR_U(不可接受退化任务的平均 RPR)。

图片

退化空间的生成(Generating the degradation space)在真实场景超分的研究中,现有的工作一般采用多个退化的组合来模拟真实场景退化过程[1][2],因此,退化空间对高分辨率图像(HR)的作用过程可以表示为:

假设有 s 种退化类型(如模糊、重采样、噪声和压缩),每种类型包含  个离散的退化级别。总退化任务的个数应为。如果 , ,那么退化空间中包含的任务将达到,这已经是一个天文数字了。显然,从如此巨大的空间中随机抽取有限数量的退化来构建一个只包含 100 张图像的测试集并不能充分代表整个空间,这将不可避免地导致不一致和潜在误导性的结果。 

退化空间的表示(Representing the degradation space)为了表示退化空间 D,一种直接的方法是按退化参数划分空间,这种方式听起来似乎是合理的。然而,我们发现不同退化类型的组合可能具有相似的视觉效果和复原难度。如下图所示,经过不同退化的图像具有相似的外观。这表明使用图像的特征而不是退化参数来区分退化图像可能更为合理。

图片

为了有效的表示大退化空间,我们采用了谱聚类方法来对退化图像的直方图特征进行聚类,进而将类中心作为大退化空间下的代表性退化任务。可以得到如下的代表性退化任务集。

大尺度系统性测试集(Large-scale systematic test sets)我们利用聚类中心的退化参数构建了一组用于系统评估测试集(SE test set):

分布式绝对性能(Distributed Absolute Performance)为了全面系统地展示real-SR 模型在上的性能,最直接的方式是对 real-SR 模型计算其在上的分布式绝对性能。

分布式相对性能(Distributed Relative Performance)为了全面系统地展示real-SR 模型在上的性能,我们提出了一组新的评价指标来展示 real-SR的不同特性。 

及格线和优秀线(Ac. and ex. line)我们提出了两条参考线来为模型的评价提供基准,这两条参考线为不同的超分模型在上的测试性能。

及格率(Acceptance rate)(AR) 衡量实际 SR 模型所有 K 个代表性退化任务中可接受案例的百分比。可接受案例是指实际 SR 模型的性能超过接受线的退化任务。

相对性能比 (Relative Performance Ratio)(RPR) 用于比较同一尺度下real-SR 模型在及格线和优秀线的相对性能提升。

RPR四分位(Interquartile range of RPR)采用了第 75% 和 25% 位置的RPR分数的差来表示,反映了real-SR 模型在整个测试集上的性能提升的变化范围。

及格任务的RPR分数(Average RPR on acceptable cases )计算了及格任务的的 RPR 分数的平均值:

不及格任务的RPR分数(Average RPR on unacceptable cases )计算不及格任务的的 RPR 分数的平均值:

可定制化的由粗到细的评估流程。根据所提出的指标,我们制定了一个从粗到细的评估协议,对不同的real-SR 模型进行对比。如图所示,模型按优先级顺序依次通过建议的指标进行比较。AR 代表粗粒度比较,而 RPR 则提供细粒度比较。如果它们的性能与当前指标过于接近,则使用下一个指标对它们进行排序。由于每个指标具有不同的含义,这个流程可以根据用户的偏好来自由的定制。

图片

实验结果 

MSE-based实验结果

图片

图片

实验结果的图 4 中展示了分布式性能对比,这可以给用户提供大退化空间下多个单退化任务的性能对比。通过我们提出的系统性评测指标,表格 1 也提供了综合性排名,当 AR 大于 0.25 时,我们继续采用 RPR 进行排名。我们发现大部分的方法的 AR 分数都低于 0.5,这意味着都没有超过及格线(FSRCNN),这意味着大部分的 real-SR网络在超过一半的退化任务上比一个小网络 FSRCNN 还差。此外,相比于PSNR 的平均值,我们的 SEAL 评估框架可以提供更系统性、全面性的对比。类似的现象在如下的 GAN-based结果上也可以观测到。 

GAN-based实验结果

图片

在 Tab.1和 Tab.2中,由于AR 较低,我们在排名中排除了real-SR 模型中AR低于 0.25 的模型。对于real-SR 模型中  的模型,将根据 {, , , } 进行逐步排序,阈值分别为 {0.02, 0.02, 0.05, 0.05} 。如果当前指标的差值超过了阈值,则使用该指标代表整体排名。否则,将考虑下一个指标。从我们提出的 SEAL 评估中,我们可以得出以下几点结论:

(1) 现有的一些方法在大多数降解情况下都失败了。如表1和表2所示,一些现有方法的  值低于 0.5。例如,在大多数降解情况下,大多数基于 MSE 的真实 SR 模型甚至无法超越小型网络(即 FSRCNN-mz)。

(2) 我们的 SEAL 能够从多个维度对现有方法进行排序,如鲁棒性(  )和相对性能提升(  )。例如,在 Tab. 2中,与 SwinIR(=0.24)相比,基于度量学习的 MMRealSR 具有显著的鲁棒性( 0.08)。因此,根据我们目前从粗到细的评估协议,MMRealSR 排名第一。有趣的是,我们发现在相同的  水平下,SwinIR 实现了更高的 。如果用户优先考虑在可接受任务的性能,SwinIR 将是更好的选择。因此,我们也可以灵活地将  设置为第一个更精细的指标。 

(3) 接受线可以作为视觉效果对比的参考线。视觉结果对比显示在 Fig.1和 Fig.2 中。很明显,接受线的视觉结果可以作为图像质量的基本要求,而优秀线的视觉结果则代表了当前评估协议下图像质量的上限。低于接受线的视觉效果明显表现出不可接受的视觉效果,包括模糊(如图中 RealSRGAN 和 DASR 的鳄鱼的视觉效果)、过度锐化(如图中 RealESRNet 的文本结果和其他伪影。值得注意的是,我们的 SEAL 可以根据未来的需要灵活使用新的参考线。

与传统方法的对比 

我们随机抽取 100 个退化任务,将其添加到 Set14 中,得到 100 个测试集(Set14-Random)。表 3 显示:1)在两个 Set14-Random100 数据集上获得的 PSNR 平均值(mean)和标准差(std)显示出明显的不一致性,表明在采样的退化任务中存在很高的随机性和可变性。2) 在我们的 Set14-SE(由 100 个代表性案例组成)上,比较方法的平均值(mean)和标准差(std)非常接近,因此很难在各种方法之间建立一个具有明显差异的清晰排名。因此,随机生成的测试集无法提供差异化的排名。相比之下,我们的 SEAL 可根据 AR 分数对这些方法进行明确排名,提供了一种新的系统评价视角。

图片

总结 

在这项工作中,我们开发了一种新的评估框架,用于公平、全面地评估real-SR 模型。我们首先使用基于聚类的方法来模拟一个大的退化空间,并设计了两个新的评估指标--AR 和 RPR,用于对 real-SR模型在代表性的退化任务上的评估。然后,我们用提出的评估流程对现有的real-SR 方法进行基准测试,并展示了新的观察结果。最后,我们对退化聚类进行了广泛的对比研究。通过大量的实验和分析,我们证明了 SEAL 的有效性和通用性。 

SEAL可以做什么 

SEAL 提供了大退化空间下性能观测的一个工具。我们可以使用 SEAL 去观测新的模型设计对整个退化空间上不同任务带来的影响,进一步发现更多的 insights,作为新研究的 motivation。此外,SEAL也可以作为全方位对比工具,对设计好的模型和现有模型性能进行对比,以展示新设计模型的特性。 

如果这个工作可以给你带来一点帮助,欢迎大家star我们的开源仓库(https://github.com/XPixelGroup/SEAL)。我们会在近期更新出下一版本的 SEAL benchmark 结果,进一步改进了退化空间表示的方法,构建了新的轻量又具有多样性的 Seal100测试集,提供了 Diffusion-based real-SR测试结果,敬请大家关注!也欢迎联系(wenlong.zhang@connect.polyu.hk)进行进一步的讨论和合作。

参考文献

[1]. Zhang K, Liang J, Van Gool L, et al. Designing a practical degradation model for deep blind image super-resolution[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 4791-4800. 

[2]. Wang X, Xie L, Dong C, et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 1905-1914. 

[3]. Zhang W, Li X, Shi G, et al. Real-world image super-resolution as multi-task learning[J]. Advances in Neural Information Processing Systems, 2024, 36.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/445207.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

步步精科技诚邀您参加2024慕尼黑华南电子展

尊敬的客户: 我们诚挚地邀请您参加即将于2024年10月14日至10月16日在深圳国际会展中心 (宝安新馆)举办的慕尼黑华南电子展(electronica South China)。本届将聚焦人工智能、数据中心、新型储能、无线通信、硬件安全、新能源汽车、第三代半导…

云原生(四十四) | 远程连接ECS服务器

文章目录 远程连接ECS服务器 一、自带连接工具连接ECS云服务器 二、为什么要使用远程连接工具 三、远程连接ECS服务器四要素 1、用户名 密码 2、IP地址(公网IP) 3、SSH端口号 4、阿里云安全组 四、使用MobaXterm远程连接ECS云服务器 五、ECS云…

讯飞星火与昇腾AI双向奔赴:本土化技术创新应对全球化挑战的一次成功验证

文 | 智能相对论 作者 | 陈泊丞 2019年,彼时的AI赛道还不像今天这么热。 这一年,人工智能连续第三年出现在政府工作报告中,政策关键词从“加快”“加强”转变为“深化”,开始进入行业需求快速增长的应用探索期。而华为也在这个…

爬虫(反调试)

其实就是一种给页面反爬机制,一般页面用不到。 万能解决反调试方法:

vue-插槽作用域实用场景

vue-插槽作用域实用场景 1.插槽1.1 自定义列表渲染1.2 数据表格组件1.3 树形组件1.4 表单验证组件1.5 无限滚动组件 1.插槽 插槽感觉知道有这个东西,但是挺少用过的,每次看到基本都会再去看一遍用法和概念。但是在项目里,自己还是没有用到过…

查看 Excel 应用程序中已打开的 Excel 文件的完整路径

要查看 Excel 应用程序中已打开的 Excel 文件的完整路径(全路径),你可以通过以下几种方法获取具体路径,尤其是在 VSTO 应用程序中。 方法1:使用 VSTO Excel 外接程序代码 在 VSTO 外接程序代码中,您可以直接…

海外市场充电桩需求激增:充电基础设施展望

报告显示,在大多数欧盟国家的路网中,充电桩数量存在不足、不支持快速充电且分布不均匀的问题。具体而言,有6个欧洲国家的平均每百公里充电桩数量不足1个,17个国家的平均每百公里充电桩数量少于5个,仅有5个国家的平均每…

计算机网络之传输层

一、传输层提供的服务 1、传输层的功能 向上面的应用层提供通信服务,属于面向通信的最高层,用户功能的最低层。传输层为运行在不同主机上的进程中间提供了逻辑通信,网络层提供主机之间的逻辑通信。边缘部分两台主机使用网络核心部分的功能进…

网络编程(15)——服务器如何主动退出

十五、day15 服务器主动退出一直是服务器设计必须考虑的一个方向,旨在能通过捕获信号使服务器安全退出。我们可以通过asio提供的信号机制绑定回调函数即可实现优雅退出。 之前服务器的主函数如下 #include "CSession.h" #include "CServer.h"…

[Git] Git下载及使用 从入门到精通 详解(附下载链接)

前言 目录 Git概述 简介 下载 Git代码托管服务 Git常用命令 Git全局配置 获取Git仓库 在本地初始化一个Git仓库 从远程仓库克隆 基本概念 工作区文件状态 本地仓库操作 远程仓库操作 分支操作 标签操作 在IDEA中使用Git 在IDEA中配置Git 本地仓库操作 远程仓…

Ngx+Lua+Redis 实时IP黑名单系统

实时黑名单系统,如果用php脚本实现很容易,但是效率惨不忍睹呀。 要想速度快还的在nginx层实现阻塞。如果iptables 层阻塞速度更快,但是黑名单列表如果有更新就必须要重载配置,实现还是有难度的。php管理后台把黑名单ip写入到redis…

万字详解AI实践,零手写编码用AI完成开发 + 数据清洗 + 数据处理 的每日新闻推荐,带你快速成为AI大神

用AIdify完成前后端开发数据处理和数据清洗。 引言数据获取和数据处理dify构建workflow进行数据清洗前端页面构建和前后端交互总结 引言 AI时代对开发人员的加强是非常明显的,一个开发人员可以依靠AI横跨数个自己不熟悉的领域包括前后端、算法等。让我们来做个实践…

生信初学者教程(二十八):单细胞数据标准化

文章目录 介绍加载R包导入数据消除测序深度影响评估细胞周期的影响识别高度可变的特征缩放数据降维聚类输出结果总结介绍 scRNA-seq的标准化是一个重要的预处理步骤,目的是消除技术变异(比如比如测序深度和基因长度等因素),使基因表达和/或样本之间的比较更加可靠。标准化方…

如何彻底掌握 JavaScript 23种设计模式

设计模式是解决特定问题的常用解决方案,它们可以帮助开发者编写更清晰、可维护、可扩展的代码。在 JavaScript 中,常见的设计模式可以分为三大类:创建型模式、结构型模式 和 行为型模式。本文将全面介绍 JavaScript 中常见的设计模式&#xf…

Java 日志打印

使用日志打印: private static Logger log LoggerFactory.getLogger(DeptController.class);RequestMapping("/depts")public Result list() { // System.out.println("查询全部部门数据");log.info("查询全部部门数据");ret…

pytorch 与 pytorch lightning, pytorch geometric 各个版本之间的关系

主要参考 官方的给出的意见; 1. pytorch 与 pytorch lightning 各个版本之间的关系 lightning 主要可以 适配多个版本的 torch; https://lightning.ai/docs/pytorch/latest/versioning.html#compatibility-matrix; 2. pytorch 与 pytorch geometric 各…

【AIGC】2022-NIPS-视频扩散模型

2022-NIPS-Video Diffusion Models 视频扩散模型摘要1. 引言2. 背景3. 视频扩散模型3.1. 重建引导采样以改进条件生成 4. 实验4.1. 无条件视频建模4.2. 视频预测4.3. 文本条件视频生成4.3.1 视频与图像建模的联合训练4.3.2 无分类器指导的效果4.3.3 更长序列的自回归视频扩展 5…

线程池简单原理

设置了isRun导致任务没有执行完是因为子线程在消费队列的时候的run内while循环取队列的值,如果isRun为flase会停掉所有线程,解决是不仅isRun为false还要求队列的数据10个全取出队列大小为0. 当线程池队列满的时候任务会不会丢 可以使用默认的rejectExc…

Superset SQL模板使用

使用背景 有时想让表的时间索引生效,而不是在最外层配置报表时,再套多一层时间范围。这时可以使用SQL模板 参考官方文档 https://superset.apache.org/docs/configuration/sql-templating/#:~:textSQL%20Lab%20and%20Explore%20supports%20Jinja 我…

面试题:Redis(二)

1. 面试题 2. MoreKey案列 事故案例 2.1 生成上如何限制key*/flushdb/flushall等危险命令的使用? 通过redis.conf配置文件中在SECURITY选项中禁用这些命令 2.2 不用key*避免卡顿那用什么? 用scan命令,类似mysql中的limit命令 语法&…