南洋理工大学的研究者们提出了一种基于扩散反演的新型图像超分辨率 (SR) 技术,可以利用大型预训练扩散模型中蕴含的丰富图像先验来提高 SR 性能。
该方法的核心是一个深度噪声预测器,用于估计前向扩散过程的最佳噪声图。一旦训练完成,这个噪声预测器就可以用来初始化沿扩散轨迹的部分采样过程,从而生成理想的高分辨率结果。
相关链接
-
论文:https://arxiv.org/pdf/2412.09013
-
代码:https://github.com/zsyOAOA/InvSR
-
主页:https://replicate.com/zsyoaoa/invsr
-
试用:https://huggingface.co/spaces/OAOA/InvSR
论文介绍
在两个真实示例中,论文提出的方法与最近最先进的基于扩散的方法进行了定性比较,其中采样步骤数以“方法名称-步骤”格式注释。在第一个示例的子标题中以红色突出显示了运行时间(以毫秒为单位),该示例在 A100 GPU 上的 ×4(128 → 512)SR 任务上进行了测试。该方法提供了一种高效灵活的采样机制,允许用户根据降级类型或其特定要求自由调整采样步骤数。在第一个示例中,主要因模糊而降级,多步采样优于单步采样,因为它可以逐步恢复更精细的细节。相反,在第二个具有严重噪声的示例中,单个采样步骤足以获得令人满意的结果,而额外的步骤可能会放大噪声并引入不必要的伪影。
方法介绍
提出的方法的推理流程,其中 {τi}Si=1表示反演时间步长。请注意,预测的噪声图zτS 与 LR 图像表现出明显的相关性,表明其统计分布具有非零均值特性。
效果展示
真实世界图像超分辨率
AIGC 图像增强
不同方法对 RealSet80 数据集中两个典型真实示例的视觉结果。为了清晰比较,对于基于扩散的方法,采样步骤数以“方法名称-步骤”格式注释。
限制
InvSR 需要进行平铺操作来生成高分辨率图像,这将大大增加推理时间。 由于 InvSR 的生成特性,有时无法保持 100% 的保真度。 InvSR 有时无法在复杂的现实场景下生成完美的细节。
结论
论文提出了一种基于扩散反演的新型 SR 方法 InvSR。该方法引入了一个噪声预测网络,旨在估计最佳噪声图,从而能够构建预训练扩散模型的中间状态作为起始采样点。这种设计在两个方面很有吸引力:首先,InvSR 可以充分利用预训练扩散模型中封装的先验知识,从而促进 SR 性能。其次,InvSR 提供了一种灵活的采样策略,能够通过结合噪声预测器的时间相关架构从扩散模型的各种中间状态开始。这种灵活性允许用户根据退化类型或其特定要求自由调整采样步骤。即使将采样步骤减少到只有一个,InvSR 仍然表现出比最近的一步基于扩散的方法显著的优势,表明其有效性和效率