[论文阅读] SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

文章目录

  • 一、前言
  • 二、主要贡献
  • 三、Introduction
  • 四、Methodology
    • 4.1 Motivation :
    • 4.2Framework Overview.**

一、前言

通信作者是香港理工大学 & OPPO研究所的张磊教授,也是图像超分ISR的一个大牛了。 论文如下
SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution[paper][code]

二、主要贡献

提出语义感知的方式来保持Real ISR 中的语义保真度。主要包括以下步骤

  • 训练退化感知提示词提取器(degradationaware prompt extractor) 可以在大的退化图像中同时生成软语义提示词和硬语义提示词,提升T2I模型生成充满细节且语义准确的结果。
  • 在推理阶段,将LR 图像的信息融入初始采样噪声,缓解扩散模型产生过多额外细节的趋势。

三、Introduction

   一些常规的介绍。数据方面从单一退化到多种退化,模型方面从GAN发展到了DDPMs。由于大规模预训练的文本到图像模型(T2I)包含大量的文本图像配对数据,包含了丰富的自然图像先验,因此需要作者开始挖掘这种模型的潜力 。StableSR、PASD、DiffBIR就是利用T2I模型作为预训练,进行Real-ISR任务。但是他们存在一定局限性,例如StableSR和DiffBIR 仅依靠LR图像作为控制信号,忽略了语义文本信息在预训练的T2I模型中的作用,PASD模型尝试使用现成的high-level模型提取语义提示词作为额外的控制信息,但是如果LQ图像包含太多物体或者退化太多严重,这个方式就会失效。
这篇工作
  这篇文章深入研究如何提取如何才能更有效的提取提示词来充分利用T2I模型的潜力,并总结了两个关键点:1、提示词应该覆盖尽可能多的对象,帮助模型理解不同的局部区域,2、提示词应该是退化感知的,要避免错误的语义恢复结果。
  基于这两点,作者提出这个方法Semantic-aware SR (SeeSR),这个模型可以使用高质量的语义提示词来增加T2I模型在Real-SR方向上的潜力,这个方法包括两个阶段。1、微调语义提示词提取器,使它获得退化感知能力。2、语义提示词、LR图像共同输入T2I模型进行精细的控制,其中推理阶段还将LR图像的信息嵌入到初始采样噪声中避免生成过多的随机细节。

四、Methodology

4.1 Motivation :

为了释放预训练的 T2I 模型的生成潜力,同时避免 Real-ISR 输出中的语义失真!
作者研究了三种语义提升风格,分别是 classification-style, caption-style ,tag-style.。经过对比,发现他们有如下的特点:
作者认为classification-style 缺少局部物体的信息,caption-style 会出现介词和副词,影响注意力,在存在降质的前提下,有可能语义提示错误导致错误的结果;tag-style 可以提供大量的物体信息,但是有着和caption-style一样的问题,在降质情况下,可能会导致错误的语义信息。
具体的比较可以看图1,不同种类提示词的结果:
在这里插入图片描述
作者认为,可以在tag-style基础上加上降质感知就可以得到较好的结果。
在这里插入图片描述

4.2Framework Overview.**

基于上述讨论,作者确定了整体的任务框架,主要目的是提取高质量的tag-style 提示词用来发挥T2I模型的潜力。下图是整体的任务框架。
在这里插入图片描述
首先是学习退化感知提示词提取器degradation-aware prompt extractor (DAPE),这个提取器包括image encoder 和 tagging head。这个提取器的目的就是让LR提取的提示词和HR提取的提示词尽可能接近。然后输出两个特征,分别是feature representations 以及 tags。这两个东西用来控制T2I模型的生成过程。
第一阶段学习DAPE模块,使用LR、HR的输出作为约束
在这里插入图片描述
第二阶段是将提示词以及LR image 通过交叉注意力模块控制预训练T2I模型。
在这里插入图片描述
最后是细节的处理,在推理阶段,LR的信息嵌入到初始采样噪声中,作者说这样是很有效果的,具体对比图如下
在这里插入图片描述
如果没有LRE模块,那么可能将一些退化增强为细节,如果有这个模块,那么整体生成就更加正常了。

具体实验图见论文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20988.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探秘 DeepSeek R1 模型:跨越多领域的科技奇迹,引领智能应用新浪潮

DeepSeek R1 模型功能强大,应用广泛。在自然语言处理、计算机视觉、推荐系统和医疗等领域都能发挥作用。本文介绍了其在各领域的应用场景和代码示例,助你深入了解它。 目录 ​编辑 一、本篇背景: 二、DeepSeek R1 模型概述: …

常用网络工具分析(ping,tcpdump等)

写在前面 本文看下常用网络工具。 1:ping 1.1:用途 用于检验网络的连通性。 1.2:实战 在Linux环境中执行:ping www.sina.com.cn: [rootlocalhost ~]# ping www.sina.com.cn PING spool.grid.sinaedge.com (111.…

【MySQL】表操作

表操作 一、创建表 1、语句2、语句介绍3、注意事项4、介绍5、示例 二、查看表结构 1、语句2、介绍3、返回的信息4、示例 三、添加字段 1、语句2、语句介绍3、示例 四、修改 1、语句2、语句介绍3、示例 五、删除 1、语句2、示例 六、修改表名 1、语句2、语句介绍3、示例 七、删…

【UCB CS 61B SP24】Lecture 3 - Lists 1: References, Recursion, and Lists学习笔记

本文开坑伯克利 CS 61B(算法与数据结构)2024年春季课程学习笔记,Lecture 1 & Lecture 2 的内容为课程介绍与 Java 基础,因此直接跳过。本文内容为介绍基本数据类型与引用数据类型的区别,以及手动实现整数列表。 1…

【C语言】fwrite函数用法介绍

目录 一、函数原型 二、参数解析 三、返回值 四、核心特性 五、案例代码 案例1:写入字符串到文件 案例2:写入整型数组到二进制文件 案例3:写入结构体数据 六、注意事项 一、函数原型 作用:将内存中的数据块以二进制形式…

WIN系统服务器如何修改远程端口?

在Windows服务器上修改远程桌面协议(RDP)的默认端口(3389)可以增强服务器的安全性,减少被恶意扫描和攻击的风险。以下是修改远程端口的详细步骤: --- ### **步骤 1:通过注册表修改远程端口** …

使用Termux将安卓手机变成随身AI服务器(page assist连接)

通过以下方法在安卓手机上运行 Ollama 及大模型,无需 Root 权限,具体方案如下: 通过 Termux 模拟 Linux 环境运行 核心工具: 安装 (安卓终端模拟器)()]。借助 proot-distro 工具安装 Linux 发行版&#xf…

【Prometheus】prometheus结合pushgateway实现脚本运行状态监控

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全…

《运维工程师如何利用DeepSeek实现智能运维:分级实战指南》

目录 智能运维革命:DeepSeek带来的范式转变DeepSeek核心运维能力全景解析分级实战场景与解决方案 3.1 初级工程师:自动化运维入门3.2 中级工程师:复杂系统诊断与优化3.3 高级工程师:架构级智能运维典型项目案例深度剖析 4.1 金融系统全链路监控体系构建4.2 电商大促资源弹性…

elementui中aria-hidden报错

浏览器检查的原因,不影响功能,但会在控制台报红 解决办法: 在对应元素设置display:none .el-radio__original {display: none !important;}

重构谷粒商城07:Git一小时快速起飞指南

重构谷粒商城07:Git一小时快速起飞指南 前言:这个系列将使用最前沿的cursor作为辅助编程工具,来快速开发一些基础的编程项目。目的是为了在真实项目中,帮助初级程序员快速进阶,以最快的速度,效率&#xff…

关于人工智能的学习方向应该怎么选择

目前AI-人工智能主流方向和应用场景的判断有哪些呢?学习方向与建议(根据自身情况而定)总结 人工智能-AI从2023年开始逐渐的在整个行业传播被大家所推崇,再根据这两年人工智能不断迭代更新,特别是DeepSeek的横空出世让国…

Huatuo热更新--如何使用

在安装完huatuo热更新插件后就要开始学习如何使用了。 1.创建主框渐Main 新建文件夹Main(可自定义),然后按下图创建文件,注意名称与文件夹名称保持一致 然后新建场景(Init场景),添加3个空物体…

DeepSeek 和 ChatGPT 在特定任务中的表现:逻辑推理与创意生成

🎁个人主页:我们的五年 🔍系列专栏:Linux网络编程 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 ​ Linux网络编程笔记: https://blog.cs…

车载音频配置(二)

目录 OEM 自定义的车载音频上下文 动态音频区配置 向前兼容性 Android 14 车载音频配置 在 Android 14 中,AAOS 引入了 OEM 插件服务,使你可以更主动地管理由车载音频服务监督的音频行为。 随着新的插件服务的引入,车载音频配置文件中添加了以下更改: • OEM 自定义的车…

【SQL】SQL多表查询

多表查询案例联系点击此处 🎄概念 一般我们说的多表查询都涉及外键和父子表之间的关系。比如一对多:一般前面指的是父表后面指的是子表。 ⭐分类 一对多(多对一) 多对多 一对一 ⭐一对多 📢案例:部门与员工的关系 📢关系&…

存储区域网络(SAN)管理

存储区域网络(Storage Area Network,SAN)采用网状通道(Fibre Channel ,简称FC)技术,通过FC交换机连接存储阵列和服务器主机,建立专用于数据存储的区域网络。SAN提供了一种与现有LAN连…

导出指定文件夹下的文件结构 工具模块-Python

python模块代码 import os import json import xml.etree.ElementTree as ET from typing import List, Optional, Dict, Union from pathlib import Path class DirectoryTreeExporter:def __init__(self,root_path: str,output_file: str,fmt: str txt,show_root: boo…

PyCharm Terminal 自动切换至虚拟环境

PyCharm 虚拟环境配置完毕后,打开终端,没有跟随虚拟环境切换,如图所示: 此时,需要手动将终端切换为 Command Prompt 模式 于是,自动切换至虚拟环境 每次手动切换,比较麻烦,可以单…

Vue 实现通过URL浏览器本地下载 PDF 和 图片

1、代码实现如下: 根据自己场景判断 PDF 和 图片,下载功能可按下面代码逻辑执行 const downloadFile async (item: any) > {try {let blobUrl: any;// PDF本地下载if (item.format pdf) {const response await fetch(item.url); // URL传递进入i…