【论文笔记】Contrastive Learning for Compact Single Image Dehazing(AECR-Net)

在这里插入图片描述

文章目录

  • 问题
  • 创新
  • 网络
  • 主要贡献
    • Autoencoder-like Dehazing Network
          • Adaptive Mixup for Feature Preserving
          • Dynamic Feature Enhancement
            • 1. 可变形卷积的使用
            • 2. 扩展感受野
            • 3. 减少网格伪影
            • 4. 融合空间结构信息
    • Contrastive Regularization
      • 1. 核心思想
      • 2. 正样本对和负样本对的构建
      • 3. 潜在特征空间
      • 4.对比损失函数
      • 4. 对比正则化的数学表示
      • 5. 对比正则化的作用
      • 6. 与感知损失的对比
      • 7. 实现细节
      • 8. 总结

问题

  1. 现有的基于深度学习的去雾方法只采用清晰的图像作为正样本来指导去雾网络的训练,而没有利用负信息。
  2. 它们大多侧重于增强去雾网络,增加深度和宽度,导致对计算和内存的需求很大。

创新

  1. 一种基于对比学习的对比正则化(CR)方法,分别利用模糊图像和清晰图像作为负样本和正样本的信息。
  2. 开发了一种基于类自编码器(AE)框架的紧凑型除雾网络

网络

在这里插入图片描述

将这种带有自编码器和对比正则化的去雾网络称为AECR-Net。

主要贡献

  1. 提出了一种新的ACER-Net,通过对比正则化和高度紧凑的基于自编码器的去雾网络有效地生成高质量的无雾图像。与最先进的方法相比,AECR-Net实现了最佳的参数-性能权衡。
  2. 提出的对比正则化作为一种通用正则化可以进一步提高各种最先进的除雾网络的性能。
  3. 提出的类自编码器(AE)消雾网络中的自适应混合模块和动态特征增强模块分别有助于消雾模型自适应地保持信息流和增强网络的变换能力

Autoencoder-like Dehazing Network

在这里插入图片描述

  1. 编码器-解码器的对称结构。
    • 编码器部分
      通过下采样操作(如卷积层)将输入图像压缩到低分辨率空间,提取高层次的特征表示。在你的网络中,编码器部分使用了 4 倍下采样操作(例如,一个步幅为 1 的常规卷积和两个步幅为 2 的卷积层)。
    • 解码器部分
      通过上采样操作(如反卷积或插值)将低分辨率特征图恢复到原始分辨率,生成去雾后的图像。在你的网络中,解码器部分使用了 4 倍上采样和一个常规卷积。
  2. 通过下采样和上采样操作实现低维特征学习和图像重建。
    • 自编码器的核心目标是将输入数据压缩到一个低维潜在空间,从而学习到数据的高效表示。在这个网络中,下采样操作将输入图像压缩到低分辨率空间,FA 模块在这些低分辨率特征上进行学习,提取去雾任务所需的关键特征。
    • 自编码器的最终目标是从低维表示中重建原始数据。在这个网络中,解码器部分通过上采样操作将低分辨率特征图恢复到原始分辨率,生成去雾后的图像。
  3. 引入自适应混合和动态特征增强模块,改善特征保留和重建质量。
    • 自编码器通常面临的一个问题是特征丢失,尤其是在深层网络中。为了解决这个问题,该网络引入了自适应混合(Adaptive Mixup)和动态特征增强模块(DFE),通过动态融合下采样层和上采样层的特征,保留更多的细节信息。
  4. 通过减少 FA 模块数量,实现紧凑模型设计。
    • 自编码器通常被设计为紧凑模型,以减少计算和存储开销。该网络通过显著减少 FA 模块的数量(从 57 个减少到 6 个),实现了模型的轻量化。
Adaptive Mixup for Feature Preserving

在这里插入图片描述

  1. 动态特征融合:通过可学习因子动态调整特征融合的权重。

    • 核心思想:自适应混合通过可学习因子动态调整下采样层和上采样层特征的融合权重,而不是使用固定的权重(如简单的加法或拼接)。
    • 公式表示
      在这里插入图片描述
  2. 特征保留:自适应混合通过融合下采样层和上采样层的特征,保留了浅层特征中的细节信息。解决了浅层特征丢失的问题,保留了边缘、轮廓等细节信息。

  3. 可学习因子 σ(θi):通过训练学习的参数,用于动态调整特征融合的权重。σ(θi)的值由 sigmoid 函数计算,范围在 (0, 1) 之间。

  4. 多层级融合:在不同尺度上融合特征,提升网络的表达能力。自适应混合操作应用于多个层级(如两个下采样层和两个上采样层),从而在不同尺度上融合特征。

Dynamic Feature Enhancement

在这里插入图片描述

1. 可变形卷积的使用
  • 可变形卷积通过以下步骤实现
  1. 偏移量预测:首先,通过一个额外的卷积层预测每个采样点的偏移量(offset)。这些偏移量表示卷积核的采样位置相对于固定网格位置的偏移。
  2. 动态采样:根据预测的偏移量,卷积核的采样位置会动态调整,从而能够更好地捕捉图像中的结构化信息。
  3. 特征融合:通过动态调整后的卷积核进行卷积操作,生成新的特征图。
  • 核心思想
    动态特征增强模块(DFE)通过 可变形卷积(Deformable Convolution) 实现。可变形卷积允许卷积核的采样位置根据输入数据的局部结构动态调整,从而捕捉更多重要信息。
  • 与传统卷积的对比
    • 传统卷积使用固定网格核,采样位置是规则的、均匀分布的。
    • 可变形卷积通过可学习的偏移量(offset)调整采样位置,使其能够适应输入数据的几何变换和局部结构变化。
2. 扩展感受野
  • 感受野(Receptive Field)
    感受野是指卷积神经网络中某一层的一个神经元能够“看到”的输入图像的区域大小。
  • DFE 的作用
    DFE 通过可变形卷积扩展了感受野,并使其具有自适应形状,从而提升了网络的特征表达能力。
3. 减少网格伪影
  • 网格伪影(Gridding Artifacts)
    空洞卷积(Dilated Convolution)虽然可以扩大感受野,但可能会导致网格伪影。
  • DFE 的优势
    DFE 通过可变形卷积的动态采样机制,避免了网格伪影的产生,从而提升了图像质量。
4. 融合空间结构信息
  • 空间结构信息(Spatially Structured Information)
    指图像中与空间位置相关的特征信息,如边缘、纹理、形状等。
  • DFE 的作用
    DFE 通过可变形卷积动态调整采样位置,使网络能够更有效地融合空间结构信息。

Contrastive Regularization

在这里插入图片描述

对比正则化(Contrastive Regularization, CR) 是一种基于对比学习思想的正则化方法,旨在通过拉近正样本对的表示并推远负样本对的表示,约束模型的解空间,从而提升模型的性能。以下是对对比正则化的详细理解:


1. 核心思想

对比正则化的核心思想来源于对比学习(Contrastive Learning),其目标是通过学习一种表示,使得:

  • 正样本对(相似的样本)在特征空间中尽可能接近。
  • 负样本对(不相似的样本)在特征空间中尽可能远离。

在图像去雾任务中,对比正则化的具体目标是:

  • 恢复图像 ( \hat{J} ) 拉近清晰图像 ( J )(正样本对)。
  • 恢复图像 ( \hat{J} ) 推离雾霾图像 ( I )(负样本对)。

2. 正样本对和负样本对的构建

  • 正样本对
    由清晰图像 ( J ) 和恢复图像 ( \hat{J} ) 组成。目标是让恢复图像尽可能接近清晰图像。
  • 负样本对
    由恢复图像 ( \hat{J} ) 和雾霾图像 ( I ) 组成。目标是让恢复图像尽可能远离雾霾图像。

3. 潜在特征空间

为了进行对比,需要将图像映射到一个潜在特征空间。在这里,潜在特征空间是通过一个固定的预训练模型(如 VGG-19)提取的中间特征表示的。这些特征能够捕捉图像的语义信息(如边缘、纹理、形状等)。


4.对比损失函数

对比正则化的目标是最小化恢复图像与清晰图像之间的距离,同时最大化恢复图像与雾霾图像之间的距离。具体来说,对比正则化的损失函数可以表示为:
在这里插入图片描述

4. 对比正则化的数学表示

对比正则化的目标函数可以表示为:
在这里插入图片描述
通过最小化正样本对的距离并最大化负样本对的距离,约束模型的解空间。


5. 对比正则化的作用

  1. 拉近正样本对
    通过最小化清晰图像和恢复图像在特征空间中的距离,使恢复图像尽可能接近清晰图像。
  2. 推远负样本对
    通过最大化雾霾图像和恢复图像在特征空间中的距离,使恢复图像尽可能远离雾霾图像。
  3. 约束解空间
    通过对比正样本对和负样本对,约束模型的解空间,避免过拟合,提升泛化能力。

6. 与感知损失的对比

  • 感知损失(Perceptual Loss)
    仅通过清晰图像和恢复图像在特征空间中的距离来约束模型(仅使用正样本)。
  • 对比正则化(CR)
    不仅使用清晰图像和恢复图像(正样本对),还使用雾霾图像和恢复图像(负样本对)来约束模型。

优势
对比正则化通过引入负样本对,进一步约束解空间,从而提升模型的去雾效果。


7. 实现细节

  • 特征提取
    从预训练模型(如 VGG-19)的不同层中提取特征,以捕捉多尺度的语义信息。
  • 距离度量
    使用 L1 距离度量特征空间中的距离。
  • 权重系数
    不同层的特征可能对任务的重要性不同,因此引入权重系数 ( $ \omega_i $ )来平衡各层的贡献。

8. 总结

对比正则化(CR)通过引入对比学习的思想,利用正样本对和负样本对约束模型的解空间,从而提升去雾效果。其核心思想是:

  • 拉近恢复图像和清晰图像的距离(正样本对)。
  • 推远恢复图像和雾霾图像的距离(负样本对)。

通过这种方式,CR 不仅能够提升恢复图像的质量,还能避免过拟合,增强模型的泛化能力。

⭐感谢你的阅读,希望本文能够对你有所帮助。如果你喜欢我的内容,记得点赞关注收藏我的博客,我会继续分享更多的内容。⭐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33714.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uni-app打包h5并部署到nginx,路由模式history

uni-app打包有些坑,当时运行的基础路径填写了./,导致在二级页面刷新之后,页面直接空白。就只能换一个路径了,nginx也要跟着改,下面是具体步骤。 manifest.json配置web 运行路径写/h5/,或者写你们网站的目…

SQLiteStudio:一款免费开源跨平台的SQLite管理工具

目录 1.简介 2.下载与安装 3.实现分析 4.总结 1.简介 SQLiteStudio 是一款专门用于管理 SQLite 数据库的图形化工具,由波兰开发者开发并维护。由于 SQLite 以其轻量级、零配置、嵌入式等特性被广泛应用于各种小型项目、移动应用和桌面应用中,而 SQLi…

Java入职篇(2)——开发流程以及专业术语

Java入职篇(2)——开发流程以及专业术语 开发流程 开发术语 测试用例(用例) 测试人员写的测试方案,基本上就是编写的测试过程,以及测试的预取结果 灰度测试 现在小部分范围内使用,然后逐步…

Figma介绍(基于云的协作式界面设计工具,主要用于UI/UX设计、原型制作和团队协作)

文章目录 注册和登录简单操作说明Figma介绍**核心特点**1. **云端协作与实时同步**2. **跨平台兼容**3. **高效设计工具**4. **原型交互与动效**5. **开发对接友好**6. **插件生态**7. **版本控制与历史记录** **适用场景**- **团队协作**:远程团队共同设计、评审、…

RAW图与BAYER图异同

RAW图是一种未经处理、未压缩的图像文件格式,它记录了图像传感器捕捉到的原始数据,包含了拍摄时的大量图像信息。下面从多个方面详细介绍RAW图: 参考:B站大清光学 定义与基本概念 定义:RAW文件是图像传感器将捕捉到…

mac安装navicat及使用

0.删除旧的 sudo rm -Rf /Applications/Navicat\ Premium.app sudo rm -Rf /private/var/db/BootCaches/CB6F12B3-2C14-461E-B5A7-A8621B7FF130/app.com.prect.NavicatPremium.playlist sudo rm -Rf ~/Library/Caches/com.apple.helpd/SDMHelpData/Other/English/HelpSDMIndexF…

Windows11【1001问】打开Windows 11控制面板的14种方法

在Windows 11中,尽管微软逐渐转向现代的“设置”应用,但传统的“控制面板”仍然是许多用户管理系统、调整硬件设置和自定义功能的首选工具。然而,由于Windows 11的界面设计更注重简洁性,控制面板的访问方式可能对部分用户来说不够…

Language Models are Few-Shot Learners,GPT-3详细讲解

GPT的训练范式:预训练Fine-Tuning GPT2的训练范式:预训练Prompt predict (zero-shot learning) GPT3的训练范式:预训练Prompt predict (few-shot learning) GPT2的性能太差,新意高&…

数据结构--图的基本操作

知识总览: 一、图的基本操作 1.Adjacent(G,x,y),判断图G是否有边---对于有向图和无向图来说,邻间接矩阵的时复杂度更低。 邻接矩阵时间复杂度 O(1) 邻接表时间复杂度 O(1)~~O(v) 2.Neighbors(G,x):判断图G与结点x邻接的边.---邻间接矩…

Unity中解锁图片像素点,动态闭合轨迹检测

Unity中解锁图片像素点,动态闭合轨迹检测 介绍资源下载搭建总结 介绍 因为最近在研究Mane天蚕变的游戏完整逻辑,研究了两套方案做解锁图片的功能,这里我先讲一下我的这个图片像素点的方案解锁图片,这个逻辑其实很简单就是利用划线…

buu-ciscn_2019_ne_5-好久不见50

1. 背景分析 目标程序是一个存在漏洞的二进制文件,我们可以通过以下方式利用漏洞获取 shell: 程序中存在 system() 函数,但没有明显的 /bin/sh 字符串。 使用工具(如 ROPgadget)发现程序中有 sh 字符串,可…

图论part4|827. 最大人工岛、127. 单词接龙、463. 岛屿的周长

827. 最大人工岛 🔗:827. 最大人工岛 - 力扣(LeetCode)827. 最大人工岛 - 给你一个大小为 n x n 二进制矩阵 grid 。最多 只能将一格 0 变成 1 。返回执行此操作后,grid 中最大的岛屿面积是多少?岛屿 由一…

SpeechCraf论文学习

Abstract 核心问题 挑战 语音风格包含细微的多样化信息(如情感、语调、节奏),传统基于标签/模板的标注方法难以充分捕捉,制约了语音-语言多模态模型的性能。 数据瓶颈: 大规模数据收集与高质量标注之间存在矛盾&…

SAIL-RK3576核心板应用方案——无人机视觉定位与地面无人设备通信控制方案

本方案以 EFISH-RK3576-SBC工控板 或 SAIL-RK3576核心板 为核心,结合高精度视觉定位、实时通信与智能控制技术,实现无人机与地面无人设备的协同作业。方案适用于物流巡检、农业植保、应急救援等场景,具备高精度定位、低延迟通信与强环境适应性…

PostgreSQL的学习心得和知识总结(一百七十一)|深入理解PostgreSQL数据库之 外连接消除 的使用和实现

目录结构 注:提前言明 本文借鉴了以下博主、书籍或网站的内容,其列表如下: 1、参考书籍:《PostgreSQL数据库内核分析》 2、参考书籍:《数据库事务处理的艺术:事务管理与并发控制》 3、PostgreSQL数据库仓库…

C语言实现括号匹配检查及栈的应用详解

目录 栈数据结构简介 C语言实现栈 栈的初始化 栈的销毁 栈的插入 栈的删除 栈的判空 获取栈顶数据 利用栈实现括号匹配检查 总结 在编程中,经常会遇到需要检查括号是否匹配的问题,比如在编译器中检查代码的语法正确性,或者在…

【机器学习chp12】半监督学习(自我训练+协同训练多视角学习+生成模型+半监督SVM+基于图的半监督算法+半监督聚类)

目录 一、半监督学习简介 1、半监督学习的定义和基本思想 2、归纳学习 和 直推学习 (1)归纳学习 (2)直推学习 3、半监督学习的作用与优势 4、半监督学习的关键假设 5、半监督学习的应用 6、半监督学习的常见方法 7、半…

2024 年第四届高校大数据挑战赛-赛题 A:岩石的自动鉴定

↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

基于WebRTC与P2P技术,嵌入式视频通话EasyRTC实现智能硬件音视频交互,适配Linux、ARM、RTOS、LiteOS

EasyRTC不仅仅是一个连接工具,更是一个经过深度优化的通信桥梁。它在嵌入式设备上进行了特殊优化,通过轻量级SDK设计、内存和存储优化以及硬件加速支持,解决了传统WebRTC在嵌入式设备上的适配难题,显著节省了嵌入式设备的资源。 1…

[c语言日寄]字符串进阶:KMP算法

【作者主页】siy2333 【专栏介绍】⌈c语言日寄⌋:这是一个专注于C语言刷题的专栏,精选题目,搭配详细题解、拓展算法。从基础语法到复杂算法,题目涉及的知识点全面覆盖,助力你系统提升。无论你是初学者,还是…