【论文阅读】 Learning to Upsample by Learning to Sample

论文结构目录

  • 一、之前的上采样器
  • 二、DySample概述
  • 三、不同上采样器比较
  • 四、整体架构
  • 五、设计过程
    • (1)初步设计
    • (2)第一次修改
    • (3)第二次修改
    • (4)第三次修改
  • 六、DySample四种变体
  • 七、复杂性分析
  • 八、定性可视化
  • 九、对比实验分析
  • 十、DySample代码分析

在这里插入图片描述

论文地址:Liu_Learning_to_Upsample_by_Learning_to_Sample_ICCV_2023_paper.pdf
代码地址:https://github.com/tiny-smart/dysample.git

一、之前的上采样器

随着动态网络的普及,一些动态上采样器在几个任务上显示出巨大潜力。CARAFE通过动态卷积生成内容感知上采样核来对特征进行上采样。后续工作FADESAPA提出将高分辨率引导特征和低分辨率输入特征结合起来生成动态核,以便上采样过程能够受到更高分辨率结构的引导。这些动态上采样器通常结构复杂,推理时间成本高,特别是对于FADESAPA,高分辨率引导特征引入了更多的计算工作量,并缩小了它们的应用范围。

二、DySample概述

DySample是一种快速、有效且通用的动态上采样器,其主要概念是从点采样的角度来设计上采样过程,而不是传统的基于内核的动态上采样方法。DySample通过生成上采样位置而非内核,显著减少了计算资源的消耗,并且不需要定制的CUDA包。与其他动态上采样器相比,DySample在延迟(latency)、训练内存(memory)、训练时间(training time)、浮点运算次数(GFLOPs)和参数量(parameters)等方面表现出更高的效率。在本文测试DySample上采样模块的过程中,首先从一个简单的实现开始,然后通过不断调整公式和参数等逐步改进其性能。

三、不同上采样器比较

  • 该图是对不同上采样器的性能、推理速度和 GFLOPs 进行比较。
  • 圆圈大小表示 GFLOPs 成本。 通过将大小为 256×120×120 的特征图进行×2 上采样来测试推理时间。
  • 在大型室内场景 ADE20K 数据集上使用 SegFormer-B1 模型。
  • 测试平均交并比(mIoU)性能和额外增加的 GFLOPs

四、整体架构

与近期基于内核的上采样器不同,我们将上采样的本质理解为点重采样。在DySample中,有着基于动态上采样和模块设计的采样过程。其中输入特征X 、上采样特征X‘ 、生成偏移量O,原始采样网络G,采样集S

  • (a)图:采样集S由采样点生成器生成,通过网格采样函数对输入特征进行重新采样。
  • (b)图:采样集S=生成偏移量O+原始采样网络G。 上框表示具有静态范围因子的版本,其中偏移量通过线性层生成。下框描述具有动态范围因子的版本,其中先生成一个范围因子,然后用它来调制偏移量。σ表示 Sigmoid 函数。

五、设计过程

(1)初步设计

  • 变量注释:输入特征X 、上采样特征X‘ 、生成偏移量O,原始网格G,采样集S

X ′ = grid_sample ( X , S ) . (1) X' = \text{grid\_sample}(X, S).\tag{1} X=grid_sample(X,S).(1)

O = linear ( X ) , (2) O = \text{linear}(X),\tag{2} O=linear(X),(2)

S = G + O , (3) S = G + O,\tag{3} S=G+O,(3)

  • 目标检测:Faster R-CNN (DySample) : 37.9%的APFaster R-CNN (CARAFE):38.6%的AP
  • 语义分割:SegFormer-B1 (DySample) 获得了41.9%的mIoUSegFormer-B1 (CARAFE)
    42.8%的 mIoU

(2)第一次修改

  • 点和彩色掩码分别表示初始采样位置和偏移范围;
  • 本次示例,我们考虑采样四个点。

在这里插入图片描述

  • (a)在Nearest Initialization的情况下,四个偏移量共享相同的初始位置,这会导致初始采样位置分布不均匀;
  • (b)在Bilinear Initialization的情况下,我们将初始位置分开,使他们的初始采样位置分布均匀。

(3)第二次修改

我们发现,当(b)在没有偏移调制的情况下,偏移范围通常会重叠,所以在(c)中,我们局部约束偏移范围以减少重叠。

在这里插入图片描述
我们重写公式(2),通过不断实验确定静态范围因子为0.25时DySample达到最优效果
O = 0.25 × linear ( X ) (4) O = 0.25 \times \text{linear}(X) \tag{4} O=0.25×linear(X)(4)

(4)第三次修改

然而,乘以静态范围因子是重叠问题的一种软解法,这种方法无法完全解决问题。
在这里插入图片描述

最终我们引入动态范围因子,重写公式(4),并且通过不断实验确定分组卷积个数为g=4DySample达到最优效果。
O = 0.5 ⋅ sigmoid ( linear 1 ( X ) ) ⋅ linear 2 ( X ) (5) O = 0.5 \cdot \text{sigmoid}(\text{linear}_1(X)) \cdot \text{linear}_2(X) \tag{5} O=0.5sigmoid(linear1(X))linear2(X)(5)
通过第三次修改,DySample应用在Faster R-CNNSegFormer-B1 的效果超过CARAFE

六、DySample四种变体

DySample系列。根据范围因子的形式(静态/动态)和偏移生成样式(LP/PL),我们研究了四种变体:

  1. DySample:具有静态范围因子的LP风格;
  2. DySample+:具有动态范围因子的LP风格;
  3. DySample-S:具有静态范围因子的PL风格;
  4. DySample-S+:具有动态范围因子的PL风格。

其中LPPL即采样点生成器(Sampling Point Generator)中线性层和像素重排层的顺序:
在这里插入图片描述

七、复杂性分析

从图中可以就看出,DySample在延迟(latency)、训练内存(memory)、训练时间(training time)、浮点运算次数(GFLOPs)和参数量(parameters)等方面表现出更高的效率。

需要注意的是:

  • 虽然LP所需的参数比PL多,但前者更灵活,内存占用更小,推理速度更快;
  • S版本在参数和 GFLOPs 方面的成本更低,但内存占用和延迟更大,因为PL需要额外的存储。 +版本也增加了一些计算量。

八、定性可视化

在这里插入图片描述

九、对比实验分析

此处仅展示目标检测领域,该实验使用Faster R-CNNMSCOCO数据集上进行对比实验
可以看出DySample+版本在BackboneR50R101时均保持最优检测性能

十、DySample代码分析

上述代码就是公式(5)的具体实现
O = 0.5 ⋅ sigmoid ( linear 1 ( X ) ) ⋅ linear 2 ( X ) (5) O = 0.5 \cdot \text{sigmoid}(\text{linear}_1(X)) \cdot \text{linear}_2(X) \tag{5} O=0.5sigmoid(linear1(X))linear2(X)(5)

  • style 参数定义了上采样的风格(LP/PL
  • groups 参数用于分组卷积g的个数
  • dyscope 参数是用于确定是否使用动态范围因子(+
  • 此代码代表默认的第一种DySample

Ultralytics封装的YOLO系列中,DySample部署模块时的task.py如下图所示

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/480490.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

源码安装triton 及出错处理,跟最简应用示例 01 vectorAdd 验证

-1, 源码安装 triton出错信息 WARNING: The user site-packages directory is disabled. error: cant create or remove files in install directory The following error occurred while trying to add or remove files in the installation…

EC2还原快照

EC2还原快照 AWS EC2 磁盘快照 是您 Amazon Elastic Block Store (EBS) 卷在特定时间点的增量备份。您可以使用快照创建 EBS 卷的副本,以便在出现故障时恢复数据或将数据迁移到其他区域。 创建磁盘快照 找到ec2实例挂载的磁盘,直接选择创建快照 等待创建…

提升数据分析效率:Excel Power Query和Power Pivot的妙用

在日常工作中,微软的Excel Power Query和Power Pivot是提升数据处理和分析效率的利器。他们的特点也各不相同,Power Query侧重数据的高效导入与清洗,Power Pivot更测试数据建模与复杂计算。下面将介绍它们各自的功能,并提供应用案…

优先算法 —— 双指针系列 - 快乐数

1. 快乐数 题目链接: 202. 快乐数 - 力扣(LeetCode)https://leetcode.cn/problems/happy-number/description/ 2. 题目解析 示例1: 示例2: 3. 算法原理 两种情况:我们可以把两种情况都看作为循环&#xff0…

【C++打怪之路Lv16】-- map set

🌈 个人主页:白子寰 🔥 分类专栏:重生之我在学Linux,C打怪之路,python从入门到精通,数据结构,C语言,C语言题集👈 希望得到您的订阅和支持~ 💡 坚持…

AD7606使用方法

AD7606是一款8通道最高16位200ksps的AD采样芯片。5V单模拟电源供电,真双极性模拟输入可以选择10 V,5 V两种量程。支持串口与并口两种读取方式。 硬件连接方式: 配置引脚 引脚功能 详细说明 OS2 OS1 OS2 过采样率配置 000 1倍过采样率 …

利用Python爬虫获取1688商品类目:技术解析

在电商领域,数据的获取和分析对于市场趋势的把握至关重要。1688作为中国领先的B2B电商平台,其商品类目的数据对于商家来说具有极高的价值。本文将详细介绍如何使用Python编写爬虫程序,以合法合规的方式获取1688商品类目信息。 Python爬虫技术…

全文单词统计

目标:统计词频 import scala.io.Source //知识点 //1.字符串.split("分隔符"):把字符串用指定的分隔符。拆分成多份,保存在数组中 object test1 {def main(args: Array[String]): Unit { //从文件1.txt中读入内容val contentSourc…

【SPIE出版|四大高校联合举办】先进算法与图像处理技术国际学术会议(IC-AAIP 2025)

📚IC-AAIP 2025【ISSN:0277786X】 2025年先进算法与图像处理技术国际学术会议 ⏰时间:2025年8月9日至10日 👀地点:中国沈阳 📝出版商:SPIE 组委负责人刘老师:13660240104 2025年先…

小程序-基于java+SpringBoot+Vue的戏曲文化苑小程序设计与实现

项目运行 1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。 2.IDE环境:IDEA,Eclipse,Myeclipse都可以。推荐IDEA; 3.tomcat环境:Tomcat 7.x,8.x,9.x版本均可 4.硬件环境&#xff1a…

【C/C++】内存管理详解:从new/delete到智能指针的全面解析

文章目录 更多文章C/C中的传统内存管理方式new和delete运算符malloc和free函数传统内存管理的弊端 智能指针的崛起智能指针的定义与作用C11引入的标准智能指针 详解C标准智能指针std::unique_ptr特点使用方法适用场景 std::shared_ptr特点使用方法适用场景 std::weak_ptr特点使…

通过 SSH 进行WordPress网站的高级服务器管理

我在管理hostease的服务器时,时常需要通过SSH登录服务器进行修改。而在网站管理中,SSH不仅是一个基础工具,更是高级用户用来精细化管理和优化服务器的重要工具。通过SSH,你可以深入监控服务器的性能、精细管理系统资源&#xff0c…

MFC 对话框中显示CScrollView实例

有时候我们需要在对话框中显示CScrollView效果的控件,类似于以下效果: 使用实例可参考:MFC对话框显示CScrollView例子_哔哩哔哩_bilibili 创建CScrollView中显示的子对话框与子类: 两个对话框对应的类: CScrollView继…

vue3 ajax获取json数组排序举例

使用axios获取接口数据 可以在代码中安装axios包,并写入到package.json文件: npm install axios -S接口调用代码举例如下: const fetchScore async () > {try {const res await axios.get(http://127.0.0.1:8000/score/${userInput.v…

详解登录MySQL时出现SSL connection error: unknown error number错误

目录 登录MySQL时出错SSL connection error: unknown error number 出错原因 使用MySQL自带的工具登录MySQL 登陆之后,使用如下命令进行查看 解决方法 找到MySQL8安装目录下的my.ini配置文件 记事本打开my.ini文件,然后按下图所示添加配置 此时再…

mini-spring源码分析

IOC模块 关键解释 beanFactory:beanFactory是一个hashMap, key为beanName, Value为 beanDefination beanDefination: BeanDefinitionRegistry,BeanDefinition注册表接口,定义注册BeanDefinition的方法 beanReference:增加Bean…

linux内核读写硬盘文件 kernel_writekernel_read

简介 在内核中读取硬盘文件&#xff0c;内核5.10测试了下&#xff0c;可以正常运行。 代码 1. 使用filp_open打开文件 2. 使用kernel_write和kernel_read读写文件 3. 使用filp_close关闭文件 #include <linux/module.h> #include <linux/init.h> #include &l…

记录一次 k8s 节点内存不足的排查过程

背景&#xff1a;前端服务一直报404&#xff0c;查看k8s日志&#xff0c;没发现报错&#xff0c;但是发现pods多次重启。 排查过程&#xff1a; 查看pods日志&#xff0c;发现日志进不去。 kubectrl logs -f -n weave pod-name --tail 100查看pod describe kubectl describ…

微软要求 Windows Insider 用户试用备受争议的召回功能

拥有搭载 Qualcomm Snapdragon 处理器的 Copilot PC 的 Windows Insider 计划参与者现在可以试用 Recall&#xff0c;这是一项臭名昭著的快照拍摄 AI 功能&#xff0c;在今年早些时候推出时受到了很多批评。 Windows 营销高级总监 Melissa Grant 上周表示&#xff1a;“我们听…

嵌入式Qt使用ffmpeg视频开发记录

在此记录一下Qt下视频应用开发的自学历程&#xff0c;可供初学者参考和避雷。 了解常用音频格式yuv420p、h264等了解QML&#xff0c;了解QVideoOutput类的使用&#xff0c;实现播放yuv420p流参考ffmpeg官方例程&#xff0c;调用解码器实现h264解码播放 不需要手动分帧。ffmpeg…