【论文速看】DL最新进展20241005-Transformer、目标跟踪、Diffusion Transformer

目录

    • 【Transformer】
    • 【目标跟踪】
    • 【Diffusion Transformer】

【Transformer】

[NeurlPS 2024] Parameter-Inverted Image Pyramid Networks

机构:清华大学、上海AI Lab、上交、港中文、商汤

论文链接:https://arxiv.org/pdf/2406.04330

代码链接:https://github.com/OpenGVLab/PIIP

图像金字塔在现代计算机视觉任务中常用来获取多尺度特征,以实现对图像的精确理解。然而,图像金字塔使用相同的大尺度模型处理多个分辨率的图像,这需要显著的计算成本。为了克服这个问题,本文提出了一种新颖的网络架构,称为参数反转图像金字塔网络(Parameter-Inverted Image Pyramid Networks,PIIP)。核心思想是使用不同参数大小的模型来处理图像金字塔的不同分辨率层次,从而平衡计算效率和性能。具体来说,PIIP的输入是一组多尺度图像,其中较高分辨率的图像由较小的网络处理。进一步提出了一个特征交互机制,允许不同分辨率的特征相互补充,并有效地整合来自不同空间尺度的信息。广泛的实验表明,与传统的图像金字塔方法和单分支网络相比,PIIP在目标检测、分割和图像分类等任务上取得了更优的性能,同时降低了计算成本。特别是,当将这种方法应用于大规模视觉基础模型InternViT-6B时,在检测和分割上将其性能提高了1%-2%,而计算量仅为原来的40%-60%。这些结果验证了PIIP方法的有效性,并为未来的视觉计算任务提供了一个新的技术方向。
在这里插入图片描述


【目标跟踪】

[NeurlPS 2024] VastTrack: Vast Category Visual Object Tracking

论文链接:https://arxiv.org/pdf/2403.03493

代码链接:https://github.com/HengLan/VastTrack

本文提出了一种新颖的基准测试集,名为VastTrack,旨在通过包含丰富的类别和视频来促进更通用的视觉跟踪技术的发展。VastTrack具有几个吸引人的特性:(1)广泛的目标类别。特别是,它涵盖了来自2,115个类别的目标对象,大大超过了现有流行基准测试集(例如GOT-10k的563个类别和LaSOT的70个类别)的对象类别。凭借如此广泛的目标类别,期望能够学习到更通用的对象跟踪技术。(2)更大的规模。与当前的基准测试集相比,VastTrack提供了50,610个序列,共计420万帧,使其成为迄今为止在视频数量方面最大的基准测试集,因此可以在深度学习时代帮助训练出更强大的视觉跟踪器。(3)丰富的注释。除了传统的边界框注释外,VastTrack还为视频提供了语言描述。VastTrack的丰富注释使得既可以开发仅基于视觉的跟踪技术,也可以开发基于视觉和语言的跟踪技术。为了确保精确的注释,所有视频都经过多轮仔细检查和修正后手动标记。为了理解现有跟踪器的性能并为未来的比较提供基线,广泛评估了25个代表性的跟踪器。由于缺乏丰富的类别和来自不同场景的视频进行训练,这些跟踪器在当前数据集上的表现出现了显著下降,需要更多的努力来提高通用跟踪技术。


【Diffusion Transformer】

[NeurlPS 2024] U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers

论文链接:https://arxiv.org/pdf/2405.02730

代码链接:https://github.com/YuchuanTian/U-DiT

扩散变换器(DiTs)将Transformer架构引入到用于潜在空间图像生成的扩散任务中。通过串联一系列Transformer块的各向同性架构,DiTs展示了竞争力强和良好的可扩展性;但与此同时,放弃U-Net以及随后的改进值得重新思考。为此,本文进行了一个简单的玩具实验,比较了基于U-Net架构的DiT和各向同性架构的DiT。结果显示,U-Net架构仅在U-Net归纳偏置中获得轻微优势,表明U-Net风格的DiT可能存在冗余。受到发现U-Net主干特征主要由低频成分支配的启发,作者对自注意力机制中的查询-键-值元组进行了token下采样,尽管计算量显著减少,但这带来了进一步的改进。基于带有下采样token的自注意力机制,本文提出了一系列U形DiT(U-DiTs),并进行了大量实验以展示U-DiT模型的卓越性能。所提出的U-DiT能够在仅为其1/6的计算成本下超越DiT-XL/2。

在这里插入图片描述


[NeurlPS 2024] Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching

论文链接:https://arxiv.org/pdf/2406.01733

代码链接:https://github.com/horseee/learning-to-cache

扩散Transformer最近在各种任务中展示了前所未有的生成能力。然而,这些令人鼓舞的结果是以缓慢的推理为代价的,因为每个去噪步骤都需要对具有大量参数的Transformer模型进行推理。这项研究做出了一个有趣且有些令人惊讶的观察:通过引入缓存机制,可以轻易地移除扩散Transformer中大部分层的计算,甚至不需要更新模型参数。例如,在U-ViT-H/2的情况下,可以在缓存步骤中移除多达93.68%的计算(所有步骤中为46.84%),而FID仅下降不到0.01。为了实现这一点,引入了一种名为**“学习到缓存”(L2C)的新方案**,该方案以动态方式学习为扩散变换器进行缓存。具体来说,通过利用Transformer中各层结构的一致性和扩散的时序性质,将每一层视为缓存的基本单位,探索时间步之间的冗余计算。为了应对在深度模型中识别要缓存和移除的层所面临的指数级搜索空间挑战,提出了一种新颖的可微分优化目标。然后优化一个输入不变但时间步变化的路由器,最终产生一个静态的计算图。实验结果显示,L2C在相同的推理速度下大幅超越了如DDIM和DPM-Solver等采样器以及之前的基于缓存的方法。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/439264.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ | Leetcode C++题解之第454题四数相加II

题目&#xff1a; 题解&#xff1a; class Solution { public:int fourSumCount(vector<int>& A, vector<int>& B, vector<int>& C, vector<int>& D) {unordered_map<int, int> countAB;for (int u: A) {for (int v: B) {count…

网络基础 【HTTPS】

&#x1f493;博主CSDN主页:麻辣韭菜&#x1f493;   ⏩专栏分类&#xff1a;Linux初窥门径⏪   &#x1f69a;代码仓库:Linux代码练习&#x1f69a; &#x1f4bb;操作环境&#xff1a; CentOS 7.6 华为云远程服务器 &#x1f339;关注我&#x1faf5;带你学习更多Linux知识…

LabVIEW提高开发效率技巧----调度器设计模式

在LabVIEW开发中&#xff0c;针对多任务并行的需求&#xff0c;使用调度器设计模式&#xff08;Scheduler Pattern&#xff09;可以有效地管理多个任务&#xff0c;确保它们根据优先级或时间间隔合理执行。这种模式在需要多任务并发执行时特别有用&#xff0c;尤其是在实时系统…

软件验证与确认实验一:静态分析

目录 1. 实验目的及要求.................................................................................................... 3 2. 实验软硬件环境.................................................................................................... 3 …

JAVA运用中springBoot获取前端ajax提交参数方式汇总

本篇文章主要讲解springboot获取前端提交的参数信息&#xff0c;后端进行接受的常见方法汇总&#xff0c;通过本篇文章你可以快速掌握对表单和连接参数获取的能力。 作者&#xff1a;任聪聪 日期&#xff1a;2024年10月5日 一、delete、get等url参数获取方式 前台提交&#xf…

数字图像处理:空间域滤波

1.数字图像处理&#xff1a;空间域滤波 1.1 滤波器核&#xff08;相关核&#xff09;与卷积 图像上的邻域计算 线性空间滤波的原理 滤波器核&#xff08;相关核&#xff09;是如何得到的&#xff1f; 空间域的卷积 卷积&#xff1a;滤波器核与window中的对应值相乘后所有…

【Echarts】折线图和柱状图如何从后端动态获取数据?

&#x1f680;个人主页&#xff1a;一颗小谷粒 &#x1f680;所属专栏&#xff1a;Web前端开发 很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~ 目录 1.1 前端数据分析 1.2 数据库表分析 1.3 后端数据处理 1.4 前端接收数据 继上一篇文章&…

MySQL 查询优化器

文章目录 控制查询计划optimizer_prune_leveloptimizer_search_depth 优化器参数优化器提示索引提示成本模型server_costcost_name engine_cost 控制查询计划 https://dev.mysql.com/doc/refman/8.4/en/controlling-query-plan-evaluation.html 在执行SQL前会根据优化器选择执…

C++_智能指针详解

什么是智能指针&#xff1f;为什么要有智能指针&#xff1f;到目前为止&#xff0c;我们编写的程序所使用的对象都有着严格定义的生命周期。比如说&#xff0c;全局对象在程序启动时分配&#xff0c;在程序结束时销毁&#xff1b;再比如说局部static对象在第一次使用前分配&…

electron-builder 首次执行报错问题解决

假日想研究一下 react electron 的使用&#xff0c;结果发现首次打包疯狂报错&#xff0c;研究了一下之后才发现是第一次的话 electron-builder 会从外面下载依赖包到我们系统中&#xff0c;由于某种力量导致压缩包无法下载或者是下载过慢导致失败&#xff0c;要解决其实也简单…

初学51单片机之I2C总线与E2PROM二

总结下上篇博文的结论&#xff1a; 1&#xff1a;ACK信号在SCL为高电平期间会一直保持。 2&#xff1a;在字节数据传输过程中如果发送电平跳变&#xff0c;那么电平信号就会变成重复起始或者结束的信号。&#xff08;上篇博文的测试方法还是不能够明确证明这个结论&#xff0…

【C++】入门基础介绍(上)C++的发展历史与命名空间

文章目录 1. 前言2. C发展历史2. 1 C版本更新特性一览2. 2 关于C23的一个小故事: 3. C的重要性3. 1 编程语言排行榜3. 2 C在工作领域中的应用 4. C学习建议和书籍推荐4. 1 C学习难度4. 2 学习书籍推荐 5. C的第一个程序6. 命名空间6. 1 namespace的价值6. 2 namespace的定义6. …

首届中美可持续发展峰会在加州圆满举行,引领国际绿色发展新方向

现场嘉宾与(部分)与会人员大合影 2024年8月18日,由美国领创商业联盟(Youth Entrepreneur Business Alliance, YEBA)主办的首届中美可持续发展峰会(Sino-American Symposium on Sustainable Development)在加州森林湖市(Lake Forest)盛大举行。此次峰会吸引了数百名来自中美两国…

HTML+CSS之表格(15个案例+代码+效果图+素材)

目录 1.table标签的border属性 案例:制作一个带边框的表格 1.代码 2.效果 2.table标签的cellspacing属性 案例:制作一个带边距的表格 1.代码 2.效果 3.table标签的cellpadding属性 1.代码 2.效果 4.table标签的width和height属性 案例:指定宽高的表格 1.代码 2.效果 5.table标签…

全新芒果YOLOv10改进135:最新注意力机制EMA:即插即用,具有跨空间学习的高效多尺度注意力模块,ICCASSP 2023

💡本篇内容:芒果YOLOv10改进135:最新注意力机制EMA:即插即用,具有跨空间学习的高效多尺度注意力模块,ICCASSP 2023 **具有跨空间学习的高效多尺度注意力模块EMA | 即插即用 该模块通常包括多个并行的注意力子模块,每个子模块关注于输入数据的不同尺度或分辨率。这些子模块…

HTML+CSS表单控件(11个案例+代码+效果图)

目录 单行文本框 (text) 案例:制作一个单行文本框 1.代码 2.效果 密码输入框 (password) 案例:制作密码输入框 1.代码 2.效果 单选按钮 (radio) 案例:制作单选按钮 1.代码 2.效果 复选框 (checkbox) 案例:制作一个复选框 1.代码 2.效果 普通按钮 (button) 案例:制作一个普通按钮…

Java毕业设计实战项目之基于SSM框架的民宿预定系统

项目技术架构&#xff1a; 该SSMVue的民宿预定系统&#xff0c;后端采用SSM架构&#xff0c;前端采用VueElementUI实现页面的快速开发&#xff0c;并使用关系型数据库MySQL存储系统运行数据。本系统分为三种角色&#xff0c;分别是系统管理员&#xff0c;用户&#xff0c;房主…

RD-Agent Windows安装教程

RD-Agent Windows安装教程 QuantML QuantML 2024年09月23日 18:30 Content RD-Agent 是微软亚洲研究院推出的一款自动化研究与开发工具&#xff0c;能够通过LLMs自动构建因子和策略&#xff0c;相关介绍见我们之前的文章&#xff1a;RD-Agent &#xff1a;自动化Quant工厂 然…

10.5二分专练,二分边界情况,+1不加1的判断,方向判断,各种DEBUG

5 https://leetcode.cn/problems/minimum-speed-to-arrive-on-time/submissions/570242512/ 就是说总时间是 前n-1量汽车的运行时间&#xff0c;向上取整&#xff0c;然后再加上最后一辆列车的运行时间 最快的话是需要n-1个小时 搜索空间就是时速&#xff0c;左边界是1&#x…

windows中下载、安装、配置JDK/JDK环境配置/Java配置环境变量/Linux中安装配置JDK环境

JDK下载(官网)、安装、配置(包括系统、idea、eclipse)一篇就够了 1、问题概述? Java开发者必须掌握的JDK下载、安装、配置过程。 包括在Eclipse及IDEA中的配置使用 2、下载JDK 【注册Oracle官网账号】 下载的前天是注册orcle官网账号,作为开发者,这个必须有,随时关注…