【论文速看】DL最新进展20241016-低光增强、自动驾驶、图像分割、Diffusion

目录

    • 【低光增强】
    • 【自动驾驶】
    • 【图像分割】
    • 【Diffusion】

【低光增强】

[ACCV 2024] LoLI-Street: Benchmarking Low-Light Image Enhancement and Beyond

论文链接:https://arxiv.org/pdf/2410.09831

代码链接:https://github.com/tanvirnwu/TriFuse

低光图像增强(LLIE)对于许多计算机视觉任务至关重要,包括目标检测、跟踪、分割和场景理解。尽管在改进 欠曝光条件下捕获的低质量图像方面 进行了大量研究,但对于自动驾驶车辆来说,清晰的视觉仍然至关重要,这些车辆经常在低光环境下挣扎,这表明需要持续的研究。然而,特别是对于街景而言,用于LLIE的配对数据集非常稀缺,限制了鲁棒性LLIE方法的开发。尽管使用了先进的变换器和/或基于扩散的模型,当前的LLIE方法在现实世界的低光条件下表现不佳,并且缺乏在街景数据集上的训练,这限制了它们在自动驾驶车辆中的有效性。为了弥合这些差距,本文引入了一个新的LoLI-Street(低光街景图像)数据集,包含来自发达城市街景的33k对低光和正常曝光图像,涵盖了19k个用于目标检测的对象类别。LoLI-Street数据集还特别提供了1000张真实的低光照测试图像,用于在实际生活条件下测试LLIE模型。此外,作者提出了一种基于Transformer和扩散的LLIE模型,名为TriFuse。利用LoLI-Street数据集,训练并评估TriFuse和SOTA模型以在LoLI-Street数据集上进行基准测试。通过比较各种模型,LoLI-Street数据集在不同主流数据集上的泛化可行性显而易见,显著增强了图像和对象检测效果,这对于自动驾驶和监控系统等实际应用具有重要意义。

在这里插入图片描述

在这里插入图片描述


【自动驾驶】

[2024] Driving with Prior Maps: Unified Vector Prior Encoding for Autonomous Vehicle Mapping

机构:阿里巴巴、西交大

论文链接:https://arxiv.org/pdf/2409.05352

代码链接:无

高精地图(HD maps)对于自动驾驶车辆的精确导航和决策至关重要,然而其创建和维护面临着显著的成本和时效性挑战。利用车载传感器在线构建HD地图已成为一种有前景的解决方案;然而,这些方法可能因遮挡和恶劣天气导致的不完整数据而受阻。本文提出了PriorDrive框架来解决这些局限性,通过利用先验地图显著增强了在线HD地图构建的鲁棒性和准确性。所提方法集成了多种先验地图,如OpenStreetMap的标准定义地图(SD maps)、供应商提供的过时HD地图以及来自历史车辆数据的本地构建地图。为了有效地将这种先验信息编码到在线制图模型中,引入了混合先验表示(HPQuery),标准化了多样化地图元素的表示。PriorDrive的核心是统一向量编码器(UVE),采用双重编码机制处理向量数据。向量内编码器捕捉细粒度的局部特征,而向量间编码器整合全局上下文。此外,提出了分段级和点级的预训练策略,使UVE能够学习向量数据的先验分布,从而提高编码器的泛化能力和性能。在nuScenes数据集上的广泛测试说明了PriorDrive与各种在线制图模型高度兼容,并显著提升了地图预测能力。通过PriorDrive框架集成先验地图为解决单一感知数据的挑战提供了一种稳健的解决方案,为更可靠的自动驾驶导航铺平了道路。

在这里插入图片描述


【图像分割】

DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks

论文链接:https://arxiv.org/pdf/2409.06809

代码链接:https://github.com/KishoreP1/DetailCLIP

本文引入了DetailCLIP:一种面向细节的CLIP,以解决基于对比学习的视觉语言模型,特别是CLIP,在处理面向细节和细粒度任务(如分割)时的局限性。虽然CLIP及其变体在图像和文本表示的全局对齐方面表现出色,但它们常常难以捕捉精确分割所需的细粒度细节。为了克服这些挑战,文中提出了一种新颖的框架,该框架采用自蒸馏的patch级比较像素级重建损失,并通过基于注意力的token移除机制进行增强。这种方法选择性地保留语义相关的标记,使模型能够专注于与特定功能对齐的关键区域,包括文本信息处理、补丁比较和图像重建,确保模型学习高级语义和详细的视觉特征。实验表明,DetailCLIP在分割准确性上超越了现有的基于CLIP和传统的自监督学习(SSL)模型,并在多样化的数据集上表现出更好的泛化能力。DetailCLIP代表了视觉语言建模领域的重要进展,为需要高级语义理解和详细特征提取的任务提供了一种稳健的解决方案。

在这里插入图片描述


【Diffusion】

[2024 高效Diffusion模型综述] EfficientDiffusion Models: A Comprehensive Survey from Principles to Practices

论文链接:https://arxiv.org/html/2410.11795v1

代码链接:https://github.com/ponyzym/Efficient-DMs-Survey

作为近年来最受欢迎和备受追捧的生成模型之一,扩散模型激发了许多研究人员的兴趣,并在各种生成任务中稳步展现出卓越的优势,如图像合成、视频生成、分子设计、3D场景渲染和多模态生成,依靠其密集的理论原则和可靠的应用实践。这些近期在扩散模型上的卓越成就主要归功于渐进式设计原则和高效的架构、训练、推理及部署方法。然而,目前还没有一个全面而深入的综述来总结这些原则和实践,以帮助快速理解和应用扩散模型。这篇综述提供了一种新的效率导向视角,主要关注架构设计中的深刻原理和高效实践、模型训练、快速推理和可靠部署,以引导进一步的理论研究、算法迁移和在新场景中的模型应用,采用读者友好的方式。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/448584.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pytest+selenium UI自动化测试实战实例

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 今天来说说pytest吧,经过几周的时间学习,有收获也有疑惑,总之最后还是搞个小项目出来证明自己的努力不没有白费 环境准备 1 …

【MySQL】表的查询操作——SELECT

目录 1.select的基本使用 1.1.查询所有列 1.2.查询特定列 1.3.DISTINCT关键字的使用——查询不重复的年级 1.4.带条件的查询 1.5.排序查询结果 1.6.LIMIT的使用——限制返回的行数 1.7.组合使用 WHERE、ORDER BY 和 LIMIT 1.8.查询字段为表达式 1.9.为查询结果指定别名…

攻上云端,独立数据库OceanBase的生存之道

文|白 鸽 编|王一粟 对于很多盲盒爱好者来说,应该都使用过泡泡玛特的线上抽盒机系统,也会发现即使在新品上市时期,其整体抽盲盒的体验也都非常顺畅。 事实上,泡泡玛特的抽盒机系统在2023年经历了一次核心…

【公共祖先】二叉树专题

里面涉及多个plus题 前言1.二叉树的最近公共祖先2.二叉搜索树的最近公共祖先3.二叉树的最近公共祖先II4.二叉树的最近公共祖先III5.二叉树的最近公共祖先IV 前言 公共祖先这一类题目,难度不大,但是非常实用,也是面试问到概率比较大的一类题目…

飞牛NAS未识别到网卡

最新都说国产免费的飞牛NAS非常好用,再也不用搞黑群辉了。 以前也没有搞过NAS,刚好借着这个机会学习一下NAS产品。 在虚拟机上安装,安装还挺顺利,就打算在买来的 也试试,结果系统都安装成功了,但是提示“…

进程通信——管道

文章目录 1. 管道简介2. 无名管道2.1 简介2.2 系统调用2.2.1 无名管道的创建和关闭2.2.2 pipe()2.2.3 无名管道读写说明2.2.4 代码示例 3. 命名管道3.1 简介3.2 mkfifo3.3 对于读进程3.4 对于写进程3.5 代码示例3.5.1 写管道3.5.2 读管道 1. 管道简介 管道是Linux中进程间通信…

物理环境检测及绘制

来解决连续跳跃这个问题,只有在地面上才可以执行跳跃 为了实现这个物理检测,我们需要单独写一个代码,因为除了人物需要检测周围的物理环境以外,我们的敌人也需要检测周围的物理环境,敌人撞墙需要返回继续走&#xff0…

《15分钟轻松学Go》教程目录

在AI快速发展的时代,学习Go语言依然很有用。Go语言擅长处理高并发任务,也就是说可以同时处理很多请求,这对于需要快速响应的AI服务非常重要。另外,Go适合用来处理和传输大量数据,非常适合机器学习模型的数据预处理。 …

linux提权【笔记总结】

文章目录 信息收集通过命令收集信息内核,操作系统,设备信息等用户信息环境信息进程与服务安装的软件服务与插件计划任务查看是否存在明文密码查看与主机的通信信息查看日志信息 通过脚本收集信息LinEnum脚本介绍复现 Linuxprivchecker复现 linux-exploit…

POMO:强化学习的多个最优策略优化(2020)(完)

文章目录 Abstract1 Introduction2 Related work3 Motivation4 多最优策略优化(POMO)4.1 从多个起始节点进行探索4.2 策略梯度的共享基线4.3 用于推理的多个贪婪轨迹5 Experiments5.1 Traveling salesman problem5.2 带容量限制得车辆路径问题5.3 0-1背包问题6 ConclusionAbs…

题目:小金鱼吐泡泡

解题思路: 用栈模拟,创建2个栈,a:字符串的栈,栈顶为s末尾;q:答案栈,与a顶元素互动做相应操作。 陷入的误区:认为可以两个方向可以随意消,但不同方向消得到的结…

AIGC时代 | 揭秘大型语言模型微调:11种高效方法助力模型升级

导读:大型预训练模型是一种在大规模语料库上预先训练的深度学习模型,它们可以通过在大量无标注数据上进行训练来学习通用语言表示,并在各种下游任务中进行微调和迁移。随着模型参数规模的扩大,微调和推理阶段的资源消耗也在增加。…

【H2O2|全栈】JS入门知识(二)

目录 JS 前言 准备工作 运算符 算数运算符 比较运算符 自增、自减运算符 逻辑运算符 运算符的优先级 分支语句 if-else语句 switch语句 三元表达式 结束语 JS 前言 本系列博客主要分享JavaScript的基础语法知识,本期为第二期,包含一些简…

c++应用网络编程之十一Linux下的epoll模式基础

一、epoll模式 在前面分析了select和poll两种IO多路复用的模式,但总体给人的感觉有一种力不从心的感觉。尤其是刚刚接触底层网络开发的程序员,被很多双十一千万并发,游戏百万并发等等已经给唬的一楞一楞的。一听说只支持一两千个并发&#x…

阿里Dataworks使用循环节点和赋值节点完成对mongodb分表数据同步

背景 需求将MongoDB数据入仓MaxCompute 环境说明 MongoDB 100个Collections:orders_1、orders_2、…、orders_100 前期准备 1、MongoDB数据源配置 需要先保证DW和MongoDB网络是能够联通的,需要现在集成任务中配置MongoDB的数据源信息。 具体可以查…

Python OpenCV精讲系列 - 三维重建深入理解(十七)

💖💖⚡️⚡️专栏:Python OpenCV精讲⚡️⚡️💖💖 本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计,从基础概念入手,逐步深入到图像处理、特征检测、物体识…

AD9361 在低至 1MHz 的频率下运行

AD9361 在低至 1MHz 的频率下运行 AD -FREQCVT1-EBZ是包含AD9361的FMCOMMS3/4/5板的附加板。虽然完整的芯片级设计包可在此 RF 收发器的ADI产品页面上找到,但有关此卡的信息及其使用方法、围绕它的设计包以及可使其工作的软件可在此处找到。 AD-FREQCVT1-EBZ 模块…

无人机之放电速率篇

无人机的放电速率是指电池在一定时间内放出其储存电能的能力,这一参数对无人机的飞行时间、性能以及安全性都有重要影响。 一、放电速率的表示方法 放电速率通常用C数来表示。C数越大,表示放电速率越快。例如,一个2C的电池可以在1/2小时内放…

储能电源自动化测试系统中不同硬件电路设计对测试结果有哪些影响?-纳米软件

随着能源领域的不断发展,储能电源在各个领域的应用越来越广泛。为了确保储能电源的性能和可靠性,自动化测试系统的重要性日益凸显。其中,硬件电路设计是自动化测试系统的关键组成部分,不同的硬件电路设计会对测试结果产生不同的影…

程序报错:ModuleNotFoundError: No module named ‘code.utils‘; ‘code‘ is not a package

程序报错内容&#xff1a; Traceback (most recent call last): File "code/nli_inference/veracity_prediction.py", line 10, in <module> from code.utils.data_loader import read_json ModuleNotFoundError: No module named code.utils; code is …