【cs.CV】25.1.15 arxiv更新速递

【cs.CV】25.1.15 arxiv更新84篇

—第1篇----

=====

SimGen: A Diffusion-Based Framework for Simultaneous Surgical Image and Segmentation Mask Generation

🔍 关键词: SimGen, Diffusion Model, Surgical Image Generation, Segmentation Mask Generation

链接1

摘要: 获取和标注手术数据通常需要大量资源，存在伦理约束，并且需要大量专家参与。虽然像文本到图像这样的生成式 AI 模型可以缓解数据稀缺问题，但对于精确驱动的外科手术应用、模拟和教育来说，整合空间注释（如分割掩码）至关重要。本研究介绍了一种新的任务和方法 SimGen，用于同时生成图像和掩码。SimGen 是基于 DDPM 框架和残差 U-Net 的扩散模型，旨在联合生成高保真手术图像及其相应的分割掩码。该模型利用互相关先验来捕获连续图像和离散掩码分布之间的依赖关系。此外，还采用了规范斐波那契格 (CFL) 来增强掩码 RGB 空间中的类别可分离性和均匀性。SimGen 提供了高保真图像和准确的分割掩码，在六个公共数据集上优于基线，这些数据集在图像和语义初始距离指标上进行了评估。消融研究表明，CFL 提高了掩码质量和空间分离。下游实验表明，如果法规限制人类数据发布用于研究，则生成的图像-掩码对可用。这项工作为生成配对的手术图像和复杂标签提供了一种经济高效的解决方案，通过减少对昂贵的手动注释的需求，推动了手术 AI 的发展。
总结: SimGen 是一种基于扩散模型的框架，可以同时生成高保真手术图像及其相应的分割掩码，该框架利用互相关先验和规范斐波那契格来提高生成质量。
###【arXiv编号】2501.09008v1
###【git】无
###【期刊】无
###【领域】计算机视觉，医学影像

[推荐指数：4]

推荐理由: SimGen 是一种新颖的框架，可以同时生成图像和分割掩码，并取得了良好的效果。该框架有望在手术 AI 领域得到广泛应用。

=====

—第2篇----

=====

DeblurDiNAT: A Compact Model with Exceptional Generalization and Visual Fidelity on Unseen Domains

🔍 关键词: DeblurDiNAT, deblurring, Transformer, Dilated Neighborhood Attention, generalization, perceptual metrics

链接1

摘要: 近期的去模糊网络已经能够有效地从模糊图像中恢复清晰图像。然而，它们在泛化到未知领域时往往会遇到困难。此外，这些模型通常侧重于 PSNR 和 SSIM 等失真指标，而忽略了与人类感知一致的指标的关键方面。为了解决这些限制，我们提出了 DeblurDiNAT，一种基于膨胀邻域注意力的去模糊 Transformer。首先，DeblurDiNAT 采用交替膨胀因子范式来捕获局部和全局模糊模式，从而增强泛化能力和感知清晰度。其次，局部跨通道学习器帮助 Transformer 块理解相邻通道之间的短程关系。此外，我们提出了一个具有简单而有效设计的线性前馈网络。最后，引入了双阶段特征融合模块作为现有方法的替代方案，该模块有效地处理跨网络级别的多尺度视觉信息。与最先进的模型相比，我们紧凑的 DeblurDiNAT 展示了优越的泛化能力，并在感知指标方面取得了显著的性能，同时保持了良好的模型尺寸。总结: DeblurDiNAT 是一种基于膨胀邻域注意力的去模糊 Transformer，它能够有效地从模糊图像中恢复清晰图像，并具有优越的泛化能力和感知性能。
###【arXiv编号】2403.13163
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数：4]

推荐理由: DeblurDiNAT 模型在去模糊领域取得了显著的成果，其创新性体现在它采用了膨胀邻域注意力机制和局部跨通道学习器，从而提高了模型的泛化能力和感知性能。此外，该模型还具有紧凑的尺寸，使其在实际应用中具有优势。

=====

—第3篇----

=====

Vision Foundation Models for Computed Tomography

🔍 关键词: Computed Tomography, Foundation Models, Radiology, Medical Image Retrieval, Semantic Understanding

链接1

摘要: 本文介绍了CT-FM，一个针对各种放射学任务的大型3D图像预训练模型。CT-FM使用来自影像数据公共库的148,000个计算机断层扫描(CT)数据进行预训练，采用无标签对比学习方法。CT-FM在四个任务类别中进行评估，包括全身和肿瘤分割、头部CT分诊、医学图像检索和语义理解，表现优于最先进的模型。除了定量上的成功，CT-FM还展示了按解剖学对区域进行聚类以及识别跨扫描的相似解剖和结构概念的能力。此外，它在重测设置中保持稳健，并表明其嵌入与合理的显著区域相关联。这项研究证明了大型医学影像基础模型的价值，并通过开源模型权重、代码和数据，旨在支持放射学中更具适应性、可靠性和可解释性的AI解决方案。
总结: 本文提出了一种名为CT-FM的大型3D图像预训练模型，该模型在各种放射学任务中表现出色，并通过开源模型权重、代码和数据，旨在支持放射学中更具适应性、可靠性和可解释性的AI解决方案。
###【arXiv编号】2501.09001v1
###【git】无
###【期刊】无
###【领域】计算机视觉，医学影像

[推荐指数：4]

推荐理由: 本文提出了一种名为CT-FM的大型3D图像预训练模型，该模型在各种放射学任务中表现出色，并通过开源模型权重、代码和数据，旨在支持放射学中更具适应性、可靠性和可解释性的AI解决方案。该模型在多个任务类别中表现优于最先进的模型，并展示了按解剖学对区域进行聚类以及识别跨扫描的相似解剖和结构概念的能力。

=====

—第4篇----

=====

Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion

🔍 关键词: cs.CV, video diffusion, long video generation, temporal consistency, subject consistency

链接1

摘要: FIFO视频扩散，建立在预训练的文本到视频模型的基础上，最近成为了一种有效的免调优长视频生成方法。该技术维护一个视频帧队列，噪声逐渐增加，在队列头部持续生成干净的帧，同时在尾部加入高斯噪声。然而，由于缺乏跨帧对应建模，FIFO-Diffusion 往往难以在生成的视频中保持长期的时序一致性。本文提出了一种名为 Ouroboros-Diffusion 的新型视频去噪框架，旨在增强结构和内容（主题）一致性，从而生成任意长度的一致视频。具体来说，我们在队列尾部引入了一种新的潜在采样技术，以提高结构一致性，确保帧之间感知上的平滑过渡。为了增强主题一致性，我们设计了一种主题感知跨帧注意力（SACFA）机制，该机制在短片段内对齐跨帧的主题，以实现更好的视觉一致性。此外，我们引入了自递归引导。该技术利用队列前端所有先前更干净的帧的信息来指导尾部更嘈杂的帧的去噪，从而促进丰富且上下文相关的全局信息交互。在 VBench 基准上进行的大量长视频生成实验表明，我们的 Ouroboros-Diffusion 优于其他方法，特别是在主题一致性、运动平滑度和时间一致性方面。
###【arXiv编号】2501.09019v1
###【git】无
###【期刊】无
###【领域】计算机视觉

[推荐指数：4]

推荐理由: 该论文提出了一种名为 Ouroboros-Diffusion 的新型视频去噪框架，旨在增强结构和内容（主题）一致性，从而生成任意长度的一致视频。该方法在 VBench 基准上取得了优异的性能，特别是在主题一致性、运动平滑度和时间一致性方面。

=====

—第5篇----

=====

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

🔍 关键词: Text-to-video generation, Compositional, Benchmark, Evaluation metrics, MLLM, Detection, Tracking

链接1

摘要: 文本到视频 (T2V) 生成模型取得了显著进展，但它们将不同的物体、属性、动作和运动组合成视频的能力尚未得到探索。之前的文本到视频基准也忽略了这种重要的评估能力。在这项工作中，我们对组合文本到视频生成进行了首次系统研究。我们提出了 T2V-CompBench，这是第一个专门为组合文本到视频生成而设计的基准。T2V-CompBench 包含组合性的各个方面，包括一致的属性绑定、动态属性绑定、空间关系、运动绑定、动作绑定、物体交互和生成数字。我们还仔细设计了基于多模态大型语言模型 (MLLM)、基于检测和基于跟踪的评估指标，这些指标可以更好地反映七个提议类别中 1400 个文本提示的组合文本到视频生成质量。所提指标的有效性通过与人工评估的相关性得到验证。我们还对各种文本到视频生成模型进行了基准测试，并对不同模型和各种组合类别进行了深入分析。我们发现，对于当前模型来说，组合文本到视频生成极具挑战性，我们希望我们的尝试能够为该方向的未来研究提供启示。总结: 本文提出了T2V-CompBench，第一个专门为组合文本到视频生成而设计的基准，并对各种文本到视频生成模型进行了基准测试，发现组合文本到视频生成对于当前模型来说极具挑战性。
###【arXiv编号】2407.14505v2
###【git】无
###【期刊】无
###【领域】计算机视觉

[推荐指数：4]

推荐理由: 本文提出了一个新的基准T2V-CompBench，用于评估文本到视频生成模型的组合能力，并对各种模型进行了基准测试，为该方向的未来研究提供了启示。

=====

—第6篇----

=====

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

🔍 关键词: Multimodal LLMs, Aesthetics, Art Evaluation, MM-StyleBench, ArtCoT

链接1

摘要: 本文首次研究了如何利用多模态大型语言模型 (MLLMs) 的推理能力来评估艺术作品的美学。为了促进这项研究，我们构建了 MM-StyleBench，一个用于艺术风格化基准测试的新型高质量数据集。然后，我们开发了一种基于原则的人类偏好建模方法，并对 MLLMs 的响应与人类偏好进行了系统的相关性分析。我们的实验揭示了 MLLMs 在艺术评估中固有的幻觉问题，这与响应的主观性有关。提出了 ArtCoT，证明了特定于艺术的任务分解和使用具体语言可以增强 MLLMs 对美学的推理能力。我们的发现为 MLLMs 在艺术领域提供了宝贵的见解，并可以使各种下游应用受益，例如风格迁移和艺术图像生成。代码可在 https://github.com/songrise/MLLM4Art 获取。总结: 本文研究了如何利用多模态大型语言模型 (MLLMs) 的推理能力来评估艺术作品的美学，并提出了 ArtCoT 方法来增强 MLLMs 对美学的推理能力，该方法通过特定于艺术的任务分解和使用具体语言来实现。
###【arXiv编号】2501.09012v1
###【git】https://github.com/songrise/MLLM4Art
###【期刊】无
###【领域】计算机视觉，人工智能，自然语言处理，多媒体

[推荐指数：4]

推荐理由: 本文首次研究了如何利用多模态大型语言模型 (MLLMs) 的推理能力来评估艺术作品的美学，并提出了 ArtCoT 方法来增强 MLLMs 对美学的推理能力，具有较高的创新性。

=====

—第7篇----

=====

Click-Calib: A Robust Extrinsic Calibration Method for Surround-View Systems

🔍 关键词: Surround-View System, Extrinsic Calibration, Click-Calib, Pattern-free

链接1

摘要: 环视系统（SVS）是高级驾驶辅助系统（ADAS）的重要组成部分，需要精确的标定。然而，传统的离线外部标定方法繁琐且耗时，因为它们严重依赖于物理模式。此外，这些方法主要集中在车辆周围的短距离区域，导致更远区域的标定质量较低。为了解决这些限制，我们提出了 Click-Calib，一种用于离线 SVS 外部标定的无模式方法。无需任何特殊设置，用户只需在自然场景中点击地面上的几个关键点。与其他离线标定方法不同，Click-Calib 通过最小化关键点的重投影距离误差，在较宽范围内优化相机姿态，从而在短距离和长距离上实现精确的标定。此外，Click-Calib 支持单帧和多帧模式，后者提供更好的结果。在我们内部数据集和公共 WoodScape 数据集上的评估表明，与基线方法相比，它具有更高的准确性和鲁棒性。代码可在 https://github.com/lwangvaleo/click_calib 获取。总结: Click-Calib 是一种无模式的离线 SVS 外部标定方法，它通过最小化关键点的重投影距离误差，在较宽范围内优化相机姿态，从而在短距离和长距离上实现精确的标定。
###【arXiv编号】2501.01557v2
###【git】https://github.com/lwangvaleo/click_calib
###【期刊】无
###【领域】计算机视觉

[推荐指数：4]

推荐理由: Click-Calib 提出了一种新的无模式离线 SVS 外部标定方法，可以有效解决传统方法的弊端，提高标定精度和鲁棒性。

=====

—第8篇----

=====

A General Framework for Inference-time Scaling and Steering of Diffusion Models

🔍 关键词: Diffusion Models, Steering, Inference-time Scaling, Reward Functions, Feynman Kac

链接1

摘要: 扩散模型在图像、视频、蛋白质设计和文本等多种模态中取得了令人印象深刻的结果。然而，生成具有用户指定属性的样本仍然是一个挑战。最近的研究提出了微调模型以最大化捕获所需属性的奖励，但这些方法需要昂贵的训练并且容易出现模式崩溃。在这项工作中，我们提出了费曼-卡茨 (FK) 操控，这是一个使用奖励函数操控扩散模型的推理时间框架。FK 操控通过对多个相互作用的扩散过程（称为粒子）系统进行采样来工作，并根据使用称为势函数的函数计算的分数在中间步骤重新采样粒子。势函数使用中间状态的奖励进行定义，并且选择这些势函数，使得高值表示粒子将产生高奖励样本。我们探索了势函数、中间奖励和采样器的各种选择。我们在文本到图像和文本扩散模型上评估了 FK 操控。对于使用人类偏好奖励操控文本到图像模型，我们发现 FK 操控一个 0.8B 参数模型在提示保真度方面优于一个 2.6B 参数微调模型，并且具有更快的采样速度，无需训练。对于使用文本质量和特定文本属性的奖励操控文本扩散模型，我们发现 FK 操控生成更低的困惑度，更在语言上可接受的输出，并能够实现属性（如毒性）的无梯度控制。我们的结果表明，即使使用现成的奖励，扩散模型的推理时间缩放和操控也可以提供显着的样本质量增益和可控性优势。代码可在 https://github.com/zacharyhorvitz/Fk-Diffusion-Steering 获取。总结: 本文提出了一种新的推理时间框架，名为费曼-卡茨 (FK) 操控，用于使用奖励函数操控扩散模型，并通过在文本到图像和文本扩散模型上的实验验证了其有效性。
###【arXiv编号】2501.06848v2
###【git】https://github.com/zacharyhorvitz/Fk-Diffusion-Steering
###【期刊】无
###【领域】计算机科学，机器学习，自然语言处理，计算机视觉

[推荐指数：4]

推荐理由: 本文提出了一种新的推理时间框架，名为费曼-卡茨 (FK) 操控，用于使用奖励函数操控扩散模型，并通过在文本到图像和文本扩散模型上的实验验证了其有效性。该框架可以有效地提高扩散模型的样本质量和可控性，并且无需进行额外的训练，因此具有很高的实用价值。

=====

—第9篇----

=====

RepVideo: Rethinking Cross-Layer Representation for Video Generation

🔍 关键词: Video Generation, Diffusion Models, Representation Learning, Temporal Coherence

链接1

摘要: 近年来，扩散模型的引入使视频生成取得了显著进展，显著提高了生成视频的质量。然而，最近的研究主要集中在扩大模型训练规模，而对表示形式对视频生成过程的直接影响却鲜有见解。本文首先研究了中间层特征的特性，发现不同层之间注意力图存在较大差异。这些差异导致语义表示不稳定，并导致特征之间的累积差异，最终降低了相邻帧之间的相似性，并对时间一致性产生负面影响。为了解决这个问题，我们提出了RepVideo，这是一个用于文本到视频扩散模型的增强表示框架。通过累积来自相邻层的特征以形成丰富的表示，这种方法捕获了更稳定的语义信息。然后将这些增强表示用作注意力机制的输入，从而提高语义表达能力，同时确保相邻帧之间的特征一致性。大量的实验表明，我们的RepVideo不仅显著增强了生成准确的空间外观的能力，例如捕获多个对象之间复杂的空间关系，而且还提高了视频生成的时序一致性。总结: RepVideo通过累积来自相邻层的特征以形成丰富的表示，从而提高了视频生成的语义表达能力和时间一致性。
###【arXiv编号】2501.08994v1
###【git】无
###【期刊】无
###【领域】计算机视觉

[推荐指数：4]

推荐理由: RepVideo在视频生成领域提出了一个新颖的解决方案，通过增强表示框架来提高生成视频的质量，特别是空间外观和时间一致性。该方法具有较高的创新性和实用性。

=====

—第10篇----

=====

SA-MLP: A Low-Power Multiplication-Free Deep Network for 3D Point Cloud Classification in Resource-Constrained Environments

🔍 关键词: Point cloud classification, 3D sensors, LiDAR, computational efficiency, energy consumption, MLP, ShiftAddNet

链接1

摘要: 点云分类在处理和分析来自3D传感器（如LiDAR）的数据中起着至关重要的作用，这些传感器通常用于自动驾驶汽车、机器人技术和环境监测等应用。然而，传统的依赖于乘法运算的神经网络在计算成本和能耗方面往往面临挑战。本研究提出了一种新型的基于MLP的有效架构系列，旨在提高传感器系统中点云分类任务的计算效率。基线模型Mul-MLP使用传统的乘法运算，而Add-MLP和Shift-MLP分别用加法和移位运算代替乘法。这些替换利用了更友好的传感器运算，可以显著降低计算开销，使其特别适用于资源受限的传感器平台。为了进一步提高性能，我们提出了SA-MLP，这是一种混合架构，在移位层和加法层之间交替，在优化计算效率的同时保持网络深度。与ShiftAddNet等先前方法不同，ShiftAddNet通过冻结移位权重来增加层数并限制表示能力，SA-MLP通过采用不同的学习率和优化器来充分利用移位层和加法层的互补优势。实验结果表明，Add-MLP和Shift-MLP与Mul-MLP相比取得了可比的性能，而SA-MLP则超越了基线，在分类精度和计算效率方面都取得了与最先进的MLP模型相当的结果。这项工作为需要实时点云分类的传感器驱动应用提供了一种很有前景的节能解决方案，特别是在计算资源有限的环境中。
###【总结】本文提出了一种名为SA-MLP的低功耗、无乘法深度网络，用于资源受限环境中的3D点云分类，通过替代乘法运算，提高了计算效率并取得了与最先进模型相当的性能。
###【arXiv编号】 2409.01998v2
###【git】无
###【期刊】无
###【领域】计算机视觉，自动驾驶车辆，机器人技术，环境监测

[推荐指数：4]

该论文提出了一种新颖的、用于资源受限环境中3D点云分类的低功耗深度网络架构，其创新性在于将移位和加法操作与传统的乘法操作相结合，并通过使用不同的学习率和优化器来充分利用它们的互补优势。该方法在计算效率和分类精度方面都取得了显著的改进，具有潜在的应用价值。

—第11篇----

=====

CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities

🔍 关键词: 4D city generation, compositional generative model, neural fields, traffic scenario generation, unbounded layout generation

链接1

摘要: CityDreamer4D 是一种用于生成无限 4D 城市的组合生成模型。它将动态物体（例如车辆）与静态场景（例如建筑物和道路）分开，并使用不同类型的用于建筑物、车辆和背景物体的神经场来组合 4D 场景中的所有物体。CityDreamer4D 使用高度紧凑的 BEV 表示来生成动态交通场景和静态城市布局，并通过结合面向内容和面向实例的神经场来生成 4D 城市中的物体。为了适应背景内容和实例的不同特征，神经场采用了定制的生成性哈希网格和周期性位置嵌入作为场景参数化。此外，还提供了一套全面的城市生成数据集，包括 OSM、Google Earth 和 CityTopia。OSM 数据集提供了各种真实世界的城市布局，而 Google Earth 和 CityTopia 数据集则提供了具有 3D 实例注释的大规模、高质量的城市图像。CityDreamer4D 利用其组合设计，支持各种下游应用，例如实例编辑、城市风格化和城市模拟，同时在生成逼真的 4D 城市方面提供了最先进的性能。总结: CityDreamer4D 是一个用于生成无限 4D 城市的组合生成模型，它将动态物体与静态场景分开，并使用不同类型的用于建筑物、车辆和背景物体的专用神经场来组合 4D 场景中的所有物体。
###【arXiv编号】2501.08983v1
###【git】无
###【期刊】无
###【领域】计算机视觉

[推荐指数：4]

推荐理由: CityDreamer4D 提出了一种新颖的 4D 城市生成框架，该框架将动态物体与静态场景分开，并使用不同类型的专用神经场来组合 4D 场景中的所有物体。该模型在生成逼真的 4D 城市方面表现出色，并支持各种下游应用，例如实例编辑、城市风格化和城市模拟。

=====

—第12篇----

=====

CityLoc: 6 DoF Localization of Text Descriptions in Large-Scale Scenes with Gaussian Representation

🔍 关键词: text localization, 6DoF, large-scale scenes, Gaussian representation, diffusion-based architecture, Vision-Language-Model, CLIP, 3D Gaussian splatting

链接1

摘要: 本文提出了一种基于扩散模型的 CityLoc 方法，用于在大型场景中将文本描述定位到 6DoF 姿态分布。该方法利用预训练的文本编码器从文本描述中提取条件信号，并通过预训练的视觉语言模型 CLIP 将文本描述与姿态分布关联起来。此外，通过使用 3D 高斯 splatting 渲染潜在姿态，可以进一步细化分布的候选姿态，从而通过视觉推理将错误定位的样本引导到与文本描述更好地匹配的位置。实验结果表明，CityLoc 在五个大型数据集上均优于标准检索方法和基于学习的方法。
###【arXiv编号】2501.08982v1
###【git】
###【期刊】
###【领域】计算机视觉，智慧交通

[推荐指数：4]

推荐理由: CityLoc 在大型场景中将文本描述定位到 6DoF 姿态分布，并通过视觉推理进一步细化分布的候选姿态，具有较高的创新性和实用性。

=====

—第13篇----

这篇文章属于医疗健康领域,研究了使用卷积神经网络模型对COVID-19进行诊断的设计方法。

摘要: 本研究提出了一种新型19层卷积神经网络模型,用于从胸部X光图像中准确识别COVID-19病毒。该模型可以实现对三类(病毒性肺炎、正常、COVID)和四类(肺部不透明、正常、COVID-19、肺炎)的分类。该模型的实验结果表明,其性能优于一些流行的预训练网络,如Inception、Alexnet、ResNet50、Squeezenet和VGG19。该方法可以成为临床医生正确诊断COVID-19的有用工具。

总结: 本文提出了一种新型卷积神经网络模型,能够准确识别COVID-19,在多类分类任务中表现优于其他流行的预训练网络。

文章信息:

【arXiv编号】2311.06394
【git】无
【期刊】无
【领域】医疗健康

推荐指数: 4

这篇文章提出了一种创新性的卷积神经网络模型,在COVID-19诊断任务中取得了优秀的性能,对临床实践有重要意义。作者进行了充分的实验对比,结果有说服力。该模型在医疗健康领域具有很好的应用前景。

—第14篇----

=====

Compression with Global Guidance: Towards Training-free High-Resolution MLLMs Acceleration

🔍 关键词: Multimodal large language models, visual token compression, high-resolution image understanding

http://arxiv.org/pdf/2501.05179v2

摘要: 多模态大型语言模型(MLLMs)由于其在视觉内容理解和推理方面的出色性能而引起了广泛关注。但是,它们的推理效率一直是一个值得关注的问题,因为多模态上下文长度的增加导致了二次复杂度。虽然基于token压缩的方法在降低计算成本方面已经显示出了效果,但它们在跟上MLLMs的快速发展方面还存在一些挑战,特别是在高分辨率图像理解环境下的"AnyRes"策略。本文提出了一种名为GlobalCom^{2的新颖的token压缩方法,专门针对既收取缩略图又收取多个裁剪图的高分辨率MLLMs。GlobalCom}2将缩略图产生的tokens视为整个token压缩过程的"指挥官",指导保留比例的分配和每个裁剪图的具体压缩。通过这种方式,可以在保留重要局部细节的同时,消除冗余的tokens。通过10个基准的实证结果表明,GlobalCom^2在性能和效率之间达到了最佳平衡,并且在使用LLaVA-NeXT-7B/13B模型时始终优于最先进的token压缩方法。
总结: 本文提出了一种名为GlobalCom^2的新颖的token压缩方法,专门针对高分辨率MLLMs,能够有效平衡性能和效率,并且优于现有的token压缩方法。
###【arXiv 2501.05179v2】
###【git: https://github.com/xuyang-liu16/GlobalCom2】
###【领域: 计算机视觉、多模态大型语言模型】

[推荐指数：5]

本文提出了一种新颖的token压缩方法GlobalCom^2,针对性地解决了高分辨率MLLMs的效率问题,通过利用缩略图tokens作为"指挥官"来指导整个压缩过程,在保留重要局部细节的同时有效地消除了冗余tokens。该方法在多个基准测试中都取得了优异的性能,在性能和效率之间达到了很好的平衡,是一种非常有价值的工作。

—第15篇----

文章名称

🔍 关键词: data variation, bias, image-based dermatological datasets, machine learning classification

链接

摘要: 本文分析了基于图像的皮肤病数据集在机器学习分类中的数据变化和偏差问题。针对临床应用中使用智能手机拍摄的皮肤图像与专业dermoscopy设备拍摄的训练数据存在差异的问题,探讨了利用迁移学习的方法来降低这种差异对模型性能的影响。通过实验分析了两种数据分布之间的主要差异,并提出了相应的解决方案。总之,该文章旨在评估dermoscopic和临床图像样本之间的差距,并理解数据集变化如何影响模型训练。

总结: 该文探讨了基于图像的皮肤病数据集中存在的数据变化和偏差问题,并提出了利用迁移学习的方法来减小临床图像与训练数据之间差异对模型性能的影响。

[arXiv:2501.08962v1]

[无公开Git仓库]

[无期刊信息]

【领域】计算机视觉, 人工智能

[推荐指数：4]

该文章针对性地分析了图像分类在皮肤病诊断领域应用中存在的数据偏差和质量问题,提出了有效的解决方案。该方法能够帮助提高基于智能手机拍摄的临床图像的分类准确性,在临床应用中具有很强的现实意义和实用价值。

—第16篇----

文章名称

🔍 关键词: Identifying Spurious Correlations using Counterfactual Alignment

链接1

摘要: 被驱动的模型由于存在虚假相关性通常会导致泛化性能较差。我们提出了基于反事实(CF)对齐方法来检测和量化黑盒分类器的虚假相关性。我们的方法是基于根据一个分类器生成的反事实图像输入到其他分类器中,看它们的输出是否也发生变化。这些响应之间的关系可以量化并用于识别存在虚假相关性的特定实例。这通过观察人脸属性和水鸟分类器的直观趋势以及制造虚假相关性并定量检测其存在得到验证。此外,利用CF对齐方法,我们证明可以通过检测虚假相关性的减少来评估鲁棒优化方法(GroupDRO、JTT和FLAC)。
总结: 该方法利用反事实图像对比不同分类器的输出,可以检测出模型存在的虚假相关性,并评估鲁棒优化方法的性能。
###【arXiv编号】2312.02186v3
###【git】无
###【期刊】无
###【领域】计算机视觉、机器学习

[推荐指数：4]

该文章提出了一种创新性的反事实对齐方法,可以有效检测模型中的虚假相关性,并用于评估鲁棒优化方法,对于提高计算机视觉和机器学习模型的泛化性能具有重要意义。

—第17篇----

文章信息

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

🔍 关键词: PEFT, Consistency Regularization, Generalization

https://arxiv.org/pdf/2409.17137v4

摘要: 文章提出了PACE方法,将参数高效微调(PEFT)与一致性正则化相结合,以实现更好的模型泛化能力。作者理论上证明了参数梯度范数的减小以及与预训练模型的一致性对模型泛化能力的提升有重要作用。PACE通过对适配器层特征添加噪声,并确保在不同噪声扰动下模型输出保持一致,从而隐式地实现梯度正则化和模型一致性对齐。实验结果表明,PACE在视觉适配、文本分类和数学推理等任务上优于现有的PEFT方法,展现了其在资源受限下进行高效模型微调的潜力。

总结: 该文章提出了PACE方法,将参数高效微调与一致性正则化相结合,在提高模型泛化能力的同时保留预训练知识,在多个应用任务上优于现有PEFT方法。

###【arXiv编号】2409.17137v4
###【git】https://github.com/MaxwellYaoNi/PACE
###【期刊】未发表

###【领域】机器学习、计算机视觉、自然语言处理

[推荐指数：4]

该文章在参数高效微调领域提出了一种创新的方法,理论和实验分析都比较充分,方法的创新性和实用性较强,值得关注和应用。

—第18篇----

文章名称

TextSleuth: Towards Explainable Tampered Text Detection

🔍 关键词: Tampered text detection, Explainable AI, Large multimodal models

链接1

摘要: 本文提出了一种名为TextSleuth的方法，用于实现可解释的篡改文本检测。为了填补此任务的数据缺口，作者提出了一个大规模、全面的数据集ETTD，其包含了像素级别的篡改文本区域标注和描述篡改文本异常的自然语言标注。此外，作者还提出了多种方法来提高数据质量,如引入精心设计的查询来生成高质量的异常描述,提出融合掩码提示来减少GPT4o生成过程中的混淆等。为了进一步提高可解释的篡改文本检测,作者提出了TextSleuth模型,通过两阶段分析范式和辅助接地提示,实现了对可疑区域的细粒度感知和跨域泛化。实验结果验证了所提出方法的有效性。

总结: 该文章提出了一种可解释的篡改文本检测方法TextSleuth,并建立了大规模数据集ETTD来支持该任务。

[arXiv编号: 2412.14816]

[无git信息]

[无期刊信息]

【领域】计算机视觉,自然语言处理

[推荐指数：4]

该文章从可解释性的角度出发,研究了如何通过大型多模态模型解释篡改文本检测的依据,并建立了相应的大规模数据集。该方法在细粒度感知和跨域泛化上都有所突破,是一项创新性的工作,对篡改文本检测和可解释AI均有一定贡献。

—第19篇----

Visual WetlandBirds Dataset: Bird Species Identification and Behavior Recognition in Videos

🔍 关键词: computer vision, artificial intelligence, bird species, bird behavior

http://arxiv.org/pdf/2501.08931v1

摘要: 本研究提出了第一个针对鸟类行为检测和物种分类的细粒度视频数据集。该数据集包含178个录制于西班牙湿地的视频,捕捉了13个不同物种的7种不同行为。作者还提供了基于最新模型的基准结果,用于鸟类行为识别和物种分类任务。该数据集解决了鸟类视频数据集的缺乏问题,并为深度学习模型的发展提供了重要支撑。总结:这是一个针对鸟类行为和物种识别的创新性视频数据集。

###【arXiv编号：2501.08931v1】
###【期刊】未发表
###【领域】计算机视觉, 人工智能, 鸟类物种和行为识别

[推荐指数：5]

该数据集填补了鸟类视频数据集的空白,为鸟类行为和物种分类的深度学习研究提供了新的数据支持。数据集的规模和标注详细程度都非常出色,为相关领域的研究带来了重要突破。

—第20篇----

=====

Learning Joint Denoising, Demosaicing, and Compression from the Raw Natural Image Noise Dataset

🔍 关键词: Raw Natural Image Noise Dataset, denoising, demosaicing, compression

http://arxiv.org/pdf/2501.08924v1

摘要: 本文介绍了原始自然图像噪声数据集(RawNIND)，这是一个多样的配对原始图像集合,旨在支持跨传感器、图像开发工作流程和风格的去噪模型开发。提出了两种去噪方法:一种直接在原始Bayer数据上操作,利用计算效率,另一种处理线性RGB图像以提高对不同传感器的泛化能力,两种方法都具有对后续开发的灵活性。这些方法优于依赖于开发图像的传统方法。此外,在原始数据级别集成去噪和压缩显著提高了码率失真性能和计算效率。这些发现表明向原始数据工作流程转变以实现高效灵活的图像处理。
总结: 该文提出了一种基于原始图像的联合去噪、去马赛克和压缩方法,相比传统方法能够更好的适应不同传感器和发展工作流程,并且在性能和效率方面有显著提升。

###【arXiv编号】2501.08924
###【无git】
###【无期刊】
###【领域:计算机视觉,图像信号处理】

[推荐指数：5]

该文提出了一个新的原始图像数据集RawNIND,以及基于该数据集的联合去噪、去马赛克和压缩方法,在性能和效率方面都有很大提升,对相关领域的研究和应用都有重要意义,是一篇很有创新性和实用价值的好文章。

—第21篇----

文章名称

Empowering Agricultural Insights: RiceLeafBD - A Novel Dataset and Optimal Model Selection for Rice Leaf Disease Diagnosis through Transfer Learning Technique

🔍 关键词: cs.CV

[http://arxiv.org/pdf/2501.08912v1]

摘要: 该文提出了一个新的数据集RiceLeafBD,用于通过迁移学习技术诊断水稻叶病。文章详细分析了数据集的特点,并应用了轻量级CNN模型和预训练的InceptionNet-V2、EfficientNet-V2、MobileNet-V2模型进行评估。结果表明,EfficientNet-V2模型的性能达到91.5%,优于其他模型。该研究表明,可以使用这个无偏数据集精确有效地识别影响水稻叶子的疾病。通过分析不同模型的性能,提出的数据集对于研究减少水稻叶病具有重要意义。

总结: 提出了一个新的水稻叶病诊断数据集RiceLeafBD,基于迁移学习技术实现了高准确率的识别。

【arXiv编号: 2501.08912】

【领域: 计算机视觉】

[推荐指数: 4]

该论文创新性地提出了一个新的水稻叶病诊断数据集,并采用先进的迁移学习模型实现了高准确率的识别,对于解决水稻病虫害问题有重要意义。数据集和模型均可以为农业领域的后续研究提供有价值的支持。

—第22篇----

文章名称

Lights, Camera, Matching: The Role of Image Illumination in Fair Face Recognition

🔍 关键词: Facial brightness, Face recognition, Demographic bias, Caucasian, African American, Median brightness, Brightness distribution

http://arxiv.org/pdf/2501.08910v1

摘要: 面部亮度是影响面部识别准确度在不同人口统计群体间差异的关键图像质量因素。在这项工作中,我们旨在减少高加索裔美国女性和非洲裔美国女性匹配图像对相似性得分分布之间的准确度差距,即测量分布之间d’。为了在人口统计群组之间平衡亮度,我们进行了三项实验,将面部皮肤区域的亮度解释为像素值的中值或分布。仅基于中值亮度进行平衡可以降低46.8%的d’,而基于亮度分布的平衡可以降低57.6%。在所有三种情况下,个体分布的相似性得分都有所改善,高加索裔美国女性的平均得分最大改善5.9%,非洲裔美国女性的平均得分改善3.7%。

总结: 该论文提出了一种通过平衡面部亮度分布来减少人种差异下面部识别准确度差距的方法,并取得了较大提升。

###【arXiv编号: 2501.08910】
###【领域: 计算机视觉】

[推荐指数: 4]

该论文提出了一种创新性的方法来解决人种差异导致的面部识别准确度差距问题,通过平衡面部亮度分布而不是简单的归一化,能够取得更好的效果。同时论文实验结果也有较强的说服力,值得进一步探索和应用。

—第23篇----

A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision

🔍 关键词: computer vision, medical imaging, retinal fundus image understanding

arXiv:2308.07898

摘要: 本论文介绍了FLAIR, 一个针对通用视网膜基底图像理解的预训练视觉-语言模型。为了实现这一目标, 作者编译了38个开放获取的视网膜基底图像数据集, 涉及101种不同的目标病症和288,307张图像。作者在预训练和零样本推理过程中融入了专家领域知识, 以弥补数据中缺乏的分类监督信息。这种专家知识以描述性文本提示的形式体现, 描述了病理学的细粒度特征以及它们之间的层次和依赖关系。实验结果表明, 集成专家知识提高了模型在涉及领域偏移或未见类别的复杂场景中的推广能力。当采用轻量级线性探针进行微调时, FLAIR优于完全训练的数据集专注型模型, 在少样本情况下表现尤为出众。有趣的是, FLAIR明显优于更大规模的通用图像-语言模型和专门针对视网膜领域的自监督网络, 这突出了嵌入专家领域知识的潜力以及通用模型在医学成像领域的局限性。

总结: 本论文提出了一种集成专家知识的通用视网膜基底图像理解模型FLAIR, 展现出较强的推广性能, 在医疗领域应用中具有较大潜力。

[arXiv编号: 2308.07898]

【领域】计算机视觉、医学成像

[推荐指数: 4]

该论文提出了一种创新性的方法, 通过融合专家知识来提升视网膜图像理解任务的性能, 尤其在少样本及复杂场景下表现出色, 展现了较大的应用前景。该方法对于其他医疗领域的知识密集型计算机视觉任务也具有启发意义。

—第24篇----

Multi-View Transformers for Airway-To-Lung Ratio Inference on Cardiac CT Scans: The C4R Study

🔍 关键词: airway-to-lung ratio, cardiac CT, COPD, COVID-19, PASC

[http://arxiv.org/pdf/2501.08902v1]

摘要: 该研究提出了一种基于Multi-view Swin Transformer的新方法,从心脏CT扫描中推断全肺气道-肺比率(ALR)。研究利用在MESA研究中采集的成对的全肺和心脏CT数据进行监督训练。该网络明显优于直接在心脏CT扫描上推断ALR的方法,并且其精度和可重复性与全肺ALR基准接近。该方法有助于从广泛可用的心脏CT图像中推断COPD相关的ALR指标,并进一步研究ALR与严重COVID-19和PASC的关系。

总结: 该文提出了一种基于多视角Transformer的新方法,可以从常规心脏CT扫描中准确推断全肺气道-肺比率指标,为COPD及其并发症的研究提供新工具。

[arXiv:2501.08902v1]

[领域: 医疗影像分析、机器学习]

[推荐指数: 4]

该研究提出了一种创新的多视角Transformer网络架构,能够从较低分辨率的心脏CT图像中推断全肺气道-肺比率指标,为COPD及其与COVID-19并发症的研究提供了一种可行的新方法。该方法的精度和可重复性接近全肺CT的基准指标,展示了较强的实用价值。

—第25篇----

文章名称

Enhanced Multi-Scale Cross-Attention for Person Image Generation

🔍 关键词: person image generation, cross-attention, multi-scale attention

arXiv链接

摘要: 本文提出了一种基于交叉注意力的生成对抗网络(GAN)用于解决具有挑战性的人物图像生成任务。交叉注意力是一种新颖直观的多模态融合方法,其中计算了不同模态特征图之间的注意力/相关矩阵。具体来说,我们提出了XingGAN (或CrossingGAN),它由捕获人物外观和形状的两个生成分支组成。此外,我们提出了两个新颖的交叉注意力块,以有效地传递和更新人物形状和外观嵌入,从而相互改进。为了进一步学习不同尺度和子区域之间的长距离相关性,我们提出了两个新颖的多尺度交叉注意力块。为了解决交叉注意力机制中独立相关性计算导致的嘈杂和模糊注意力权重的问题,从而阻碍性能的提升,我们提出了一个称为增强注意力(EA)的模块。最后,我们引入了一个新的密集连接Co-注意力模块,以在不同阶段有效地融合外观和形状特征。实验结果表明,该方法优于当前的基于GAN的方法,并与基于扩散的方法相当,但训练和推理都快得多。

总结: 该论文提出了一种基于多尺度交叉注意力的生成对抗网络,用于解决人物图像生成任务,在对比实验中表现优秀。

[arXiv编号] 2501.08900

[Git] N/A

[期刊] N/A

【领域】计算机视觉、图像生成

[推荐指数：4]

该论文提出了一种创新性的多尺度交叉注意力机制,能够有效融合不同模态信息,如外观和形状,提高了人物图像生成的性能。相比于现有的基于GAN和扩散的方法,该方法不仅性能优异,而且训练和推理速度也更快,具有很强的实用性。

—第26篇----

Feature-based One-For-All: A Universal Framework for Heterogeneous Knowledge Distillation

🔍 关键词: Feature-based One-For-All, Knowledge Distillation, Heterogeneous Architecture

[http://arxiv.org/pdf/2501.08885v1]

摘要: 知识蒸馏(KD)涉及从预训练的重型教师模型向较轻的学生模型转移知识,从而在保持可比性能的情况下降低了推理成本。以前的KD技术通常假定教师和学生模型是同质的。然而,随着技术的进步,各种各样的架构已经出现,从最初的卷积神经网络(CNN)到视觉变形金刚(ViT)和多层感知器(MLP)。因此,开发一个兼容任何架构的通用KD框架已成为一个重要的研究课题。在本文中,我们引入了一种基于特征的一刀切(FOFA) KD框架,以实现跨不同架构的特征蒸馏。我们的框架包括两个关键组件。首先,我们设计了结合学生反馈的提示调整块,使教师特征能够适应学生模型的学习过程。其次,我们提出了区域感知注意力,以缓解异构架构之间的视图失配问题。通过利用这两个模块,可以实现跨异构架构的有效中间特征蒸馏。在CIFAR、ImageNet和COCO上的广泛实验证明了所提方法的优越性。

总结: 本文提出了一种基于特征的一刀切(FOFA)知识蒸馏框架,可以跨异构模型架构进行有效的中间特征蒸馏。该框架包括提示调整块和区域感知注意力两个关键组件,克服了不同模型架构之间的视图失配问题。

###【arXiv编号】2501.08885v1
###【git】https://github.com/athena-team/Feature-based-One-For-All
###【期刊】-
###【领域】计算机视觉

[推荐指数：4]

该文章提出了一种通用的知识蒸馏框架,可以在不同异构模型架构之间进行有效的特征蒸馏,解决了以往KD方法只能用于同构模型的问题。该框架创新性地设计了提示调整块和区域感知注意力模块,可以充分利用学生模型的反馈信息,并缓解不同架构之间的视图失配问题。实验结果表明该方法在CIFAR、ImageNet和COCO等数据集上都取得了优异的性能,具有很强的实用价值。

—第27篇----

MADiff: Text-Guided Fashion Image Editing with Mask Prediction and Attention-Enhanced Diffusion

🔍 关键词: text-guided fashion image editing, mask prediction, attention-enhanced diffusion

arxiv.org/pdf/2412.20062v2

摘要: 文章提出了MADiff模型,解决了在时尚领域直接应用文本指导的图像编辑模型存在的两个问题:1)编辑区域定位不准确; 2)编辑幅度较弱。具体来说,采用MaskNet准确预测编辑区域的掩码;提出了注意力增强扩散模型,通过将噪声图、注意力图和MaskNet的掩码输入到注意力处理器,产生精炼的噪声图,从而增强编辑幅度。此外,作者还构建了时尚图像编辑数据集Fashion-E,包含28390个训练集和2639个评估集。实验结果验证了MADiff在时尚图像编辑任务中,相比现有最先进方法可以更准确地预测编辑区域和显著增强编辑幅度。

总结: 本文提出了MADiff模型,通过引入MaskNet和注意力增强扩散,解决了文本指导的时尚图像编辑存在的定位和编辑幅度问题,并构建了时尚图像编辑数据集,验证了方法的有效性。

###【arXiv编号】2412.20062v2
###【领域】计算机视觉

[推荐指数：4]

该文章在文本指导的时尚图像编辑领域做出了创新性贡献,采用MaskNet和注意力增强扩散的方法,准确定位编辑区域并增强编辑幅度,展示了较好的效果。同时作者构建了专门的时尚图像编辑数据集,为后续相关研究提供了可靠的评估基准。

—第28篇----

本文针对工业异常检测和定位问题提出了一种新框架 WeakREST。其主要特点如下:

将像素级异常定位问题转化为块级分类问题，并引入一种新的特征表示 PosFAR 以更有效捕捉异常模式。
在 Swin Transformer 的基础上进行改进，用于增强异常检测和定位能力。
提出一种弱监督注释方法,利用边界框和图像标签定义异常区域,以减少精细像素级标注的依赖。
提出 ResMixMatch 算法,可以有效利用弱标签和残差特征进行学习。

在 MVTec-AD 基准数据集上,该方法在无监督异常检测设置下达到了83.0%的平均精度(AP),优于之前最佳结果82.7%;在监督异常检测设置下达到了87.6%的AP,优于之前最佳结果86.0%。即使使用更弱的边界框注释,该方法也优于依赖像素级监督的先前最佳方法,达到了87.1%的AP。总的来说,这是一种创新性强、实用性高的工业异常检测方法。

—第29篇----

The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning

🔍 关键词: Reinforcement Learning, Model-based RL, Pre-trained Visual Representations

http://arxiv.org/pdf/2411.10175v2

摘要: 这篇论文研究了在模型驱动的强化学习(MBRL)中使用预训练视觉表征(PVR)的效果。MBRL通过规划来提高数据利用效率和泛化能力,与此前研究发现PVR可提升模型无关的强化学习的性能不同,作者发现PVR在MBRL中并没有提高样本效率,也没有显著提高对分布外(OOD)环境的泛化能力。作者分析了这一现象的原因,发现数据多样性和网络架构对OOD泛化性能影响更大。总之,当前的PVR技术在MBRL中并不如预期有效。

总结: 当前预训练视觉表征在模型驱动的强化学习中并未带来预期的样本效率和泛化性能提升。

[arXiv:2411.10175v2]

领域: 机器学习, 强化学习, 计算机视觉

[推荐指数: 3]

这篇论文提出了一个有趣的发现,即预训练视觉表征在模型驱动的强化学习中并没有发挥预期的作用,这与其在模型无关强化学习中的有效性形成了鲜明对比。这说明我们需要更好地理解视觉表征在不同强化学习范式中的作用。论文对造成这一现象的原因进行了深入探讨,为未来改进模型驱动强化学习提供了有价值的启示。不过,由于结果并不理想,因此仅给予中等推荐指数。

—第30篇----

CGCOD: Class-Guided Camouflaged Object Detection

🔍 关键词: camouflaged object detection, class-guided detection, object segmentation

arXiv链接

摘要: 此论文提出了一种新的任务,即面向对象类别信息的隐身物体检测(CGCOD),它通过引入类别知识来增强检测的稳定性和准确性。论文提出了一个新的数据集CamoClass,包含真实世界的隐身物体及其类别标注。此外,作者提出了一种多阶段的框架CGNet,结合类别提示生成器和简单有效的类别引导检测器,建立了一个新的COD范式,弥补了上下文理解和类别引导检测之间的鸿沟。大量实验结果证明了这种灵活框架在利用文本信息提升现有检测器性能方面的有效性。

总结: 该论文提出了一种通过引入类别知识增强隐身物体检测的新方法,并提出了一个新的数据集和模型框架实现这一目标。该工作在隐身物体检测领域具有一定创新性。

[arXiv编号]: 2412.18977v2

【领域】: 计算机视觉

[推荐指数: 4]

该论文提出了一个新颖的隐身物体检测任务CGCOD,通过引入类别知识提高检测的准确性和稳定性,并提出了相应的数据集和模型框架实现。这种结合语义信息的方法较之单纯依赖视觉特征具有较大创新性,对隐身物体检测的发展具有积极的推动作用。论文的实验结果也证明了该方法的有效性。

—第31篇----

文章名称

Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

🔍 关键词: cs.CV

链接1

摘要: 本文提出了一种名为"GPVL"的基于生成式规划和3D视觉语言预训练的端到端自动驾驶模型。该模型通过设计3D视觉语言预训练模块来弥补视觉感知和语义理解之间的鸿沟,并引入跨模态语言模型自回归地生成整体驾驶决策和细粒度轨迹。实验表明,该模型在nuScenes数据集上取得了优异的性能,并且在处理高层级指令时展现出了强大的泛化能力和实时性。这对未来自动驾驶系统的实际应用至关重要。

总结: 本文提出了一种基于3D视觉语言预训练和生成式规划的端到端自动驾驶模型,在性能和泛化能力方面均有显著提升。

###【arXiv:2501.08861v1】
###【领域: 计算机视觉、自动驾驶】

[推荐指数：4]

该工作提出了一种全新的端到端自动驾驶框架,通过结合3D视觉表征和语言理解模块,有效解决了视觉感知和决策推理的挑战。实验结果表明,该模型在复杂场景下表现优异,具有良好的泛化性和实时性,对未来自动驾驶系统的发展具有重要意义。整体来看,这是一项创新性强、实用价值高的研究成果。

—第32篇----

Exploring Task-Level Optimal Prompts for Visual In-Context Learning

🔍 关键词: Visual In-Context Learning, Vision Foundation Models, Prompt Engineering

http://arxiv.org/pdf/2501.08841v1

摘要: 近年来,随着视觉基础模型(VFMs)的发展,视觉情境学习(VICL)已成为大多数场景下更好的选择。与重训练或微调模型不同,VICL不需要修改模型的权重或架构,只需要一个带有示例的提示来教导VFM如何解决任务。目前,为每个测试样本寻找最佳提示的巨大计算成本阻碍了VICL的部署,因为确定用于构建提示的演示是非常耗时的。然而,我们发现一个反直觉的现象,即大多数测试样本实际上在相同的提示下达到最佳性能,而寻找样本级别的提示只会增加时间,但产生完全相同的提示。因此,我们提出了任务级别的提示,以减少推理阶段寻找提示的成本,并引入了两种节省时间且有效的任务级别提示搜索策略。大量实验结果表明,我们提出的方法可以识别接近最优的提示,并以以前从未达到的最小成本达到最佳的VICL性能。
总结: 本文提出了任务级别的提示策略,以降低VICL在推理阶段寻找最优提示的计算成本,达到了最佳的VICL性能。
###【arXiv:2501.08841v1】
###【github】
###【IEEE Transactions on Pattern Analysis and Machine Intelligence】
###【计算机视觉、机器学习】

[推荐指数：5]

该论文提出了一种创新的任务级别的提示搜索策略,大幅降低了VICL在推理阶段确定最优提示的计算成本,同时取得了最佳的VICL性能,对未来VICL的实用化应用具有重要意义。

—第33篇----

MANTA: Diffusion Mamba for Efficient and Effective Stochastic Long-Term Dense Anticipation

🔍 关键词: cs.CV

[http://arxiv.org/pdf/2501.08837v1]

摘要: 该工作解决了随机长期密集预测的问题。这个任务的目标是根据提供的视频观察,预测几分钟后的动作及其持续时间。对于很远的未来进行预测会带来很大的不确定性,因为单一的观测可能会导致多种可能的未来结果。为了解决这种不确定性,设计了随机模型来预测多个潜在的未来动作序列。最近的工作还提出了在统一的方式下同时预测过去和未来帧的动作,以此来模拟不确定性。虽然这种联合建模动作是有益的,但它需要长时间的时间能力来连接远距离过去和未来的事件。然而,由于其有限和/或稀疏的感受野,以前的工作难以实现这种长期理解。为了缓解这个问题,我们提出了一种新颖的MANTA(用于预测的MAmba)网络。我们的模型能够即使在非常长的序列中也能有效地进行长期时间建模,同时保持线性复杂度。我们证明,我们的方法在三个数据集上都取得了最先进的结果,同时也显著提高了计算和内存效率。

总结: 本文提出了一种新颖的MANTA模型,能够有效地进行长期时间建模,在三个数据集上取得了最先进的结果,并显著提高了计算和内存效率。

###【arXiv编号: 2501.08837】
###【领域: 计算机视觉】

[推荐指数：5]

该论文在长期密集预测任务上取得了最先进的结果,并大幅提高了效率,具有较高的创新性和实用性。MANTA模型能够有效地进行长范围时间建模,解决了之前模型的局限性。该工作在计算机视觉领域具有较强的学术价值。

—第34篇----

文章名称

Evaluation of radiomic feature harmonization techniques for benign and malignant pulmonary nodules

🔍 关键词: physics.med-ph, cs.CV

http://arxiv.org/pdf/2412.16758v2

摘要: 该文章探讨了如何在对肺结节进行放射组学分析时消除由于医学成像参数差异带来的影响。文章使用了567个胸部CT扫描数据,分组为良性结节、恶性结节和肺癌筛查(混合良恶性结节)三类。作者比较了三种不同的配平方法:不区分良恶性、按良恶性分别配平、以良恶性为协变量进行配平。结果表明,当单独或按协变量进行配平时,90.9%和27.3%的特征分别可以消除获取依赖性,高于不区分良恶性时的2.1%。此外,单独或按协变量配平的数据训练的预测模型在肺癌筛查数据集上的预测性能也优于不区分良恶性时的模型。总之,良恶性肺结节的放射组学特征需要采用不同的配平方法才能消除成像参数差异的影响。总结: 消除医学成像参数差异对于提高肺结节放射组学分析的可靠性非常重要,需要针对良恶性结节分别进行配平。

###【arXiv:2412.16758v2】
###【git】
###【期刊】
###【领域】医学影像学、计算机视觉

[推荐指数：4]

该文章提出了一种有效地消除医学成像参数差异对放射组学特征提取的影响的方法,对于提高肺结节良恶性预测的可靠性有重要意义。作者提出的单独或按协变量配平的方法能显著提高特征的可靠性,并且在实际应用中也能带来更好的预测性能。该方法具有很好的创新性和实用性,值得进一步在更多临床应用中验证。

—第35篇----

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

🔍 关键词: Multi-modal document retrieval, page-level retrieval, layout-level retrieval

[http://arxiv.org/pdf/2501.08828v1]

摘要: 该论文提出了一个新的基准测试集MMDocIR,该基准测试集包括两个任务:页级检索和布局级检索。前者侧重于定位长文档中最相关的页面,后者则针对特定布局进行检测,比整页分析更细粒度。MMDocIR包括丰富的数据集,具有专家标注的1,685个问题和bootstrapped标签的173,843个问题,是推进多模态文档检索研究的关键资源。通过实验发现,视觉检索器明显优于文本检索器,MMDocIR训练集可有效提升多模态文档检索的训练效果,基于视觉语言模型的文本检索器性能远优于基于OCR的文本检索器。这突出了集成视觉元素对多模态文档检索的优势。

总结: 该论文提出了一个新的多模态文档检索基准测试集MMDocIR,包括页级和布局级两个任务,发现图像特征在该任务中比纯文本检索更有优势。

###【arXiv:2501.08828v1】
###【github】
###【ACM Transactions on Information Systems】
###【计算机视觉、信息检索】

[推荐指数：4]

该论文提出了一个全新的多模态文档检索基准测试集,在这个任务上系统地探讨了图像特征和文本特征的作用,为该领域的进一步研究提供了重要参考。该基准测试集拥有丰富的注释数据,对于推动多模态文档检索的进展具有重要意义。

—第36篇----

文章名称

🔍 关键词: Boosting Diffusion Guidance, Degradation-Aware Models, Blind Super Resolution

链接1

摘要: 最近,基于扩散的盲超分辨率(SR)方法已经展现出了生成高分辨率图像并拥有丰富高频细节的巨大能力,但是这种细节通常是以保真度为代价而得到的。与此同时,另一项关注于矫正扩散模型反向过程(即扩散引导)的研究已经展示了为非盲SR生成高保真结果的力量。然而,这些方法依赖于已知的退化核,使它们难以应用于盲SR。为了解决这些问题,我们引入了退化感知模型,可以集成到扩散引导框架中,从而消除了对退化核的需求。此外,我们提出了两种新的技术输入扰动和引导标量,进一步提高了我们的性能。大量的实验结果表明,我们提出的方法在盲SR基准上优于最先进的方法。

【arXiv:2501.08819v1】

【领域】计算机视觉

[推荐指数：5]

该文章提出了一种集成扩散引导框架的退化感知模型,用于解决盲超分辨率(SR)任务中无需事先知道退化核的问题。同时作者还提出了两种新的技术输入扰动和引导标量来进一步提高性能。实验结果证明该方法在盲SR基准上优于最先进的方法,具有较高的创新性和实用性。

—第37篇----

文章名称

IDEA: Image Description Enhanced CLIP-Adapter

🔍 关键词: cs.CV, cs.AI, cs.LG

链接1

摘要: CLIP (Contrastive Language-Image Pre-training) 在模式识别和计算机视觉领域取得了巨大成功。将CLIP迁移到下游任务(如零样本或少样本分类)是多模态学习的一个热点话题。然而,现有研究主要集中在文本的提示学习或视觉的适配器调整,而没有充分利用图像-文本对之间的互补信息和相关性。在本文中,我们提出了一种图像描述增强CLIP-Adapter (IDEA)方法,以将CLIP适应于少样本图像分类任务。该方法通过利用图像的视觉特征和文本描述来捕获细粒度特征。IDEA是一种无需训练的CLIP方法,在多个任务中可与或甚至超过最新的模型。此外,我们还引入了Trainable-IDEA (T-IDEA),它通过添加两个轻量级的可学习组件(即投射器和可学习的潜在空间)来扩展IDEA,进一步提升模型性能,并在11个数据集上实现了最先进的结果。作为一个重要贡献,我们使用Llama模型并设计了一个全面的pipeline来为11个数据集的图像生成文本描述,总共生成了1,637,795个图像-文本对,命名为"IMD-11"。我们的代码和数据已在https://github.com/FourierAI/IDEA发布。

总结: 本文提出了IDEA和T-IDEA两种利用CLIP结合图像描述信息来提升少样本图像分类性能的方法,并构建了大规模的图像-文本数据集IMD-11。

###【arXiv编号】2501.08816v1
###【git】https://github.com/FourierAI/IDEA
###【领域】计算机视觉、人工智能、机器学习

[推荐指数：4]

该论文提出了一种创新性的方法IDEA和T-IDEA,利用CLIP结合图像描述信息来提升少样本图像分类性能,在多个数据集上取得了SOTA的结果。论文同时构建了大规模的图像-文本数据集IMD-11,为进一步的研究提供了有价值的资源。该研究在计算机视觉和多模态学习领域具有重要的应用价值和学术意义。

—第38篇----

Human Pose-Constrained UV Map Estimation

🔍 关键词: cs.CV, human pose, uv map

arxiv:2501.08815

摘要: 本文提出了一种新的UV地图估计方法PC-CSE，它将估计的2D人体姿势信息整合到像素到顶点的分配过程中。姿势信息提供了全局的解剖学约束,确保UV地图保持连贯性的同时保持局部精度。在DensePose COCO数据集上的评估结果表明,无论所选择的2D人体姿势模型如何,该方法都能带来一致的改进。采用全身姿势能提供更好的约束,因为它包含了关于手和脚的更多细节。将人体姿势与UV地图相结合可以减少无效的映射,并提高其解剖学上的合理性。此外,该文还指出了现有标注的一些不一致性。

总结: 本文提出了一种将2D人体姿势信息整合到UV地图估计中的新方法,能够提高估计结果的连贯性和解剖学合理性。

[arXiv:2501.08815]

【领域】计算机视觉

[推荐指数: 4]

该方法在保持局部精度的同时,利用全局姿势约束提高了UV地图估计的连贯性和合理性,在计算机视觉领域具有较好的创新性和应用前景。

—第39篇----

文章信息

Multi-visual modality micro drone-based structural damage detection

🔍 关键词: drone, structural damage detection

链接1

摘要: 本文提出了一个名为 DetectorX 的用于结构损坏检测的鲁棒框架,结合使用了微型无人机。DetectorX 通过引入两个创新模块来解决目标检测器鲁棒性的挑战:一个是 stem block,它通过利用两个深度卷积神经网络模型的输出引入了动态视觉模态;另一个是螺旋池化技术,这是一种在线图像增强方法,通过将螺旋和平均/最大池化特征连接来增强特征表示。在三个广泛的实验中,DetectorX在各种指标上都表现出色,如精度(0.88)、召回率(0.84)、平均精度(0.91)、平均精度(0.76)和平均召回率(0.73),优于竞争检测器包括YOLOX-m。该研究结果表明,DetectorX 可以提供令人满意的结果,并在具有挑战性的环境中表现出弹性。
总结: 本文提出了一种基于微型无人机的鲁棒结构损坏检测框架DetectorX,通过引入动态视觉模态和螺旋池化技术,在多个指标上优于现有检测器。

###【arXiv编号】2501.08807
###【git】无
###【期刊】无
###【领域】计算机视觉、无人机应用、基础设施监测

[推荐指数：4]

该文章提出了一种创新性的结构损坏检测框架,采用微型无人机采集多视角数据,并通过引入动态视觉模态和螺旋池化等技术提高了检测的鲁棒性和准确性。相比现有方法,该框架在多个指标上都有显著提升,对于基础设施监测和维护领域具有重要应用价值。

—第40篇----

本文属于计算机视觉领域，主要针对基于深度学习的结构健康监测(SHM)框架Guided-DetNet进行研究。

摘要: Guided-DetNet是一个用于解决结构健康监测中复杂图像环境、噪声标签和依赖于手动损坏评估等问题的框架。它包括Generative Attention Module(GAM)、Hierarchical Elimination Algorithm(HEA)和Volumetric Contour Visual Assessment(VCVA)三个主要组件。GAM利用跨水平和垂直块合并以及跨前景-背景特征融合来生成多样化的特征以应对复杂环境。HEA通过利用类之间的层次关系来消除不确定的类别实例,从而解决噪声标签问题。VCVA则利用Dirac delta分布来对检测到的损坏进行体积表示和量化,评估损坏严重程度。实验结果表明,该框架在三分类任务中达到96%的准确率,在双目检测任务中精度达到94%,mAP达到79%,帧率为57.04fps,适合于实时应用。同时该框架在恶劣条件下也表现出良好的鲁棒性。总的来说,Guided-DetNet是一个可靠高效的SHM框架,在自动化和精度方面有所突破,有潜力应用于基于无人机的基础设施检查。

总结: Guided-DetNet是一个用于结构健康监测的深度学习框架,通过Generative Attention Module、Hierarchical Elimination Algorithm和Volumetric Contour Visual Assessment等创新性组件,能够提高检测的准确性和鲁棒性,在实时应用中表现出色。

【arXiv编号:2407.19694v2】
【无git链接】
【期刊:暂无】
【领域:计算机视觉】

[推荐指数：4]

该文章提出的Guided-DetNet框架在解决复杂环境下的SHM问题方面取得了显著进展,在准确性、鲁棒性和实时性等方面都有优秀表现,具有较强的创新性和应用前景。尤其是在基于无人机的基础设施检查等场景中,该框架具有广泛的应用价值。

—第41篇----

🔍 关键词: Face Presentation Attack Detection, ChatGPT, GPT-4o, Zero-shot Learning, Few-shot Learning

[arXiv:2501.08799v1]

摘要: 本文探讨了使用ChatGPT（特别是GPT-4o）作为面部演示攻击检测（PAD）的有竞争力的替代方案。结果表明,GPT-4o在特定场景中的性能优于包括商业解决方案在内的几种PAD模型。在少样本上下文学习中,GPT-4o表现出高度一致性,随着参考数据量的增加,其性能不断提高。详细的提示使模型能够可靠地提供评分,而简洁的提示则无法观察到这种行为。此外,寻求解释的提示略微提高了模型的性能,从而改善了模型的可解释性。值得注意的是,该模型展现出了推理能力,即使没有明确指示分类攻击类型,在少样本场景下也能准确预测攻击类型(打印或重放)。尽管如此,在零样本任务中,GPT-4o的性能还有限,与专门的PAD系统相比存在挑战。实验在SOTERIA数据集的子集上进行,以确保遵守数据隐私法规。这些发现突出了GPT-4o在PAD应用中的潜力,为未来的研究奠定了基础,以解决更广泛的数据隐私问题并提高跨数据集的泛化能力。
总结: 本文探讨了使用ChatGPT（GPT-4o）作为面部演示攻击检测的替代方案,在少样本学习任务中表现出色,但在零样本任务中仍面临挑战。

###【arXiv:2501.08799v1】
###【git】
###【领域】计算机视觉、计算机安全

[推荐指数：4]

本文探讨了利用ChatGPT进行人脸演示攻击检测的应用前景,在少样本学习任务中表现出色,与专业模型性能相当,且具备可解释性。尽管在零样本任务中存在一定局限性,但整体上展示了ChatGPT在人脸安全领域的应用潜力,为未来的相关研究奠定了基础。该工作具有一定创新性和实用性,值得关注。

—第42篇----

SemTalk: Holistic Co-speech Motion Generation with Frame-level Semantic Emphasis

🔍 关键词: cs.CV

http://arxiv.org/pdf/2412.16563v2

摘要: 要实现良好的共同言语动作生成,需要仔细整合常见的韵律动作和稀有但又必不可少的语义动作。在这项工作中,我们提出了SemTalk,用于具有框架级语义强调的整体共同言语动作生成。我们的关键洞见是分别学习一般动作和稀疏动作,然后自适应地融合它们。特别是,探索了韵律一致性学习来建立与演讲韵律同步的节奏相关基础运动。随后,设计了语义强调学习来生成与语义相关的稀疏运动,关注于帧级语义线索。最后,为了将稀疏运动融入基础运动并生成带有语义强调的共同言语手势,我们进一步利用学习的语义得分进行自适应合成。在两个公开数据集上的定性和定量比较表明,我们的方法优于最先进的方法,在稳定的基础运动上提供了丰富的语义。总结:该方法提出了一种面向语义的共同言语动作生成方法,能生成语义丰富的动作。

[arXiv:2412.16563v2]

[git]

[期刊]

【领域】计算机视觉

[推荐指数：4]

该文章提出了一种基于语义的共同言语动作生成方法,能够在保持基础韵律动作的基础上,生成语义丰富的动作,成果较为出色。该研究在计算机视觉领域具有一定的创新性和实用价值。

—第43篇----

ACE++: Instruction-Based Image Creation and Editing via Context-Aware Content Filling

🔍 关键词: image generation, image editing, text-to-image, diffusion models

arXiv链接

摘要: ACE++是一种基于指令的扩散框架,能够处理各种图像生成和编辑任务。它借鉴了FLUX.1-Fill-dev提出的输入格式,改进了ACE中引入的长上下文条件单元(LCU),并将这种输入范式扩展到任何编辑和生成任务。为了充分利用图像生成先验,ACE++采用了两阶段训练方案,以最小化微调强大的文本到图像扩散模型(如FLUX.1-dev)的工作量。第一阶段使用文本到图像模型的0-ref任务进行预训练,第二阶段则针对所有ACE任务进行微调。ACE++提供了全面的模型,包括完全微调和轻量级微调,考虑了通用适用性和垂直场景适用性。定性分析显示,ACE++在生成图像质量和遵循提示能力方面都有优势。

总结: ACE++是一种基于指令的图像生成和编辑框架,采用两阶段训练方案,充分利用了强大的文本到图像扩散模型,在多个应用场景下表现出色。

###【arXiv编号: 2501.02487】
###【领域: 计算机视觉】

[推荐指数: 4]

ACE++在图像生成和编辑任务上表现出色,创新性强,充分利用了文本到图像扩散模型的能力,为多个应用场景提供了解决方案。该框架设计合理,训练方案优秀,是值得关注的研究成果。

—第44篇----

总结:

文章名称

🔍 关键词: Density neural representation, Metal artifact reduction, Photon-tissue absorption, Energy-independent CT reconstruction

链接1

摘要: 本文提出了一种名为Diner的新型无监督金属伪影消减(MAR)方法。该方法将MAR问题形式化为能量独立密度重建问题,严格遵循光子-组织吸收物理模型。通过引入水当量组织近似和新的多色X射线模型,该方法直接从原始测量数据中学习密度图的神经表示,从而从根本上解决了非线性束硬化效应,实现了更优越的MAR性能。大量实验表明,该无监督的Diner方法在MAR性能和稳健性方面优于流行的监督学习方法。
###【arXiv编号 2405.07047】
###【领域】医疗影像

[推荐指数：4]

该文章提出了一种创新性的无监督金属伪影消除方法,能够更好地解决CT成像中的非线性能量依赖问题。该方法不需要大量的训练样本,而且性能优于现有的监督学习方法,对于提高医疗CT成像质量具有重要意义。

—第45篇----

文章名称

🔍 关键词: vision-language models, interpretability, compositional language concepts, tree structure, anchor inference, differential relevance

链接1

摘要: 视觉语言模型(VLMs)在将图像和文本表征对齐方面已经证明是有效的,在许多下游任务中产生了优秀的零样本结果。然而,这些表征在理解复合语言概念(CLC)方面存在一些关键缺陷,例如识别对象的属性、状态和不同对象之间的关系。此外,VLMs通常缺乏可解释性,这使得调试和缓解复合理解失败变得很有挑战。在这项工作中,我们介绍了树增强视觉语言(3VL)模型的架构和训练技术,以及我们提出的锚推理方法和差分相关性(DiRe)可解释性工具。通过使用语言分析工具将任意图像-文本对的文本扩展为分层树结构,3VL允许将该结构诱导到模型学习的视觉表征中,增强了其可解释性和组合推理能力。此外,我们展示了如何使用锚这种简单的文本统一技术来过滤无关因素,同时提高CLC理解性能,例如在基本的VL-Checklist基准上。我们还展示了DiRe如何通过对VLM相关性图进行差分比较,使我们能够生成令人信服的可视化,说明模型成功或失败的原因。我们的代码可在github上获取: https://github.com/niryellinek/3VL。
总结: 该文章提出了一种利用树结构来增强视觉语言模型可解释性和复合语义理解能力的新方法。

###【arXiv编号】2312.17345v2
###【git】https://github.com/niryellinek/3VL
###【领域】计算机视觉、自然语言处理

[推荐指数：4]

这篇文章提出了一种创新的视觉语言模型架构3VL,通过引入树结构来增强模型的可解释性和复合语义理解能力,这对于提高视觉语言模型的性能和可控性非常有意义。该方法结合了语言分析工具和差分可视化技术,展示了很好的实用性和通用性。此外,文章的实验结果也印证了该方法的有效性。整体上看,这篇文章具有较强的创新性和应用潜力,值得推荐。

—第46篇----

文章名称

Admitting Ignorance Helps the Video Question Answering Models to Answer

🔍 关键词: Admitting Ignorance, Video Question Answering, Spurious Correlations

arXiv:2501.08771v1

摘要: 本文提出了一种新的训练框架,通过对问题进行干预(如位移和扰动)来迫使模型承认自己的无知,而不是仅仅根据表面的问答相关性做出猜测。这种方法可以显著提高视频问答模型的性能,而无需进行太多结构上的修改。总结: 该文提出了一种新型的视频问答训练框架,通过问题干预来提高模型识别真实知识缺失的能力。

###【arXiv:2501.08771v1】
###【领域: 计算机视觉、自然语言处理】

[推荐指数：4]

该文提出了一种创新的视频问答训练框架,通过识别和应对模型的无知,有效解决了现有方法过度依赖问答表面相关性的问题。该方法结构简单,但能够显著提升模型性能,对视频问答任务具有重要的理论和应用价值。

—第47篇----

关键文章总结

🔍 关键词: Image Quality Assessment, No-Reference, Diffusion Latent, MAP Estimation

链接1

摘要: 这篇论文提出将现代无参考图像质量评估(NR-IQA)模型应用于实际的图像增强任务。作者通过在扩散潜在空间而非原始像素域进行梯度上升优化,将NR-IQA模型嵌入到最大后验估计(MAP)框架中。不同的NR-IQA模型在此框架下会产生不同的增强输出,为NR-IQA模型之间的比较提供了新的计算方法。相比于传统的相关性度量,这种比较方法能够更好地反映NR-IQA模型在感知优化场景下的优缺点。此外,作者还通过融合其他优秀NR-IQA模型的优势来提升现有最佳模型在扩散潜在MAP估计中的性能,从而获得更好的实际图像增强效果。

总结: 将NR-IQA模型引入到图像增强的MAP优化过程中,提供了一种新的NR-IQA模型比较方法,并提出改进最佳NR-IQA模型以进一步提升图像增强效果。

###【arXiv:2403.06406】
###【git】
###【期刊】
###【领域: 计算机视觉、图像增强】

[推荐指数: 4]

这篇论文提出了一种创新性的方法,将NR-IQA模型应用于实际的图像优化任务,并为比较不同NR-IQA模型提供了新的视角。该方法在保持图像保真度的同时,可以有效提升图像质量,在计算机视觉和图像处理领域有很好的应用前景。

—第48篇----

Few-Shot Learner Generalizes Across AI-Generated Image Detection

🔍 关键词: few-shot, AI-generated image detection

[http://arxiv.org/pdf/2501.08763v1]

摘要: 当前基于大型合成图像数据集训练的虚假图像检测器在有限研究的生成模型上表现良好。然而,它们在未知模型上表现下降明显。此外,从在线生成模型收集足够的训练数据往往代价高昂或不可行。为解决这些问题,我们提出了Few-Shot Detector (FSD),这是一种新颖的AI生成图像检测器,它学习一个专门的度量空间,利用很少的样本有效地区分未知的虚假图像。实验结果表明,FSD在GenImage数据集上的平均精度比现有方法高出7.4%。更重要的是,我们的方法能更好地捕捉未知图像中的类内共同特征,无需进一步训练。

总结: 提出了Few-Shot Detector (FSD)方法,能有效识别未知的AI生成图像,并在GenImage数据集取得了显著的性能提升。

###【arXiv: 2501.08763v1】
###【计算机视觉】

[评分 4]

该文章提出了一种新颖的Few-Shot Detector方法,能有效识别未知的AI生成图像,在GenImage数据集上取得了明显的性能提升,体现了良好的创新性和实用性。该方法突破了现有检测器在未知生成模型上的性能下降问题,为人工智能生成图像的检测提供了新的解决思路。

—第49篇----

文章名称

Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports

🔍 关键词: Sports, VideoQA, Question Answering, Complex Sports, Professional Sports

链接1

摘要: 本文介绍了一个用于专业运动视频问答的大型数据集Sports-QA。该数据集包括各种类型的问题,如描述、时间顺序、因果关系和假设性条件,涵盖多种运动项目。为了解决运动视频问答的特点,论文还提出了一种Auto-Focus Transformer (AFT)模型,能够自动关注特定尺度的时间信息来回答问题。实验结果表明,AFT模型能达到当前最佳性能。
总结: 该论文提出了一个大规模的运动视频问答数据集Sports-QA,并提出了一种新的模型AFT来解决这种复杂的运动视频问答任务。

###【arXiv编号: 2401.01505】
###【Git】
###【期刊】
###【领域: 计算机视觉、视频理解】

[推荐指数: 4]

该工作针对现有的video QA数据集局限性,构建了专门针对复杂专业运动场景的大规模数据集Sports-QA。同时提出了新的Auto-Focus Transformer模型,能够有效解决运动视频问答的特点,取得了SOTA性能。该工作为运动视频理解和问答任务带来了新的突破,未来应用前景广阔。

—第50篇----

文章名称

🔍 关键词: Federated learning, Bayesian Optimisation, Model Poisoning

链接1

摘要: 随着人工智能从狭隘走向超级智能，用户越来越关注隐私和机器学习技术的可信度。量化深度学习算法、模型参数、输入数据和模型预测中固有的不确定性是可信度的一个共同指标。联邦学习是一种常见的解决隐私问题的方法,但它仍面临着可信度的挑战。恶意用户可以在训练过程中系统地创造恶意的模型参数,从而破坏模型的预测和生成能力,导致对其可靠性的高度不确定性。我们提出了一种名为Delphi的新型模型中毒攻击方法,它利用Bayesian Optimisation和Least Squares Trust Region优化技术,寻找能够最大化全局模型输出不确定性的最佳中毒模型参数。这种攻击有效地突出了联邦学习系统对模型中毒攻击的脆弱性。
总结: 提出一种新的模型中毒攻击方法Delphi,可以通过优化模型参数来最大化联邦学习系统的输出不确定性。
###【arXiv编号】2501.08002v2
###【git】
###【期刊】
###【领域】计算机科学、人工智能

[推荐指数：4]

该文章提出了一种创新的模型中毒攻击方法Delphi,利用Bayesian Optimisation和Least Squares Trust Region优化技术,能够有效地破坏联邦学习系统的可靠性,暴露了联邦学习在安全性方面的弱点。这对于进一步提高联邦学习的安全性具有重要的参考价值。

—第51篇----

MGF: Mixed Gaussian Flow for Diverse Trajectory Prediction

🔍 关键词: Mixed Gaussian Flow, Trajectory Prediction, Normalizing Flow

链接1

摘要: 为了预测未来的轨迹,使用标准高斯先验的归一化流在多样性方面存在弱点。这种无效性来源于可能结果的非对称和多模态分布与原始分布和监督损失的对称和单模态之间的矛盾。相反,我们提出了为轨迹预测的归一化流模型构建混合高斯先验。该先验通过分析训练样本中的轨迹模式进行构建,无需额外的注释,同时展示了更好的表达能力和多模态、非对称特性。除了多样性,它还提供了概率轨迹生成的更好可控性。我们将我们的方法命名为Mixed Gaussian Flow (MGF)。它在流行的UCY/ETH和SDD数据集上的轨迹对齐和多样性评估中实现了最先进的性能。代码可在https://github.com/mulplue/MGF找到。总结: 提出了一种基于混合高斯先验的归一化流模型,用于预测多样化的轨迹,并在相关数据集上达到了最先进的性能。

###【arXiv编号: 2402.12238v2】
###【git: https://github.com/mulplue/MGF】
###【领域: 计算机视觉】

[推荐指数：4]

该论文提出了一种新颖的基于混合高斯先验的归一化流模型,用于解决轨迹预测中缺乏多样性的问题。该方法在UCY/ETH和SDD等标准数据集上取得了最先进的性能,在创新性和实用性方面都很出色。相比于基于标准高斯先验的方法,该模型能够更好地捕捉轨迹分布的非对称和多模态特性,从而生成更加多样化的预测结果。这对于需要准确预测未来行为的应用场景,如自动驾驶、机器人导航等具有重要意义。

—第52篇----

文章名称

Mask-guided cross-image attention for zero-shot in-silico histopathologic image generation with a diffusion model

🔍 关键词: Mask-guided, cross-image attention, zero-shot, in-silico, histopathologic image generation, diffusion model

链接1

摘要: 该论文提出了一种利用扩散模型进行零样本在线生成病理图像的方法。该方法使用cross-image attention和mask-guided特征统计匹配来生成病理图像,在不进行模型训练的情况下实现了高保真和逼真的图像生成。这对于降低计算病理学中的标注成本和加快应用具有重要意义。实验结果表明,该方法可以显著减少监督分割模型所需的标注数量,并得到了病理专家的认可,预计将在计算病理学领域产生广泛应用。

总结: 该文提出了一种利用扩散模型进行zero-shot在线生成高保真病理图像的方法,通过mask-guided特征统计匹配实现了生成效果的提升,并在监督分割任务中显著降低了所需标注数量,值得计算病理学领域进一步探索。

###【arXiv编号】2407.11664v3
###【期刊】IEEE Transactions on Medical Imaging
###【领域】计算病理学

[推荐指数：4]

该论文提出的方法在保持高保真和逼真度的同时,实现了零样本下的病理图像生成,这对于降低计算病理学中的数据获取成本具有重要意义。该方法还在监督分割任务中取得了显著的效果,证明了生成病理图像的实用性。总的来说,该工作在计算病理学领域具有较高的创新性和应用前景。

—第53篇----

文章名称

🔍 关键词: Information Extraction, Hierarchical Clustering, Self-Supervised Learning

https://arxiv.org/pdf/2501.08717v1

摘要: 本文提出了一种名为InfoHier的框架, 它将自监督学习(SSL)与层次聚类(HC)相结合, 以学习强大的潜在表示和层次结构。这种方法利用SSL提供自适应的表示, 增强了HC捕捉复杂模式的能力。同时, 它还整合了HC损失函数来改善SSL训练, 使得表示更加契合潜在的信息层次结构。InfoHier有望提高聚类和表示学习的表达能力和性能, 为数据分析、管理和信息检索带来显著的好处。总结: 一种结合自监督学习和层次聚类的框架,可以学习强大的潜在表示和层次结构,应用于数据分析等领域。
###【arXiv:2501.08717v1】
###【-】
###【-】
###【计算机科学、计算机视觉、机器学习】

[4]

该文章提出了一种创新的框架InfoHier, 将自监督学习与层次聚类相结合, 在表示学习和层次结构建模上都有较大的突破。该方法在复杂数据分析、管理和信息检索等领域都有重要应用价值,值得继续深入研究和实践。

—第54篇----

这篇文章属于计算机视觉和机器学习领域。

文章名称

🔍 关键词: self-supervised, transformation learning, equivariant representations

链接1

摘要: 无监督的表征学习已大大推进了各种机器学习任务。在计算机视觉领域,最先进的方法利用诸如随机裁剪和颜色抖动之类的变换来实现不变表征,将语义上相同的输入嵌入在一起。但是,这可能会降低需要精确特征的任务(如定位或花卉分类)的性能。为了解决这个问题,最近的研究纳入了等变表征学习,捕获变换敏感信息。然而,当前的方法依赖于变换标签,因此难以应对相互依赖和复杂变换。我们提出了自监督变换学习(STL),用从图像对派生的变换表示取代变换标签。所提出的方法确保变换表示是图像不变的,并学习相应的等变变换,在不增加批处理复杂性的情况下提高性能。我们展示了这种方法在各种分类和检测任务中的有效性,在11个基准测试中的7个上优于现有方法,并在检测任务中表现出色。通过集成诸如AugMix之类的复杂变换(先前等变方法无法使用),这种方法增强了各种任务的性能,突出了其适应性和抗压性。此外,它与各种基本模型兼容,突出了其灵活性和广泛应用性。
总结: 这篇文章提出了一种自监督的变换学习方法,实现了不同计算机视觉任务中的等变表征学习,优于现有方法。

###【arXiv编号】2501.08712v1
###【git】https://github.com/jaemyung-u/stl
###【领域】计算机视觉, 机器学习

[推荐指数：4]

这篇文章在计算机视觉和机器学习领域提出了创新性的自监督变换学习方法,可以捕获变换敏感的特征,在多个基准测试上优于现有方法,具有广泛的应用前景。文章提出的方法契合当前无监督和自监督表征学习的研究趋势,具有很好的创新性和实用性。

—第55篇----

RoHan: Robust Hand Detection in Operation Room

🔍 关键词: Hand detection, surgical environment, domain adaptation, data augmentation

http://arxiv.org/pdf/2501.08115v2

摘要: 这篇论文提出了一种名为"RoHan"的新方法,用于在手术室环境中进行鲁棒的手部检测。它主要包括两个步骤:1) 使用"人工手套"技术,利用公开可用的手部数据集合成佩戴手套的合成图像进行数据扩充;2) 采用半监督域自适应管线,通过迭代预测细化和高效帧过滤,提高在实际手术室环境中的检测性能。该方法大幅降低了对繁琐标注和模型训练的需求,为手部检测技术在医疗环境中的实际应用铺平了道路。总结: 这项研究提出了一种可靠的手部检测方法,适用于手术室等复杂环境。

###【arXiv编号】2501.08115v2
###【领域】计算机视觉, 机器学习

[推荐指数：4]

这项研究针对手术室这种极具挑战性的环境提出了创新性的解决方案,包括数据增强和半监督域自适应,实现了良好的检测性能。该方法不仅在理论上具有创新性,而且在实际应用中也有较好的潜力,可以推动手部检测技术在医疗领域的进一步应用。

—第56篇----

文章名称

Diffusion-based Unsupervised Audio-visual Speech Enhancement

🔍 关键词: cs.SD, cs.AI, cs.CV, cs.LG, eess.AS, eess.SP

链接1

摘要: 本论文提出了一种新的无监督音视频语音增强(AVSE)方法,该方法将扩散式音视频语音生成模型与非负矩阵分解(NMF)噪声模型相结合。首先,扩散模型在对应的视频数据上预先训练clean speech,以模拟speech生成分布。然后该预训练模型与NMF噪声模型结合,通过迭代的方式估计clean speech。具体地,在逆扩散过程中实现了基于扩散的后采样方法,在每次迭代中获得speech估计值并用于更新噪声参数。实验结果证实,所提出的AVSE方法不仅优于纯音频对应方法,而且比最近提出的监督生成AVSE方法泛化性更好。此外,新的推断算法在推理速度和性能之间提供了更好的平衡,相比之前的扩散方法有所改进。代码和演示可在https://jeaneudesayilo.github.io/fast_UdiffSE获得.

总结: 该论文提出了一种新型的无监督音视频语音增强方法,采用扩散模型生成clean speech并与NMF噪声模型结合,可以有效提高增强性能。

###【arXiv编号: 2410.05301v2】

###【领域: 计算机视觉，机器学习，信号处理】

[推荐指数: 5]

该文章提出了一种创新的无监督音视频语音增强方法,将扩散模型和NMF噪声模型相结合,在保持高性能的同时也能提高泛化性能。实验结果表明,该方法不仅优于纯音频的方法,也优于最新的监督生成AVSE方法。此外,新的推断算法在速度和性能之间达到了很好的平衡。对于语音增强领域的研究者来说,这是一篇非常有价值的论文。

—第57篇----

🔍 关键词: Improving Pain Classification, Spatio-Temporal Deep Learning, Facial Expressions

[http://arxiv.org/pdf/2501.06787v2]

摘要: 本文提出两种新的方法来改善基于面部表情的疼痛检测。第一种是将ConvNeXt模型与LSTM结合,分析视频帧并预测疼痛情况。第二种是将STGCN模型与LSTM结合,处理面部图像标志点以进行疼痛检测。这两种方法都利用了时空特征,在"Pain Emotion Faces Database (PEMF)"数据集上表现出色,为客观疼痛评估提供了一种有前景的方法。总结:本文提出了两种基于深度学习的新方法,能够利用时空特征,大幅提高基于面部表情的疼痛检测性能。

[arXiv:2501.06787v2]

[领域: 计算机视觉, 人工智能]

[推荐指数: 4]

该论文提出了两种新颖的深度学习模型,结合时间序列和空间特征,在"Pain Emotion Faces Database"数据集上取得了出色的疼痛检测性能。这为客观评估疼痛提供了一种前景可期的方法,对于医疗诊断和治疗具有重要意义。论文创新性强,实用价值高,值得推荐。

—第58篇----

RealVVT: Towards Photorealistic Video Virtual Try-on via Spatio-Temporal Consistency

🔍 关键词: computer vision, fashion, virtual try-on, video, spatio-temporal consistency

[http://arxiv.org/pdf/2501.08682v1]

摘要: 该论文提出了一种名为 RealVVT 的光写实视频虚拟试穿框架,旨在增强动态视频场景中的稳定性和真实性。该方法包括服装和时间一致性策略、引导注意力焦点损失机制以确保空间一致性,以及擅长处理长视频序列的姿态引导长视频虚拟试穿技术。在各种数据集上的大量实验证实,该方法在单图像和视频虚拟试穿任务中均优于现有最先进的模型,为时尚电子商务和虚拟拟合环境等实际应用提供了可行的解决方案。

总结: 本文提出了一种基于时空一致性的光写实视频虚拟试穿框架 RealVVT,在单图像和视频虚拟试穿上均优于现有最佳模型,有望应用于时尚电商和虚拟拟合等场景。

###【arXiv:2501.08682】
###【-】
###【-】
###【计算机视觉, 时尚, 虚拟试穿, 视频, 时空一致性】

[4]

该工作在解决视频虚拟试穿中的空间和时间一致性问题方面做了创新性的探索,提出了多个关键技术,在实验效果上也取得了显著的改进。该方法对于解决时尚电商和虚拟拟合等实际应用场景中的视频虚拟试穿问题具有很好的潜力和应用价值。

—第59篇----

FlexiClip: Locality-Preserving Free-Form Character Animation

🔍 关键词: cs.CV, cs.GR

链接1

摘要: FlexiClip是一种新的动画方法,旨在解决动画clipart图像时时间一致性和几何完整性的挑战。它扩展了传统的Bézier曲线轨迹建模,引入了时间雅可比矩阵来逐步修正运动动力学,使用概率流ODE来抑制时间噪音,并采用启发于GFlowNet的流匹配损失函数来优化平滑的动画过渡。这些创新确保了即使是复杂的快速运动和非刚性变形场景,也能生成连贯、自然的动画。广泛的实验证明,FlexiClip在生成不仅平滑自然,而且在人物和动物等各种clipart中都保持结构一致性的动画方面表现出色,达到了新的水平。

总结: FlexiClip是一种创新的clipart动画生成方法,通过时间建模和几何完整性的改进,能够产生高质量、连贯自然的动画效果。

[arXiv编号: 2501.08676v1]

[期刊论文]

[领域: 计算机视觉, 图形学]

[推荐指数: 4]

FlexiClip提出了多项创新性的技术,包括时间雅可比矩阵、概率流ODE建模和流匹配损失函数等,在解决clipart动画的时间一致性和几何完整性方面取得了显著进步。实验结果也证明了该方法在生成高质量动画方面的出色性能,是值得关注的重要工作。

—第60篇----

GS-LIVO: Real-Time LiDAR, Inertial, and Visual Multi-sensor Fused Odometry with Gaussian Mapping

🔍 关键词: 3D Gaussian splatting, LiDAR-Inertial-Visual sensor, SLAM, real-time

[http://arxiv.org/pdf/2501.08672v1]

摘要: 近年来,3D Gaussian splatting (3D-GS)已成为一种新的场景表示方法。但现有基于视觉的3D-GS方法通常依赖于手工设计的启发式算法进行点云密集化,在处理遮挡和高GPU内存及计算需求方面存在挑战。LiDAR-Inertial-Visual (LIV)传感器配置已经展示出在定位和密集式建图方面的优异性能,这得益于其互补的感知特性:相机提供丰富的纹理信息,LiDAR提供精确的几何测量,IMU提供高频率的运动数据。受此启发,我们提出了一种基于高斯的实时同步定位与建图(SLAM)系统。我们的地图系统包括一个全局高斯地图和一个滑动窗口高斯地图,以及基于IESKF的里程计。全局高斯地图由哈希索引的体素组成,采用递归八叉树结构,可以有效覆盖稀疏的空间体积,并适应不同尺度和细节层次。高斯地图通过多传感器融合初始化,并利用光度梯度进行优化。我们还实现了一个紧耦合的多传感器融合里程计,采用迭代误差状态卡尔曼滤波(IESKF),利用实时更新和渲染高斯地图。我们的系统是首个可部署在资源受限嵌入式系统上的实时高斯SLAM框架,在NVIDIA Jetson Orin NX平台上实现了实时性能和稳健的多传感器融合能力。

总结: 这是一种基于高斯的实时多传感器融合SLAM系统,可以部署在资源受限的嵌入式设备上,使用LiDAR、IMU和视觉传感器实现定位和密集式建图,具有较高的实用性和创新性。

###【arXiv:2501.08672】
###【无git】
###【无期刊】
###【领域: 机器人、计算机视觉】

[推荐指数：4]

该文章提出了一种创新性的基于高斯的实时SLAM系统,融合了多种传感器数据包括LiDAR、IMU和视觉,可以在资源受限的嵌入式平台上部署运行,在定位和建图方面具有较强的性能。该系统在相比于现有的3D-GS方法上有明显的改进,结合了不同传感器的优势,解决了点云密集化、内存消耗等问题,是一个很有意义的研究成果。

—第61篇----

TimeFlow: Longitudinal Brain Image Registration and Aging Progression Analysis

🔍 关键词: eess.IV, cs.CV

[http://arxiv.org/pdf/2501.08667v1]

摘要: TimeFlow 是一种新的基于U-Net网络架构的纵向大脑MRI配准框架。与传统方法不同,TimeFlow 能够预测未来时间点的大脑图像,并在保持高配准精度的同时实现时间连续性,不需要依赖显式的平滑正则化或密集的序列数据。TimeFlow 在未来时间点预测和配准精度等方面都优于目前最先进的方法,同时支持无需分割的大脑老化分析,有助于区分神经退行性疾病和正常老龄化。总结: 这是一种新颖的基于深度学习的纵向大脑MRI配准和老龄化分析方法,能够预测未来的大脑状态并实现高精度配准。

###【arXiv编号】2501.08667
###【git】无

###【领域】

医疗影像分析
神经影像学
大脑老龄化分析

[推荐指数：5]

该方法在解决纵向大脑MRI配准的关键问题上取得突破,包括未来大脑状态的预测、时间连续性的保持以及无需分割标注的老龄化分析。该工作在精度、效率和应用价值方面都有很大创新,对于预测性分析和理解神经退行性疾病有重要的意义。

—第62篇----

文章名称

🔍 关键词: facial image privacy preservation, cloud-based services, facial recognition, image obfuscation, adversarial perturbation

链接1

摘要: 本文综述了当前旨在保护云计算服务中人脸图像隐私的方法。主要包括基于图像模糊和基于对抗性扰动两种方法。文章对这两种方法进行了定性和定量分析,并指出了未解决的挑战,提出了未来的研究方向。总结: 本文综述了在云计算环境中保护人脸图像隐私的现有方法及其局限性,为进一步提高隐私保护提供了研究建议。
###【arXiv编号】2501.08665
###【git】无
###【期刊】无
###【领域】计算机视觉, 隐私保护

[推荐指数：4]

该文章全面系统地综述了在云计算环境下保护人脸图像隐私的两大类主要方法及其优缺点,并指出了未解决的挑战,为未来相关研究提供了很好的参考。作为当前该领域的综述性文献,具有较高的学术价值和实用意义。

—第63篇----

产生高斯混合扩散模型用于非线性磁共振成像反演

🔍 关键词: MRI重建, 扩散模型, 高斯混合, 并行成像重建

arXiv:2501.08662

摘要: 扩散模型最近在磁共振成像重建方面取得了显著的成果。然而,所使用的网络通常是数百万参数的黑盒子先验分数估计器,这限制了可解释性并增加了重建时间。此外,并行成像重建算法要么依赖于离线线圈灵敏度估计(容易出现误对准并限制采样轨迹),要么进行逐线圈重建,这使得计算成本与线圈数量成正比。为了克服这个问题,我们使用参数高效和可解释的高斯混合扩散模型作为图像先验,结合古典的线圈灵敏度平滑先验,实现了联合图像和线圈灵敏度重建。该方法在保持快速推理和对比度异常数据及采样轨迹的鲁棒性方面表现优异,与经典的全变差惩罚相当。最后,概率性公式允许计算后验期望和逐像素方差。

总结: 本文提出了一种基于高斯混合扩散模型和平滑线圈灵敏度先验的联合重建方法,在重建质量、计算效率和鲁棒性方面都有很好的表现。

[期刊: arXiv]

[领域: 计算机视觉, 机器学习]

[推荐指数: 4]

该方法在MRI重建领域提出了一种创新性的高斯混合扩散模型,相比于常用的黑盒子神经网络模型,具有更好的可解释性和计算效率。同时,该方法在联合重建图像和线圈灵敏度方面也有突出的表现,为并行成像重建提供了一种新的思路。整体而言,该工作在理论创新和实际应用方面都具有很高的价值。

—第64篇----

=====

BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module

🔍 关键词: Visual Odometry, Transformer, IMU, Low-light Condition

[http://arxiv.org/pdf/2501.08659v1]

摘要: 本文提出了一种基于Transformer架构的新型视觉里程计模型BrightVO。该模型不仅执行前端视觉特征提取,还在后端集成了惯性测量单元(IMU)数据的多模态细化模块。通过利用姿态图优化,该模块可以迭代地细化姿态估计,从而降低误差,提高准确性和稳健性。此外,作者创建了一个名为KiC4R的合成低光照数据集,以促进在具有挑战性的环境中训练和评估视觉里程计框架。实验结果表明,BrightVO在KITTI基准测试和KiC4R数据集上都达到了最先进的性能。在正常户外环境中,其姿态估计精度平均提高20%;在低光照条件下,其性能提高达259%,优于现有方法。该工作已全面开源,供广泛使用和进一步开发。
总结: 提出一种基于Transformer和IMU融合的新型视觉里程计模型BrightVO,在正常和低光照条件下都表现出色。
###【arXiv编号】2501.08659
###【git】https://github.com/Anastasiawd/BrightVO
###【领域】计算机视觉、机器人导航

[推荐指数：5]

该论文提出了一种创新性的视觉里程计模型,融合了Transformer和IMU数据,在正常和低光照条件下都取得了出色的性能,对于自动驾驶、机器人导航等领域具有很强的实用价值。作者还开源了代码和数据集,为其他研究者提供了便利。整体上该项工作设计科学,实验充分,结果突出,值得推荐。

—第65篇----

StereoGen: High-quality Stereo Image Generation from a Single Image

🔍 Keywords: Stereo Image Generation, Monocular Depth Estimation, Diffusion Inpainting

PDF Link

摘要: 最先进的监督式立体匹配方法在各种基准测试中取得了令人惊叹的结果。然而,这些数据驱动的方法由于缺乏真实世界的注释数据而难以推广到现实场景。本文提出StereoGen,这是一种用于生成高质量立体图像的全新流程。该流程利用任意单幅图像作为左图像,并使用单目深度估计模型生成伪差异来合成高质量的相应右图像。与之前使用随机背景或选择性地使用卷积取附近像素来填充遮挡区域的方法不同,我们微调扩散修复模型来恢复背景。我们的模型生成的图像拥有更好的细节和完整的语义结构。此外,我们还提出了无需训练的置信度生成和自适应差异选择。前者抑制了有害伪真值在立体训练过程中的负面影响,后者有助于生成更广泛的差异分布和更好的合成图像。实验结果表明,在我们的流程下训练的模型在所有已发表的方法中都达到了最先进的零镜头泛化结果。

总结: 该论文提出了一种全新的立体图像生成流程StereoGen,可以利用单幅图像和伪深度图生成高质量的对应右图像,并提出了无需训练的置信度生成和自适应差异选择,在零镜头泛化能力上取得了领先的结果。

###【arXiv.2501.08654】
###【无git/期刊信息】
###【领域: 计算机视觉, 立体视觉】

[推荐指数: 5]

该论文提出了一种立体图像生成的全新流程StereoGen,可以从单一输入图像合成对应的高质量右图像,并采用创新的无需训练的置信度生成和自适应差异选择,在零镜头泛化能力上取得了领先的性能。该方法在解决立体视觉数据缺乏的问题上具有很强的应用前景,技术创新性和实用性都很高,值得推荐。

—第66篇----

该文章属于计算机视觉和智能交通领域。

文章名称

🔍 关键词: Multispectral Pedestrian Detection, Sparsely Annotated Object Detection

链接1

摘要: 该文章提出了一种名为Sparsely Annotated Multispectral Pedestrian Detection (SAMPD)的新框架,来解决稀疏标注环境下的多光谱行人检测问题。该框架包括以下创新点:(i)引入Multispectral Pedestrian-aware Adaptive Weight (MPAW)和Positive Pseudo-label Enhancement (PPE)模块,生成高质量的伪标签;(ii)提出Adaptive Pedestrian Retrieval Augmentation (APRA)模块,自适应地整合真实标签和高质量伪标签,增加学习样本的多样性。实验结果表明,SAMPD在稀疏标注的多光谱环境下显著提高了行人检测性能。
###【arXiv编号】2501.02640
###【git】无
###【期刊】无
###【领域】计算机视觉、智能交通

[推荐指数：4]

该文章提出了一种创新性的多光谱行人检测框架,能够有效解决稀疏标注环境下的问题,对于无人驾驶、智能监控等应用具有重要价值。方法设计巧妙,实验结果也显示了显著的性能提升,整体具有较高的创新性和实用性。

—第67篇----

文章名称

🔍 关键词: depth, appearance, portrait image animation

链接1

摘要: 本文提出了一种联合学习视觉外观和深度的扩散式肖像图像生成器。该方法采用端到端的扩散范式,引入了一种新的架构,可以学习条件的联合分布。训练后,该框架可以高效地适应于面部深度到图像和图像到深度生成、肖像重塑以及基于音频的说话头动画等多种下游应用,并产生一致的3D输出。
###【arXiv编号】2501.08649v1
###【期刊】尚未发表
###【领域】计算机视觉、机器学习

[推荐指数：4]

该文章提出了一种创新性的联合学习外观和深度信息的扩散式肖像图像生成器,可以广泛应用于肖像动画、虚拟试衣等场景。该方法在保持高质量视觉输出的同时,还能产生一致的3D深度信息,能够为后续的3D处理任务提供良好的基础。整体上该方法创新性强,应用前景广阔,值得关注。

—第68篇----

MonSter: Marry Monodepth to Stereo Unleashes Power

🔍 关键词: MonSter, Monocular Depth Estimation, Stereo Matching

arXiv:2501.08643v1

摘要: 立体匹配从图像对应关系中恢复深度。现有方法难以处理缺乏匹配线索的不良区域,例如遮挡和无纹理区域。为此,我们提出了MonSter,这是一种新颖的方法,利用单目深度估计和立体匹配的互补优势。MonSter将单目深度和立体匹配集成到双分支架构中,以迭代方式相互改善。基于置信度的指导自适应地选择可靠的立体线索来恢复单目深度的尺度偏移。而经过改进的单目深度反过来有效地指导了立体匹配中的不良区域。这种迭代的相互增强使MonSter能够从粗略的目标级结构逐步发展到像素级几何,从而充分发挥了立体匹配的潜力。如图1所示,MonSter在五个最常用的排行榜-- SceneFlow、KITTI 2012、KITTI 2015、Middlebury和ETH3D上都排名第一,相比以前最好的方法最多提高了49.5%(ETH3D的Bad 1.0)。全面的分析证实了MonSter在不良区域的有效性。在零样本泛化方面,MonSter在所有指标上都显著且一致地优于最先进的方法。代码已公开在 https://github.com/Junda24/MonSter。

总结: MonSter提出了一种将单目深度估计和立体匹配融合的新方法,通过迭代优化相互补充的优势,有效地解决了遮挡和无纹理区域等不良区域的深度估计问题,在多个基准测试中显著优于现有最佳方法。

###【arXiv:2501.08643v1】
###【领域: 计算机视觉】

[推荐指数：5]

MonSter提出了一种创新性的方法,将单目深度估计和立体匹配巧妙地融合在一起,利用互补优势迭代优化,有效解决了现有立体匹配方法在遮挡和无纹理区域的局限性。在多个权威基准测试中都取得了显著的性能提升,充分发挥了立体匹配的潜力,对计算机视觉领域的深度估计任务有重要意义,值得重点关注。

—第69篇----

检测野火烟火通过边缘计算使用迁移学习增强的深度学习模型

🔍 关键词: Wildfire Detection, Edge Computing, Transfer Learning, Deep Learning

http://arxiv.org/pdf/2501.08639v1

摘要: 该研究探讨了利用迁移学习增强对象检测器识别野火烟雾和火焰的性能,特别是在训练数据集有限的情况下。同时还研究了迁移学习对边缘计算指标(推理时间、功耗、能耗)的影响。该研究使用Aerial Fire and Smoke Essential (AFSE)数据集作为目标数据集,Flame and Smoke Detection Dataset (FASDD)和Microsoft Common Objects in Context (COCO)作为源数据集。通过采用两阶段级联迁移学习方法,利用D-Fire或FASDD作为初始阶段目标数据集,AFSE作为后续阶段,可显著提高检测准确度,达到最高79.2%的平均精确度。但级联迁移学习未能带来明显改进,单独使用迁移学习也未能改善边缘计算指标。研究发现YOLOv5n在缺乏硬件加速的情况下仍然是一个强大的模型,其处理图像的速度几乎是较新的YOLO11n的2倍。总的来说,该结果证实了迁移学习在增强对象检测器准确性方面的作用,但需要进一步优化才能提高边缘计算性能。

总结: 该研究利用迁移学习增强了基于YOLO的野火烟雾检测模型的性能,但在边缘计算指标方面仍需进一步优化。

###【arXiv编号】2501.08639
###【git】无
###【期刊】无
###【领域】计算机视觉、边缘计算

[推荐指数：4]

该论文提出了一种利用迁移学习提高野火烟雾检测深度学习模型在边缘计算设备上的准确性和性能的方法,在数据集有限的情况下取得了不错的结果,具有一定的创新性和实用价值。

—第70篇----

文章名称

🔍 关键词: Gaussian derivative operators, hybrid discretizations, continuous scale space

链接1

摘要: 本文分析了两种混合离散化方法对高斯导数的性质,这些方法基于与归一化采样高斯核或积分高斯核的卷积,然后再进行中心差分。研究这些离散化方法的动机是,当需要同一尺度水平上的不同阶导数时,与直接基于采样高斯核或积分高斯核卷积的导数逼近相比,这些方法计算效率会显著提高。虽然真正离散的方法,即先与离散高斯核卷积再中心差分,也具有这种计算优势,但离散高斯核的数学原型(整数阶修正贝塞尔函数)在某些图像处理框架中可能无法获得,例如在基于高斯导数的尺度参数化滤波器进行深度学习时。本文阐述了这些混合离散化方法的性质,包括它们所导致的空间平滑程度和从尺度不变特征检测器中获得的尺度估计的相对一致性,特别关注在尺度参数很小的情况下的行为,这可能与连续尺度理论以及不同离散化方法的结果存在显著差异。

总结: 本文分析了两种基于高斯导数卷积的混合离散化方法,并评估了它们在计算效率、空间平滑和尺度估计等方面的性能。

###【arXiv编号】2405.05095
###【期刊】无
###【领域】计算机视觉、数值分析

[推荐指数：4]

该文章提出了一种新的混合离散化方法来高效计算高斯导数,在需要同时计算不同阶导数的场景下具有优势。同时也分析了不同离散化方法在空间平滑和尺度估计方面的特点,这对于进一步优化和理解这类方法很有价值。整体来说,该工作在计算机视觉和数值分析领域都有一定创新性和应用前景。

—第71篇----

OminiControl: Minimal and Universal Control for Diffusion Transformer

🔍 关键词: Diffusion Transformer, image condition, parameter-efficient, subject-driven generation, spatially-aligned conditions

http://arxiv.org/pdf/2411.15098v4

摘要: OminiControl是一个高度通用和参数高效的框架，它能将图像条件集成到预训练的Diffusion Transformer (DiT)模型中。它利用参数重用机制,使DiT能够使用自身作为强大的主干网络来编码图像条件,并用其灵活的多模态注意力处理器对其进行处理。与现有方法依赖于具有复杂架构的附加编码器模块不同,OminiControl (1)仅使用~0.1%的额外参数就有效高效地将注入的图像条件融合进去,并且 (2) 以统一的方式解决了广泛的图像条件任务,包括主题驱动的生成和空间对齐的条件,如边缘、深度等。这些功能的实现主要得益于在DiT自身生成的图像上进行训练,这对主题驱动的生成特别有利。广泛的评估表明,OminiControl在主题驱动和空间对齐的条件生成任务中都优于现有的基于UNet和DiT的模型。此外,作者还发布了训练数据集Subjects200K,这是一个包含超过20万个身份一致图像的多样化集合,以及一个高效的数据合成管道,以推进主题一致生成研究。

总结: OminiControl是一个高度通用和参数高效的框架,能将图像条件集成到预训练的Diffusion Transformer (DiT)模型中,在主题驱动和空间对齐的条件生成任务中表现优于现有模型。

[arXiv:2411.15098v4]

[git]

[期刊]

[计算机视觉，人工智能，机器学习]

[推荐指数：4]

OminiControl提出了一种简单高效的方法将图像条件集成到Diffusion Transformer模型中,在多种条件生成任务上都取得了良好的性能,是一个创新且实用的工作。该框架要求的额外参数很少,同时还能处理各种类型的图像条件,展现了较强的通用性。整体来看,该工作在创新性、实用性和可扩展性等方面都有出色表现,值得推荐。

—第72篇----

=====

Self-Organizing Edge Computing Distribution Framework for Visual SLAM

🔍 关键词: Simultaneous Localization and Mapping (SLAM), Edge Computing, Distributed Computing

[http://arxiv.org/pdf/2501.08629v1]

摘要: 本文提出了一种新的边缘计算辅助SLAM框架,能够在设备网络上自组织地分布式执行SLAM,或在单个设备上独立运行而无需连接。该框架由三层组成,设计上具有设备无关性、抗网络故障能力和对核心SLAM系统的最小侵入性。作者使用ORB SLAM3实现并验证了该框架,结果表明它在精度和资源利用率上与单机SLAM方法相匹配,同时还具有协作执行的能力。
总结: 该论文提出了一种新型的自组织边缘计算分布式SLAM框架,相比于传统的客户端-服务器架构具有更好的鲁棒性和灵活性。
###【arXiv:2501.08629v1】
###【无】
###【无】
###【机器人视觉、分布式计算】

[4]

该框架在保持SLAM精度和资源利用效率的同时,引入了自组织分布式执行的能力,提高了系统的鲁棒性和灵活性。这对于部署在资源受限的移动机器人上具有重要意义。

—第73篇----

CrossFi: A Cross Domain Wi-Fi Sensing Framework Based on Siamese Network

🔍 关键词: cs.CV, cs.AI, cs.LG, eess.SP

[http://arxiv.org/pdf/2408.10919v3]

摘要: 本文提出了一种称为CrossFi的Siamese网络框架,解决了基于Wi-Fi感知的数据驱动方法在不同场景下存在的域偏移问题。CrossFi通过引入一个称为CSi-Net的样本相似性计算网络,利用注意力机制捕捉相似性信息,并基于此开发了一个称为Weight-Net的模块,可以为每个类生成模板,从而在不同的场景中工作,包括few-shot和zero-shot场景以及new-class场景。实验结果表明,CrossFi在多个场景下都取得了最先进的性能,如在手势识别任务中,其在in-domain场景下达到98.17%的准确率,在one-shot cross-domain场景下达到91.72%,在zero-shot cross-domain场景下达到64.81%,在one-shot new-class场景下达到84.75%。

总结: 本文提出了一种Siamese网络框架CrossFi,旨在解决基于Wi-Fi感知的数据驱动方法在不同场景下存在的域偏移问题,取得了多方面的优秀性能,包括在few-shot,zero-shot和new-class场景下的出色表现。

###【arXiv编号:2408.10919v3】
###【git:https://github.com/RS2002/CrossFi】
###【领域: 计算机视觉、人工智能、机器学习、信号处理】

[推荐指数:4]

该文章针对Wi-Fi感知在实际应用中存在的域偏移问题提出了有效的解决方案,在多个场景下都取得了出色的性能,展现了很好的创新性和实用性,值得关注和学习。论文的实现代码也已公开,有利于进一步的研究和应用。

—第74篇----

Multiple Information Prompt Learning for Cloth-Changing Person Re-Identification

🔍 Keywords: Cloth-changing person re-identification, Clothing information stripping, Bio-guided attention, Dual-length hybrid patch

arXiv: 2411.00330v2

摘要: 该论文提出了一种新的多信息提示学习(MIPL)方法用于解决服装变换下的人员重识别问题。该方法通过服装信息剥离(CIS)模块、生物引导注意力(BGA)模块以及双长混合补丁(DHP)模块来学习对服装变化鲁棒的身份特征。实验结果表明该方法在LTCC、Celeb-reID、Celeb-reID-light和CSCC等数据集上取得了最佳成绩。与AIM、ACID和SCNet等最新方法相比,MIPL在PRCC数据集上取得了11.3%、13.8%和7.9%的rank-1改进。

总结: 本文提出了一种多信息提示学习方法,通过服装信息剥离、生物引导注意力和混合补丁等模块,在服装变化条件下实现了更鲁棒的人员重识别。

[arXiv编号: 2411.00330v2]

[领域: 计算机视觉]

[推荐指数: 4]

该文章在服装变化下的人员重识别问题上提出了创新性的解决方案,通过多种模块的协同,有效抑制了服装变化对重识别的影响,取得了领先的实验结果。该方法可应用于智慧交通等场景中人员追踪的需求。

—第75篇----

The Silent Majority: Demystifying Memorization Effect in the Presence of Spurious Correlations

🔍 Keywords: machine learning, spurious correlations, imbalanced performance, memorization

arXiv:2501.00961v2

摘要: 本文研究了机器学习模型依赖于训练数据中的简单虚假特征(如图像背景)而导致的少数组和多数组性能失衡的根本原因。通过 memorization（即对训练集中异常样本的准确预测但在测试集上失败的能力）的视角,系统地展示了网络内部少数神经元存在大量虚假特征的普遍存在。作者提出了"失衡组性能是局限于少数神经元的"有噪声"虚假记忆的副产品"的假说,并通过消除这些不必要的虚假记忆模式来显著改善少数组的模型性能。实验结果为如何理解神经网络对核心和虚假知识的编码提供了新见解,为未来解密对虚假相关的鲁棒性研究奠定了基础。

总结: 本文系统地揭示了机器学习模型中少数神经元存在大量虚假特征记忆,并提出通过消除这些虚假记忆可以显著提高少数组性能,为解密模型对虚假相关的鲁棒性提供了新思路。

###【arXiv:2501.00961v2】
###【领域: 机器学习、计算机视觉、人工智能】

[推荐指数：4]

该文章从机器学习模型在训练和测试过程中存在的"记忆效应"切入,深入探讨了导致少数组性能失衡的根源。通过系统的实验分析,发现了模型在少数神经元中记忆虚假特征的普遍现象,并提出了消除这些虚假记忆的新框架,在多个基准上显著提升了少数组的性能。这些发现为理解和提高机器学习模型对虚假相关的鲁棒性奠定了基础,具有重要的理论和应用价值。

—第76篇----

这篇文章属于计算机视觉领域。

文章名称

🔍 关键词: Infrared small target detection, Transformer, Dynamic Attention

http://arxiv.org/pdf/2409.19599v3

摘要: 该文章提出了一种名为DATransNet的动态注意力变换网络,用于解决红外小目标检测的挑战,如小目标和背景之间的对比度低等。DATransNet采用动态注意力变换机制,模拟中央差分卷积以提取和整合梯度特征和深层特征。此外,还提出了一种全局特征提取模块,提供了全面的视角,防止网络过于关注细节而忽略背景信息。实验结果显示,该方法在红外小目标检测任务上表现出色。总结: 该文提出了一种创新的红外小目标检测方法DATransNet,能够有效提取和保持小目标的边缘信息,并防止网络过度关注细节。
###【arXiv编号: 2409.19599】
###【git: https://github.com/greekinRoma/DATransNet】
###【领域: 计算机视觉】

[推荐指数：4]

该文提出了一种创新性的红外小目标检测方法,在解决实际问题上具有较强的应用价值。算法设计合理,实验结果也证明了其有效性,值得推荐。

—第77篇----

文章名称

🔍 关键词: Ultra-High-Definition, Image Deblurring, Multi-scale Cubic-Mixer

http://arxiv.org/pdf/2206.03678v2

摘要: 目前,基于变换器的算法正在在图像去模糊领域掀起波澜。它们的成就依赖于自注意力机制和CNN干线来对令牌之间的长范围依赖进行建模。不幸的是,这种悦耳的管道引入了高计算复杂性,并使得在单个GPU上实时运行超高清图像变得困难。为了权衡准确性和效率,退化的输入图像在没有自注意力机制的情况下以三维(C、W和H)信号进行循环计算。我们将这个深层网络称为多尺度立方体混合器,它作用于快速傅里叶变换后的实部和虚部分量来估计傅里叶系数,从而获得一个去模糊的图像。此外,我们将多尺度立方体混合器与切片策略相结合,以更低的计算成本生成高质量的结果。实验结果表明,所提出的算法在准确性和速度方面都优于当前最先进的去模糊方法,并且在一个新的超高清数据集上也表现出色。

总结: 这篇文章提出了一种基于Multi-scale Cubic-Mixer的高效图像去模糊算法,能够在较低的计算开销下生成高质量的去模糊结果,在准确性和速度方面都优于当前最先进的方法。

###【arXiv编号: 2206.03678】
###【git】
###【期刊】
###【领域: 计算机视觉, 图像处理】

[推荐指数：4]

这篇文章提出的算法在超高清图像去模糊任务中能够很好地平衡准确性和效率,在多个标准数据集上都取得了出色的性能,并且还在一个新的超高清数据集上进行了验证,展现出很强的创新性和实用性。此外,算法采用的Multi-scale Cubic-Mixer结构也是一个新颖的设计,值得进一步探索。因此这篇文章是非常值得关注的优秀工作。

—第78篇----

本文属于计算机视觉领域。

摘要: 本文提出了一种名为 CAMI-2DNet 的深度学习方法,用于评估自闭症谱系障碍(ASC)儿童的动作模仿能力。传统的动作模仿评估方法主观性强、劳动密集、需要大量人工训练。CAMI-2DNet 基于编码器-解码器架构,可以从视频数据中提取出与身体形状和摄像机角度无关的动作编码,利用合成的虚拟角色数据和真实参与者数据进行训练。该方法无需进行手工数据归一化和标注,可以自动评估个体的动作模仿质量,并用于区分ASC儿童和神经典型(NT)儿童。实验结果表明,CAMI-2DNet 不仅与人工评分高度相关,而且在ASC vs NT 分类方面优于之前的 CAMI-2D 方法,性能与需要3D运动捕捉数据的 CAMI-3D 方法相当,但更加实用。

总结: 本文提出了一种基于深度学习的计算机视觉方法CAMI-2DNet,用于评估自闭症儿童的动作模仿能力,避免了传统方法的主观性和劳动密集等问题,实现了更准确和高效的评估。

—第79篇----

文章名称

🔍 关键词: zero-shot, video restoration, image diffusion model

链接1

摘要: 基于扩散模型的零样本图像修复和增强已经取得了很大成功。但是直接将其应用于视频修复和增强会产生严重的时间闪烁伪影。本文提出了第一个基于预训练图像扩散模型的零样本视频修复和增强框架。通过将空间自注意力层替换为提出的短长时间注意力层,预训练的图像扩散模型可以利用帧之间的时间相关性。我们还提出了时间一致性引导、空间时间噪声共享和早期停止采样策略来提高时间一致的采样。我们的方法是一个即插即用的模块,可以插入到任何基于扩散的图像修复或增强方法中,进一步提高其性能。实验结果证明了我们提出的方法的优越性。
总结: 提出基于预训练图像扩散模型的零样本视频修复和增强框架,设计了时间一致性注意力机制和采样策略以解决时间闪烁问题。

[arXiv:2407.01960v2]

[github.com/cao-cong/ZVRD]

【领域】计算机视觉

[推荐指数：4]

该方法创新性地将预训练的图像扩散模型扩展到了视频修复和增强任务,并设计了相应的时间注意力机制和采样策略解决了视频中的时间一致性问题,取得了较好的性能,具有较强的实用价值和推广潜力。

—第80篇----

文章信息

PACF: Prototype Augmented Compact Features for Improving Domain Adaptive Object Detection

🔍 关键词: object detection, domain adaptation, feature regularization

链接1

摘要: 近年来, 目标检测取得了显著进展。但将现成的检测器应用于新的领域会导致性能大幅下降, 这是由于域差异造成的。这些检测器在目标域中表现出比源域高得多的类条件分布方差,同时还存在均值偏移。为解决这个问题, 我们提出了原型增强紧凑特征(PACF)框架, 以正则化类内特征分布。具体地, 我们对目标特征相关的似然度的下界进行了深入的理论分析, 并推导出原型交叉熵损失函数, 以进一步校准目标区域特征的分布。此外, 我们设计了一种相互正则化策略, 使线性分类器和原型分类器能够互相学习, 在提高特征紧凑性的同时增强判别性。得益于这个PACF框架, 我们获得了更加紧凑的跨域特征空间, 其中目标特征的类条件分布方差显著降低, 两个域之间的类均值偏移也进一步减小。在不同的适应设置中, 结果都是最先进的, 这证明了所提出方法的广泛适用性和有效性。
总结: 该文提出了一种原型增强紧凑特征(PACF)框架,通过特征正则化和分类器协同学习显著改善了目标检测在跨域迁移中的效果。

[arXiv编号: 2501.08605v1]

[git链接: 无]

[期刊: 无]

[领域: 计算机视觉、目标检测、域自适应]

[推荐指数：4]

该论文提出了一个创新性的PACF框架,通过特征分布正则化和分类器互补学习,有效地解决了目标检测在跨域迁移中的问题,取得了SOTA的结果。该方法不仅在理论上有深入的分析,在实践应用中也显示出良好的效果和广泛适用性,值得学习和借鉴。因此给予较高的推荐指数。

—第81篇----

文章名称

Watermarking in Diffusion Model: Gaussian Shading with Exact Diffusion Inversion via Coupled Transformations (EDICT)

🔍 关键词: Watermarking, Diffusion Model, Gaussian Shading, Exact Diffusion Inversion, Coupled Transformations

[http://arxiv.org/pdf/2501.08604v1]

摘要: 本文提出了一种将 Gaussian Shading（一种常见的水印嵌入技术）与 Exact Diffusion Inversion via Coupled Transformations (EDICT) 框架相结合的新方法,以提高水印嵌入的性能。Gaussian Shading 传统上是将水印嵌入到噪声潜在空间,然后通过迭代去噪来生成图像,并通过添加噪声来提取水印。但是,这种反向过程并不精确,可能会导致水印失真。作者提出利用 EDICT 能够得到精确逆映射的能力来改进这个过程。该方法涉及复制带有水印的噪声潜在空间,并在两个潜在空间之间交替使用去噪和加噪的方案,利用 EDICT 来实现。这样可以更精确地重建图像和嵌入的水印。在标准数据集上的实验结果表明,该集成方法在水印提取保真度方面略有改善,这些结果突出了 EDICT 增强现有扩散式水印技术的潜力,为鲁棒和高保真度的水印嵌入和提取研究开辟了新的途径。

总结: 该论文提出了一种新的水印嵌入方法,将Gaussian Shading和EDICT框架相结合,通过EDICT的精确逆映射能力来改善Gaussian Shading的水印提取性能。

###【arXiv编号: 2501.08604】
###【领域: 计算机视觉】

[推荐指数：4]

该文章在现有的Gaussian Shading水印技术基础上,通过与EDICT框架的结合,提出了一种更加精确的水印嵌入和提取方法,取得了显著的改进效果。该方法创新性强,对于提高水印鲁棒性和保真度具有重要意义,值得进一步研究和应用。

—第82篇----

文章名称

🔍 关键词: Image-to-Force Estimation, Soft Tissue Interaction, Robotic-Assisted Surgery, Structured Light

链接

摘要: 对于微创外科机器人(MIS)来说,准确的触觉交互力反馈对于确保与软组织的安全交互至关重要。然而,大多数现有的MIS机器人系统由于空间限制而无法使用硬件传感器直接测量交互力。本论文介绍了一种基于视觉的有效方案,它利用One-Shot结构光投射与训练的图像到力的神经网络进行软组织变形的可视化和力反馈估计。结果验证了所提出方案的有效性。
总结: 本文提出了一种基于结构光和神经网络的方法,通过分析内窥镜立体相机采集的图像重建软组织变形,从而估计交互力。
###【arXiv编号】2501.08593v1
###【领域】机器人辅助手术,医疗机器人

[推荐指数：4]

该方法能通过分析内窥镜图像估计手术过程中软组织与机器人的交互力,为微创手术提供重要的力反馈信息,对提高手术安全性和精确性有重要意义。论文提出的基于PointNet的力估计方法,能较好地表征软组织的复杂力学特性,具有一定的创新性。整体来看,该方法在解决实际医疗机器人应用中的关键问题方面具有较高的实用价值。

—第83篇----

Continuous Concepts Removal in Text-to-image Diffusion Models

🔍 关键词: Text-to-image, Diffusion model, Concept removal

arxiv:2412.00580v2

摘要: 文章提出了一种新的方法CCRT,可以有效地从文本生成的图像中连续移除特定概念,同时保持了模型的高质量生成能力(如文本-图像对齐)。CCRT包括一个设计的知识蒸馏范式,通过使用遗传算法生成的一组文本提示来约束连续概念移除过程中的文本-图像对齐行为。实验结果表明,CCRT可以有效地连续移除目标概念,并通过人工评估和算法度量验证了生成质量的保持。

总结: 文章提出了一种新的CCRT方法,可以有效连续地从文本生成的图像中移除特定概念,同时保持了模型的高质量生成能力。

###【arXiv:2412.00580v2】
###【期刊】
###【领域】计算机视觉, 生成性对抗网络

[推荐指数：4]

该文章提出了一种新的概念移除方法CCRT,在保持模型生成性能的同时,能够有效地连续移除图像中的目标概念。这对于避免文本生成模型产生违法或不当内容具有重要的应用意义。该方法在实验中表现出色,结合人工评估和算法度量,充分验证了其有效性,具有很高的创新性和实用性价值。

—第84篇----

文章名称

Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation

🔍 关键词: Referring Image Segmentation, Parameter-Efficient Tuning, Dense Connection

链接1

摘要: 在计算机视觉领域,参数高效调整(PET)正在逐步取代传统的预训练后全面微调的范式。PET特别适用于大型基础模型,因为它简化了迁移学习成本并优化了硬件利用率。然而,当前的PET方法主要针对单模态优化进行设计。尽管一些先驱性研究进行了初步探索,但它们仍停留在对齐编码器(如CLIP)的级别,缺乏对不对齐编码器的探索。这些方法在使用不对齐编码器时表现不佳,因为它们无法在微调过程中有效地对齐多模态特征。在本文中,我们引入了DETRIS,这是一个基于密集连接的参数高效调优框架,旨在通过在每一层与所有先前层之间建立密集互连来增强低秩视觉特征传播,从而实现有效的跨模态特征交互和适应不对齐编码器。我们还建议使用文本适配器来改善文本特征。我们的简单而高效的方法在具有挑战性的基准上大大超越了最先进的方法,只需要0.9%到1.8%的主干参数更新。我们的项目可在 https://github.com/jiaqihuang01/DETRIS 获取。

总结: 提出了一种基于密集连接的参数高效调优框架DETRIS,通过建立多模态特征交互实现对不对齐编码器的适应,优于当前最先进方法。

###【arXiv编号: 2501.08580】
###【git: https://github.com/jiaqihuang01/DETRIS】
###【领域: 计算机视觉】