【AI视野·今日CV 计算机视觉论文速览第249期】Tue, 19 Sep 202

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 19 Sep 2023 (showing first 100 of 152 entries)
Totally 152 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

GEDepth: Ground Embedding for Monocular Depth Estimation
Authors Xiaodong Yang, Zhuang Ma, Zhiyu Ji, Zhe Ren
单目深度估计是一个不适定问题，因为可以从无限的 3D 场景投影相同的 2D 图像。尽管该领域的领先算法已经报告了显着的改进，但它们本质上是针对图像观察和相机参数（即内在参数和外在参数）的特定组合，强烈限制了它们在现实世界场景中的普遍性。为了应对这一挑战，本文提出了一种新颖的地面嵌入模块，将相机参数与图像线索解耦，从而提高泛化能力。给定相机参数，所提出的模块会生成地面深度，该深度与输入图像叠加并在最终深度预测中引用。该模块中设计了地面注意力机制，以最佳方式结合地面深度和剩余深度。我们的地面嵌入高度灵活且轻量级，从而形成了适合集成到各种深度估计网络中的插件模块。

An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
Authors Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen
视觉指令调优最近在开源大型多模态模型 LMM（例如 LLaVA 和 MiniGPT 4）方面取得了令人鼓舞的进展。然而，大多数开源 LMM 的现有研究都是使用具有 13B 参数或更小的模型进行的。在本文中，我们提出了将 LLaVA 扩展到 33B 和 65B 70B 的实证研究，并分享了我们在图像分辨率、数据混合和参数高效训练方法（例如 LoRA QLoRA）方面的探索结果。

End-to-End Learned Event- and Image-based Visual Odometry
Authors Roberto Pellerito, Marco Cannici, Daniel Gehrig, Joris Belhadj, Olivier Dubois Matra, Massimo Casasco, Davide Scaramuzza
视觉里程计 VO 对于自主机器人导航至关重要，尤其是在行星地形等 GPS 无法使用的环境中。标准 RGB 摄像头在弱光或高速运动中表现不佳，而基于事件的摄像头则提供高动态范围和低延迟。然而，将异步事件数据与同步帧无缝集成仍然具有挑战性。我们推出 RAMP VO，这是第一个基于端到端学习事件和图像的 VO 系统。它利用新颖的循环、异步和大规模并行 RAMP 编码器，速度比现有异步编码器快 8 倍，准确度高 20 倍。 RAMP VO 进一步采用一种新颖的姿态预测技术来预测初始化的未来姿态。

Hierarchical Attention and Graph Neural Networks: Toward Drift-Free Pose Estimation
Authors Kathia Melbouci, Fawzi Nashashibi
用于解决 3D 几何配准问题的最常用方法是迭代最近点算法，这种方法是增量的，并且容易在多个连续帧上发生漂移。解决漂移的常见策略是在帧到帧注册之后进行位姿图优化，结合识别先前访问过的位置的闭环过程。在本文中，我们探索了一种框架，该框架用利用分层注意机制和图神经网络的学习模型来取代传统的几何配准和姿势图优化。我们提出了一种压缩数据流的策略，保留精确估计刚性姿势所需的基本信息。我们的结果源自对 KITTI Odometry 数据集的测试，表明姿态估计精度有了显着提高。与通过位姿图优化通过传统多路配准获得的结果相比，这种改进在确定旋转分量方面尤其显着。

On Model Explanations with Transferable Neural Pathways
Authors Xinmiao Lin, Wentao Bao, Qi Yu, Yu Kong
作为模型解释的神经通路由一组稀疏的神经元组成，它们提供与整个模型相同水平的预测性能。现有方法主要关注准确性和稀疏性，但生成的路径可能提供有限的可解释性，因此无法解释模型行为。在本文中，我们建议神经通路的两个可解释性标准： i 同一类神经通路应主要由类相关神经元组成 ii 每个实例的神经通路稀疏性应最佳确定。为此，我们提出了一个生成类相关的神经通路 GEN CNP 模型，该模型学习从目标模型的特征图预测神经通路。我们建议从深层和浅层的特征中学习类别相关信息，以便同一类别的神经路径表现出高度相似性。我们进一步对 GEN CNP 施加忠实标准，以生成具有实例特定稀疏性的路径。

Unsupervised Open-Vocabulary Object Localization in Videos
Authors Ke Fan, Zechen Bai, Tianjun Xiao, Dominik Zietlow, Max Horn, Zixu Zhao, Carl Johann Simon Gabriel, Mike Zheng Shou, Francesco Locatello, Bernt Schiele, Thomas Brox, Zheng Zhang, Yanwei Fu, Tong He
在本文中，我们展示了视频表示学习和预训练视觉语言模型的最新进展，使得自监督视频对象定位有了实质性的改进。我们提出了一种方法，首先通过槽注意方法定位视频中的对象，然后将文本分配给获得的槽。后者是通过无监督的方式从预先训练的 CLIP 模型中读取本地化语义信息来实现的。

PseudoCal: Towards Initialisation-Free Deep Learning-Based Camera-LiDAR Self-Calibration
Authors Mathieu Cocheteux, Julien Moreau, Franck Davoine
相机 LiDAR 外在校准是自动驾驶车辆和移动机器人等自主系统中多传感器融合的一项关键任务。传统技术通常需要人工干预或特定环境，这使得它们劳动强度大且容易出错。现有的基于深度学习的自校准方法侧重于小调整，并且仍然依赖于初始估计，限制了其实用性。在本文中，我们提出了 PseudoCal，这是一种新颖的自校准方法，它通过利用伪 LiDAR 概念并直接在 3D 空间中工作而不是将其自身限制在相机视场中，从而克服了这些限制。

R2GenGPT: Radiology Report Generation with Frozen LLMs
Authors Zhanyu Wang, Lingqiao Liu, Lei Wang, Luping Zhou
大型语言模型法学硕士在应用于各种语言任务时始终表现出卓越的泛化能力。尽管如此，利用法学硕士的全部潜力来生成放射学报告 R2Gen 仍然面临着挑战，这是由于法学硕士和 R2Gen 任务之间模式上固有的差异所致。为了有效地弥补这一差距，我们提出了 R2GenGPT，这是一种新颖的解决方案，使用高效的视觉对齐模块将视觉特征与法学硕士的词嵌入空间对齐。这种创新方法使以前的静态 LLM 能够无缝集成和处理图像信息，标志着优化 R2Gen 性能的一步。 R2GenGPT 具有以下优点。首先，它通过仅训练轻量级视觉对齐模块同时冻结 LLM 的所有参数来实现最先进的 SOTA 性能。其次，它表现出很高的训练效率，因为它需要训练极少的参数，同时实现快速收敛。通过采用增量调整，我们的模型仅训练 5M 个参数，仅占总参数数的 0.07，即可实现接近 SOTA 水平的性能。

VisualProg Distiller: Learning to Fine-tune Non-differentiable Visual Programming Frameworks
Authors Wentao Wan, Zeqing Wang, Nan Kang, Keze Wang, Zhiyu Shen, Liang Lin
作为一种基于大语言模型的可解释的通用神经符号范式，可视化编程VisualProg无需训练即可执行组合视觉任务，但与特定任务的监督学习模型相比，其性能明显较差。为了增加其实用性，VisualProg 在特定任务上的性能需要提高。然而，VisualProg 的不可微性限制了在特定任务上采用微调策略以实现进一步改进的可能性。在我们的分析中，我们发现 VisualProg 执行中的重大性能问题源于子模块在相应的可视子任务步骤中所犯的错误。为了解决这个问题，我们提出了 VisualProg Distiller ，一种补充和提炼流程知识的方法，以优化每个 VisualProg 子模块在解耦的视觉子任务上的性能，从而提高整体任务性能。具体来说，我们选择一个在给定任务上表现良好的端到端模型作为教师，并根据 VisualProg 生成程序的执行流程，进一步将教师的知识逐步提炼到调用的视觉子模块中。通过这种方式，我们的方法能够有效地促进不可微分 VisualProg 框架的微调。广泛而全面的实验评估表明，我们的方法可以实现 VisualProg 的显着性能改进，并且大幅优于所有比较的最先进方法。

DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving
Authors Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Jiwen Lu
世界模型，尤其是自动驾驶领域的模型，由于其理解驾驶环境的能力而成为趋势并受到广泛关注。已建立的世界模型在生成高质量驾驶视频和安全操纵的驾驶政策方面具有巨大的潜力。然而，相关研究的一个关键局限性在于其主要关注游戏环境或模拟设置，从而缺乏对现实世界驾驶场景的表征。因此，我们推出了 DriveDreamer，这是一个完全源自现实世界驾驶场景的开创性世界模型。鉴于在复杂的驾驶场景中对世界进行建模需要巨大的搜索空间，我们建议利用强大的扩散模型来构建复杂环境的全面表示。此外，我们引入了两阶段训练流程。在初始阶段，DriveDreamer 深入了解结构化交通约束，而后续阶段则使其具备预测未来状态的能力。拟议的 DriveDreamer 是第一个根据现实世界驾驶场景建立的世界模型。我们在具有挑战性的 nuScenes 基准上实例化 DriveDreamer，并进行大量实验验证 DriveDreamer 能够生成精确、可控的视频，忠实地捕捉现实世界交通场景的结构约束。

Semantically Redundant Training Data Removal and Deep Model Classification Performance: A Study with Chest X-rays
Authors Sivaramakrishnan Rajaraman, Ghada Zamzmi, Feng Yang, Zhaohui Liang, Zhiyun Xue, Sameer Antani
深度学习 DL 已经展示了其从复杂多维数据中独立学习层次特征的天生能力。一个普遍的理解是，它的性能随着训练数据量的增加而提高。另一个数据属性是固有的多样性。因此，语义冗余（即相似或重复信息的存在）往往会降低性能并限制对未见数据的概括性。在医学成像数据中，由于存在对感兴趣的疾病具有高度相似的呈现的多个图像，可能会出现语义冗余。此外，当应用于语义冗余数据时，普遍使用增强方法来生成深度学习训练的多样性可能会限制性能。我们提出了一种基于熵的样本评分方法来识别和删除语义冗余的训练数据。我们使用公开的 NIH 胸部 X 射线数据集证明，在内部召回率 0.7164 vs 0.6597、p < 0.05 和外部测试召回率 0.3185 vs 期间，基于训练数据的信息子集训练的模型显着优于在完整训练集上训练的模型。 0.2589，p 0.05。

Localization-Guided Track: A Deep Association Multi-Object Tracking Framework Based on Localization Confidence of Detections
Authors Ting Meng, Chunyun Fu, Mingguang Huang, Xiyang Wang, Jiawei He, Tao Huang, Wankai Shi
在当前可用的文献中，没有基于检测TBD范式的跟踪方法考虑检测框的定位置信度。在大多数基于 TBD 的方法中，认为低检测置信度的对象被高度遮挡，因此直接忽略此类对象或降低其匹配优先级是正常做法。此外，外观相似性不是匹配这些对象时需要考虑的因素。然而，就融合分类和定位的检测置信度而言，检测置信度低的对象可能定位不准确但外观清晰，类似地，检测置信度高的对象可能定位不准确或外观不清楚但这些对象没有被进一步分类。针对这些问题，我们提出本地化Guided Track LG Track。首先，首次将定位置信度应用于MOT，考虑到检测框的外观清晰度和定位精度，并设计了有效的深度关联机制；其次，基于分类置信度和定位置信度，设计出更合适的成本矩阵最终可以选择并使用，在MOT17和MOT20数据集上进行了大量的实验。结果表明，我们提出的方法优于最先进的跟踪方法。

Application-driven Validation of Posteriors in Inverse Problems
Authors Tim J. Adler, Jan Hinrich N lke, Annika Reinke, Minu Dietlinde Tizabi, Sebastian Gruber, Dasha Trofimova, Lynton Ardizzone, Paul F. Jaeger, Florian Buettner, Ullrich K the, Lena Maier Hein
当前基于深度学习的图像分析任务解决方案通常无法处理存在多种不同合理解决方案的问题。作为回应，基于后验的方法（例如条件扩散模型和可逆神经网络）已经出现，然而，由于缺乏充分验证的研究，它们的翻译受到阻碍。换句话说，衡量进度的方式往往不能反映驱动实际应用的需要。为了弥补文献中的这一空白，我们提出了第一个系统框架，用于反问题中基于后验的方法的应用驱动验证。作为一种方法论上的新颖性，它采用了对象检测验证领域的关键原理，该领域在解决如何定位和匹配图像中的多个对象实例的问题方面有着悠久的历史。将模式视为实例使我们能够执行以模式为中心的验证，从应用程序的角度使用可解释的指标。我们通过合成玩具示例的实例化和两个医学视觉用例在手术中的估计和基于成像的功能组织参数量化以进行诊断来证明我们的框架的价值。

Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object Detection with Repeated Labels
Authors David Tschirschwitz, Christian Benz, Morris Florek, Henrik Norderhus, Benno Stein, Volker Rodehorst
监督机器学习系统的可靠性取决于地面真实标签的准确性和可用性。然而，人工注释的过程容易出错，可能会引入噪声标签，这可能会阻碍这些系统的实用性。虽然使用噪声标签进行训练是一个重要的考虑因素，但测试数据的可靠性对于确定结果的可靠性也至关重要。解决此问题的常见方法是重复标记，其中多个注释者标记同一示例，并将它们的标签组合起来以提供对真实标签的更好估计。在本文中，我们提出了一种新颖的定位算法，该算法采用成熟的地面实况估计方法来进行对象检测和实例分割任务。我们方法的关键创新在于它能够将组合的定位和分类任务转化为仅分类问题，从而能够应用期望最大化 EM 或多数投票 MJV 等技术。尽管我们的主要重点是测试数据的独特地面事实的聚合，但我们的算法在 TexBiG 数据集上的训练过程中也表现出了卓越的性能，超越了噪声标签训练和使用加权框融合 WBF 的标签聚合。我们的实验表明，在特定的数据集和注释配置下，重复标签的好处显现出来。

Improving Neural Indoor Surface Reconstruction with Mask-Guided Adaptive Consistency Constraints
Authors Xinyi Yu, Liqin Lu, Jintao Rong, Guangkai Xu, Linlin Ou
从 2D 图像重建 3D 场景一直是一项长期任务。最近的研究不是估计每帧深度图并将它们融合在 3D 中，而是利用神经隐式表面作为 3D 重建的统一表示。这些方法配备了数据驱动的预先训练的几何线索，表现出了良好的性能。然而，不准确的先验估计通常是不可避免的，可能会导致重建质量不佳，特别是在一些几何复杂的区域。在本文中，我们提出了一个两阶段训练过程，解耦视图相关颜色和视图独立颜色，并利用两个新颖的一致性约束来增强细节重建性能，而不需要额外的先验。此外，我们引入了一种基本的掩模方案来自适应地影响监督约束的选择，从而提高自监督范式的性能。

Moving Object Detection and Tracking with 4D Radar Point Cloud
Authors Zhijun Pan, Fangqiang Ding, Hantao Zhong, Chris Xiaoxuan Lu
移动自主依赖于对动态环境的精确感知。因此，在 3D 世界中鲁棒地跟踪移动对象对于轨迹预测、避障和路径规划等应用发挥着关键作用。虽然当前大多数方法都利用 LiDAR 或摄像机进行多目标跟踪 MOT，但 4D 成像雷达的功能在很大程度上仍未得到探索。认识到雷达噪声和 4D 雷达数据中的点稀疏性带来的挑战，我们推出了 RaTrack，这是一种专为基于雷达的跟踪而定制的创新解决方案。我们的方法绕过了对特定对象类型和 3D 边界框的典型依赖，专注于运动分割和聚类，并通过运动估计模块进行了丰富。

Scribble-based 3D Multiple Abdominal Organ Segmentation via Triple-branch Multi-dilated Network with Pixel- and Class-wise Consistency
Authors Meng Han, Xiangde Luo, Wenjun Liao, Shichuan Zhang, Shaoting Zhang, Guotai Wang
腹部CT图像中的多器官分割对于腹部病变的诊断和后续治疗计划具有重要意义。尽管基于深度学习的方法已经获得了高性能，但它们严重依赖于大规模像素级注释，而获得这些注释非常耗时且费力。由于其对注释的依赖性较低，弱监督分割引起了极大的关注。然而，目前的弱监督方法与全监督学习之间仍然存在较大的性能差距，留有探索的空间。在这项工作中，我们提出了一种新颖的 3D 框架，该框架具有两个一致性约束，用于从 CT 中进行涂鸦监督的多个腹部器官分割。具体来说，我们采用三分支多扩张网络 TDNet，其中一个编码器和三个解码器使用不同的扩张率来捕获来自不同感受野的特征，这些特征彼此互补，以生成高质量的软伪标签。为了更稳定的无监督学习，我们使用体素不确定性来纠正软伪标签，然后监督每个解码器的输出。为了进一步规范网络，通过鼓励生成的类亲和矩阵在多视图投影下的不同解码器之间保持一致来利用类关系信息。

Robust Geometry-Preserving Depth Estimation Using Differentiable Rendering
Authors Chi Zhang, Wei Yin, Gang Yu, Zhibin Wang, Tao Chen, Bin Fu, Joey Tianyi Zhou, Chunhua Shen
在这项研究中，我们解决了从单目深度估计恢复 3D 场景结构的挑战。虽然传统的深度估计方法利用标记数据集直接预测绝对深度，但最近的进展提倡混合数据集训练，从而增强跨不同场景的泛化能力。然而，这种混合数据集训练只能产生未知尺度和位移的深度预测，从而阻碍了准确的 3D 重建。现有解决方案需要额外的 3D 数据集或几何完整深度注释，这些限制限制了其多功能性。在本文中，我们提出了一个学习框架，可以训练模型来预测几何保留深度，而无需额外的数据或注释。为了生成逼真的 3D 结构，我们渲染了重建场景的新颖视图并设计了损失函数，以促进不同视图之间深度估计的一致性。全面的实验强调了我们的框架卓越的泛化能力，在多个基准数据集上超越了现有的最先进方法，而无需利用额外的训练信息。

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation
Authors Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xun
视听视频分割 AVVS 旨在生成图像帧内发声对象的像素级地图，并确保地图忠实地遵循给定的音频，例如识别和分割视频中的唱歌者。然而，现有方法存在两个局限性：1它们分别处理视频时间特征和视听交互特征，忽略了组合音频和视频固有的时空依赖性；2它们在解码阶段没有充分引入音频约束和对象级信息，导致分割结果不符合音频指令。为了解决这些问题，我们提出了一种解耦的音频视频转换器，它将音频和视频特征从各自的时间和空间维度结合起来，捕获它们的组合依赖性。为了优化内存消耗，我们设计了一个块，该块在堆叠时能够以内存有效的方式捕获视听细粒度组合依赖性。此外，我们在解码阶段引入了音频约束查询。这些查询包含丰富的对象级信息，确保解码后的掩码符合声音。实验结果证实了我们方法的有效性，我们的框架使用两个骨干网在所有三个数据集上实现了新的 SOTA 性能。

Ugly Ducklings or Swans: A Tiered Quadruplet Network with Patient-Specific Mining for Improved Skin Lesion Classification
Authors Nathasha Naranpanawa, H. Peter Soyer, Adam Mothershaw, Gayan K. Kulatilleke, Zongyuan Ge, Brigid Betz Stablein, Shekhar S. Chandra
丑小鸭是与个体周围病变明显不同的皮肤病变，丑小鸭征是通过区分高度可疑和良性病变来帮助诊断皮肤黑色素瘤的标准。然而，色素病变的外观可能因一名患者而异，导致另一名患者的视觉分离困难。因此，我们提出 DMT Quadruplet 是一种深度度量学习网络，用于学习患者级别和病变级别两层的病变特征。我们引入了患者特定的四联体挖掘方法以及分层四联体网络，以驱动网络在两层之间全局和本地学习更多上下文信息。我们进一步在患者特定挖掘中纳入动态余量，以允许在个体中挖掘更有用的四联体。综合实验表明，我们提出的方法优于传统分类器，在丑小鸭病变分类方面的灵敏度比基线 ResNet18 CNN 高 54，比朴素三元组网络高 37。

Conditioning Latent-Space Clusters for Real-World Anomaly Classification
Authors Daniel Bogdoll, Svetlana Pavlitska, Simon Klaus, J. Marius Z llner
自动驾驶领域的异常现象是自动驾驶汽车大规模部署的主要障碍。在这项工作中，我们专注于来自城市场景的高分辨率摄像机数据，其中包括各种类型和大小的异常现象。基于变分自动编码器，我们调节其潜在空间以将样本分类为正常数据或异常数据。为了强调特别小的异常，我们进行了实验，为 VAE 提供差异图作为附加输入，评估其对检测性能的影响。

DGM-DR: Domain Generalization with Mutual Information Regularized Diabetic Retinopathy Classification
Authors Aleksandr Matsun, Dana O. Mohamed, Sharon Chokuwa, Muhammad Ridzuan, Mohammad Yaqub
训练和测试数据之间的领域转换对训练可推广的深度学习模型提出了重大挑战。因此，在现实世界中部署时，使用独立同分布独立同分布假设训练的模型的性能会恶化。由于临床中心、医疗设备和患者之间数据采集的差异，这个问题在医学成像环境中更加严重。领域泛化 DG 旨在通过学习一个能够很好地泛化到任何未见过的目标领域的模型来解决这个问题。由于较大的域偏移，许多域泛化技术在学习域不变表示方面并不成功。此外，从 DG 的角度来看，现有文献中尚未广泛研究医学成像中的多个任务。在本文中，我们向医学成像领域介绍了一种DG方法，该方法将模型目标函数重新建立为具有大型预训练模型的互信息最大化。我们重新审视糖尿病视网膜病变 DR 分类中的 DG 问题，以通过正确的模型选择策略建立明确的基准，并实现稳健的域不变表示以改进泛化。此外，我们对公共数据集进行了广泛的实验，以表明我们提出的方法在平均准确率和较低的标准偏差方面始终优于之前的最先进技术，高出 5.25。

DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation
Authors Bowen Yin, Xuying Zhang, Zhongyu Li, Li Liu, Ming Ming Cheng, Qibin Hou
我们提出了 DFormer，一种新颖的 RGB D 预训练框架，用于学习 RGB D 分割任务的可转移表示。 DFormer 有两项新的关键创新 1 与之前旨在编码 RGB 特征的作品不同，DFormer 包含一系列 RGB D 块，这些块是为通过新颖的构建块设计编码 RGB 和深度信息而量身定制的 2 我们使用图像预训练主干来自 ImageNet 1K 的深度对，因此 DFormer 具有编码 RGB D 表示的能力。它避免了 RGB 预训练主干对深度图中 3D 几何关系的不匹配编码，该问题广泛存在于现有方法中但尚未解决。我们使用轻量级解码器头对两个流行的 RGB D 任务（即 RGB D 语义分割和 RGB D 显着对象检测）上预训练的 DFormer 进行微调。实验结果表明，我们的 DFormer 在这两项任务上实现了最先进的性能，在两个 RGB D 分割数据集和五个 RGB D 显着性数据集上，其计算成本不到当前最佳方法的一半。

Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation
Authors Huan Liu, Zichang Tan, Qiang Chen, Yunchao Wei, Yao Zhao, Jingdong Wang
由于人脸伪造和文本错误信息的广泛传播，检测和基础多模式媒体操纵 DGM 4 变得越来越重要。在本文中，我们提出了统一频率辅助变压器框架（名为 UFAFormer）来解决 DGM 4 问题。与之前仅关注图像 RGB 域来描述视觉伪造特征的最先进方法不同，我们另外引入了频域作为补充观点。通过利用离散小波变换，我们将图像分解为几个频率子带，捕获丰富的人脸伪造伪影。然后，我们提出的频率编码器结合了带内和带间自注意力，明确地聚合了不同子带内和跨子带的伪造特征。此外，为了解决图像和频域之间的语义冲突，开发了伪造感知交互模块，以进一步实现不同图像和频率特征的有效交互，从而产生对齐和全面的视觉伪造表示。最后，基于视觉和文本伪造特征，我们提出了一个统一的解码器，包括两个对称的跨模态交互模块，负责收集模态特定的伪造信息，以及一个用于聚合两种模态的融合交互模块。所提出的统一解码器将我们的 UFAFormer 制定为统一框架，最终简化了整体架构并促进了优化过程。

HiT: Building Mapping with Hierarchical Transformers
Authors Mingming Zhang, Qingjie Liu, Yunhong Wang
近年来，基于深度学习的方法已被广泛探索用于从高分辨率遥感图像自动构建地图。虽然大多数建筑测绘模型为地理和测绘系统生成建筑物的矢量多边形，但主流方法通常在一些子问题中分解多边形建筑提取，包括分割、多边形化和正则化，导致推理过程复杂、精度低和泛化性差。在本文中，我们提出了一种简单而新颖的分层变换器建筑测绘方法，称为 HiT，提高了高分辨率遥感图像的多边形建筑测绘质量。 HiT 通过添加与分类和边界框回归头平行的多边形头，建立在两级检测架构的基础上。 HiT 同时输出构建边界框和矢量多边形，这是完全端到端可训练的。多边形头将建筑物多边形制定为具有双向特性的序列化顶点，这是一种简单而优雅的多边形表示，避免了起始或结束顶点假设。在这个新的视角下，多边形头采用变压器编码器解码器架构来预测由设计的双向多边形损失监督的序列化顶点。此外，在多边形头的编码器中引入了与卷积运算相结合的分层注意机制，提供了在顶点和边缘级别构建多边形的更多几何结构。对 CrowdAI 和 Inria 数据集两个基准的综合实验表明，与最先进的方法相比，我们的方法在实例分割和多边形度量方面达到了新的最先进水平。

Designing a Hybrid Neural System to Learn Real-world Crack Segmentation from Fractal-based Simulation
Authors Achref Jaziri, Martin Mundt, Andres Fernandez Rodriguez, Visvanathan Ramesh
裂缝识别对于评估混凝土基础设施的结构完整性至关重要。然而，由于混凝土表面的外观多样、光照和天气条件变化以及不同缺陷的重叠，稳健的裂缝分割对于计算机视觉系统来说仍然是一项具有挑战性的任务。特别是最近的数据驱动方法与数据的有限可用性、裂纹注释的细粒度和耗时的性质作斗争，并且在推广到分布外样本时面临随后的困难。在这项工作中，我们以两种方式克服这些挑战。我们引入了基于分形的高保真裂纹图形模拟器和相应的完全注释的裂纹数据集。然后，我们用一个系统来补充后者，该系统通过利用点互信息估计和自适应实例归一化作为归纳偏差，从模拟中学习可概括的表示。

Holistic Geometric Feature Learning for Structured Reconstruction
Authors Ziqiong Lu, Linxi Huan, Qiyuan Ma, Xianwei Zheng
拓扑原理的推理是结构化重构中的关键问题。我们观察到，错误预测的拓扑关系通常是由于低级特征中缺乏整体几何线索而引起的。受频率分析可以简洁描述海量信号这一事实的启发，我们通过实验探索了频域中学习结构几何的效率和趋势。因此，我们提出了一种频域特征学习策略 F Learn 来整体融合分散的几何片段，以进行拓扑完整结构推理。受益于简约的设计，F Learn 策略可以通过轻量级模型修改轻松部署到深度重构器中。实验表明，F Learn策略可以有效地将结构感知引入到几何基元检测和拓扑推理中，为最终的结构化重建带来显着的性能提升。

Gradpaint: Gradient-Guided Inpainting with Diffusion Models
Authors Asya Grechka, Guillaume Couairon, Matthieu Cord
去噪扩散概率模型 DDPM 最近在条件和无条件图像生成方面取得了显着的成果。通过在推理时指导其迭代去噪过程以满足额外的约束，预训练的模型无需进一步训练即可适应不同的下游任务。对于图像修复的特定任务，当前的引导机制依赖于在每个去噪步骤中从输入图像中复制和粘贴已知区域。

Collaborative Three-Stream Transformers for Video Captioning
Authors Hao Wang, Libo Zhang, Heng Fan, Tiejian Luo
作为句子中最关键的组成部分，主语、谓语和宾语在视频字幕任务中需要特别注意。为了实现这个想法，我们设计了一个新颖的框架，名为 COllaborative Three Stream Transformers COST ，分别对这三个部分进行建模并相互补充以获得更好的表示。具体来说，COST由变压器的三个分支组成，以利用视频和文本、检测到的对象和文本以及动作和文本之间的时空域不同粒度的视觉语言交互。同时，我们提出了一个跨粒度注意模块来对齐由变压器的三个分支建模的交互，然后变压器的三个分支可以相互支持，利用不同粒度的最具辨别力的语义信息来准确预测字幕。整个模型以端到端的方式进行训练。

MEDL-U: Uncertainty-aware 3D Automatic Annotator based on Evidential Deep Learning
Authors Helbert Paat, Qing Lian, Weilong Yao, Tong Zhang
基于深度学习的 3D 对象检测的进步需要大规模数据集的可用性。然而，这一要求带来了手动注释的挑战，这通常既繁重又耗时。为了解决这个问题，文献中出现了几种用于 3D 对象检测的弱监督框架，它们可以自动为未标记的数据生成伪标签。然而，这些生成的伪标签包含噪声，并且不如人类标记的准确。在本文中，我们提出了第一种方法，通过引入基于证据深度学习 EDL 的不确定性估计框架来解决伪标签中存在的固有模糊性。具体来说，我们提出了 MEDL U，一种基于 MTrans 的 EDL 框架，它不仅生成伪标签，而且还量化相关的不确定性。然而，将 EDL 应用于 3D 对象检测面临三个主要挑战：1 与其他自动标记器相比，伪标签质量相对较低；2 证据不确定性估计过高；3 下游任务缺乏明确的可解释性和不确定性的有效利用。我们通过引入基于不确定性的 IoU 损失、证据感知的多任务损失函数以及实施不确定性细化的后处理阶段来解决这些问题。我们的实验结果表明，使用 MEDL U 的输出训练的概率检测器优于使用先前 3D 注释器在所有难度级别的 KITTI val 集上的输出训练的确定性检测器。

Mutual Information-calibrated Conformal Feature Fusion for Uncertainty-Aware Multimodal 3D Object Detection at the Edge
Authors Alex C. Stutts, Danilo Erricolo, Sathya Ravi, Theja Tulabandhula, Amit Ranjan Trivedi
在人工智能机器人技术不断扩展的领域中，预测不确定性的稳健量化非常重要。三维 3D 物体检测是一项关键的机器人操作，已经取得了显着的进步，然而，当前的大多数工作仅关注准确性而忽略了不确定性量化。为了解决这一差距，我们的新研究将共形推理 CI 的原理与信息论测量相结合，在多模态框架内执行轻量级、无蒙特卡罗的不确定性估计。通过变分自编码器 VAE 中潜在变量的多元高斯积，融合 RGB 相机和 LiDAR 传感器数据的特征，以提高预测精度。归一化互信息 NMI 被用作调制器，用于校准基于加权损失函数从 CI 导出的不确定性界限。我们的模拟结果显示，在整个模型训练过程中，固有预测不确定性与 NMI 之间存在负相关。

Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based Action Recognition
Authors Ming Zhe Li, Zhen Jia, Zhang Zhang, Zhanyu Ma, Liang Wang
基于广义零镜头骨架的动作识别 GZSSAR 是计算机视觉领域的一个新的挑战性问题，它要求模型在没有任何训练样本的情况下识别动作。以前的研究仅利用动词短语的动作标签作为语义原型来学习从基于骨架的动作到共享语义空间的映射。然而，动作标签的有限语义信息限制了骨架特征识别未见过的动作的泛化能力。为了解决这个困境，我们提出了一种多语义融合MSF模型来提高GZSSAR的性能，其中收集两种类级别的文本描述，即动作描述和运动描述，作为辅助语义信息，以提高GZSSAR的学习效率可概括的骨架特征。特别地，预训练的语言编码器将动作描述、运动描述和原始类标签作为输入，以获得每个动作类的丰富语义特征，同时实现骨架编码器来提取骨架特征。然后，执行基于变分自动编码器 VAE 的生成模块来学习骨架和语义特征之间的跨模态对齐。最后，构建分类模块来识别输入样本的动作类别，其中采用可见的未见分类门来预测样本是否来自GZSSAR中的可见动作类。

An Autonomous Vision-Based Algorithm for Interplanetary Navigation
Authors Eleonora Andreis, Paolo Panicucci, Francesco Topputo
深空探测器的激增使得使用标准辐射跟踪对其进行导航变得不可持续。自动驾驶行星际卫星代表了这个问题的解决方案。在这项工作中，通过将轨道确定方法与适合自主平台的星际传输的图像处理管道相结合，构建了基于全视觉的导航算法。为了提高算法的计算效率，选择无维扩展卡尔曼滤波器作为状态估计器，由从深空图像提取的行星位置提供反馈。通过应用最佳策略来选择要跟踪的最佳行星对来提高估计精度。此外，还开发了一种用于深空导航的新型分析测量模型，提供光像差和光时间效应的一阶近似。

Heterogeneous Generative Knowledge Distillation with Masked Image Modeling
Authors Ziming Wang, Shumin Han, Xiaodi Wang, Jing Hao, Xianbin Cao, Baochang Zhang
基于 CNN 的小型模型通常需要从大型模型转移知识，然后才能将其部署到计算资源有限的边缘设备中。蒙版图像建模 MIM 方法在各种视觉任务中取得了巨大成功，但在异构深度模型的知识蒸馏方面仍未得到充分探索。原因主要是由于基于 Transformer 的大模型和基于 CNN 的小网络之间存在显着差异。在本文中，我们开发了第一个基于 MIM 的异构生成知识蒸馏 H GKD，它可以以生成自监督的方式有效地将知识从大型 Transformer 模型转移到基于 CNN 的小型模型。我们的方法通过使用稀疏卷积训练 UNet 风格的学生，在基于 Transformer 的模型和 CNN 之间架起了一座桥梁，它可以有效地模仿老师通过蒙版建模推断出的视觉表示。我们的方法是一种简单而有效的学习范例，用于从异构教师模型中学习数据的视觉表示和分布，可以使用高级生成方法进行预训练。大量的实验表明，它能够很好地适应各种模型和尺寸，在图像分类、对象检测和语义分割任务中始终如一地实现最先进的性能。

RIDE: Self-Supervised Learning of Rotation-Equivariant Keypoint Detection and Invariant Description for Endoscopy
Authors Mert Asim Karaoglu, Viktoria Markova, Nassir Navab, Benjamin Busam, Alexander Ladikos
与自然图像不同，在内窥镜检查中，没有明确的相机方向的概念。因此，内窥镜视频通常包含较大的旋转运动，这需要关键点检测和描述算法对这些条件具有鲁棒性。虽然大多数经典方法通过设计实现旋转等变检测和不变描述，但许多基于学习的方法仅在一定程度上学习到鲁棒性。同时，适度轮换下基于学习的方法通常优于经典方法。为了解决这个缺点，在本文中，我们提出了 RIDE，一种基于学习的旋转等变检测和不变描述方法。随着群体等变学习的最新进展，RIDE 在其架构中隐式地对旋转等变进行建模。 RIDE 以自我监督的方式对大量内窥镜图像进行训练，无需手动标记训练数据。我们在 SuPeR 数据集的手术组织跟踪背景下以及在 SCARED 数据集的重新调整版本的相对姿态估计背景下测试 RIDE。此外，我们进行了明确的研究，表明其对大旋转的鲁棒性。

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis
Authors Tianyi Song 1 , Jiuxin Cao 1 , Kun Wang 1 , Bo Liu 1 , Xiaofeng Zhang 2 1 Southeast University 2 Shanghai Jiao Tong University
扩散模型出色的文本到图像合成能力推动了合成连贯视觉故事的进步。当前最先进的方法结合了历史字幕、历史帧和当前字幕的特征作为生成当前帧的条件。然而，这种方法将每个历史框架和标题视为相同的贡献。它将它们按顺序以相等的权重连接起来，忽略了并非所有历史条件都与当前帧的生成相关。为了解决这个问题，我们提出了因果故事。该模型结合了局部因果注意机制，该机制考虑先前字幕、帧和当前字幕之间的因果关系。通过根据这种关系分配权重，因果故事生成当前框架，从而提高故事生成的全局一致性。我们在 PororoSV 和 FlintstonesSV 数据集上评估了我们的模型，并获得了最先进的 FID 分数，生成的帧也展示了更好的视觉效果。

Selective Volume Mixup for Video Action Recognition
Authors Yi Tan, Zhaofan Qiu, Yanbin Hao, Ting Yao, Xiangnan He, Tao Mei
卷积神经网络 CNN 和 Vision Transformer 的最新进展令人信服地证明了在大型数据集上进行视频动作识别的高学习能力。然而，深度模型经常会受到训练视频数量有限的小规模数据集的过度拟合影响。一种常见的解决方案是单独针对每一帧利用现有的图像增强策略，包括 Mixup、Cutmix 和 RandAugment，这些策略并未针对视频数据进行特别优化。在本文中，我们提出了一种名为 Selective Volume Mixup SV Mix 的新型视频增强策略，以提高有限训练视频的深度模型的泛化能力。 SV Mix 设计了一个可学习的选择性模块，用于从两个视频中选择信息量最大的卷，并将这些卷混合起来以获得新的训练视频。从技术上讲，我们提出了两个新模块，即空间选择模块，用于为每个空间位置选择局部补丁，以及时间选择模块，用于混合每个时间戳的整个帧并保持空间模式。每次，我们随机选择两个模块之一来扩大训练样本的多样性。选择性模块与视频动作识别框架联合优化，以找到最佳的增强策略。

Decompose Semantic Shifts for Composed Image Retrieval
Authors Xingyu Yang, Daqing Liu, Heng Zhang, Yong Luo, Chaoyue Wang, Jing Zhang
组合图像检索是一种图像检索任务，其中用户提供参考图像作为起点，并指定有关如何从起点转移到所需目标图像的文本。然而，大多数现有方法侧重于文本和参考图像的组成学习，并将文本过度简化为描述，忽略了文本的内在结构和用户的转变意图。因此，这些方法通常会采取捷径，忽略参考图像的视觉提示。为了解决这个问题，我们重新将文本视为指令，并提出了一种语义转换网络 SSN，它将语义转换明确地分解为从参考图像到视觉原型和从视觉原型到目标图像的两个步骤。具体来说，SSN 显式地将指令分解为降级和升级两个组件，其中降级用于从参考图像中描绘视觉原型，而升级用于将视觉原型丰富为最终表示以检索所需的目标图像。实验结果表明，所提出的 SSN 在 CIRR 和 FashionIQ 数据集上分别表现出 5.42 和 1.37 的显着改进，并建立了新的最先进性能。

DFIL: Deepfake Incremental Learning by Exploiting Domain-invariant Forgery Clues
Authors Kun Pan, Yin Yifang, Yao Wei, Feng Lin, Zhongjie Ba, Zhenguang Liu, ZhiBo Wang, Lorenzo Cavallaro, Kui Ren
Deepfake 的恶意使用和广泛传播造成了严重的信任危机。当前的深度伪造检测模型通常可以通过在大型数据集上进行训练来识别伪造图像。然而，由于数据分布的差异，新的 Deepfake 方法生成的图像的检测模型的准确性显着下降。为了解决这个问题，我们提出了一种新颖的增量学习框架，该框架通过从少量新样本中持续学习来提高深度伪造检测模型的泛化能力。为了应对不同的数据分布，我们建议学习基于监督对比学习的域不变表示，防止对不足的新数据的过度拟合。为了减轻灾难性遗忘，我们基于多视角知识蒸馏方法在特征级别和标签级别规范我们的模型。最后，我们建议选择中心样本和硬代表样本来更新重播集，这有利于领域不变表示学习和基于演练的知识保存。我们对四个基准数据集进行了广泛的实验，在 FF、DFDC P、DFD 和 CDF2 上获得了 7.01 的最新平均遗忘率和 85.49 的平均准确度。

NOMAD: A Natural, Occluded, Multi-scale Aerial Dataset, for Emergency Response Scenarios
Authors Arturo Miguel Russell Bernal, Walter Scheirer, Jane Cleland Huang
随着搜索和救援等紧急响应场景越来越依赖小型无人机系统，计算机视觉功能的集成已成为任务成功的关键因素。然而，当从地面视图转换到空中视图时，检测人类的计算机视觉性能会严重下降。为了缓解这个问题，已经创建了多个航空数据集，但是，它们都没有具体解决遮挡问题，而遮挡问题是紧急响应场景中的一个关键组成部分。自然遮挡多尺度航空数据集 NOMAD 提供了遮挡鸟瞰图下人体检测的基准，具有五种不同的空中距离和丰富的图像方差。 NOMAD 由 100 名不同的演员组成，他们都表演行走、躺卧和隐藏的序列。它包括从 5.4k 分辨率视频中提取的 42,825 帧，并使用边界框和描述 10 个不同可见性级别的标签进行手动注释，根据边界框内可见的人体百分比进行分类。这使得可以评估计算机视觉模型在不同遮挡范围内的检测性能。

Sparse and Privacy-enhanced Representation for Human Pose Estimation
Authors Ting Ying Lin, Lin Yung Hsieh, Fu En Wang, Wen Shen Wuen, Min Sun
我们为人体姿势估计 HPE 提出了一种稀疏且隐私增强的表示。给定透视相机，我们使用专有的运动矢量传感器 MVS 在每个时间帧提取边缘图像和两个方向运动矢量图像。边缘和运动矢量图像都是稀疏的，并且包含的信息少得多，即增强了人类隐私。我们主张边缘信息对于HPE至关重要，运动矢量在快速运动时补充边缘信息。我们提出了一种融合网络，利用通常用于 3D 体素的稀疏卷积的最新进展来有效地处理我们提出的稀疏表示，从而实现约 13 倍的加速和 96 次的 FLOP 减少。我们使用专有的 MVS 收集了 40 个用户的内部边缘和运动矢量数据集，其中包含 16 种类型的操作。我们的方法优于仅使用边缘或运动矢量图像的单独模式。

PanoMixSwap Panorama Mixing via Structural Swapping for Indoor Scene Understanding
Authors Yu Cheng Hsieh, Cheng Sun, Suraj Dengale, Min Sun
训练数据的数量和多样性对于基于深度学习的现代方法至关重要。与大量有标签的透视图像相比，360°全景图像在数量和多样性上都存在不足。在本文中，我们提出了 PanoMixSwap，这是一种专为室内全景图像设计的新型数据增强技术。 PanoMixSwap 显式地混合现有室内全景数据集中的各种背景样式、前景家具和房间布局，并生成一组多样化的新全景图像以丰富数据集。我们首先将每个全景图像分解为其组成部分背景风格、前景家具和房间布局。然后，我们通过混合来自三幅不同图像的这三个部分来生成增强图像，例如一幅图像的前景家具、另一幅图像的背景风格以及第三幅图像的房间结构。我们的方法产生了很高的多样性，因为图像组合呈立方体增加。我们还评估了 PanoMixSwap 在语义分割和布局估计两个室内场景理解任务上的有效性。

Learning Parallax for Stereo Event-based Motion Deblurring
Authors Mingyuan Lin, Chi Zhang, Chu He, Lei Yu
由于延迟极低，最近已利用事件来补充运动去模糊丢失的信息。现有的方法在很大程度上依赖于强度图像和事件之间的完美像素对齐，这在现实世界中并不总是能实现。为了解决这个问题，我们提出了一种新颖的从粗到细的框架，名为基于事件的运动去模糊网络 Stereo 事件和强度相机 St EDNet，直接从未对齐的输入中恢复高质量图像，由单个模糊图像和并发图像组成。事件流。具体来说，首先使用跨模态立体匹配模块实现模糊图像和事件流的粗略空间对齐，而不需要地面真实深度。然后，提出了一种双特征嵌入架构，以逐步建立粗略对齐数据的精细双向关联并重建潜在清晰图像的序列。此外，我们使用 STereo 事件和强度相机 StEIC 构建了一个新的数据集，其中包含现实世界事件、强度图像和密集视差图。

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models
Authors Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
图形布局生成是一个不断发展的研究领域，在用户参与和信息感知中发挥着重要作用。现有方法主要将布局生成视为数值优化任务，注重定量方面，而忽略布局的语义信息，例如每个布局元素之间的关系。在本文中，我们提出了 LayoutNUWA，这是第一个将布局生成视为代码生成任务的模型，以增强语义信息并利用大型语言模型 LLM 的隐藏布局专业知识。更具体地说，我们开发了一种代码指令调整 CIT 方法，包括三个互连的模块 1 代码初始化 CI 模块量化数值条件并将其初始化为具有策略性放置掩码的 HTML 代码 2 代码完成 CC 模块利用 LLM 的格式化知识来填充HTML 代码中的屏蔽部分 3 代码渲染 CR 模块将完整的代码转换为最终的布局输出，确保高度可解释和透明的布局生成过程，将代码直接映射到可视化布局。我们在多个数据集上实现了 50 多项改进，取得了显着的最先进性能，展示了 LayoutNUWA 的强大功能。

RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering Supervision
Authors Mingjie Pan, Jiaming Liu, Renrui Zhang, Peixiang Huang, Xiaoqi Li, Li Liu, Shanghang Zhang
3D 占用预测在机器人感知和自动驾驶领域具有重大前景，它将 3D 场景量化为带有语义标签的网格单元。最近的工作主要利用 3D 体素空间中的完整占用标签进行监督。然而，昂贵的注释过程和有时不明确的标签严重限制了 3D 占用模型的可用性和可扩展性。为了解决这个问题，我们提出了 RenderOcc，这是一种仅使用 2D 标签训练 3D 占用模型的新颖范例。具体来说，我们从多视图图像中提取 NeRF 风格的 3D 体积表示，并采用体积渲染技术来建立 2D 渲染，从而实现从 2D 语义和深度标签的直接 3D 监督。此外，我们引入了辅助射线方法来解决自动驾驶场景中的稀疏视点问题，该方法利用连续帧为每个对象构建全面的 2D 渲染。据我们所知，RenderOcc 是首次尝试仅使用 2D 标签训练多视图 3D 占用模型，从而减少对昂贵的 3D 占用注释的依赖。

Discovering Sounding Objects by Audio Queries for Audio Visual Segmentation
Authors Shaofei Huang, Han Li, Yuqing Wang, Hongji Zhu, Jiao Dai, Jizhong Han, Wenge Rong, Si Liu
视听分割 AVS 旨在对给定视频的每一帧的发声对象进行分割。为了区分有声物体和无声物体，需要音频视觉语义对应和时间交互。先前的方法应用多帧跨模态注意来同时进行多个帧的音频特征和视觉特征之间的像素级交互，这既是冗余的又是隐式的。在本文中，我们提出了一种音频查询转换器架构 AQFormer，其中我们定义了一组以音频信息为条件的对象查询，并将它们中的每个查询与特定的发声对象相关联。通过使用预定义的音频查询从视觉特征收集对象信息，建立音频和视觉模态之间的显式对象级语义对应关系。此外，提出了音频桥接时间交互模块，通过音频特征的桥梁在多个帧之间交换发声对象相关信息。

CLIP-based Synergistic Knowledge Transfer for Text-based Person Retrieval
Authors Yating liu, Yaowei Li, Zimo Liu, Wenming Yang, Yaowei Wang, Qingmin Liao
基于文本的人物检索旨在检索给定文本查询的目标人物图像。主要挑战在于弥合视觉和语言模式之间的巨大差距，特别是在处理有限的大规模数据集时。在本文中，我们介绍了一种基于 CLIP 的 TBPR 协同知识转移 CSKT 方法。具体来说，为了探索CLIP在输入方面的知识，我们首先提出了一个由文本到图像和图像到文本双向提示和耦合投影构建的双向提示传输BPT模块。其次，双适配器传输 DAT 旨在传输多头自注意力 MHSA 输出侧的视觉和语言知识。这种协同的双向协作机制促进了早期特征融合并有效地利用了 CLIP 的现有知识。

Target-aware Bi-Transformer for Few-shot Segmentation
Authors Xianglin Wang, Xiaoliu Luo, Taiping Zhang
传统的语义分割任务需要大量标签，并且难以识别未学习的类别。 Few shot语义分割FSS旨在使用有限的标记支持图像来识别新类别对象的分割，这在现实世界中非常实用。以前的研究主要基于原型或相关性。由于同一图像中的颜色、纹理和样式相似，我们认为查询图像可以被视为其自己的支持图像。在本文中，我们提出了目标感知双变换网络 TBTNet，以等效处理支持图像和查询图像。还设计了一个强有力的目标感知变压器层 TTL，以提取相关性并迫使模型专注于前景信息。它将超相关视为一个特征，从而显着减少特征通道的数量。受益于这一特性，我们的模型是迄今为止最轻的，仅 0.4M 可学习参数。此外，与传统方法相比，TBTNet 仅在 10 到 25 个训练周期内收敛。 PASCAL 5i 和 COCO 20i 在标准 FSS 基准测试上的优异性能证明了我们方法的效率。

Distributional Estimation of Data Uncertainty for Surveillance Face Anti-spoofing
Authors Mouxiao Huang
近年来，人脸识别系统越来越容易受到安全威胁，促使人们使用人脸反欺骗FAS来防御各种类型的攻击，例如手机解锁、刷脸支付、自助安检等。虽然 FAS 已在传统环境中证明了其有效性，但在长距离监控场景中确保其安全性提出了重大挑战。这些场景通常具有低质量的人脸图像，需要对数据不确定性进行建模，以提高极端条件下的稳定性。为了解决这个问题，这项工作提出了分布式估计 DisE，一种通过对训练期间的数据不确定性（包括特征均值和不确定性方差）进行建模，将传统的 FAS 点估计转换为分布估计的方法。通过调整干净样本和噪声样本的学习强度以提高稳定性和准确性，学习到的不确定性增强了 DisE 的性能。该方法在 SuHiFiMask 1 上进行评估，SuHiFiMask 1 是监控场景中大规模且具有挑战性的 FAS 数据集。

Spatio-temporal Co-attention Fusion Network for Video Splicing Localization
Authors Man Lin, Gang Cao, Zijie Lou
数字视频拼接已变得简单且无处不在。恶意用户复制视频的某些区域并将其粘贴到另一个视频中以创建逼真的伪造品。盲目检测视频中的此类伪造区域具有重要意义。本文提出了一种时空协同注意力融合网络SCFNet，用于视频拼接定位。具体来说，三流网络用作编码器来捕获跨多个帧的操作轨迹。通过新颖的并行和交叉共同关注融合模块实现了时空取证特征的深度交互和融合。采用轻量级多层感知器 MLP 解码器来生成像素级篡改定位图。创建一个新的大规模视频拼接数据集用于训练 SCFNet。对基准数据集的广泛测试表明，我们的 SCFNet 的本地化和泛化性能优于现有技术。

Stealthy Physical Masked Face Recognition Attack via Adversarial Style Optimization
Authors Huihui Gong, Minjing Dong, Siqi Ma, Seyit Camtepe, Surya Nepal, Chang Xu
过去十年中，深度神经网络 DNN 在人脸识别 FR 任务上取得了最先进的性能。在实际场景中，DNN 的部署需要考虑各种面部配件，如眼镜、帽子和口罩。在COVID-19大流行时期，戴口罩是防御新型冠状病毒最有效的方法之一。然而，众所周知，DNN 很容易受到具有小而复杂的扰动的对抗性示例的影响。因此，具有对抗性扰动的面膜可能对广泛使用的基于深度学习的 FR 模型构成巨大威胁。在本文中，我们考虑针对 FR 模型的具有挑战性的对抗性设置针对性攻击。我们通过对抗风格优化提出了一种新的隐形物理屏蔽 FR 攻击。具体来说，我们训练了一个对抗性风格掩模生成器，它将对抗性扰动隐藏在风格掩模内。此外，为了改善一种固定风格的子优化现象，我们提出通过以连续松弛的方式进行风格优化来发现给定目标的最佳风格。我们同时优化生成器和风格选择，以生成强大且隐秘的对抗风格面具。我们通过广泛的白盒和黑盒数字实验评估了我们提出的方法的有效性和可转移性。

Self-supervised Multi-view Clustering in Computer Vision: A Survey
Authors Jiatai Wang, Zhiwei Xu, Xuewen Yang, Hailong Li, Bo Li, Xuying Meng
近年来，多视图聚类 MVC 对跨模式表示学习和数据驱动决策产生了重大影响。它通过利用多个视图之间的一致性和互补信息将样本聚类到不同的组来实现这一点。然而，随着对比学习在计算机视觉领域的不断发展，自监督学习也取得了实质性的研究进展，并逐渐在 MVC 方法中占据主导地位。它通过设计代理任务来挖掘图像和视频数据本身的表示作为监督信息来指导聚类过程。尽管自监督MVC发展迅速，但目前还没有一个全面的调查来分析和总结研究进展的现状。因此，本文探讨了自监督MVC出现的原因和优势，并讨论了常见数据集、数据问题、表示学习方法和自监督学习方法的内部联系和分类。本文不仅介绍了每一类方法的机制，还给出了一些如何使用这些技术的示例。

Reconstructing Existing Levels through Level Inpainting
Authors Johor Jara Gonzalez, Mathew Guzdial
程序内容生成 PCG 和通过机器学习 PCGML 生成程序内容已在之前的工作中用于生成各种游戏中的关卡。本文介绍了内容增强，并重点关注关卡修复的子问题，其中涉及重建和扩展视频游戏关卡。从图像修复中汲取灵感，我们采用了该领域的两种技术来解决我们的特定用例。我们提出了两种对自动编码器和 U 网进行关卡修复的方法。通过全面的案例研究，我们展示了它们与基线方法相比的优越性能，并讨论了它们的相对优点。

Progressive Text-to-Image Diffusion with Soft Latent Direction
Authors YuTeng Ye, Jiale Cai, Hang Zhou, Guanwen Li, Youjia Zhang, Zikai Song, Chenxing Gao, Junqing Yu, Wei Yang
尽管文本到图像生成的格局正在迅速发展，但在遵守特定关系约束的同时合成和操作多个实体提出了持久的挑战。本文介绍了一种创新的渐进合成和编辑操作，该操作系统地将实体合并到目标图像中，确保它们在每个顺序步骤中遵守空间和关系约束。我们的主要见解源于这样的观察：虽然预先训练的文本到图像扩散模型可以熟练地处理一个或两个实体，但在处理更多实体时，它常常会出现问题。为了解决这一限制，我们建议利用大型语言模型法学硕士的功能将复杂且冗长的文本描述分解为遵守严格格式的连贯指令。为了促进涉及不同语义操作（即插入、编辑和擦除）的指令的执行，我们制定了刺激、响应和融合 SRF 框架。在此框架内，潜在区域会根据每个操作被温和地刺激，然后融合响应性潜在组件以实现有凝聚力的实体操作。我们提出的框架在对象合成方面取得了显着的进步，特别是在面对复杂而冗长的文本输入时。

Reducing Adversarial Training Cost with Gradient Approximation
Authors Huihui Gong, Shuo Yang, Siqi Ma, Seyit Camtepe, Surya Nepal, Chang Xu
深度学习模型在各个领域都取得了最先进的性能，但它们很容易受到精心设计但小扰动的输入的影响，这些扰动以对抗性示例 AE 命名。在提高模型针对 AE 鲁棒性的众多策略中，基于投影梯度下降 PGD 的对抗训练是最有效的方法之一。不幸的是，由于损失函数的最大化，生成足够强的 AE 的计算开销有时会使常规 PGD 对抗训练在使用更大、更复杂的模型时变得不切实际。在本文中，我们提出对抗性损失可以通过泰勒级数的部分和来近似。此外，我们近似了对抗性损失的梯度，并提出了一种新的有效的对抗性训练方法，即梯度近似 GAAT 的对抗性训练，以降低建立鲁棒模型的成本。此外，大量的实验表明，这种效率的提高可以在自然和对抗样本的准确性没有任何损失或几乎没有损失的情况下实现，这表明我们提出的方法在 MNIST、CIFAR 上的模型测试准确性可比的情况下节省了多达 60 倍的训练时间

Object2Scene: Putting Objects in Context for Open-Vocabulary 3D Detection
Authors Chenming Zhu, Wenwei Zhang, Tai Wang, Xihui Liu, Kai Chen
基于点云的开放词汇 3D 对象检测旨在检测训练集中没有地面实况注释的 3D 类别。由于带有类标签或 3D 场景文本描述的数据和注释边界框有限，这是极具挑战性的。以前的方法利用大规模的丰富注释的图像数据集作为 3D 和类别语义之间的桥梁，但需要 2D 图像和 3D 点之间的额外对齐过程，限制了 3D 检测器的开放词汇能力。我们提出了 Object2Scene，而不是利用 2D 图像，这是第一种利用大规模词汇 3D 对象数据集来增强现有 3D 场景数据集以进行开放词汇 3D 对象检测的方法。 Object2Scene 将来自不同来源的对象插入到 3D 场景中，以丰富 3D 场景数据集的词汇，并为新插入的对象生成文本描述。我们进一步引入了一个统一 3D 检测和视觉基础的框架，名为 L3Det，并提出了一种跨域类别级别对比学习方法，以缩小来自不同数据集的 3D 对象之间的域差距。对现有开放词汇 3D 对象检测基准的大量实验表明，Object2Scene 获得了优于现有方法的性能。

Scalable Label-efficient Footpath Network Generation Using Remote Sensing Data and Self-supervised Learning
Authors Xinye Wanyan, Sachith Seneviratne, Kerry Nice, Jason Thompson, Marcus White, Nano Langenheim, Mark Stevenson
步道测绘、建模和分析可以为许多研究领域提供重要的地理空间见解，包括交通、健康、环境和城市规划。强大的地理信息系统 GIS 层的可用性有利于基础设施清单的管理，特别是在地方政府层面，城市规划者负责此类基础设施的部署和维护。然而，许多城市仍然缺乏有关人行道位置、连通性和宽度的实时信息，或者采用昂贵的人工调查手段来收集这些信息。这项工作设计并实现了一个自动管道，用于使用机器学习模型基于遥感图像生成人行道网络。分割任务的标注，尤其是有特殊要求的遥感图像标注，是非常昂贵的，因此我们的目标是引入一个需要较少标注数据的管道。考虑到监督方法需要大量的训练数据，我们使用自监督方法进行特征表示学习以减少注释要求。然后将预训练的模型用作U Net的编码器进行人行路径分割。基于生成的掩模，提取人行道多边形并将其转换为可以方便地由地理信息系统加载和可视化的人行道网络。验证结果表明与手动收集的 GIS 图层相比具有相当大的一致性。这项工作提出的步道网络生成管道成本低且可扩展，可以应用于遥感图像可用的地方。

FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised Pre-Training
Authors Shaheer Mohamed, Maryam Haghighat, Tharindu Fernando, Sridha Sridharan, Clinton Fookes, Peyman Moghadam
高光谱图像 HSI 包含丰富的光谱和空间信息。受 Transformer 在自然语言处理和计算机视觉领域的成功的推动，它们表现出了学习输入数据中的长期依赖关系的能力，最近的研究重点是在 HSI 中使用 Transformer。然而，当前最先进的高光谱变换器仅沿光谱维度对输入 HSI 样本进行标记，导致空间信息的利用不足。此外，众所周知，变压器需要大量数据，其性能在很大程度上依赖于大规模预训练，而由于带注释的高光谱数据有限，这具有挑战性。因此，HSI 变压器的全部潜力尚未完全发挥。为了克服这些限制，我们提出了一种新颖的分解光谱空间变换器，它结合了分解自监督预训练程序，从而显着提高了性能。输入的因式分解允许光谱和空间变换器更好地捕获高光谱数据立方体内的相互作用。受掩模图像建模预训练的启发，我们还设计了有效的掩模策略来预训练每个光谱和空间变换器。我们对用于 HSI 分类任务的三个公开数据集进行了实验，并证明我们的模型在所有三个数据集中都实现了最先进的性能。

Cross-attention-based saliency inference for predicting cancer metastasis on whole slide images
Authors Ziyu Su, Mostafa Rezapour, Usama Sajjad, Shuo Niu, Metin Nafi Gurcan, Muhammad Khalid Khan Niazi
尽管多实例学习 MIL 方法广泛用于整个幻灯片图像 WSI 上的自动肿瘤检测，但它们在小肿瘤 WSI 中存在极端的类别不平衡。当肿瘤仅包含少数孤立的细胞时，就会发生这种情况。对于早期检测，最重要的是 MIL 算法能够识别小肿瘤，即使它们的大小小于 WSI 的 1 倍。现有的研究尝试使用基于注意力的架构和基于实例选择的方法来解决这个问题，但尚未取得显着的改进。本文提出了基于交叉注意力的显着性实例推理 MIL CASiiMIL ，它涉及一种新颖的显着性通知注意机制，无需任何注释即可识别 WSI 上的乳腺癌淋巴结微转移。除了这种新的注意力机制之外，我们还引入了负表示学习算法来促进显着性通知注意力权重的学习，从而提高对肿瘤 WSI 的敏感性。所提出的模型在两个流行的肿瘤转移检测数据集上优于最先进的 MIL 方法，并表现出良好的跨中心泛化性。此外，它在对具有小肿瘤病变的 WSI 进行分类方面表现出出色的准确性。此外，我们表明，由于显着性通知的注意力权重，所提出的模型具有出色的可解释性。

a critical analysis of internal reliability for uncertainty quantification of dense image matching in multi-view stereo
Authors Debao Huang, Rongjun Qin
如今，摄影测量导出的点云因其低成本和采集灵活性而广泛应用于许多民用应用。通常，摄影测量点云是通过激光雷达点云等参考数据进行评估的。然而，当参考数据不可用时，摄影测量点云的评估可能具有挑战性。由于这些点云是通过算法导出的，因此它们的准确度和精度随相机网络、场景复杂性和密集图像匹配 DIM 算法的不同而变化很大，并且没有标准误差度量来确定每点误差。通过束调整 BA 的一阶误差估计，相机网络的内部可靠性理论得到了很好的研究，它用于理解假设已知测量误差的 3D 点的误差。然而，DIM算法的测量误差非常复杂，每个点的误差函数都可能由像素强度、纹理熵和表面光滑度等因素决定。尽管很复杂，但仍然存在一些常见的度量标准，可以帮助估计导出点的后验可靠性，特别是在存在冗余时的多视图立体 MVS 设置中。

Enhancing Knee Osteoarthritis severity level classification using diffusion augmented images
Authors Paleti Nikhil Chowdary, Gorantla V N S L Vishnu Vardhan, Menta Sai Akshay, Menta Sai Aashish, Vadlapudi Sai Aravind, Garapati Venkata Krishna Rayalu, Aswathy P
本研究论文利用先进的计算机视觉模型和增强技术探讨了膝骨关节炎 OA 严重程度的分类。该研究调查了数据预处理的有效性，包括对比度有限自适应直方图均衡 CLAHE 以及使用扩散模型的数据增强。三个实验分别是在原始数据集上训练模型、在预处理数据集上训练模型以及在增强数据集上训练模型。结果表明，数据预处理和增强显着提高了模型的准确性。 EfficientNetB3 模型在增强数据集上达到了 84 的最高准确率。此外，注意力可视化技术（例如 Grad CAM）用于提供详细的注意力图，增强模型的理解和可信度。

Active Learning for Semantic Segmentation with Multi-class Label Query
Authors Sehyun Hwang, Sohyun Lee, Hoyoung Kim, Minhyeon Oh, Jungseul Ok, Suha Kwak
本文提出了一种新的语义分割主动学习方法。我们方法的核心在于新的注释查询设计。它对信息丰富的局部图像区域（例如超像素）进行采样，并且对于每个这样的区域，向预言机请求指示该区域中存在的所有类的多热向量。就每次点击的注释时间而言，这种多类标记策略比分段、多边形甚至主导类标记等现有策略要高效得多。然而，它在训练中引入了类模糊性问题，因为它为单个像素分配了部分标签，即一组候选类。因此，我们提出了一种新的算法来学习语义分割，同时分两个阶段消除部分标签的歧义。在第一阶段，它通过由部分标签学习和多实例学习驱动的两个新损失函数直接使用部分标签训练分割模型。在第二阶段，它通过生成像素级伪标签来消除部分标签的歧义，这些伪标签用于模型的监督学习。

Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal Intervention
Authors Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim
许多研究侧重于改进预训练或开发文本视频检索的新主干。然而，正如最近的研究在其他文本视频相关任务中所表明的那样，现有方法可能会遇到学习和推理偏差问题。例如，动作识别中的空间外观特征或视频场景图生成中的时间对象共现可能会引起虚假相关性。在这项工作中，我们对由于修剪视频剪辑的训练集和测试集之间的帧长度差异而导致的时间偏差进行了独特而系统的研究，据我们所知，这是文本视频检索任务的首次此类尝试。我们首先假设并验证它如何影响基线研究所示模型的偏差。然后，我们提出了一种因果去偏方法，并对 Epic Kitchens 100、YouCook2 和 MSR VTT 数据集进行了广泛的实验和消融研究。

UGC: Unified GAN Compression for Efficient Image-to-Image Translation
Authors Yuxi Ren, Jie Wu, Peng Zhang, Manlin Zhang, Xuefeng Xiao, Qian He, Rui Wang, Min Zheng, Xin Pan
近年来，生成对抗网络 GAN 在图像到图像转换方面取得了普遍进展。然而，这些 GAN 模型的成功取决于繁重的计算成本和昂贵的训练数据。当前高效的 GAN 学习技术通常分为两个正交方面：i 通过降低计算成本来瘦身模型；ii 使用更少的训练数据标签进行数据标签高效学习。为了结合两全其美，我们提出了一种新的学习范式，统一 GAN 压缩 UGC，具有统一的优化目标，无缝促进模型高效学习和标签高效学习的协同作用。

Effective Image Tampering Localization via Enhanced Transformer and Co-attention Fusion
Authors Kun Guo, Haochen Zhu, Gang Cao
强大的操纵技术使得数字图像伪造很容易被创建并广泛传播，而不会留下视觉异常。篡改区域的盲定位对于图像取证变得非常重要。在本文中，我们提出了一种有效的图像篡改定位网络 EITLNet，该网络基于具有基于注意力的特征融合的两分支增强型变压器编码器。具体来说，设计了特征增强模块来增强Transformer编码器的特征表示能力。基于坐标注意的融合模块在多个尺度上有效地融合了从 RGB 和噪声流中提取的特征。大量的实验结果验证了所提出的方案在各种基准数据集中实现了最先进的泛化能力和鲁棒性。

RenderIH: A Large-scale Synthetic Dataset for 3D Interacting Hand Pose Estimation
Authors Lijun Li, Linrui Tian1, Xindi Zhang, Qi Wang, Bang Zhang, Liefeng Bo, Mengyuan Liu, Chen Chen
目前的交互手部IH数据集在背景和纹理方面相对简单，手部关节由机器注释器注释，这可能会导致不准确，并且姿势分布的多样性受到限制。然而，背景、姿态分布和纹理的变化会极大地影响泛化能力。因此，我们提出了一个大规模合成数据集 RenderIH，用于通过准确且多样化的姿势注释进行手部交互。该数据集包含 100 万张逼真的图像，具有不同的背景、视角和手部纹理。为了生成自然且多样化的交互姿势，我们提出了一种新的姿势优化算法。此外，为了提高姿势估计的准确性，我们引入了基于变换器的姿势估计网络 TransHand，以利用交互手之间的相关性并验证 RenderIH 在改善结果方面的有效性。我们的数据集与模型无关，与其他真实或合成数据集相比，可以提高任何手势估计方法的准确性。实验表明，对我们的合成数据进行预训练可以将误差从 6.76mm 显着降低到 5.79mm，并且我们的 Transhand 超越了当代的方法。

Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera
Authors Jiahang Cao, Xu Zheng, Yuanhuiyi Lyu, Jiaxu Wang, Renjing Xu, Lin Wang
在所有照明条件下（即正常、过度和欠曝条件下）检测物体的能力对于自动驾驶等现实世界的应用至关重要。传统的基于 RGB 的探测器在这种变化的照明条件下通常会失败。因此，最近的工作利用了新颖的事件相机然而，为了补充或指导 RGB 模态，这些方法通常采用主要依赖于 RGB 模态的非对称网络结构，导致全天检测的鲁棒性有限。在本文中，我们提出了 EOLO，这是一种新颖的对象检测框架，通过融合 RGB 和事件模态来实现稳健且高效的全天检测。我们的 EOLO 框架基于轻量级尖峰神经网络 SNN 构建，可有效利用事件的异步属性。在此基础上，我们首先引入事件时间注意力 ETA 模块，从事件中学习高时间信息，同时保留关键的边缘信息。其次，由于不同的模态在不同的光照条件下表现出不同的重要性，我们提出了一种新颖的对称RGB事件融合SREF模块，可以在不依赖特定模态的情况下有效地融合RGB事件特征，从而确保全天检测的平衡和自适应融合。此外，为了弥补全天训练和评估所需的配对 RGB 事件数据集的不足，我们提出了一种基于随机光流的事件合成方法，该方法允许从单个曝光图像直接生成事件帧。我们基于流行的基准 MSCOCO 和 PASCAL VOC 进一步构建了两个新的数据集 E MSCOCO 和 E VOC。

LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation
Authors Yihao Zhi, Xiaodong Cun, Xuelin Chen, Xi Shen, Wen Guo, Shaoli Huang, Shenghua Gao
手势是伴随人们言语的非语言但重要的行为。虽然以前的方法能够生成语音节奏同步的手势，但手势中通常缺乏语音的语义上下文。尽管语义手势在人类言语中并不经常出现，但它们确实是观众在更身临其境的环境中理解言语上下文的关键。因此，我们引入了 LivelySpeaker，一个实现语义感知的语音手势生成并提供多个控制手柄的框架。特别是，我们的方法将任务分解为基于脚本的手势生成和音频引导节奏细化两个阶段。具体来说，基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为生成在语义上与脚本高度一致的手势的指导。然后，我们仅使用纯 MLP 设计了一个简单但有效的基于扩散的手势生成主干，该主干仅以音频信号为条件，并学习用真实的动作进行手势。我们利用如此强大的脚本引导手势与音频信号进行押韵，特别是在零镜头设置中。我们新颖的两阶段生成框架还支持多种应用，例如改变手势风格、通过文本提示编辑协同语音手势，以及通过引导扩散控制语义意识和节奏对齐。大量的实验证明了所提出的框架相对于竞争方法的优势。此外，我们基于核心扩散的生成模型还在两个基准上实现了最先进的性能。

MVP: Meta Visual Prompt Tuning for Few-Shot Remote Sensing Image Scene Classification
Authors Junjie Zhu, Yiying Li, Chunping Qiu, Ke Yang, Naiyang Guan, Xiaodong Yi
Vision Transformer ViT 模型最近已成为适用于各种视觉任务的强大且多功能的模型。最近，一项名为 PMF 的工作通过利用预训练的视觉变换器模型，在少数镜头图像分类方面取得了可喜的结果。然而，PMF 采用全面微调来学习下游任务，导致严重的过度拟合和存储问题，尤其是在遥感领域。为了解决这些问题，我们转向最近提出的参数有效调整方法，例如 VPT，它仅更新新添加的提示参数，同时保持预训练的骨干网冻结。受VPT的启发，我们提出了Meta Visual Prompt Tuning MVP方法。具体来说，我们将 VPT 方法集成到元学习框架中，并针对遥感领域进行定制，从而形成了少镜头遥感场景分类 FS RSSC 的有效框架。此外，我们引入了一种基于补丁嵌入重组的新型数据增强策略，以增强用于分类目的的场景的表示和多样性。

Deep Neighbor Layer Aggregation for Lightweight Self-Supervised Monocular Depth Estimation
Authors Boya Wang, Shuo Wang, Ziwen Dou, Dong Ye
随着自监督单目深度估计在机器人和自动驾驶中的频繁使用，模型的效率变得越来越重要。当前大多数方法应用更大、更复杂的网络来提高深度估计的精度。一些研究人员将 Transformer 纳入自监督单目深度估计中，以实现更好的性能。但该方法参数高、计算量大。我们提出了一个使用上下文特征融合的全卷积深度估计网络。与UNet和HRNet相比，我们使用高分辨率和低分辨率特征来保留小目标和快速移动物体的信息，而不是长距离融合。我们在解码器阶段使用基于卷积的轻量级通道注意力进一步提升深度估计结果。我们的方法在不牺牲准确性的情况下减少了参数。在 KITTI 基准上的实验表明，我们的方法可以比许多大型模型（例如 Monodepth2）仅用 30 个参数获得更好的结果。

LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models
Authors Kazuto Nakashima, Ryo Kurazume
3D LiDAR 数据的生成建模是一项新兴任务，对于自主移动机器人来说具有广阔的应用前景，例如可扩展模拟、场景操作以及 LiDAR 点云的稀疏到密集完成。现有方法已经证明了使用深度生成模型进行基于图像的激光雷达数据生成的可行性，同时仍然面临生成数据的保真度和训练不稳定的问题。在这项工作中，我们提出了 R2DM，一种新颖的 LiDAR 数据生成模型，它可以基于距离和反射强度的图像表示生成多样化且高保真度的 3D 场景点云。我们的方法基于去噪扩散概率模型 DDPM，该模型在生成模型框架中展示了令人印象深刻的结果，并且近年来取得了显着进展。为了在 LiDAR 领域有效地训练 DDPM，我们首先对数据表示、训练目标和空间归纳偏差进行深入分析。基于我们设计的模型 R2DM，我们还利用 DDPM 的强大特性引入了灵活的 LiDAR 完成管道。我们证明，我们的方法在 KITTI 360 和 KITTI Raw 数据集的生成任务以及 KITTI 360 数据集的上采样任务上优于基线。

Convex Latent-Optimized Adversarial Regularizers for Imaging Inverse Problems
Authors Huayu Wang, Chen Luo, Taofeng Xie, Qiyu Jin, Guoqing Chen, Zhuo Xu Cui, Dong Liang
最近，数据驱动技术在解决与 MR 成像反演问题相关的挑战方面表现出了显着的有效性。然而，这些方法在可解释性和鲁棒性方面仍然表现出一定的局限性。作为回应，我们引入了凸潜在优化对抗正则化器 CLEAR，这是一种新颖且可解释的数据驱动范例。 CLEAR 代表了深度学习 DL 和变分正则化的融合。具体来说，我们采用潜在优化技术来对抗性地训练输入凸神经网络，其最小值集可以完全代表真实的数据流形。我们利用它作为凸正则化器来制定清晰的变分正则化模型，指导实际数据流形上成像逆问题的解决。利用其固有的凸性，我们为 CLEAR 知情正则化模型建立了投影次梯度下降算法的收敛性。这种收敛保证了在某些假设的前提下获得成像逆问题的唯一解。此外，我们还展示了 CLEAR 知情模型的稳健性，明确展示了即使在存在测量干扰的情况下也能实现稳定重建的能力。最后，我们以 MRI 重建为例说明我们方法的优越性。

LiteTrack: Layer Pruning with Asynchronous Feature Extraction for Lightweight and Efficient Visual Tracking
Authors Qingmao Wei, Bi Zeng, Jianqi Liu, Li He, Guotian Zeng
基于变压器的视觉跟踪器的最新进展由于其强大的建模能力而取得了重大进展。然而，随着性能的提高，运行延迟也会相应增加，这给实时机器人应用程序带来了挑战，特别是在具有计算限制的边缘设备上。为此，我们推出了 LiteTrack，这是一种基于变压器的高效跟踪模型，针对各种设备的高速操作进行了优化。与其他轻量级跟踪器相比，它在准确性和效率之间实现了更有利的权衡。 LiteTrack 的主要创新包括 1 异步特征提取以及模板和搜索区域之间的交互，以实现更好的特征融合和削减冗余计算，以及 2 从重型跟踪器中修剪编码器层，以改善性能和速度之间的平衡。例如，我们最快的变体 LiteTrack B4 在 GOT 10k 基准测试中实现了 65.2 AO，超越了所有先前的高效跟踪器，同时在 Jetson Orin NX 边缘设备上使用 ONNX 运行超过 100 fps。此外，我们的 LiteTrack B9 在 GOT 10k 上达到了具有竞争力的 72.2 AO，在 TrackingNet 上达到了 82.4 AUC，并在 NVIDIA 2080Ti GPU 上以 171 fps 运行。

Image-level supervision and self-training for transformer-based cross-modality tumor segmentation
Authors Malo de Boisredon, Eugene Vorontsov, William Trung Le, Samuel Kadoury
深度神经网络通常用于自动医学图像分割，但模型经常难以在不同的成像模式中很好地泛化。由于注释数据的可用性有限，因此很难大规模部署这些模型，因此这个问题尤其成问题。为了克服这些挑战，我们提出了一种新的半监督训练策略，称为 MoDATTS。我们的方法旨在对未配对的双模态数据集进行准确的跨模态 3D 肿瘤分割。成像模态之间的图像到图像转换策略用于产生带注释的伪目标体积并提高对未注释的目标模态的泛化。我们还使用强大的视觉转换器架构，并引入迭代自训练程序，以进一步缩小模态之间的领域差距。 MoDATTS 此外还可以通过利用具有无监督目标的图像级标签来将训练扩展到未注释的目标数据，从而鼓励模型通过将肿瘤与背景分离来执行 3D 患病到健康的转换。与 CrossMoDA 2022 挑战赛中参赛团队的其他方法相比，所提出的模型实现了卓越的性能，其 VS 分割的最高 Dice 得分为 0.87 ± 0.04 就证明了这一点。在由 BraTS 2020 挑战数据集的四种不同对比组成的跨模态脑肿瘤分割任务中，MoDATTS 的 Dice 分数也比基线有了持续改进，其中目标监督模型性能达到了 95。

Detection and Localization of Firearm Carriers in Complex Scenes for Improved Safety Measures
Authors Arif Mahmood, Abdul Basit, M. Akhtar Munir, Mohsen Ali
在图像或视频中检测枪支并准确定位携带枪支的个人对于安全、监控和内容定制至关重要。然而，由于枪支的混乱和形状各异，这项任务在复杂的环境中面临着巨大的挑战。为了解决这个问题，我们提出了一种利用人类枪支交互信息的新方法，为定位枪支携带者提供了宝贵的线索。我们的方法采用了一种注意力机制，通过关注相关区域，可以有效地将人类和枪支与背景区分开来。此外，我们引入了显着性驱动的局部性保留约束来学习基本特征，同时保留输入图像中的前景信息。通过结合这些组件，我们的方法在新提出的数据集上取得了出色的结果。为了处理不同大小的输入，我们利用自适应平均池层，将带有注意掩模的配对人类枪支实例作为通道通过深度网络进行特征计算。我们针对人体交互检测中的现有方法广泛评估了我们的方法，与基线方法 AP 63.1 相比，取得了显着的结果 AP 77.8 。这证明了利用注意力机制和显着性驱动的局部性保存来实现准确的人体枪支交互检测的有效性。

CryoAlign: feature-based method for global and local 3D alignment of EM density maps
Authors Bintao He, Fa Zhang, Chenjie Feng, Jianyi Yang, Xin Gao, Renmin Han
冷冻电子成像技术的进步导致密度图数量迅速增加。密度图的对齐和比较在解释结构信息中起着至关重要的作用，例如使用全局对齐的构象异质性分析和通过局部对齐的原子模型组装。在这里，我们提出了一种快速准确的全局和局部冷冻电子显微镜密度图对齐方法 CryoAlign，该方法利用局部密度特征描述符来捕获空间结构相似性。 CryoAlign 是第一个基于特征的 EM 地图对齐工具，其中采用基于特征的架构可以快速建立点对对应关系和稳健的对齐参数估计。

Neural Gradient Learning and Optimization for Oriented Point Normal Estimation
Authors Qing Li, Huifang Feng, Kanle Shi, Yi Fang, Yu Shen Liu, Zhizhong Han
我们提出了神经梯度学习 NGL，这是一种深度学习方法，用于从 3D 点云中学习具有一致方向的梯度向量以进行法线估计。它对于数据的基础几何形状具有出色的梯度近似属性。我们利用一个简单的神经网络来参数化目标函数，以使用全局隐式表示在点处产生梯度。然而，由于缺乏局部细节描述，导出的梯度通常会偏离地面真实的法线。因此，我们引入梯度向量优化GVO来学习基于局部平面几何的角距离场，以细化粗略的梯度向量。最后，我们通过粗略估计和细化的两阶段流程来制定我们的方法。此外，我们将两个权重函数（即各向异性核和内点分数）集成到优化中，以提高鲁棒性和细节保留性能。我们的方法有效地进行全局梯度近似，同时实现局部特征描述的更好的准确性和泛化能力。这导致了最先进的法线估计器对噪声、异常值和点密度变化具有鲁棒性。广泛的评估表明，我们的方法在广泛使用的基准上的无向和有向正态估计方面都优于以前的工作。

Efficient Pyramid Channel Attention Network for Pathological Myopia Detection
Authors Xiaoqing Zhang, Jilu Zhao, Richu Jin, Yan Li, Hao Wu, Xiangtian Zhou, Jiang Liu
病理性近视 PM 是全世界视力受损和失明的主要眼部疾病。尽早检测 PM 的关键是检测全局和局部病变区域的信息特征，例如眼底镶嵌、萎缩和黄斑病变。然而，应用经典的卷积神经网络 CNN 来有效地突出特征图中的全局和局部病变上下文信息是相当具有挑战性的。为了解决这个问题，我们的目标是通过注意力模块设计充分利用全局和局部病变信息的潜力。基于此，我们提出了一种高效的金字塔通道注意力EPCA模块，该模块动态探索特征图中全局和局部病变上下文信息的相对重要性。然后我们将EPCA模块与骨干网络相结合，构建EPCA Net，用于基于眼底图像的自动PM检测。此外，我们通过从公开数据集（例如 PALM 数据集和 ODIR 数据集）收集 PM 眼底图像来构建称为 PM 眼底的 PM 数据集。在三个数据集上进行的综合实验表明，我们的 EPCA Net 在检测 PM 方面优于最先进的方法。此外，受最近的预训练和微调范式的推动，我们尝试通过冻结预训练的自然图像模型并将 EPCA 模块和其他注意模块视为适配器来适应 PM 检测。

Syntax Tree Constrained Graph Network for Visual Question Answering
Authors Xiangrui Su, Qi Zhang, Chongyang Shi, Jiachang Liu, Liang Hu
视觉问答 VQA 旨在自动回答与给定图像内容相关的自然语言问题。现有的 VQA 方法集成了视觉建模和语言理解来探索问题的深层语义。然而，这些方法忽略了问题的重要语法信息，而这对于理解问题的本质语义和指导视觉特征细化起着至关重要的作用。为了填补这一空白，我们提出了一种基于实体消息传递和语法树的用于 VQA 的新型语法树约束图网络 STCGN。该模型能够从问题中提取语法树并获得更精确的语法信息。具体来说，我们使用斯坦福语法解析工具解析问题并获得问题语法树。使用分层树卷积网络从单词级别和短语级别提取句法短语特征和问题特征。然后，我们为短语感知视觉实体设计消息传递机制，并根据给定的视觉上下文捕获实体特征。

FDCNet: Feature Drift Compensation Network for Class-Incremental Weakly Supervised Object Localization
Authors Sejin Park, Taehyung Lee, Yeejin Lee, Byeongkeun Kang
这项工作解决了类增量弱监督对象定位 CI WSOL 的任务。目标是仅使用图像级注释来增量学习新类的对象定位，同时保留本地化先前学习的类的能力。这项任务很重要，因为尽管对象定位在各种应用中至关重要，但为每个新传入数据注释边界框的成本很高。据我们所知，我们是第一个完成这项任务的人。因此，我们首先通过调整类增量分类器的策略来减轻灾难性遗忘，为 CI WSOL 提出了一种强大的基线方法。这些策略包括应用知识蒸馏、维护先前任务的小数据集以及使用余弦归一化。然后，我们提出特征漂移补偿网络来补偿特征漂移对类别分数和定位图的影响。由于更新网络参数来学习新任务会导致特征漂移，因此有必要对最终输出进行补偿。最后，我们通过在两个公开可用的数据集 ImageNet 100 和 CUB 200 上进行实验来评估我们提出的方法。

Uncertainty-aware 3D Object-Level Mapping with Deep Shape Priors
Authors Ziwei Liao, Jun Yang, Jingxing Qian, Angela P. Schoellig, Steven L. Waslander
3D 对象级映射是机器人技术中的一个基本问题，当对象 CAD 模型在推理过程中不可用时，这尤其具有挑战性。在这项工作中，我们提出了一个可以为未知对象重建高质量对象级别图的框架。我们的方法采用多个 RGB D 图像作为输入，并输出密集的 3D 形状和 9 个 DoF 姿势，包括检测到的对象的 3 个尺度参数。我们方法的核心思想是利用学习到的形状类别生成模型作为先验，并为 3D 重建制定概率性、不确定性感知优化框架。我们推导出一个概率公式，通过两个新颖的损失函数传播形状并带来不确定性。与当前最先进的方法不同，我们在优化过程中明确地模拟了对象形状和姿势的不确定性，从而产生了高质量的对象级映射系统。此外，我们证明所产生的形状和姿态不确定性可以准确反映对象图的真实错误，也可用于主动视觉等下游机器人任务。我们对室内和室外现实世界数据集进行了广泛的评估，与最先进的方法相比取得了实质性的改进。

FrameRS: A Video Frame Compression Model Composed by Self supervised Video Frame Reconstructor and Key Frame Selector
Authors Qiqian Fu, Guanhong Wang, Gaoang Wang
在本文中，我们提出了帧重建模型 FrameRS。它由自监督视频帧重建器和关键帧选择器组成。帧重建器 FrameMAE 是通过将图像屏蔽自动编码器 MAE 的原理应用于视频上下文而开发的。关键帧选择器 Frame Selector 是基于 CNN 架构构建的。通过将来自 FrameMAE 编码器的高级语义信息作为输入，它可以以较低的计算成本预测关键帧。 FrameMAE 与我们定制的帧选择器集成，可以通过保留大约 30 个关键帧来有效地压缩视频剪辑。在性能方面，我们的模型展示了计算效率和竞争准确性，标志着传统关键帧提取算法的显着改进。

Unsupervised Green Object Tracker (GOT) without Offline Pre-training
Authors Zhiruo Zhou, Suya You, C. C. Jay Kuo
在标记数据上训练的监督跟踪器在单个对象跟踪领域占据主导地位，以实现卓越的跟踪精度。标签成本和巨大的计算复杂性阻碍了它们在边缘设备上的应用。还研究了无监督学习方法来降低标记成本，但其复杂性仍然很高。针对轻量级高性能跟踪、无需离线预训练的可行性以及算法透明性，我们在这项工作中提出了一种新的单目标跟踪方法，称为绿色目标跟踪器 GOT。 GOT 进行三个预测分支的集成，以实现稳健的框跟踪：1 基于全局对象的相关器，用于粗略预测对象位置；2 基于局部块的相关器，用于构建小空间单元的时间相关性；3 基于超像素的分割器，用于利用空间信息目标帧的信息。 GOT 通过最先进的无监督跟踪器提供具有竞争力的跟踪精度，这需要以较低的计算成本进行大量的离线预训练。 GOT 的模型尺寸很小，参数为 3k，推理复杂度较低，每帧大约 58M FLOP。

MMST-ViT: Climate Change-aware Crop Yield Prediction via Multi-Modal Spatial-Temporal Vision Transformer
Authors Fudong Lin, Summer Crawford, Kaleb Guillot, Yihe Zhang, Yan Chen, Xu Yuan, Li Chen, Shelby Willams, Robert Minvielle, Xiangming Xiao, Drew Gholson, Nicolas Ashwell, Tri Setiyono, Brenda Tubana, Lu Peng, Magdy Bayoumi, Nian Feng Tzeng
精确的作物产量预测为农业规划和决策过程提供了有价值的信息。然而，及时预测作物产量仍然具有挑战性，因为作物生长对生长季节天气变化和气候变化很敏感。在这项工作中，我们开发了一种基于深度学习的解决方案，即多模态时空视觉变换器 MMST ViT，用于通过考虑生长季节期间短期气象变化和长期气候变化对农作物的影响。具体来说，我们的 MMST ViT 由多模态转换器、空间转换器和时间转换器组成。多模态变压器利用视觉遥感数据和短期气象数据来模拟生长季节天气变化对作物生长的影响。空间转换器了解县之间的高分辨率空间依赖性，以实现准确的农业跟踪。时间转换器捕获长期时间依赖性，以了解长期气候变化对农作物的影响。同时，我们还设计了一种新颖的多模态对比学习技术来预训练我们的模型，而无需大量的人工监督。因此，我们的 MMST ViT 通过利用卫星图像和气象数据来捕捉短期天气变化和长期气候变化对农作物的影响。

Sub-action Prototype Learning for Point-level Weakly-supervised Temporal Action Localization
Authors Yueyang Li, Yonghong Hou, Wanqing Li
点级弱监督时间动作定位 PWTAL 旨在为每个动作实例仅使用单个时间戳注释来本地化动作。现有的方法倾向于挖掘密集的伪标签来减轻标签稀疏性，但忽略了潜在的子动作时间结构，导致性能较差。为了解决这个问题，我们提出了一种新颖的子动作原型学习框架 SPL Loc ，其中包括子动作原型聚类 SPC 和有序原型对齐 OPA 。 SPC自适应地提取具有代表性的子动作原型，这些原型能够感知动作实例的时间尺度和空间内容变化。 OPA 选择相关原型，通过应用时间对齐损失来为伪标签生成提供完整性线索。因此，从对齐结果中导出伪标签以改进动作边界预测。

Microscale 3-D Capacitance Tomography with a CMOS Sensor Array
Authors anar Abdelatty, Joseph Incandela, Kangping Hu, Joseph W. Larkin, Sherief Reda, Jacob K. Rosenstein
电容断层扫描 ECT 是一种非光学成像技术，其中通过在其边界进行电容测量并解决反演问题来估计体积的内部介电常数图。虽然之前的 ECT 演示通常是厘米级的，但 ECT 并不局限于宏观系统。在本文中，我们展示了使用 CMOS 微电极阵列对聚合物微球和细菌生物膜进行 ECT 成像，实现了 10 微米的空间分辨率。此外，我们提出了一种深度学习架构和改进的多目标训练方案，用于根据传感器测量重建平面外介电常数图。

RingMo-lite: A Remote Sensing Multi-task Lightweight Network with CNN-Transformer Hybrid Framework
Authors Yuelei Wang, Ting Zhang, Liangjin Zhao, Lin Hu, Zhechao Wang, Ziqing Niu, Peirui Cheng, Kaiqiang Chen, Xuan Zeng, Zhirui Wang, Hongqi Wang, Xian Sun
近年来，RingMo等遥感RS视觉基础模型不断涌现，并在各种下游任务中取得了优异的性能。然而，对计算资源的高需求限制了这些模型在边缘设备上的应用。有必要设计更轻量级的基础模型来支持在轨遥感图像解译。现有方法面临着实现轻量级解决方案同时保持遥感图像解释通用性的挑战。这是由于 RS 图像中复杂的高频和低频频谱分量，这使得传统的单一 CNN 或 Vision Transformer 方法不适合该任务。因此，本文提出了RingMo lite，一种具有CNN Transformer混合框架的RS多任务轻量级网络，它有效地利用RS的频域特性来优化解释过程。它由 Transformer 模块作为低通滤波器组合，通过双分支结构提取 RS 图像的全局特征，CNN 模块作为堆叠高通滤波器，有效提取细粒度细节。此外，在预训练阶段，设计的频域掩模图像建模FD MIM结合了每个图像块的高频和低频特征，有效捕获RS数据中的潜在特征表示。如图1所示，与RingMo相比，所提出的RingMo lite在各种RS图像解释任务中减少了60多个参数，在大多数场景中平均精度下降了不到2，并且与同类模型相比实现了SOTA性能尺寸。

FF-LOGO: Cross-Modality Point Cloud Registration with Feature Filtering and Local to Global Optimization
Authors Nan Ma, Mohan Wang, Yiheng Han, Yong Jin Liu
由于不同传感器之间模态的固有差异，跨模态点云配准面临着重大挑战。我们提出了一种跨模态点云配准框架FF LOGO，一种具有特征过滤和局部全局优化的跨模态点云配准方法。跨模态特征相关滤波模块从跨模态点云中提取几何变换不变特征，并通过特征匹配实现点选择。我们还介绍了跨模态优化过程，包括局部自适应关键区域聚合模块和全局模态一致性融合优化模块。实验结果表明，我们的两阶段优化显着提高了特征关联和选择模块的配准精度。与 3DCSR 数据集上当前最先进的方法相比，我们的方法实现了召回率的大幅提高，从 40.59 提高到 75.74。

Tightening Classification Boundaries in Open Set Domain Adaptation through Unknown Exploitation
Authors Lucas Fernando Alvarenga e Silva, Nicu Sebe, Jurandy Almeida
卷积神经网络 CNN 凭借其从原始数据中学习的能力，为许多研究领域带来了革命性的进步。然而，当这些方法应用于不可控环境时，许多不同的因素可能会降低模型的预期性能，例如具有不同级别的域转移和类别转移的未标记数据集。特别是，当两个问题同时发生时，我们将这一具有挑战性的设置作为开放集域适应 OSDA 问题来解决。一般来说，现有的 OSDA 方法仅集中精力调整已知类别，或者如果它们已经提取了可能的负面实例，则将它们用作在培训过程中在监督下学习的新类别。我们提出了一种改进 OSDA 方法的新方法，通过提取一组高置信度的未知实例并将其用作硬约束来收紧 OSDA 方法的分类边界。特别是，我们采用了以三种不同方式评估的新损失约束，1直接使用原始负例，2使用数据增强技术随机转换负例，3使用包含对抗性特征的综合生成的负例。我们在基于 OVANet 的大量实验中评估了所有方法，我们可以观察到两个公共基准（Office 31 和 Office Home 数据集）的一致改进，在 Office 31 和 Office 31 上的准确度和 H 分数绝对增益高达 1.3。

ExBluRF: Efficient Radiance Fields for Extreme Motion Blurred Images
Authors Dongwoo Lee, Jeongtaek Oh, Jaesung Lim, Sunghyun Cho, Kyoung Mu Lee
我们提出了 ExBluRF，一种基于有效辐射场优化的极端运动模糊图像的新颖视图合成方法。我们的方法由两个主要部分组成：基于 6 DOF 相机轨迹的运动模糊公式和基于体素的辐射场。从极其模糊的图像中，我们通过联合估计生成模糊图像的相机轨迹来优化锐利的辐射场。在训练中，沿着相机轨迹的多条光线被累积以重建单个模糊颜色，这相当于物理运动模糊操作。我们最大限度地减少模糊图像空间上的照片一致性损失，并通过相机轨迹获得清晰的辐射场，从而解释所有图像的模糊。对模糊图像空间的联合优化需要痛苦地增加与模糊大小成比例的计算和资源。我们的方法通过将基于 MLP 的框架替换为低维 6 DOF 相机姿势和基于体素的辐射场来解决这个问题。

IntelliBeeHive: An Automated Honey Bee, Pollen, and Varroa Destructor Monitoring System
Authors Christian I. Narcia Macias, Joselito Guardado, Jocell Rodriguez, Joanne Rampersad Ammons, Erik Enriquez, Dong Chul Kim
在这项研究中，我们利用计算机视觉和最新的技术进步，开发了一种蜜蜂监测系统，旨在增强我们对蜂群崩溃失调、蜜蜂行为、种群下降和蜂巢整体健康状况的了解。该系统位于蜂巢入口处，提供实时数据，使养蜂人能够通过基于帐户的网站密切监控蜂巢的活动和健康状况。利用机器学习，我们的监控系统可以准确跟踪蜜蜂、监控花粉采集活动并检测瓦螨，所有这些都不会对蜜蜂造成任何干扰。此外，我们确保该监测系统的开发采用具有成本效益的技术，可供各种规模的养蜂场使用，包括业余爱好者、商业养蜂企业和研究人员。用于检测蜜蜂、花粉和螨虫的推理模型基于使用我们自己的数据训练的 YOLOv7 微型架构。蜜蜂模型识别的F1分数为0.95，查准率和查全率为0.981。对于我们的花粉和螨虫目标检测模型，F1 得分为 0.95，花粉的精度和召回率为 0.821，螨虫的精度和召回率为 0.996。

Robust Backdoor Attacks on Object Detection in Real World
Authors Yaguan Qian, Boyuan Ji, Shuke He, Shenhui Huang, Xiang Ling, Bin Wang, Wei Wang
深度学习模型广泛部署在许多应用中，例如各个安全领域的对象检测。然而，这些模型很容易受到后门攻击。大多数后门攻击都是在分类模型上进行深入研究的，但在对象检测方面却很少。以往的工作主要集中在数字世界的后门攻击，而忽略了现实世界。尤其是现实世界中后门攻击的效果很容易受到距离、光照等物理因素的影响。在本文中，我们提出了一种可变尺寸的后门触发器来适应不同尺寸的攻击对象，克服了视点与攻击对象之间的距离造成的干扰。此外，我们提出了一种名为恶意对抗训练的后门训练，使后门目标检测器能够学习物理噪声触发的特征。

Staged Contact-Aware Global Human Motion Forecasting
Authors Luca Scofano, Alessio Sampieri, Elisabeth Schiele, Edoardo De Matteis, Laura Leal Taix , Fabio Galasso
场景感知的全局人体运动预测对于虚拟现实、机器人和体育等多种应用至关重要。

Universal Metric Learning with Parameter-Efficient Transfer Learning
Authors Sungyeon Kim, Donghyun Kim, Suha Kwak
度量学习的常见做法是为每个数据集训练和测试嵌入模型。这种数据集特定方法无法模拟涉及多个异构数据分布的现实世界场景。在这方面，我们引入了一种新颖的度量学习范式，称为通用度量学习 UML，它学习能够捕获跨多个数据分布的关系的统一距离度量。 UML 提出了新的挑战，例如数据分布不平衡和对主导分布的偏见。为了应对这些挑战，我们提出了参数高效的通用度量学习 PUMA，它由预先训练的冻结模型和两个附加模块、随机适配器和提示池组成。这些模块能够捕获数据集特定的知识，同时避免对主导分布的偏见。此外，我们还编译了一个新的通用度量学习基准，共有 8 个不同的数据集。

AffordPose: A Large-scale Dataset of Hand-Object Interactions with Affordance-driven Hand Pose
Authors Juntao Jian, Xiuping Liu, Manyi Li, Ruizhen Hu, Jian Liu
人类如何与物体交互取决于目标物体的功能角色，这就引入了可供性感知的手部物体交互问题。它需要大量的人类演示来学习和理解合理且适当的手部物体交互。在这项工作中，我们提出了 AffordPose，这是一个由可供性驱动的手部姿势与手部对象交互的大规模数据集。我们首先注释每个对象的特定部分级别可供性标签，例如扭转、拉动、抓握手柄等，而不是使用或切换等一般意图，以指示目的并指导手部物体交互的定位。细粒度的手部对象交互揭示了以手为中心的可供性对手部姿势的详细排列的影响，同时也表现出一定程度的多样性。我们总共收集了 26.7K 个手部对象交互，每个交互都包括 3D 对象形状、零件级别可供性标签和手动调整的手部姿势。全面的数据分析通过参数统计和接触计算显示了每个可供性的手部物体交互的共同特征和多样性。我们还对手部对象可供性理解和面向可供性的手部对象交互生成的任务进行了实验，以验证我们的数据集在学习细粒度手部对象交互方面的有效性。

Semantics-aware LiDAR-Only Pseudo Point Cloud Generation for 3D Object Detection
Authors Tiago Cortinhal, Idriss Gouigah, Eren Erdal Aksoy
尽管激光雷达传感器由于提供精确的深度信息而对于自主系统至关重要，但由于数据稀疏且不均匀，它们很难捕获精细的物体细节，尤其是远距离物体的细节。最近的进展引入了伪 LiDAR，即合成密集点云，使用相机等附加模式来增强 3D 物体检测。我们提出了一种新颖的仅限 LiDAR 的框架，该框架仅依靠 LiDAR 传感器和场景语义来使用更密集的伪点云来增强原始扫描，而无需使用相机。我们的框架首先利用分割模型从原始点云中提取场景语义，然后利用多模态域转换器在没有真实相机的情况下生成合成图像片段和深度线索。这会产生富含语义信息的密集伪点云。我们还引入了一种新的语义引导投影方法，该方法通过仅保留相关伪点来增强检测性能。我们将我们的框架应用于不同的高级 3D 对象检测方法，并报告了高达 2.9 的性能提升。

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval
Authors Nina Shvetsova, Anna Kukleva, Bernt Schiele, Hilde Kuehne
大规模噪声网络图像文本数据集已被证明对于学习稳健的视觉语言模型是有效的。然而，当将它们转移到视频检索任务时，模型仍然需要对手工策划的配对文本视频数据进行微调，以适应不同风格的视频描述。为了在不需要手工注释对的情况下解决这个问题，我们提出了一种新的设置，即使用未整理的未配对数据进行文本视频检索，在训练过程中仅使用文本查询和未整理的网络视频，而无需任何配对的文本视频数据。为此，我们提出了一种方法 In Style，该方法可以学习文本查询的风格并将其转移到未经策划的网络视频中。此外，为了提高泛化能力，我们证明一个模型可以使用多种文本样式进行训练。为此，我们引入了一种多风格对比训练程序，可以同时提高多个数据集的泛化能力。

DynaMoN: Motion-Aware Fast And Robust Camera Localization for Dynamic NeRF
Authors Mert Asim Karaoglu, Hannah Schieber, Nicolas Schischka, Melih G rg l , Florian Gr tzner, Alexander Ladikos, Daniel Roth, Nassir Navab, Benjamin Busam
使用神经辐射场 NeRF 进行动态重建需要准确的相机姿势。由于摄像机和场景内容都可能发生变化，因此通常很难使用运动 SfM 管道中的现有结构来检索这些内容。我们提出了 DynaMoN，它利用同步定位和映射 SLAM 以及运动掩蔽来处理动态场景内容。我们基于 SLAM 的强大跟踪模块显着加速了动态 NeRF 的训练过程，同时提高了合成视图的质量。

Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text Image Super-Resolution
Authors Wenyu Zhang, Xin Deng, Baojun Jia, Xingtong Yu, Yifan Chen, jin Ma, Qing Ding, Xinming Zhang
当前的场景文本图像超分辨率方法主要集中在提取鲁棒特征、获取文本信息以及复杂的训练策略来生成超分辨率图像。然而，在将低分辨率图像转换为高分辨率图像的过程中至关重要的上采样模块在现有工作中很少受到关注。为了解决这个问题，我们提出了基于图注意力的像素适配器模块PAM，以解决上采样引起的像素失真问题。 PAM 通过允许每个像素与其相邻像素交互并更新特征来有效捕获局部结构信息。与之前的图注意力机制不同，我们的方法通过消除对稀疏邻接矩阵的依赖并引入用于高效并行计算的滑动窗口方法，在效率和内存利用率方面实现了 2-3 个数量级的提高。此外，我们引入了基于 MLP 的序列残差块 MSRB，用于从文本图像中提取稳健的特征，并引入局部轮廓感知损失数学 L lca 来增强模型对细节的感知。在 TextZoom 上的综合实验表明，我们提出的方法生成了高质量的超分辨率图像，在识别精度方面超越了现有方法。对于单阶段和多阶段策略，我们分别实现了 0.7 和 2.6 的改进，将性能从 52.6 和 53.7 提高到 53.3 和 56.3 。

Delving into Multimodal Prompting for Fine-grained Visual Classification
Authors Xin Jiang, Hao Tang, Junyao Gao, Xiaoyu Du, Shengfeng He, Zechao Li
细粒度视觉分类 FGVC 涉及在更广泛的类别中对精细细分进行分类，由于细微的类间差异和较大的类内差异，这带来了挑战。然而，流行的方法主要关注单模态视觉概念。预训练视觉语言模型的最新进展在各种高级视觉任务中表现出了卓越的性能，但此类模型在 FGVC 任务中的适用性仍不确定。在本文中，我们的目标是充分利用跨模态描述的能力来处理 FGVC 任务，并提出一种基于 CLIP 模型的对比语言图像的新型多模态提示解决方案，表示为 MP FGVC。我们的 MP FGVC 包括多模态提示方案和多模态适应方案。前者包括子类别特定视觉提示 SsVP 和差异感知文本提示 DaTP ，从视觉和语言角度明确突出子类别特定差异。后者将视觉和文本提示元素对齐在一个共同的语义空间中，通过视觉语言融合模块 VLFM 促进跨模态协作推理，从而进一步改进 FGVC。此外，我们为 MP FGVC 定制了两阶段优化策略，以充分利用预训练的 CLIP 模型并加快 FGVC 的高效适应。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com