RGB-T综述

RGB-T（可见光-热红外）显著性目标检测近年来受到越来越多的关注，主要针对复杂环境下的目标检测任务。以下是RGB-T显著性检测综述的核心内容梳理：

RGB-T显著性检测的目标是通过可见光（RGB）和热红外（T）图像的互补性，提高在不同光照、天气和遮挡情况下的目标检测能力。相比于单一模态，RGB-T方法能更鲁棒地识别场景中的显著目标，在夜间、烟雾等复杂环境下尤为有效。

应用场景包括：（1）目标跟踪（如智能监控）（2）自动驾驶（如行人检测）（3）机器人导航

（4）医学影像分析

RGB-T显著性检测面临以下核心挑战：

（1）模态差异：RGB与热红外数据在分辨率、纹理、光照敏感度等方面存在较大差异，难以直接融合。

（2）信息互补性：如何有效利用热红外信息增强可见光信息，并避免不相关或冗余信息的干扰。

（3）跨模态对齐：由于RGB和热红外传感器的物理特性不同，数据可能存在几何错位，需要对齐校正。

（4）数据集有限：RGB-T显著性检测公开数据集较少，标注成本高，影响模型泛化性。

早期的RGB-T显著性检测方法主要依赖于：

1. 颜色、纹理、边缘等低层特征提取

2. 直方图相似性、信息熵等方法进行跨模态特征融合

这些方法通常计算量较低，但在复杂场景下鲁棒性较差。

近年来，深度学习方法成为主流，主要分为以下几类：

（1）早期的CNN-based 方法

1. 采用双流 CNN 提取 RGB 和 T 特征

2. 通过简单的特征拼接或加权融合生成显著性图

（2）端到端 RGB-T 显著性检测网络

1. 设计专门的跨模态融合模块，如通道注意力、特征对齐机制

2. 典型方法：MSNet、MTMFNet、MSEDNet

（3）Transformer-based 方法

1. 采用 Vision Transformer（ViT）或 Swin Transformer

2. 结合自注意力机制建模 RGB 和 T 之间的长距离依赖关系

3. 典型方法：RGBT-TANet

（4）多尺度与上下文建模方法

1. 利用金字塔特征提取不同尺度的目标信息

2. 采用全局-局部特征融合，提升检测精度

为了提升检测效果，RGB-T 领域采用了多种关键技术：

跨模态特征融合策略
- 早期方法：简单特征拼接、加权平均
- 深度学习方法：
  - 注意力机制（通道注意力、空间注意力、模态注意力）
  - 图卷积（Graph Convolution）用于跨模态特征交互
  - Transformer 进行模态对齐和信息聚合
模态对齐与补全
- 由于RGB与T数据采集方式不同，可能出现视角偏移
- 采用深度对齐网络（如Optical Flow）或自监督学习进行几何校正
特征金字塔（FPN）与多尺度建模
- 结合不同分辨率的特征，提高目标定位精度
自监督与少样本学习
- 通过自监督方式学习更鲁棒的跨模态特征
- 结合生成式模型（GANs）补全热红外数据，提高数据利用率