用于 RGB-D 显著目标检测的点感知交互和 CNN 诱导的细化网络

摘要

        通过整合来自RGB图像和深度图的互补信息,能够提升在复杂且具有挑战性场景下的显著性目标检测(SOD)能力。近年来,卷积神经网络(CNNs)在特征提取和跨模态交互方面的重要作用已得到充分挖掘,但在对自模态和跨模态的全局长距离依赖关系进行建模方面仍显不足。为此,我们引入了卷积神经网络辅助的Transformer架构,并提出了一种新颖的具有点感知交互和卷积神经网络引导优化功能的RGBD显著性目标检测网络(PICR-Net)。一方面,考虑到RGB模态和深度模态之间的先验相关性,我们设计了一个注意力触发的跨模态点感知交互(CmPI)模块,用于探索在位置约束下不同模态的特征交互。另一方面,为了缓解Transformer天然带来的块效应和细节破坏问题,我们设计了一个卷积神经网络引导优化(CNNR)单元,用于内容的优化和补充。在五个RGB-D显著性目标检测数据集上进行的大量实验表明,所提出的网络在定量和定性比较中均取得了具有竞争力的结果。我们的代码已在以下网址公开:https://github.com/rmcong/PICR-Net_ACMMM23。

CCS概念

计算方法→兴趣点和显着区域检测;

关键字

显著对象检测,RGB-D图像,CNNS辅助变压器体系结构,点感知互动

一 简介

        受人类视觉系统的启发,显著性目标检测(SOD)旨在定位给定场景中最具吸引力的目标或区域[3, 5, 6, 9-13, 27, 54, 59],该技术已成功应用于众多任务中。此外,RGB-D显著性目标检测任务在显著性目标检测任务中额外引入了深度图,以便更好地模拟人类双目视觉系统的能力,并获得感知物体间距离关系的能力。自从进入深度学习时代[20, 23, 36, 57]以来,基于卷积神经网络(CNNs)的RGB-D显著性目标检测框架得到了蓬勃发展[2, 8, 15, 24, 29, 30, 39, 47, 51, 52, 58],其性能远远超过了基于手工设计特征的方法。然而,研究表明,尽管从理论上讲,卷积神经网络可以通过网络的深度化获得更大的感受野,但在实际应用中,卷积操作的感受野仍然局限于局部范围。遗憾的是,显著性目标的判定需要全局对比感知,因此对全局关系进行建模的能力在显著性目标检测中起着至关重要的作用。因此,一些研究工作利用Transformer的全局建模能力来实现RGB-D显著性目标检测[33, 35]。

        从模型架构的角度来看,现有的RGB-D显著性目标检测(SOD)方法可分为三类:纯卷积神经网络(CNNs)模型、纯Transformer模型以及Transformer辅助的CNNs模型。对于纯CNNs架构而言,由于卷积操作具有出色的局部感知能力,其显著性检测结果在描述某些局部细节(如边界)方面表现更佳,但检测结果可能不完整,例如图1中第一张图片里多视角显著性网络(MVSalNet)[58]的检测结果。对于纯Transformer结构,由于Transformer能够捕捉长距离依赖关系,在一定程度上提高了检测结果的完整性,然而分块操作可能会破坏细节质量,引发块效应,甚至引入额外的误检情况,如图1中视觉Transformer(VST)[33]的检测结果。Transformer辅助的CNNs结构引入Transformer来辅助CNNs进行全局上下文建模,通过将两者结合,可以缓解上述单一方案的缺点。然而,在逐层解码的过程中,卷积操作会逐渐淡化Transformer获取的全局信息,所以这种方案仍然会导致目标的漏检或误检,如图1中TriTransNet[35]的检测结果。因此,在本文中,我们重新思考了Transformer和CNNs之间的关系,并提出了一种CNNs辅助的Transformer网络架构。具体来说,我们利用Transformer完成大部分的编码和解码过程,并设计了一个可插拔的卷积神经网络引导优化(CNNR)单元,以便在网络末端实现内容优化。通过这种方式,可以充分利用Transformer和CNNs的优势,且二者互不干扰,从而获得全局和细节感知能力,并生成准确且高质量的显著图。

图1:具有不同体系结构的代表性网络的视觉比较,其中MVSALNET [58],VST [33]和Tritransnet [35]分别是纯CNN,纯变压器和Transformer辅助CNNS架构。

        对于跨模态特征交互问题,传统的特征交互机制已经引起了计算机视觉和模式识别领域的高度关注,甚至在模态对应信息缺失的情况下也取得了成功的成果[25, 48]。在基于Transformer的模型背景下,交叉注意力机制[19, 50]是一种常用的方法。例如,视觉与语言任务中的跨模态交互通过交替使用来自视觉和语言模态的查询(queries)和键(keys)来计算不同模态之间的相似度。同样地,交叉注意力机制也可以直接应用于RGB-D显著性目标检测(SOD)任务,以对RGB和深度特征之间的关系进行建模,但存在两个主要挑战。首先,与图像和语言之间的关系不同,RGB图像和深度图仅在对应位置的特征上具有明确的相关性,所以上述交叉注意力方法在一定程度上是盲目且冗余的。其次,由于计算复杂度与特征图的大小呈二次方比例关系,这种不加区分的“一刀切”计算方式会带来不必要的计算负担。为了解决上述两个问题,我们提出了一种跨模态点感知交互(CmPI)模块,该模块通过对来自不同模态的对应点特征进行分组,简化了跨模态交互的建模过程。通过这种方式,RGB和深度特征的交互被限制在相同的位置,使其更具方向性,并将计算复杂度降低到线性水平。此外,我们还在CmPI模块中引入了全局显著性引导向量,以便在进行跨模态交互时强调全局约束,使交互更加全面。具体来说,通过使用带有精心设计的掩码约束的两步注意力操作来实现上述跨模态以及全局与局部关系的建模过程。

        总的来说,本文做出了以下三个主要贡献:

(1) 为了充分发挥Transformer和卷积神经网络(CNNs)的优势,我们提出了一种新的由CNNs辅助的Transformer架构,以实现RGB-D显著性目标检测(SOD),该架构被称为PICR-Net。在五个广泛使用的数据集上,与16种最先进的方法相比,PICR-Net取得了具有竞争力的性能表现。

(2) 考虑到RGB模态与深度模态之间的先验相关性,我们提出了一种跨模态点感知交互模块,该模块能够在全局引导和位置约束的条件下,动态地融合不同模态的特征表示。

(3) 为了缓解由Transformer架构所导致的块效应和细节破坏问题,我们在网络末端设计了一个可插拔的卷积神经网络引导优化单元,以实现内容的优化和细节的补充。

二 有关工作

        早期,传统的RGB-D显著性目标检测(SOD)方法[4, 7, 40]依赖于手工设计的特征,其性能非常有限。近年来,得益于深度学习强大的特征表示能力,大量基于学习的RGB-D显著性目标检测模型被提出。在2020年视觉Transformer(Vision Transformer)发布[14]之前,RGB-D显著性目标检测任务仍以卷积神经网络(CNNs)为主流架构,并且在跨模态交互、深度质量感知和轻量化设计等方面提出了各种模型[1, 2, 17, 18, 22, 51, 53, 56, 60]。例如,Zhang等人[51]设计了一种跨模态差异交互策略,以在RGB-D显著性目标检测任务中实现高效的融合。Cong等人[2]在RGB-D显著性目标检测任务中考虑了深度图的质量问题,并提出了一种深度潜力感知门控注意力网络,以解决低质量深度图带来的负面影响。Chen等人[1]堆叠了三维卷积层作为编码器来实现RGB-D显著性目标检测,这种方法无需专用或复杂的模块就能有效地融合跨模态特征。Huang等人[22]仅在特定的一个特征层级上而非所有层级上进行跨模态特征融合,从而形成了一个轻量级的模型。

        随着Transformer在计算机视觉领域崭露头角,一些纯Transformer模型或Transformer与卷积神经网络(CNNs)相结合的模型应运而生。Liu等人[33]从序列到序列建模的新视角,为RGB-D显著性目标检测(SOD)任务设计了一种纯Transformer架构,其中采用交叉注意力机制进行跨模态交互。Song等人[42]在RGB-D显著性目标检测任务中充分利用自注意力机制和交叉注意力机制,实现外观特征与几何特征之间的交互。Liu等人[35]将Transformer嵌入到CNNs之后,对卷积特征之间的长距离依赖关系进行建模,同时实现特征融合。

        然而,这些现有的纯卷积神经网络(CNNs)或纯Transformer解决方案也存在一些问题。例如,基于CNNs的方法在获取全局信息以准确定位显著目标的能力方面稍显不足,而基于Transformer的解决方案计算量较大,并且容易受到块效应的影响。尽管一些采用Transformer辅助CNNs架构的混合结构方法能够在一定程度上缓解上述问题,但在解码过程中的多层卷积操作会淡化Transformer获取的全局信息,进而影响预测性能。我们应该重新思考Transformer和CNNs在网络中的作用,充分利用它们各自的优势,并探索有效的跨模态交互方式。因此,我们尝试使用一种由CNNs辅助的Transformer架构来对全局上下文和局部细节进行建模,并提出一种在位置约束下的点感知交互机制,以使跨模态交互更加高效且具有针对性。

三 提出的方法

3.1 网络概述

图2:所提出的PICR-Net的整体框架。首先,将RGB图像和深度图像输入到双流编码器中,以提取相应的多级特征。随后,同一层的特征通过跨模态点感知交互模块进行多维度交互,在这个过程中,之前输出的显著图被用于提取全局引导信息。在网络的末端,卷积神经网络引导优化(CNNR)单元从预训练的VGG16模型中提供具有更高分辨率和更多细节的卷积特征,以优化并输出最终的高质量显著图

        如图2所示,所提出的网络整体上遵循编码器-解码器结构。顶部和底部的分支分别是RGB图像和深度图的特征编码器,二者均采用共享权重的Swin-Transformer模型[34],而中间分支是自下而上的解码过程。在每个解码阶段,首先通过跨模态点感知交互(CmPI)模块对不同模态相同位置处的交互关系进行建模,从而获得跨模态表示。此后,我们使用基于Swin-Transformer的解码模块,从全局角度在解码过程中对跨模态特征的长距离依赖关系进行建模。具体来说,由CmPI模块生成的跨模态特征以及前一解码阶段(如果有的话)经过上采样的输出特征被输入到两个级联的Swin-Transformer模块中,以对全局关系进行建模:

其中,“cat”表示在特征维度上的拼接操作,“Linear”是线性层,“ST”代表两个Swin-Transformer模块,“Exp”是将特征转换回空间分辨率的操作。最后,在解码器的末端,我们提出了一个可插拔的卷积神经网络引导优化(CNNR)单元,以低成本解决Transformer架构下存在的块效应和细节破坏问题,并生成最终的显著图

3.2 跨模式点感知交互模块

        在提取了RGB模态和深度模态的多级编码特征之后,如何实现全面的交互是编码阶段需要重点关注的一个重要问题。现有的基于Transformer架构的跨模态交互方案通常会对两种模态所有位置之间的关系进行建模。但众所周知,RGB图像和深度图本身之间存在对应关系,也就是说,这两种模态仅在对应位置上存在明确的关系。因此,如果对不同模态的所有像素之间的关系进行建模,就会存在计算冗余,而且由于这种强行的关联建模,还可能引入不必要的噪声。考虑到这些因素,从RGB-D显著性目标检测(SOD)任务中跨模态建模的实际情况出发,我们引入了位置约束因素,并提出了一种跨模态点感知交互方案,其核心是通过多头注意力机制来探索不同模态特征在相同位置处的交互关系。与直接组合特征向量相比,多头并行注意力机制允许跨模态特征在不同的嵌入空间中进行动态交互,从而能够在不同场景中自适应地调整两种模态特征的参与程度。此外,为了从全局角度引导这一交互过程,并感知当前位置在整体特征图中的作用,我们还在交互过程中添加了全局显著性引导向量。

图3:CMPI模块中的跨模式点感知的RM,其中RGB和深度在同一空间位置和两种模态的全球显着性引导量都得到充分有效相互作用。

        图 3 展示了跨模态点感知交互(CmPI)模块中最关键的跨模态点感知关系建模(RM)部分。设 RGB 模态和深度模态特征上任意位置(x,y)对应的点特征向量分别表示为,其中c为嵌入维度。首先,为了给每个位置的交互过程提供全局引导,利用从上一级解码得到的上采样侧边输出显著图生成两种模态的显著性引导向量,在计算过程中,当前尺度下的所有位置共享该引导向量:

其中,“MAP”表示掩码平均池化操作[46],并且被用作加权掩码。然后,位置(x, y)处的RGB/深度特征以及RGB/深度显著性引导向量共同构成了一个具有更全面表示的逐点特征组

其中,“Stack”表示将特征在一个新的维度上拼接在一起。

        随后,通过关系建模操作来执行点特征组之间的交互:

其中,是在位置(x, y)处RGB模态和深度模态之间的关系建模操作,其可以定义为:

其中,表示不同头(即不同特征空间)的注意力输出结果。这种关系建模操作与多头注意力机制[44]类似,但也存在明显差异:一方面,并非特征组内的所有特征都需要进行交互,例如引导向量与不同模态的特征之间。因为它们处于不同尺度且来自不同模态,强行进行交互反而可能产生负面影响。因此,我们在注意力操作中引入了精心设计的掩码来抑制这种负面交互。另一方面,在特征组内的注意力交互之后,全局向量会由其他跨模态全局向量以及自模态局部向量进行更新。为了更好地利用这些信息并强调全局 - 局部引导的作用,我们还使用新的掩码约束在自模态中进行了第二步的全局 - 局部交互。上述过程可以用以下公式表示:

在第一步注意力计算中,将设为一个值为 -100.0 的反对角矩阵。这能在交互过程中削弱深度引导向量对 RGB 特征、RGB 引导向量对深度特征的负面影响。随后进行第二步注意力操作,在这一步中,通过将设为图 3 中的值来进行自模态内的全局 - 局部交互,从而增强全局向量对同一模态中局部表示的引导作用。具体而言,带有掩码的注意力操作如下进行:

其中,通过线性映射生成的,并且j是注意力头的索引。

        经过上述过程,两种模态的信息能够在显著性引导向量的引导下充分交互,最后,通过一个线性层将这两种特征组合起来,作为最终的跨模态特征:

其中,“MLP”指的是多层感知机。

3.3 CNN诱导的精炼单元

        在Transformer解码器的输出端,显著目标的主体基本上已经确定,但由于Transformer结构中采用了分块操作,得到的显著图可能存在块效应和细节破坏的问题。为此,我们在解码器的末端提出了一个可插拔的卷积神经网络引导优化单元。这主要是受到了卷积神经网络(CNNs)在处理局部细节方面优势的启发。此外,在这个阶段特征分辨率较大,从参数数量和计算成本的角度来看,卷积操作更为合理。由于这一步骤的主要目的是优化细节内容,无需引入完整的CNNs编码器-解码器网络,仅使用VGG16[41]中前两层具有丰富纹理细节的浅层特征就足够了,分别记为。首先,将来自最后一层Transformer的解码器特征转换到像素级别,并上采样到与相同的分辨率,为后续的优化做准备:

其中,“Baseconv”由一个3×3的卷积层以及随后的一个ReLU激活函数组成,“up”表示上采样操作。此后,被用于进一步恢复分辨率。考虑到简单地使用拼接操作来融合特征并不能有效地捕捉嵌入在某些通道中的细节信息,我们使用通道注意力机制[21]来发现那些包含细节信息的重要通道,同时保留显著目标的主体部分,以实现自适应融合。逐步优化的过程可以表示如下:

        其中,“CA”表示带有残差连接的通道注意力操作,是最终的显著图。通过这种方式,来自卷积的细粒度信息能够得到补充,从而生成更精确的显著图。

3.4 损失功能

        为了获得具有清晰边界的高质量显著图,所提出的整个网络由多种损失函数进行监督,其中包括常用的二元交叉熵损失、用于衡量结构相似性的结构相似性指数(SSIM)损失以及交并比(IoU)损失,这些损失的组合记为。该网络的总损失定义为:

其中G表示相应的真实标签(ground truth),是侧边输出监督,它是通过将G下采样到合适的尺寸得到的。需要注意的是,侧边输出的损失函数设置了较小的权重,以此来引导训练过程。

四 实验

4.1 数据集和评估指标

        采用了五个广泛使用的RGB - D显著性目标检测(SOD)基准数据集来评估我们的PCIR - Net的性能。NLPR数据集[38]是通过Kinect相机获取的,它包含来自室内和室外场景的1000对RGB图像和深度图。按照文献[30, 39]的做法,我们采用2985对图像作为训练数据,其中包括来自NJU2K数据集的1485个样本、来自NLPR数据集的700个样本以及来自DUT数据集的800个样本。这些训练数据集中剩余的所有图像,以及LFSD[32]和STERE1000[37]数据集都用于测试。

        我们采用显著性目标检测(SOD)任务中常用的三个指标来对性能进行定量评估。F值度量[37]通过将二值化的显著图与真实标签(ground truth)进行比较,来表示精确率(precision)和召回率(recall)的加权调和平均数。平均绝对误差(MAE)得分[6]是逐像素计算差异。S值度量[16]用于评估预测的显著图与真实标签之间的目标感知和区域感知结构相似性。

4.2 实施详细信息

        所提出的网络借助PyTorch和MindSpore Lite工具1实现,并使用单块NVIDIA GeForce RTX 3090 GPU进行加速。所有训练和测试样本都被调整为Swin - Transformer指定的224×224大小。此外,所有深度图都经过归一化处理,并复制为三个通道以适配输入尺寸。同时还采用随机翻转和旋转操作进行数据增强。在训练过程中,编码器使用在ImageNet上预训练的参数进行初始化。采用Adam算法对所提出的网络进行优化,批量大小设为32。初始学习率设定为,并采用逐步衰减策略,每40个epoch衰减为前一阶段的五分之一。整个训练过程包含90个epoch。

4.3 与最先进的比较   

        为了证明我们所提出的PICR - Net的有效性,我们将其与16种最先进的模型进行了比较,这些模型包括DSA2F [43]、DCF [24]、DFM - Net [55]、TriTransNet [35]、BTS - Net [56]、VST [33]、SPNet [60]、CDNet [26]、HAINet [31]、CCAFNet [61]、RD3D [1]、JLDCF [18]、SPSN [28]、MVSalNet [58]、CIRNet [8]和DCMF [45]。其中,VST [33]是纯Transformer架构,TriTransNet [35]是Transformer辅助的卷积神经网络(CNNs)架构,其余的则是基于纯CNNs的架构。为了进行公平比较,我们使用了各模型作者提供的显著图,或者通过官方测试代码得到的显著图来进行评估。

4.3.1 定量评估

表1:在五个基准数据集上,依据S值度量、最大F值度量以及平均绝对误差(MAE)得分的定量比较结果。“↑”和“↓”分别表示数值越高越好和越低越好。每行中的粗体数字代表最佳性能。

表2:我们的PICR-NET的推理速度和一些典型的SOTA方法。黑色粗字体表示最佳性能

        表1直观地展示了所提出的PICR - Net在五个广泛使用的数据集上的定量结果,其中最佳性能以粗体标记。除了在LFSD数据集上的S值度量外,我们提出的方法在这五个数据集上均优于所有比较方法。例如,与第二优的方法相比,在DUT - test、LFSD、NLPR - test和STERE1000数据集上,平均绝对误差(MAE)得分的提升百分比分别达到了16.7%、1.9%、9.5%和6.1%。在其他度量指标上也能观察到类似的提升。推理速度一直是限制深度学习模型发展和应用的关键因素[49]。因此,我们还评估了PICRNet以及其他典型的最先进(SOTA)模型的推理速度,这些模型包括基于Transformer的模型VST [33]、TriTransNet [35]以及先进的基于卷积神经网络(CNNs)的模型SP - Net [60]。如表2所示,我们的模型在取得更好性能的同时,在推理速度方面也具有优势。然而,我们的模型尚未实现实时高效性,这也是未来进一步提高基于Transformer的模型推理速度的一个研究方向。

4.3.2 定性比较

图4:我们的PICR-Net与最先进(SOTA)方法在不同具有挑战性的场景下的可视化对比,这些场景包括小目标(即图a、c和d)、多个目标(即图c)、低对比度(即图d和f)、低质量深度图(即图b和e)以及光照不均匀(即图g)。

        图4展示了不同方法的一些可视化结果,涵盖了具有挑战性的场景,如小目标场景(即图a、c和d)、多目标场景(即图c)、低对比度场景(即图d和f)、低质量深度图场景(即图b和e)以及光照不均匀场景(即图g)。 由此可见,我们的方法不仅能在这些具有挑战性的场景中准确检测出显著目标,还能获得更好的完整性和局部细节。值得注意的是,基于Transformer的模型(即VST、TriTransNet以及我们的PICR-Net)能够对全局依赖关系进行建模,因此在显著目标定位方面往往优于其余基于卷积神经网络(CNNs)的网络。此外,由于精心设计的跨模态交互,当深度图质量相对较差时(例如图4(a)和(e)),或者在RGB图像中存在光影干扰时(例如图4(g)),我们的网络能够充分提取另一个模态的信息,以实现准确且完整的预测。同时,由于CNNR单元提供了更细粒度的细节信息,与其他方法相比,我们的方法在边界精度和细节描述方面具有更大优势(例如图4(c)、(d)和(g))。上述的定量和定性实验都证明了我们所提出方法的有效性。

4.4 消融研究

        我们在NJU2K测试集和NLPR测试集上进行了消融实验,以验证所提出的PICR-Net中每个模块所起的作用。

4.4.1 一般结构的有效性

首先,为了验证CmPI模块的作用,我们设计了如下的替换实验:

(1)全模型(编号为0)表示我们所提出的完整模型PICR-Net。

(2)带加法(编号1)、带乘法(编号2)以及带拼接(编号3)分别表示将CmPI模块替换为逐元素加法、乘法以及拼接操作,以此来实现RGB特征与深度特征之间的交互。

(3)带交叉注意力(编号4)意味着使用传统的交叉注意力[33]操作来替换CmPI模块中的RM(可能是特定的子模块或操作,需根据上下文确定具体含义)。

表3:一般结构的定量消融评估。黑色粗字体表示最佳性能。

        如表3所示,我们设计的CmPI模块比其他简单的交互策略取得了更好的性能。此外,对比编号0和编号4可以发现,我们带有CmPI模块的完整模型表现更优,并且也优于会带来更多计算负担的交叉注意力机制。图5展示了不同消融研究的一些可视化结果。从第二张图像可以看出,低质量的深度图会对使用交叉注意力的交互产生负面影响,导致目标被遗漏。相比之下,我们的方法仍然能够准确且完整地检测出显著目标。

        此外,为了验证带有CNNR单元的基于Transformer的解码器的有效性,我们设计了如下的剥离实验:

(1)无TD(编号5)表示用数量相等的卷积层来替代基于Transformer的解码器,以进行显著性解码。

(2)无CNNR(编号6)指的是将解码器末端的CNNR单元移除。

        如表3所示,在替换掉基于Transformer的解码器后,在两个数据集上的F值度量得分分别下降了1.1%和1.3%,这表明使用卷积神经网络(CNNs)来完成解码会削弱Transformer提取的全局信息,进而降低性能。此外,从图5中可以发现,CNNR单元有助于提升显著图的边界质量和清晰度,这一点也得到了定量结果的支持。

图5:不同消融研究的视觉比较。

4.4.2 设计细节的有效性

        此外,为了验证CmPI模块详细设计的有效性,我们设计了以下实验:

(1)无RM(编号7)表示移除CmPI模块中的关键组件RM。

(2)采用单步操作(编号8)意味着仅保留RM中的第一步注意力操作,也就是说,去除了第二步的注意力计算。

(3)无(编号9)表示在RM的计算公式(6)中去除掩码约束,也就是去掉M1和M2。此外,无M1(编号10)和无M2(编号11)分别表示仅去除M1和仅去除M2。

(4)无(编号12)表示移除RM中的全局引导向量

(5)窗口大小为3(编号13)和窗口大小为5(编号14)表示将RM中用于注意力交互的窗口大小从1(点感知)分别调整为3和5。

(6) 1×1卷积(编号15)用同样属于点感知操作的1×1卷积替换了RM。

表4:CmPI模块详细设计的定量消融评估。黑色加粗字体表示最佳性能。

图6:关于CMPI设计细节的消融研究的定性比较。

        相关结果见表4。总体而言,所有的消融验证结果都不如我们的全模型设计。具体来说,如果移除整个RM模块,性能损失非常明显,如编号7的结果所示。此外,第二步注意力中的自模态全局-局部引导(如编号8的结果所示)以及RM中对负向交互的抑制(如编号9、10和11的结果所示)都是非常必要且有效的。对于引导向量,在移除它们之后,性能下降,这也导致了如图6所示的更差的目标完整性。对于注意力操作的交互范围,由于位置之间的强相关性,增大窗口大小(3或5)并不能明显提高性能,反而带来了指数级的计算成本。我们直接使用1×1卷积来替换CmPI模块(为了公平比较,也通过扩展和拼接引入了引导向量),如表4中编号15所示。在两个数据集上所有的评估指标都降低了,这表明CmPI相比1×1卷积能够实现更全面的交互。

五 结论

        考虑到Transformer和卷积神经网络(CNNs)各自的特点与优势,我们提出了一个名为PICR-Net的网络,以实现基于RGB-D数据的显著性目标检测(SOD)。该网络整体上采用基于Transformer的编码器-解码器架构,并在末端添加了一个可插拔的CNNR单元,用于细节优化。此外,与传统的交叉注意力机制相比,我们提出的CmPI模块考虑了RGB和深度模态之间的先验相关性,通过引入空间约束和全局显著性引导,实现了更有效的跨模态交互。全面的实验表明,在五个基准数据集上,我们的网络与16种最先进的方法相比,取得了具有竞争力的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32841.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot的“校园周边美食探索及分享平台”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“校园周边美食探索及分享平台”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 校园周边美食探索及分享平台结构图…

chrome浏览器插件拓展捕获页面的响应体内容

因为chrome extension官方没有的直接获取响应体的方法,所以需要自己实现方法来获取,实现的方式有很多种,这是记录的第二种,第一种就是使用vconsole来实现,vconsole是一个开源框架,一个轻量、可拓展、针对手…

【Linux指北】Linux的重定向与管道

一、了解Linux目录配置标准FHS FHS本质:是一套规定Linux目录结构,软件建议安装位置的标准。 (使用Linux来开发产品或者发布软件的公司、个人太多,如果每家公司或者个人都按照自己的意愿来配置文件或者软件的存放位置,这无疑是一…

Qt6.8.2中JavaScript调用WebAssembly的js文件<1>

前段时间已经学习了如何在QtAssembly中编译FFmpeg资源了,接下来需要使用Html来调用QtCreator中WebAssembly套件写的功能,逐步实现javascrpt与c复杂功能的视线。 接下来我先为大家介绍一个非常简单的加法调用吧! 功能讲解 开发环境&#xf…

3.13-进程

进程 进程和程序 程序:编译好的二进制文件,不占用系统资源(内存)。进程:活跃的程序,不消耗系统图资源(内存)。 MMU PCB 进程控制块 本质:结构体:struct …

在 CentOS 7 上安装 PHP 7.3

在 CentOS 7 上安装 PHP 7.3 可以按照以下步骤进行操作: 1. 安装必要的依赖和 EPEL 仓库 EPEL(Extra Packages for Enterprise Linux)是为企业级 Linux 提供额外软件包的仓库,yum-utils 用于管理 yum 仓库。 sudo yum install -…

DeepSeek模型本地化部署方案及Python实现

DeepSeek实在是太火了,虽然经过扩容和调整,但反应依旧不稳定,甚至小圆圈转半天最后却提示“服务器繁忙,请稍后再试。” 故此,本文通过讲解在本地部署 DeepSeek并配合python代码实现,让你零成本搭建自己的AI…

C++从入门到入土(七)——多态

目录 前言 多态的概念 多态的定义 虚函数的介绍 虚函数的重写/覆盖 析构函数的重写 override和final关键字 纯虚函数和抽象类 重写/重载/隐藏总结 多态的原理 小结 前言 C一共有三个特性,封装、继承和多态,在前面的文章中,我们分别…

浅谈时钟启动和Systemlnit函数

时钟是STM32的关键,是整个系统的心脏,时钟如何启动,时钟源如何选择,各个参数如何设置,我们从源码来简单分析一下时钟的启动函数Systemlnit()。 Systemlnit函数简介 我们先来看一下源程序的注释…

【数据结构】6栈

0 章节 3.1到3.3小节。 认知与理解栈结构; 列举栈的操作特点。 理解并列举栈的应用案例。 重点 栈的特点与实现; 难点 栈的灵活实现与应用 作业或思考题 完成学习测试2,? 内容达成以下标准(考核…

HOT100——链表篇Leetcode160. 相交链表

文章目录 题目:Leetcode160. 相交链表原题链接思路代码 题目:Leetcode160. 相交链表 给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点,返回 null 。 图示两个链表…

江科大51单片机笔记【16】AD/DA转换(下)

写在前言 此为博主自学江科大51单片机(B站)的笔记,方便后续重温知识 在后面的章节中,为了防止篇幅过长和易于查找,我把一个小节分成两部分来发,上章节主要是关于本节课的硬件介绍、电路图、原理图等理论知识…

【CF】Day5——Codeforces Round 921 (Div. 2) BC

B. A Balanced Problemset? 题目: 思路: 这道题要我们分成n个子问题,我们假设这几个子问题分别是a1,a2,a3,...an, 那么就是让我们求 gcd(a1,a2,a3,....,an),我们假设这个值是d 那么就有 d | a1,d | a2…

Mininet 自定义拓扑类型详解

Mininet 通过 --topo 参数支持多种自定义网络拓扑结构&#xff0c;适用于不同场景的网络模拟需求。以下是所有内置拓扑类型及其参数说明&#xff1a; 一、基础拓扑类型 拓扑类型参数格式说明示例命令singlesingle,<n>单一交换机连接所有主机&#xff08;默认 2 台主机&a…

图论part3|101.孤岛的总面积、沉没孤岛、417. 太平洋大西洋水流问题

101. 孤岛的总面积 &#x1f517;&#xff1a;101. 孤岛的总面积思路&#xff1a;和昨天的岛的区别是&#xff1a;是否有挨着边的岛屿 所以可以先遍历四条边挨着的岛屿&#xff0c;把他们标记为非孤岛再计算其他岛屿当中的最大面积 代码&#xff1a;&#xff08;深度搜索&…

第十一届蓝桥杯单片机国赛

什么&#xff1f;4T模拟赛和省赛做起来轻轻松松&#xff1f;不妨来挑战一下第十一届国赛&#xff0c;这一届的国赛居然没考超声波、串口通信&#xff01;只要你正确地理解了题目的意思&#xff0c;规避出题人挖的坑&#xff0c;拿个国一轻轻松松。 附件&#xff1a;第十一届蓝桥…

【Unity6打包Android】游戏启动的隐私政策弹窗(报错处理)

Unity版本&#xff1a;Unity6000.0.24 增加弹窗步骤 1. 自定义AndroidManifest 1.1 在Player Setting > Publishing Settings > Build下勾选Custom Main Manifest&#xff0c;在Assets/Plugins/Android路径下生成AndroidManifest.xml文件 1.2 修改AndroidManifest.xml…

记录一个SQL自动执行的html页面

在实际工作场景中&#xff0c;需要运用到大量SQL语句更新业务逻辑&#xff0c;对程序员本身&#xff0c;写好的sql语句执行没有多大问题&#xff08;图1&#xff09;&#xff0c;但是对于普通用户来说还是有操作难度的。因此我们需要构建一个HTML页面&#xff08;图2&#xff0…

mac安装mysql之后报错zsh: command not found: mysql !

在Mac上安装MySQL后&#xff0c;如果终端中找不到mysql命令&#xff0c;通常是 因为MySQL的命令行工具&#xff08;如mysql客户端&#xff09;没有被正确地添加到你的环境变量中。 检查 MySQL 是否已安装 ps -ef|grep mysql查看到路径在 /usr/local/mysql/bin 查看 .bash_pro…

socket编程与TCP协议

如果你想和远方的朋友通电话&#xff0c;但是&#xff0c;没有办法直接把自己的声音放在电线上变成电流信号&#xff0c;你需要使用电话机拿起听筒拨号&#xff0c;而这个电话就是Socket&#xff0c;它让你简单方便地完成电流通话&#xff0c;从我们编程的角度来看&#xff0c;…