学术周交流与学习节选

文章目录

1、粒度多模态运动分析
- 1.1 免特征重建的终身行人重识别
- 1.2 无样本保留的终身行人重识别
- 1.3 粒度多模态运动之类增量学习
- 1.4 粒度多模态之人体姿态估计扩散模型
2、深度伪造的被动取证与主动防御
- 2.1 研究现状及主要方法
- 2.2 基于梯度的伪影特征表示
- 2.3 基于伪造自适应学习检测
- 2.4 基于多模态对比学习的深度伪造检测
- 2.5 基于信息隐藏的通用防御
3、低质图像恢复与识别
- 3.1 低质图像恢复与识别介绍大纲
- 3.2 图像恢复的背景与挑战
- 3.3 具有深度图像先验的MAP估计器
- 3.4 用于 CASSI 的深度 GSM
- 3.5 模型的网络实现架构
- 3.6 基于流的先验的非均匀核估计
- 3.7 用于低照度图像增强的深度生成先验
- 3.8 用于降级图像识别的特征向量量化

1、粒度多模态运动分析

本小结内容基于已公开发表论文及其开源代码编写

1.1 免特征重建的终身行人重识别

公开发表文章链接: CVPR 2024

公开发表文章链接 : CVPR 2024 补充材料

在本节中，提出了更多的实验结果，以验证所提出的C2RonOrder-2与现有方法（包括LwF 、AKA 、PatchKD 和CVS ）相比的整体性能和抗遗忘性能。

在这里插入图片描述

自动对焦性能的比较如上表所示，与我们的C2R（AF（mAP）=13.5%和AF（R@1）≥16.5%）相比，比较的方法在旧任务上的遗忘率（AF（mAP）15.2%，AF（R@1）≥18.6%）。我们的C2R最低的AF性能表明，我们的方法通过平衡新旧知识的捕获与不断将旧的画廊特征转移到新的特征空间，实现了更好的旧知识的抗遗忘性能。

开源代码地址 :https://github.com/PKU-ICST-MIPL/C2R_CVPR2024

在这里插入图片描述

论文概要

终身人员重新识别（L-ReID）旨在从顺序收集的数据中学习，以匹配不同场景中的人。一旦使用 newdata 更新 L-ReID 模型，就需要重新计算库中的所有历史图像以获得用于测试的新功能，称为“重新索引”。但是，由于数据隐私问题，库中的原始图像不可用，导致查询与不同模型计算的库特征检索不兼容，从而导致性能显著下降，这是不可行的。在本文中，我们专注于一项新任务，称为重新索引自由终身人员重新识别（RFL-ReID），该任务要求在不重新索引画廊中的原始图像的情况下实现有效的 L-ReID。为此，我们提出了一种连续通信兼容表示（C2R）方法，该方法使得持续更新模型计算的查询特征能够以兼容的方式有效地检索旧模型计算的画廊特征。具体来说，我们设计了一个持续兼容传输（CCT）网络，以连续传输和整合旧的画廊功能到新的功能空间中。此外，还引入了平衡兼容性蒸馏模块，通过将转移的特征空间与新的特征空间对齐来实现兼容性。最后，提出一种平衡的防遗忘蒸馏模块，以消除在持续相容转移过程中为获取旧知识而积累的现象。在几个基准L ReID数据集上的广泛实验证明了我们的方法在RFL-ReID和L ReID任务方面与最先进的方法相比是有效的。

目标：避免行人重识别模型在升级后，对数据库特征进行重建带来的隐私问题
难点：新模型和旧模型提取的行人特征不匹配，造成行人重识别性能严重下降

在这里插入图片描述

在上图（a）传统的终生每子重新识别（L-ReID）任务和（b）重新索引免费终身重新识别（RFL-ReID）任务之间的比较。

在这里插入图片描述

如上图所示。提出的持续兼容表示（（C2R）方法构成连续兼容传输（CCT）网络，平衡兼容蒸馏（BCD）模块，和平衡的防遗忘蒸馏（BAD）模块。在第 s 个训练阶段（s ≥2）开始时，模型 φo 和 clas sifier ψo 的副本被冻结以用作旧知识。然后，我们使用基于BCD和BAD模块的CCT网络训练模型，如上图（a）所示。在第 s 阶段训练之后，我们通过使用我们提出的 CCT 网络更新旧画廊特征集 Fs−1 中的转移特征，并使用 φs 提取当前画廊集 Gs 的特征，从而改革新的画廊特征集 Fs（上图（b））。在第 s 阶段进行测试时，我们使用 φs 计算的查询特征（上图（c））对 Fs 中的每个特征进行排序，以验证所有 s 数据集上的 ReID 性能。

1.2 无样本保留的终身行人重识别

目标：针对持续出现的新场景数据进行终身学习，提升不同场景的行人检索能力
难点：历史场景信息难以准确保留，造成历史知识灾难性遗忘，旧场景性能退化

开源代码地址 : https://github.com/zhoujiahuan1991/CVPR2024-DKP

公开发表文章链接: CVPR 2024

在这里插入图片描述

终身人重新识别（LReID）在从非平稳数据中学习时存在灾难性的遗忘问题。现有的基于示例的LReID方法和基于知识边缘蒸馏的LReID方法分别存在数据来源和获取能力有限的问题。在本文中，我们引入了正在LReID中研究的原型，以更好地平衡获取和获取的知识。现有的基于原型的工作主要集中在分类任务上，其中原型被设置为离散点或统计分布。然而，他们要么放弃了形成中的分布，要么忽略了实例级的多样性，而这些多样性是LReID的关键细粒度线索。为了解决上述问题，我们提出了分布感知知识专业到原型设计（DKP），其中对每个样本的实例级多样性进行建模，以转移全面的细粒度知识，用于原型设计和促进LReID学习。
具体而言，该文提出一种实例级的分布模组网络，用于捕获每个实例的本地分布对象。然后，利用Distribution-oriented Prototype Generation算法将实例级多样性转化为身份级分布作为原型类型，通过设计的基于原型的知识转移模块进一步探索，增强LReID模型的知识边缘抗遗忘和获取能力。大量的实验验证了我们的方法实现了卓越的可塑性和稳定性平衡，并且比现有的LReID方法平均年龄mAP/R@1提高了8.1%/9.1%。

在这里插入图片描述

不同原型生成甲基消耗剂的比较。（a）各种方法[3,8,10]将原型视为特征中心点，而忽略了重要的分布信息。（b）一些方法[46]将原型计算为统计特征分布，但存在分布估计不准确的问题。（c）我们的方法对每个样本的实例级分布进行建模，从中得到的分布感知原型更具信息性和判别性

在这里插入图片描述

1.3 粒度多模态运动之类增量学习

目标：不保留过去样本的条件下，学习新类别知识，并缓解对旧类别知识的遗忘
难点：平衡新知识的获取与引旧知识的遗忘。无限制地学习新知识，导致旧知识产生遗忘。如果过分强调对旧知识的保留，则会导致对新数据的学习能力严重下降

开源代码地址 https://github.com/zhoujiahuan1991/CVPR2024-FCS

公开发表文章链接: CVPR 2024

在这里插入图片描述

非示例类增量学习（NECIL）涉及在一系列数据上学习分类模型，而无需访问以前可能使用的旧类的示例。如此严格的限制总是导致对所学知识的灾难性遗忘。目前，现有的方法要么采用知识提炼技术，要么保留类原型来维持先验知识。
然而，目前仍存在两个关键问题。一方面，随着模型的不断更新，保留下来的旧类原型将不可避免地从新模型的特征空间中的合适位置脱落。另一方面，由于缺乏例子，新类的特征将取代类似的旧类，从而打破了分类界限。为了应对这些挑战，我们提出了一种用于NECIL的特征校准和分离（FCS）方法。我们的方法包括一个特征校准网络（FCN），该网络通过最优传输学习使旧类别的原型适应新模型，近似于模型演化引起的原型漂移。此外，我们还提出了一种原型涉及的对比损失（PIC），可以增强不同类别之间的特征分离。
具体来说，为了减轻不同学习阶段的类相互作用产生的边界扭曲，原型涉及将新类的特征从旧类中推开。在三个具有不同设置的数据集上的广泛实验证明了我们的FCS方法与最先进的类增量学习方法相比具有优越性。

在这里插入图片描述

NECIL中遗忘的四个主要方面。现有的方法大多侧重于通过知识传播和原型来保留知识。然而，特征提取器和分类头之间的次优交互作用以及分类头之间的交叉也可能导致catas营养遗忘。因此，我们提出了一个原型校准网络和一个原型涉及的对比损失来处理这个问题。

在这里插入图片描述

提出的FCS模型的整体管道。（a）在第t-th IL阶段，学习特征校准网络，将保留的原型Ωt−1转移到新模型的特征空间，并引入原型涉及的对比损失来分离不同类别的特征。（b）在训练阶段之后，先前类别的校准原型 Ωt−1 和新类别的计算原型形成新原型集 Ωt

1.4 粒度多模态之人体姿态估计扩散模型

FinePOSE：细粒度提示驱动的3D人体姿态估计扩散模型

在这里插入图片描述

细粒度提示驱动降噪器（FinePOSE）的图示。FinePOSE是提出的基于扩散模型的3D人体姿态估计方法，它实现了由可学习修饰符（例如，“动作类别”、粗粒度和细粒度人体部位，包括“人、头、身体、手臂、腿”和运动学信息“速度”）控制的多粒度操作，促进了单人和多人场景的运动重建。

开源代码地址 https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024

公开发表文章链接: CVPR 2024

3D 人体姿态估计（3D HPE）任务使用 2D 图像或视频来预测 3D 空间中的人体关节坐标。
尽管基于深度学习的方法最近取得了进展，但它们大多忽略了获取可访问文本的能力和人类自然可行的知识，错过了指导 3D HPE 任务的有价值的隐式监督。而且，以往的工作往往从整个人体的角度来研究这个任务，忽略了隐藏在身体不同部位的细粒度指导。为此，我们提出了一种基于3D HPE扩散模型的新型细粒度提示驱动降噪器，名为FinePOSE。它由三个核心块组成，增强了扩散模型的反向过程：
- （1）细粒度部分感知提示学习（FPP）模块通过耦合可访问文本和自然可行的身体部位知识与可学习提示来构建细粒度的部分感知提示，以建模隐式引导。
- （2）细粒度提示姿势通信（FPC）模块建立在学习的部分感知提示和姿势之间建立细粒度通信，以提高降噪质量。
- （3）提示驱动的时间戳风格化（PTS）模块将学习的提示嵌入和与噪声水平相关的时间信息集成在一起，以便在每个去噪步骤实现自适应调整。
在公共单一人体姿态估计数据集上的广泛实验表明，FinePOSE输出器形成了最先进的方法。我们进一步将 FinePOSE 扩展到多人姿态估计。在 EgoHumans 数据集上实现 34.3 毫米的平均 MPJPE 证明了 FinePOSE 在处理复杂的多人场景 ios 方面的潜力。

在这里插入图片描述

FinePOSE 的架构。在扩散过程中，高斯噪声逐渐添加到真值3D姿态Y0中，从而产生时间戳t的噪声3D姿态Yt。在去噪过程中，Yt、X 和 t 被馈送到细粒度的提示驱动去噪器 D，以重建纯 3D 姿态 ˆ Y0。D由细粒度部件感知提示学习（FPP）模块、细粒度提示姿势通信（FPC）模块和提示驱动的时间戳风格化（PTS）模块组成，其中FPP为所有人体动作提供更精确的指导，FPC在可学习的提示和姿势之间建立细粒度的通信，以增强去噪能力，PTS集成学习的提示嵌入和当前时间戳，以优化每个噪声级别的预测。

2、深度伪造的被动取证与主动防御

2.1 研究现状及主要方法

Deepfakes，即深度伪造技术，利用生成式对抗网络GAN机器学习模型，将图片或视频合并叠加到源图片或视频上，通过神经网络技术进行大样本学习，将个人的声音、面部表情及身体动作拼接合成虚假内容的技术。这种技术使得篡改或生成高度逼真且难以甄别的音视频内容成为可能，观察者往往难以通过肉眼明辨真伪。

GAN主要由两部分组成：生成器（Generator）和判别器（Discriminator），它们通过相互竞争的方式进行训练，以生成接近真实数据的伪造数据。

2.2 基于梯度的伪影特征表示

在这里插入图片描述

文章地址:IEEE/CVF CVPR2023:12105-12114.

代码地址:https://github.com/chuangchuangtan/lgrad

图像检测任务的关键是开发由 GAN 模型生成的伪影的通用表示。它应该具有足够的通用性和稳健性，以跨越不同的类别和不同的 GAN 模型。为了实现这一点，设计了一种新型的检测框架来提高这项工作中的跨源性能。方法的概述如下图所示。框架工作采用梯度作为广义表示来获得鲁棒检测器。通过一种预训练的CNN模型将图像转换为梯度，该模型称为transfor mation model。在变换过程中，由于CNN模型中的池化层，图像的大部分内容被滤除，变换模型的基本像素被高亮显示。

在这里插入图片描述

梯度G是我们方法的广义表示。请注意，转换模型 M 是固定的，其 parameter 在我们的框架中不会更新。梯度G的质量很大程度上依赖于变换模型M，这有助于减少对训练数据的依赖，增强表示的泛化。在我们的实验中，我们采用了各种流行的CNN模型来实现转换模型，包括分类模型、分割模型、判别器模型

2.3 基于伪造自适应学习检测

在这里插入图片描述

文章地址:IEEE/CVF CVPR2024

代码地址:https://github.com/Michel-liu/FatFormer

Forgery-aware adapter (FAA) 防伪适配器

在这里插入图片描述

为了使图像特征适应有效的伪造适应，我们在图像编码器中插入伪造感知适配器以桥接相邻的ViT阶段，每个阶段都包含多个ViT层，如上图所示。这些适配器在图像域和频率域中区分和集成伪造痕迹，从而实现图像特征的全面本地视点。图像伪造提取器。在图像领域，FAA构建了一个轻量级图像伪造提取器，包括两个卷积层和一个ReLU层，用于捕获低级图像伪影。

FatFormer architecture 。ViT 图像编码器集成了伪造感知适配器，以有效地从输入图像中提取视觉伪造特征。为了监督伪造适应过程，引入了语言引导的对齐。具体来说，以两个输入图像为例，我们最大化了配对（深灰色方块）图像特征和文本提示嵌入之间的余弦相似性，同时最小化了未配对的（浅灰色方块）。在测试中，只有测试图像是必需的，以通过这些相似性的最大化来计算伪造概率。

在这里插入图片描述

频率伪造提取器。针对频域问题，该文提出一种分组注意力机制来挖掘离散小波变换（DWT）频段的伪造迹线。虽然以往的检测方法采用了快速傅里叶变换和离散余弦反式，但它们破坏了变换频域中的位置信息，这在注意力建模[10]的误文中至关重要。因此，我们利用 DWT变换函数，保留特征的空间结构，将输入分解为4个不同的频段，包括LL、LH、HL和HH。这里，“L”和“H”的组合代表低通滤波器和高通滤波器的组合。然后，提出两个分组的注意力模块，即带间注意力和带内注意力，用于频率线索的提取。如上图所示，带间注意力明确地探索了不同频段之间的相互作用，而带内注意力则在每个频带内构建交互。这种设计实现了不同位置和波段的动态聚合，而不是像F3Net那样的手动加权。在实践中，我们使用多头注意力模块来实现它们。最后，利用FFN和逆离散小波变换（IDWT）得到伪造感知频率特征ˆ g（j）频率，并将其变换回图像域进行进一步合并。为了防止引入超参数，我们利用可学习的尺度因子λ来控制来自im年龄和频域的信息，作为ViT第j阶段的最终适应图像特征，这些图像特征将在下一个（j + 1）阶段发送到第一个多头注意力模块。

快速傅里叶变换（FFT）的作用：①时域到频域的转换：FFT是一种高效的算法，用于将时域信号（如音频、振动等）转换为频域信号。这使得分析信号的频率成分变得直接和高效。②频谱分析：通过FFT，可以得到信号的频谱图，从而直观地观察信号中不同频率成分的大小和性质。这对于信号的进一步处理和分析至关重要。

离散余弦变换（DCT）及其逆变换的作用：DCT及其逆变换在图像和视频压缩中起着核心作用。通过DCT，图像或视频信号可以被分解为一系列不同频率的余弦函数，其中大部分视觉上重要的信息集中在低频部分。因此，可以通过丢弃高频部分的信息来实现信号的压缩，同时保持较好的视觉效果。

在这里插入图片描述

2.4 基于多模态对比学习的深度伪造检测

在这里插入图片描述

多模态对比学习是一种有效的机器学习方法，它利用多种不同的数据模态（如文本、图像、音频、视频等）来训练模型，并通过对比学习的方式提高模型的性能和准确性。

在这里插入图片描述

多模态对比学习结合了多模态学习和对比学习的思想。多模态学习旨在处理和学习不同类型的数据，以提高机器学习模型的性能和准确性。而对比学习则是一种通过比较正样本和负样本之间的差异来学习特征表示的方法。多模态对比学习将这两种方法相结合，通过对比不同模态数据之间的相似性，使模型能够自动提取出具有区分性的特征表示。

2.5 基于信息隐藏的通用防御

基于信息隐藏的主动防御网络是一种创新的网络安全防护策略，它利用信息隐藏技术来增强网络对潜在威胁的防御能力。

在这里插入图片描述

教师通用蒸馏学习是知识蒸馏领域的一个重要研究方向，它旨在通过同时利用多个教师模型的知识来指导学生模型，从而提高学生模型的性能。

在这里插入图片描述

3、低质图像恢复与识别

3.1 低质图像恢复与识别介绍大纲

在这里插入图片描述

3.2 图像恢复的背景与挑战

定义：图像恢复技术是指通过计算机算法和模型，对质量受损的图像进行处理，以重建或恢复其原始质量的过程。
目的：恢复图像的真实性、清晰度和准确性，减少或消除成像过程中的各种干扰因素。

在这里插入图片描述

3.3 具有深度图像先验的MAP估计器

文章地址 : IEEE Trans CVPR 2021

代码地址:https://github.com/TaoHuang95/DGSMP

该文提出一种学习的GSM模型来利用HSIs的空谱相关性。与现有的具有手工制作的尺度先验（例如，Jeffrey 先验）的 GSM 模型不同，我们建议通过 DCNN 来学习尺度先验。

在这里插入图片描述

GSM模型的局部均值估计为空间光谱相邻像素的加权平均值。空间光谱相似性权重也由DCNN估计。
HSI重建问题被表述为使用学习到的GSM模型的最大后验（MAP）估计问题。MAP估计器中的所有参数都以端到端的方式进行联合优化。• 在合成数据集和真实数据集上的大量实验结果表明，所提方法的性能优于现有的最先进的HSI重建方法。

在这里插入图片描述

3.4 用于 CASSI 的深度 GSM

在这里插入图片描述

将测量 y 分割成一个大小为 H×W×L以初始化 x。
我们使用两个子网络来学习测量矩阵 A 及其转置版本 A⊤。
为了估计 w，我们开发了 U-Net 的轻量级变体和一个权重生成器来学习函数 S(.)
我们不是使用手动设计的方法来学习 3D 滤波器，而是使用相同的轻量级 U-Net 和 3D 滤波器生成器来生成空间变化的滤波器。根据式（14），我们通过生成的3D滤波器对当前x进行滤波，以更新均值u

3.5 模型的网络实现架构

在这里插入图片描述

考虑到真实系统具有较大的掩模空间大小和测量值（例如，掩模和度量分别为660×660和660×714），使用显式构造的A和A⊤进行网络训练需要大量的GPU内存和计算复杂度。为了解决这个问题，我们建议通过两个子网络来学习这两种操作。用于学习测量矩阵 A 和 A⊤ 的模块。通过子网络学习 A 和 A⊤，可以在小块（例如 64×64 或 96×96）上训练它们，这可以大大减少内存消耗和计算复杂性。
此外，我们可以训练一个子网络来学习多个掩模，这样训练的网络就可以在多个成像系统上很好地工作。测量矩阵 A 表示调制的混合算子，即移位和求和，可以通过两个 Conv 层和四个 ResBlock 实现，然后移位求和运算。如上图（b）所示，x被馈入子网络以生成调制的特征图，这些特征图沿光谱尺寸进一步移动和求和，以产生测量值y = Ax。
每个ResBlock 由 2 个 Conv 层组成，具有一个 ReLU 非线性函数和一个跳过连接。关于A⊤，如上图（c）所示，我们首先在大小为H × （W + L − 1）的输入y上滑动一个H × W提取窗口，滑动步长为一个像素，并将输入分割成大小为H ×W的L通道图像。然后，将分割的子图像送入两个 Conv 层和四个 ResBlocks，以生成估计值 A⊤y。

3.6 基于流的先验的非均匀核估计

文章链接:CVPR 2023

代码地址:https://github.com/Fangzhenxuan/UFPDeblur

从随机轨迹和归一化流模拟的一些运动模糊核的图示学习了模糊核和高斯分布之间的双射映射。

在这里插入图片描述

归一化流[8,9,13,14,16,17,25,30]是生成模型，可以通过可逆神经网络将复杂数据分布pK变形为简单分布pZ（通常是高斯分布）。根据变量公式的变化，简洁的负对数似然损失函数可以表示为
其中 ∂fθ（k） ∂k 是流动模型 fθ 的雅可比矩阵，参数 θ 通过估计最大似然法进行优化。NICE[8]通过堆叠非线性加性耦合和其他变换层，提出了一个流动模型。然后，在RealNVP中，将加性耦合升级为仿射耦合，从而在保持可逆性的同时实现了更好的性能。近年来，归一化流程也已成功应用于超分辨率等图像恢复任务[24,25]。Deflow 提出了一种基于流动条件归一化的新方法，用于从未配对的数据中学习退化。FKP通过优化潜变量，在获得均匀模糊核之前提出一个高斯核。与FKP搜索潜码不同，我们提出直接从模糊图像中预测潜码，并使用估计的码来获得非均匀模糊场。

在这里插入图片描述

基于流的不确定内核估计网络的架构概述，（b）编码器-解码器去模糊内核注意力模块（c）内核注意力模块

在这里插入图片描述

3.7 用于低照度图像增强的深度生成先验

文章链接 :ICCV 2023

代码地址： https://github.com/LiuYunlong99/RQ-LLIE

提出的用于低照度图像增强的三阶段框架的架构。（a）在第一阶段，我们的目标是学习一个富有表现力的码本 C 和一个精确的正常光解码器 DN。（b）在第二阶段，我们学习一个低光编码器 EL 和一个查询模块 Q，而码本 C 和解码器 DN 是固定的。（c）在第三阶段，我们提出了一个融合分支，以融合固定编码器EL和解码器DN的特征，以追求更好的结果

如上图所示，编码器 EL 和 EN 以及解码器 DN 由三个基本模块组成。如下图（a）所示，每个基本块由一个卷积层和三个光谱注意力块（SAB）[1,2]组成。提出SAB [1， 2]以低计算成本学习特征图的信道自注意力，实现最先进的光谱重建性能。有关 SAB的更多详细信息，请参阅补充材料。编码器 EL 和 EN 使用两个下采样算子来降低特征，而解码器 DN 使用两个上采样算子来恢复特征。

在这里插入图片描述

本文提出了一种基于VQ-VAE的新型低照度图像增强方法，该方法具有三阶段帧工作。据我们所知，我们提出的方法是第一个基于VQ的LLIE方法。
我们通过残差量化构建了一个层次更丰富、表现力更强的码本。此外，我们还设计了一个查询模块，以弥合低光特性和正常光照码簿之间的差距。
为了避免下采样操作丢失图像细节，我们提出了一种融合低光特征和不同尺度的正常光先验的融合分支。
我们设计了一个亮度感知注意力模块，该模块学习亮度图以调制特征，以证明网络对亮度的鲁棒性。
在几个流行数据集上的广泛实验结果表明，我们提出的方法优于现有的几种最先进的 LLIE 方法

在这里插入图片描述

3.8 用于降级图像识别的特征向量量化

文章地址 CVPR 2023

代码地址:https://github.com/yangzhou321/VQSA

我们提出的方法的整体架构。小批量输入包含干净和损坏的图像。从骨干网络中提取的特征通过码本模块进行量化。然后 z 和 ˆ z 被连接和池化。随后，在SA模块的增强下，将特征输入到头部网络中，以获得最终的输出结果

在这里插入图片描述

我们方法的一般结构如上图所示。模型的批量输入包括清晰图像和用于增强训练的模拟低质量降级图像。数据由式（1）生成。计算了从骨干网络中提取的特征 z 与码本中的项目之间的相似性，并将最相似的项目称为量化特征 ˆ z。矢量量化过程可以用下面公式来表示。
我们使用下面方程来优化码本模块中的参数。除了下面方程之外，标准向量量化中还存在承诺损失，这是对编码器（主干网）的额外约束。承诺损失可以按以下方式形成。

在这里插入图片描述

该损失用于优化骨干网络中的参数，旨在防止崩溃，使骨干网络的输出与码本嵌入空间一致。随后，我们将 z 与 ˆ z 连接起来，通过全局平均池化（GAP）将其转换为向量，然后将它们放入自注意力模块中。输出特性可以从下面公式中得到。

然后，增强的特征表示通过两个全连接层，得到最终的分类结果。我们方法的整体训练目标由三个损失组成，即交叉熵损失、VQ损失和承诺损失。总损失可表述为：
在这里插入图片描述
式中β为承诺损失的权重，我们根据原始设置设置β=0.25，λ为损失余额的权重，我们经验设置为1。最后，该模型使用总损失函数进行端到端训练。

在这里插入图片描述

本文提出了一种即插即用的低质量图像识别方法，通过矢量量化和自注意力进行识别。其中，VQ可以映射清理和多重退化特征到相同的离散空间特征与区域质量无关，有利于鲁棒识别。在不同设置下的实验结果验证了该方法的优越性。尽管以结果VQ 为基础的方法，但最优策略，即简单地选择码簿中最相似的项目来量化输入是值得怀疑的。我们实验性地尝试选择多个项目，但结果并未改善。因此，基于VQ的质量控制响应优化学习值得进一步研究。