【视频异常检测】Open-Vocabulary Video Anomaly Detection 论文阅读

Open-Vocabulary Video Anomaly Detection 论文阅读

Abstract
Method
- 3.1. Overall Framework
- 3.2. Temporal Adapter Module
- 3.3. Semantic Knowledge Injection Module
- 3.4. Novel Anomaly Synthesis Module
- 3.5. Objective Functions
- - 3.5.1 Training stage without pseudo anomaly samples
  - 3.5.2 Fine-tuning stage with pseudo anomaly samples
4. Experiments
5. Conclusion

文章信息：
在这里插入图片描述

原文链接：https://arxiv.org/abs/2311.07042
无源码
发表于：CVPR 2024

Abstract

当前的视频异常检测（VAD）方法在弱监督下通常局限于封闭集设置，并且可能在测试数据中存在未见过的异常类别的开放世界应用中遇到困难。最近的一些研究尝试解决一个更现实的问题，即开放集异常检测（open-set VAD），其旨在检测给定已见异常和正常视频的未见异常。然而，这样的设置侧重于预测帧异常分数，无法识别异常的具体类别，尽管这种能力对于构建更加明智的视频监控系统至关重要。本文进一步探讨了开放词汇视频异常检测（OVVAD），我们旨在利用预训练的大型模型来检测和分类已见和未见的异常。为此，我们提出了一种将OVVAD分解为两个相互补充的任务的模型 - 无类别检测和特定类别分类，并联合优化这两个任务。特别地，我们设计了一个语义知识注入模块，从大型语言模型中引入语义知识用于检测任务，并设计了一个新颖的异常合成模块，借助大型视觉生成模型生成伪造的未见异常视频，用于分类任务。这些语义知识和合成异常显著扩展了我们模型在检测和分类各种已见和未见异常方面的能力。在三个广泛使用的基准测试上的大量实验表明，我们的模型在OVVAD任务上达到了最先进的性能水平。

在这里插入图片描述
图1.红色框为作者解决的问题（识别未见过的视频异常，并且还能对未见过的异常进行分类）

作者的贡献总结如下:

我们探索了在一个具有挑战性但在实践中非常重要的开放词汇设置下的视频异常检测。据我们所知，这是针对开放词汇视频异常检测（OVVAD）的第一项工作。
然后，我们提出了一个建立在预训练的大型模型之上的模型，将OVVAD任务分解为两个相互补充的子任务——无类别检测和特定类别分类——并共同优化它们以实现准确的OVVAD。
在无类别检测任务中，我们设计了一个几乎无权重的时间适配器模块和一个语义知识注入模块，大大增强了正常/异常帧的检测能力。
在细粒度异常分类任务中，我们引入了一种新颖的异常合成模块，用于生成伪造的未见异常视频，以便准确分类新型异常类型。

Method

Problem Statement.所研究的问题，OVVAD，可以正式地陈述如下。假设我们有一组训练样本 $\mathcal{X} = \{ x_i\} _{i= 1}^{N+ A}$ ，其中 $\mathcal{X} _n= \{ x_i\} _i^N$ 是正常样本集合， $\mathcal{X}_a=\{x_i\}_{i=N+1}^{N+A}$ 是异常样本集合。对于 $\mathcal{X}_a$ 中的每个样本 $x_i$ ，它都有一个相应的视频级别的类别标签 $y_i,y_i\in C_{base}$ ，这里， $C_{base}$ 表示基本（已见）异常类别的集合， $C$ 是 $C_{base}$ 和 $C_{novel}$ 的并集，其中 $C_{novel}$ 表示新颖（未见）异常类别的集合。根据训练样本 $\mathcal{X}$ ，目标是训练一个能够检测和分类基本和新颖异常的模型。具体来说，模型的目标是为每个帧预测异常置信度，并在视频中存在异常时识别异常类别。

3.1. Overall Framework

在这里插入图片描述

传统方法基于封闭集分类不太可能处理开放词汇情景下的VAD。为此，我们利用语言-图像预训练模型，例如CLIP，作为基础，因为它具有强大的零样本泛化能力。如图2所示，给定一个训练视频，我们首先将其馈送到CLIP的图像编码器 $\Phi_{CLIP-v}$ 中，以获得具有形状为 $n\times c$ 的帧级特征 $x_f$ ，其中 $n$ 是视频帧数， $c$ 是特征维度。然后这些特征通过TA模块、SKI模块和detector，产生帧级异常置信度 $p$ ，这个流程主要用于类别不可知的检测任务。另一方面，对于类别特定的分类，我们从不同视觉任务的其他开放词汇作品中汲取灵感，并使用跨模态对齐机制。具体来说，我们首先生成跨帧特征的视频级聚合特征，然后生成异常类别的文本特征/嵌入，最后根据视频级特征和文本特征之间的对齐估计异常类别。此外，我们引入NAS模块，借助大型语言模型（LLM）和人工智能生成内容模型（AIGC），生成潜在的新颖异常，以实现新类别的识别。

3.2. Temporal Adapter Module

时间依赖性在VAD中起着至关重要的作用。在这项工作中，我们利用了CLIP的冻结图像编码器来获得视觉特征，但由于CLIP是在图像-文本对上预训练的，因此缺乏对时间依赖性的考虑。为了弥补图像和视频之间的差距，最近的研究中出现了使用时间变换器的做法。然而，这样的范式在新颖类别上明显表现出性能下降，可能的原因是时间变换器中的额外参数可能会特化于训练集，从而损害对新颖类别的泛化能力。因此，我们设计了一个几乎无权重的时间适配器来处理时间依赖性，它是建立在经典的图卷积网络之上的。从数学上讲，它可以表示如下：
在这里插入图片描述
其中LN是层归一化操作，H是邻接矩阵，softmax归一化用于确保H的每一行的总和等于一。这样的设计用于基于每两帧之间的位置距离捕获上下文依赖关系。邻接矩阵的计算如下：

第 $i$ 帧和第 $j$ 帧之间的接近关系仅由它们的相对时间位置决定。 $\sigma$ 是一个超参数，用于控制距离关系的影响范围。根据这个公式，两帧之间的时间距离越接近，接近关系得分越高，反之越低。值得注意的是，在 TA 模块中，只有层归一化涉及少量参数。

3.3. Semantic Knowledge Injection Module

人类在感知环境时通常会利用先验知识，例如，我们可以根据气味和烟雾推断火灾的存在，而不直接看到火焰。基于这个想法，我们提出了 SKI 模块，明确引入额外的语义知识来辅助视觉检测。如图 $\color{red}{2}$ 所示，对于视频中的正常事件，我们使用大规模语言模型，例如，ChatGPT [2] 和 SparkDesk $^{1}$ ，以固定的模板提示，获取关于常见场景和动作的信息，例如街道、公园、购物大厅、步行、奔跑、工作等等。同样，我们生成与异常场景相关的额外词语，包括爆炸、爆裂、火光等术语。最后，我们获得了几个短语列表，表示为 $M_{prior}$ ，其中包含名词词语（场景）和动词词语（动作）。拥有 $M_{prior}$ 后，我们利用 CLIP 的文本编码器提取文本嵌入作为语义知识，具体如下所示，
在这里插入图片描述
其中 $F_{text}\in\mathcal{R}^{l\times c}$ ， $\Phi_{CLIP-t}$ 表示 CLIP 的文本编码器， $\Phi_{token}$ 是将单词转换为向量的语言分词器。

然后，为了有效地将这些语义知识合并到视觉信息中，以增强异常检测的效果，我们设计了一种跨模态注入策略。该策略鼓励视觉信号寻找相关的语义知识并将其整合到过程中。这样的操作如下所示：
在这里插入图片描述
其中， $F_{know}\in\mathcal{R}^{n\times c}$ ，我们使用sigmoid而不是softmax，以确保视觉信号可以涵盖更多相关的语义概念。

最后，我们将 $F_{know}$ 和 $x_t$ 连接起来，创建一个包含视觉信息和整合语义知识的输入。我们将这个输入馈送到一个二元检测器中，为类别无关检测生成异常置信度。

3.4. Novel Anomaly Synthesis Module

尽管当前的预训练视觉-语言模型，如CLIP，在零样本能力方面表现出色，但它们在各种下游任务，特别是与视频相关的任务上的零样本性能仍然不尽人意。出于同样的原因，我们的模型是基于这些预训练的视觉-语言模型构建的，并且在基础异常和正常样本上进行训练，这使得它在面对新异常时容易出现泛化缺陷。随着大型生成模型的出现，生成样本作为伪训练数据的做法已经成为一种可行的解决方案。因此，我们提出了NAS模块，根据潜在的异常类别生成一系列伪新异常样本。然后，我们利用这些样本对提出的模型进行微调，以改善对新异常的分类和检测。总的来说，NAS模块包括三个关键过程：

1）首先，我们使用预定义的模板 $prompt_{gen}$ （例如， $g e n er a t e$ ）来提示大型语言模型（LLMs，例如ChatGPT、ERNIE Bot [41]），生成关于“Fighting”场景的十个简短描述，以获取潜在新类别的文本描述。然后，我们利用人工智能生成内容（AIGC）模型，例如DALL·E mini [30]、Gen-2 [7]，来生成相应的图像，以创建短视频。这可以表示为：
在这里插入图片描述
2) 随后，对于 $I_{gen}$ ，我们借鉴 [18] 的思路，引入了一种简单而有效的动画策略，将单张图像转换为模拟场景变化的视频片段。具体地，给定一张图像，我们使用不同的裁剪比例来选择相应的图像区域，然后将这些区域调整回原始尺寸，并级联它们以创建新的视频片段 $S_{cat}$ 。

3）最后，为了模拟现实世界中的情况，其中异常视频通常是长而未经修剪的，我们引入了第三步，伪异常合成，通过将 $S_{cat}$ 插入到随机选择的正常视频中。此外，插入位置也是随机选择的。这个过程产生了最终的伪异常样本 $\mathcal{V}_{nas}$ 。详细描述和结果请参考补充材料。

有了 $\mathcal{V}_{nas}$ ，我们对最初在 $\mathcal{X}$ 上训练的模型进行微调，以增强其对新异类的泛化能力。

3.5. Objective Functions

3.5.1 Training stage without pseudo anomaly samples

对于类别不可知的检测，我们遵循之前的视频异常检测工作[27,49]，使用 Top-K 机制在异常和正常视频中选择前 $K$ 个高异常置信度值。我们计算这些选择的平均值，并将平均值输入到 sigmoid 函数中作为视频级别的预测。在这里，我们设置 $K = n /16$ 用于异常视频， $K = n$ 用于正常视频。最后，我们计算视频级别预测和二进制标签之间的二元交叉熵 $L_{bce}$ 。

关于类别特定的分类，我们计算聚合的视频级特征与文本类别嵌入之间的相似性，以得出视频级别的分类预测。我们还使用交叉熵损失函数来计算视频级别的分类损失 $L_{ce}$ 。鉴于 OVVAD 是一个弱监督任务，我们无法直接从帧级别注释中获得视频级别的聚合特征。我们遵循 [49]，使用基于软注意力的聚合方法，如下所示：
在这里插入图片描述

对于文本类别嵌入，我们受到 CoOp[63] 的启发，将可学习的提示附加到原始类别嵌入中。
对于 SKI 模块的参数，即 $F_{text}$ ，我们旨在在训练阶段明确进行优化。我们打算区分正常知识嵌入和异常知识嵌入。对于正常视频，我们期望它们的视觉特征与正常知识嵌入的相似性较高，与异常知识嵌入的相似性较低。为此，我们首先提取每个视频与文本知识嵌入之间的相似性矩阵，然后为每个帧选择前 $10\%$ 最高分，并计算平均值，最后应用基于交叉熵的损失 $L_{sim-n}$ 。对于异常视频，我们预计异常知识嵌入与异常视频帧特征之间的相似性较高。由于弱监督情况下缺少精确的帧级注释，我们采用了一种硬注意力的选择机制，称为 Top-K，来定位异常区域。然后执行相同的操作来计算损失 $L_{sim-a}$ 。

总的来说，在训练阶段，我们使用了三个损失函数，总损失函数为:
在这里插入图片描述
$L_{sim}$ 是 $L_{sim-n}$ 和 $L_{sim-a}$ 的总和。

3.5.2 Fine-tuning stage with pseudo anomaly samples

在获得 NAS 模块生成的 $\mathcal{V}_{nas}$ 后，我们继续对模型进行微调。 $\mathcal{V}_{nas}$ 是合成的，为我们提供了帧级别的标注，使我们能够使用完整的监督来优化我们的检测模型。对于分类， $L_{ce2}$ 与 $L_{ce}$ 保持相同，关键区别在于标签不仅适用于基础类别，还适用于潜在的新类别。对于检测， $L_{bce2}$ 是帧级别的二元交叉熵损失。
在这里插入图片描述

4. Experiments

在这里插入图片描述

5. Conclusion

在本论文中，我们提出了一种新模型，基于预训练的大型模型，用于弱监督下的开放词汇视频异常检测任务。由于开放词汇视频异常检测的挑战性质，当前的视频异常检测方法在效率上面临困难。为了解决这些独特的挑战，我们明确将开放词汇视频异常检测分解为类别不可知的检测和类别特定的分类子任务。然后，我们引入了几个临时模块：时间适配器和语义知识注入模块主要旨在促进对基本和新颖异常的检测，新颖异常合成模块生成了几个潜在的伪新颖样本，以帮助所提出的模型更准确地感知新颖异常。在三个公共数据集上进行的大量实验表明，所提出的模型在开放词汇视频异常检测任务上表现出了优势。未来，利用AIGC模型的辅助生成更生动的伪异常样本的研究仍有待探索。