2022-ECCV-Explaining Deepfake Detection by Analysing Image Matching

一、研究背景
1.大量工作将深度伪造检测作为一个二分类任务并取得了良好的性能。
2.理解模型如何在二分类标签的监督下学习伪造相关特征仍难是个艰巨的任务。
3.视觉概念：具有语义的人脸区域，如嘴、鼻子、眼睛。

二、研究目标
1.验证假设，并从图像匹配的角度评估视觉概念的关系，以此解释检测模型的预测结果。
2.解释深度伪造检测模型如何在二分类标签的监督下学习伪影特征。
3.习得更好的检测模型，提高在压缩视频上的伪造检测性能。

三、研究动机（3种假设）
在这里插入图片描述
1.检测模型将既不与原图相关也不与目标图相关的视觉概念看作是与伪造相关的视觉概念，性能良好的检测模型应该基于源/目标-无关的视觉概念来判断真伪。
2.在标签的监督下，伪造-原图-目标图匹配可以帮助丢弃伪造无关视觉特征，隐式学习伪造相关的视觉概念。
3.利用原始训练集进行图片匹配习得的视觉概念容易受到视频压缩的影响。

四、技术路线
假设1：

设计源编码器 $v_s$ 和目标编码器 $v_t$ 区分图片中的视觉概念。
令伪造图片与相应源/目标图片具有相同属性标签，以此训练编码器。
用Shapley value评估视觉概念的区域贡献。例如：
对输入图片做 $L\times L$ 区域划分，得到 $G=\{g_{11},\dots,g_{LL}\}$ 。
当 $\phi_{v_{d}}(g_{ij}\mid G)>0$ 时，证明区域 $g_{ij}$ 与伪造相关。
评估视觉概念间的关系：
利用掩膜操作定位源/目标相关区域：
$M_{\tau}=I(max(\phi_{v{s}},\phi_{v{s}}))>\tau$
评估视觉概念间的交叉强度，第一项为无关区域的相关强度，第二项为相关区域的相关强度：

假设2：
设置两种训练集：
第一种：真实图片仅包含和伪造图片相关的原图/目标图
第二种：真实图片与伪造图片不相关

假设3：
评估稳定性：
对于压缩图片，由源/目标编码器习得的视觉概念更加稳定。
在这里插入图片描述

FST-Matching Deepfake Detection Model：
直接将源/目标无关特征从源/目标视觉概念中分离出来去进行真伪检测可以提升在压缩视频上的性能。
在这里插入图片描述

习得源特征 $f_s$ 和目标特征 $f_t$
利用通道注意力自动解纠缠源/目标无关特征 $f_s^{ir}$ 、 $f_t^{ir}$ 和源/目标相关特征 $f_s^{r}$ 、 $f_t^{r}$
设置 Fake-Source/Target Pair Verification module验证解纠缠的有效性，令源/目标图片的 $f^{r}$ 具有和原始图片相同的属性标签，并进行属性预测
增强 $f_s^{ir}, f_t^{ir}]$ 的交互， $h$ 为预测模块，令联合预测损失小，单一预测损失大，0输入的影响小。
总损失