【论文笔记】Exploring Temporal Coherence for More General Video Face Forgery Detection

* Exploring Temporal Coherence for More General Video Face Forgery Detection

题目:探索更一般的视频人脸伪造检测的时间相干性

1.概述

  • 时间相干性网络组成:

    第一阶段是一个全时间卷积网络(FTCN)。FTCN的关键见解是 将空间卷积核大小减少到1,同时保持时间卷积核的大小不变。有助于模型提取时间特征,并提高泛化能力。

    第二阶段是时间变换网络,旨在探索长期时间相干性。

  • 时间相干性:

    • 伪影类型:空间相关+时间相关

 

2.贡献

  • 全时间卷积网络(FTCN)+时间变换器(Temporal Transformer):利用时间相干性检测。

  • 探测器:定位和可视化伪造人脸的时间非相干部分。

  • 模型泛化能力优越,可用于不可见的伪造。

3.网络总述

  • 问题:如何利用空间+时间的卷积网络来学习时间的不相干性。

  • 网络限制:保持所有时间相关卷积核大小为原始值,将所有空间相关卷积内核大小设置为1*1。

    限制的作用:可以鼓励网络学习时间不相干。

    证明:ResNet-50(R50)作为主干,并比较了三种类型的分类器:

  • 证明了1*1的卷积更能使时间网络通过更一般的时间不相干学习分类。

  • 网络总述:

    全时间卷积网络+时间变压器。

    这两个部分经过端到端的训练,用于视频人脸伪造检测。

    总的来说,给定一个可疑视频V,

    第一阶段:全时间卷积网络(FTCN)。处理局部时间闪烁和不一致性,并提取时间特征F=FTCN(V)

    第二阶段:时间变换器。旨在进一步建模时间特征(F)的每个时间片段之间的长期不相干。

    即一个局部特征提取,一个全局对比。

    最后,使用MLP头进行最终预测。

3.Fully Temporal Convolution Network

  • 现有问题:时空耦合核会削弱模型捕捉纯时间信息的能力,所以同时处理时空伪影不太可能。

  • FTCN主要思想:限制网络处理空间信息的能力,提高处理时间信息的能力。

  • 网络架构:

  •  

网络分析:
根据上述实验得出结论,卷积核为1更加适合学习时间的不相干。
但 因为一些卷积层可能涉及大于1的步长,所以用3DConv(Kt,1,1,1,1)替换1*1的卷积核。
如果Sh或Sw>1,则在卷积运算符后添加max-pooling(最大值池化操作 作用:增大感受野)
*注:3DConv(Kt,Kh,Kw,St,Sh,Sw)其中Kt,Kh,Kw是时间、高度、宽度维度中的核大小,St、Sh、Sw是时间、高度、宽度维度中的步幅。
  • 最终获得:时间特征

    F\in R^{C*N*H*W}

     (C=2048,N=16, H=1, W =1)
    F:时间特征。
    R:局部视频
    C:输入的特征维度。
    N:输入的序列长度。
    H:高度。
    W:宽度。

4.Temporal Transformer

  • 作用:学习时间维度上的长期差异。

  • 网络架构:

  •  

    1.按时间分割FTCN提取的特征: F\in R^{C*N*H*W}; 2.用时间特征的线性投影(W),将映射尺寸从原特征维数(C)映射到新的特征维度(D);

    3.将数据输入Temporal Transformer

    输入序列:

    F_{class}:可学习的嵌入(可嵌入的有效位置)。作用是使临时变压器启动分类。

    E_{pos}:嵌入的位置。

    F_t:第t个时间片段的特征。

    4.Temporal Transformer组成:

    • LN+MSA+LN+MLP+GELU

    * MSA: a multi-head self-attention(MSA) block .attention:注意力机制,根据需求观察注意特定的一部分。self-attention:优点计算复杂度小+可大量并行计算+可更好学习远距离依赖。multi-head self-attention:可让模型从不同角度理解输入的序列。因此同时几个Attention的组合效果可能会优于单个Attenion.
    ​
    * MLP:多层感知机(Multi-Layer Perception)感知机:把训练集分为正反两个部分,并且能够对未来输入的数据进行分类。
    ​
    * GELU:激活函数。GELU为非单调激活函数,有助于保持小的负值,从而稳定网络梯度流;GELU的最小值为-0.21,值域为[ − 0.21 , + ∞ ] 上界是任何激活函数都需要的特征,因为这样可以避免导致训练速度急剧下降的梯度饱和,因此加快训练过程。无下界有助于实现强正则化效果;梯度不容易造成梯度爆炸和梯度消失。光滑性:光滑的激活函数有较好的泛化能力和稳定的优化能力,可以提高模型的性能。
    * LN:LayerNorm.channel方向做归一化,算CHW的均值,主要对RNN作用明显。

    • 第 l 层特征定义为:

    先用MSA着重观察某一部分获取特征,再用MLP进行特征打分(真假概率)。

    最终的假概率:

     

5.实验

  • 训练数据集:FaceForensics++(FF++)

    假视频制作方法:Face2Face(F2F), FaceSwap(FS), NeuralTex-ture(NT), and Deepfake(DF).

  • 测试数据集:FF++ ; FaceShifter;DeeperForensics;DeepFake De-tection Challenge Preview dataset(DFDC);Celeb-DF-v2(CDF).

  • 评估指标:AUC。

  • 实验设置:self-attention heads, hidden size, and MLP size are set to 12,1024, 2048。

    batch size of 32 ,

    SGD optimizer with momentum。

    the weight decay is set as 1e-4.

  • 实验过程: the learning rate first increases from 0.01 to 0.1 in the first 10 epochs ,

    and then cosinely decayed to 0 for the last 90 epochs.

    (在前10个时间段内,学习率首先从0.01增加到0.1,然后在最后90个时间段以余弦方式衰减到0。)

6.结果

table2:在不同方法生成的假脸上对比。

table3:和最先进的检测方法对比。

#params:参数数量,越小性能越好,处理越快。

结论:泛化好+最少的参数实现了最高的性能+没有任何预训练或外部训练数据。

  • 验证robustness

    考虑四种常见的扰动:1)块态畸变;2) 颜色饱和度的变化;3) 高斯模糊;4) 调整大小:按系数对图像进行降采样,然后将其升采样到原始分辨率。

    并将每个扰动分为五个强度级别。扰动在不同数据集上的平均结果如下:

     结论:robustness好。

7.综合分析和改善

  • 无法同时兼顾时空

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29207.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

视频超分辨率论文笔记

持续更新 Video Super-Resolution via Deep Draft-Ensemble Learning 论文链接:http://openaccess.thecvf.com/content_iccv_2015/papers/Liao_Video_Super-Resolution_via_ICCV_2015_paper.pdf代码:http://www.cse.cuhk.edu.hk/leojia/projects/DeepS…

【超分辨率】SRCNN论文笔记

论文名称:Image Super-Resolution Using Deep Convolutional Networks 论文下载地址:https://arxiv.org/pdf/1501.00092.pdf 翻译参考:https://blog.csdn.net/PPLLO_o/article/details/90040801 1.论文概述 1.SRCNN算是深度学习在图像超分辨…

版面分析:[ICCV2017] Fast CNN-based document layout analysis

论文链接:https://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w18/Oliveira_Fast_CNN-Based_Document_ICCV_2017_paper.pdf 自动文档布局分析是认知计算和从文档图像中提取信息的过程中的关键步骤,如特定领域知识数据库创建、图形和图像…

论文笔记之数据增广(1):mixup

mixup:BEYOND EMPIRICAL RISK MINIMIZATION 文章:https://arxiv.org/pdf/1710.09412.pdf 代码:github 作者:张宏毅 mixupBEYOND EMPIRICAL RISK MINIMIZATION 摘要背景 引入贡献 方法 公式理解 实验讨论 摘要 如今大规模深度…

【图像超分辨率重建】——EnhanceNet论文精读笔记

2017-EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis(EnhanceNet) 基本信息 作者: Mehdi S. M. Sajjadi Bernhard Scholkopf Michael Hirsch 期刊: ICCV 引用: * 摘要: 单一图像超分辨率是指从…

旷视CVPR2019图卷积多标签图像识别Multi-Label Image Recognition with Graph Convolutional Networks论文详解

背景:GCN刚出来,很多很容易想到的idea会被运用起来,很容易产生一些paper。我们解析此篇论文,了解其中原理,一来看看如何将图卷积应用于目前技术上,二来看到底如何快速的把准确率刷到state of the art以便发…

Hierarchical Modular Network for Video Captioning【论文阅读】

Hierarchical Modular Network for Video Captioning 发表:CVPR 2022代码:HMNidea:现有方法在有监督学习的框架下比较生成句子与标注,没有对语义有详尽的探索。基于此,作者考虑从三个层面来连接视频特征和语义&#x…

CVPR2019超分辨率文章:Meta-SR,任意输入upsample factor的超分辨率网络

论文地址 CVPR2019的新文章,主要是针对以前超分辨率问题中需要固定上采样因子的问题作出的改进。 摘要 随着DNN的发展,超分辨率技术得到了巨大的改进。但是,超分辨率问题中的任意scale factor问题被忽视了很久。前面的很多工作都是把不同s…

GAIDC大会:飞桨邀你来大模型技术与应用论坛

深度学习大规模预训练模型的兴起,以其极强的通用能力和突破性的效果,正推动通用人工智能(AGI)快速发展,并带来了AI研发应用新范式,逐步改变AI生态格局。近期以大规模语言模型为基础的技术工作,展…

人工智能大模型多场景应用原理解析

​强烈推荐一个大神的人工智能的教程:http://www.captainai.net/zhanghan 前言 在上篇文章《人工智能大模型之ChatGPT原理解析》中分享了一些大模型之ChatGPT的核心原理后,收到大量读者的反馈,诸如:在了解了核心原理后想进一步了解未来的发展…

3日行程安排

22号 13:30出发到峡山码头坐船--横山岛景区 峡山码头 船费:来回70r 固定开船时间:9:30,12:00,14:00 或者🈵️12人自动开船,最晚4点有船返回 岛上风景 逛山海“小普陀”寺庙普南禅院,被誉为宁…

托福备考经验心得

综述 托福备考准备经验与心得。全部都是个人的反思,带有个人的观点色彩,按需自取即可。首先是几个深刻的经验教训: 对备考的强度要有一个基本的把握,之前一方面在忙别的事情一方面备考感觉自己成效不是特别明显 (可能是我本人能…

初识托福TOEFL口语

对于想要准备托福的童鞋,并不怎么了解托福考试内容的可以看一看,本文主要给大家分享下托福考试中口语部分介绍。 托福考试中总共有4个部分,第一个部分是Reading(阅读),第二个部分是(Listening&…

chatgpt赋能Python-pycharm自动纠错

Pycharm自动纠错:提高开发效率,减少犯错 随着Python语言的流行,Pycharm成为了众多Python工程师的首选IDE之一。Pycharm具有丰富的功能,其中之一就是自动纠错。本文将介绍Pycharm自动纠错的优点和如何正确使用它来提高开发效率&am…

KFC - VME = 50

KFC - VME 50 CalHeightFromPointToPlane.java_spencer_tseng的博客-CSDN博客

kfc 商家地址获取

简单获取商家地址(kfc) 学习源址 基本的查找url,请求方式我也是在上面的链接中学到的,在此就不赘述了,只是重点分享和记录一下自己遇到的一些bug 代码 import requestsurl http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?opkeyw…

java实现kfc点餐系统

一、题目分析 1.1、题目要求 正常餐品结算和找零。基本套餐结算和找零。使用优惠劵购买餐品结算和找零。可在一定时间段参与店内活动(自行设计或参考官网信息)。模拟打印小票的功能(写到文件中)。 基本要求:程序设计风…

html网页肯德基设计代码作业,Illustrator设计一幅肯德基广告单页制作教程

给各位Illustrator软件的使用者们来详细的解析分享一下设计一幅肯德基广告单页的制作教程。 教程分享: 首先来看一下最终效果图: 本幅广告页面我们很常见,就是一幅肯德基广告页面。在现实生活中,同学可以细心观察身边的事物&#…

kfc扫描点餐系统java_Java实现KFC点餐系统过程解析

这篇文章主要为大家详细介绍了java实现KFC点餐系统,模拟肯德基快餐店的收银系统,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 同学们应该都去麦当劳或肯德基吃过快餐吧?请同学们参考肯德基官网的信息模拟肯德基快餐店的收银…

python爬取ajax动态内容肯德基门店,Python爬虫如何爬取KFC地址

随着人们生活水平的提高,肯德基这类的快餐消费的十分火爆,成为小朋友和年轻人的最爱,我们到一个地方想要找到肯德基店面,会根据导航获取肯德基地址,那你知道我们也可以使用python爬虫获取KFC地址吗?我们可以…