0%

Learning to Recognize Patch-Wise Consistency for Deepfake Detection

主要动机:Deepfake 图像在制作过程中,存在一个拼接融合的操作,伪造区域和非伪造区域来源不同,两者之前可能会存在不同的特征,包括 in-camera featrues (PRNU noise),out-camera features (JPEG compression patterns, compression retes, frame rates) 和 forgery features (copy-pasete artifacts, blending artifacts, GAN fingerprints),因此,可以利用伪造区域和邻近区域的特征不一致性来进行鉴伪。

核心贡献:设计了一个 Patch-wise Consistency Learning (PCL) 分支,给骨干网络提供额外的监督信息,引导模型关注伪造区域和邻近区域的相似性。设计了 Inconsistency Image Generator (I2G) 来生成拼接数据。

Patch-Wise Consistency Learning (PCL)

所提方法的总体框架如下所示。主要改动就是添加了一致性比较分支。将骨干网络的中间层分别送入不同的编码器,然后将结果进行点乘,类似注意力机制的操作。这个分支有点类似文献[2]中SPBCU分支,不同的是[2]中是直接预测出伪造区域的分割图,本文是计算所有特征点与其他点的像素,监督信号可能更强一点,不过目的都是想让模型学习到伪造区域与邻近区域的不一致性。

Inconsistency Image Generator (I2G)

这个模块和Face-Xray中生成融合伪造图像是一样的,改进很少,严格来讲,不算本文的创新点。

Experiments

  • 表1,2,3做了数据集内部的验证,即训练和测试在同一个数据集上,但是只给出了 PCT+I2G 的结果,没有给出每个模块单独的结果,同时也应该给出只使用骨干网络 Resnet34 的结果;(原因可能是只使用 PCL 效果不好)
  • 表4,5,6做了跨数据集的实验,只使用 I2G 生成伪造数据和真实数据进行训练,证明了模型具有更好的泛化性,另外再DFDC-P上的表现并不突出,作者的解释是图像的质量太低和光线的干扰导致准确率降低;
  • 表7证明了只使用I2G数据效果不够好以及PCL模块的有效性;
  • 表8证明了伪造数据和I2G数据混合训练能够提升模型性能。

My Review

  • 论文可能很大程度启发于 Face-Xray,只不过后者只考虑拼接边缘,前者考虑所有的区域点;
  • 利用自监督学习范式提升鉴伪模型的泛化性是一个不错的研究小点。

References

  • [1] [2020-12] Learning to Recognize Patch-Wise Consistency for Deepfake Detection paper
  • [2] [2020-ICME] FSSPOTTER: Spotting Face-Swapped Video by Spatial and Temporal Clues paper