Paper-DeepfakeMAE

Huang Zhiwei

DeepfakeMAE

来源: ARXIV
Link: https://arxiv.org/abs/2303.01740
关键词: MAE
备注: 人脸Mae对比学习,复现了landmark mask策略
状态: Done

框架

DeepfakeMAE从被蒙面的假人脸和真实人脸重建人脸。我们假设Deepfake视频往往缺乏面部部分之间的一致性(或面部部分一致性),并且DeepfakeMAE对真实人脸的重构优于对假人脸的重构。例如,操纵嘴唇会使嘴唇的外观与面部其他部位不一致。

方法

为了更好地提取未知Deepfake的鲁棒特征,该方法利用人脸掩码自编码器进行特征学习。此外,该方法利用训练好的人脸掩蔽自编码器模型,利用双网络检测真假视频的差异。

一致性学习阶段

与训练MAE模型,使用了新的掩码策略,一方面是使用了根据人脸关键点掩码的思路,将人脸分成了三个部分,眼睛、脸颊鼻子、嘴唇;另一方面是降低了掩码率。

在编码器的处理过程中,去掉被遮挡的人脸块,留下未被遮挡的区域。通过这种方式,解码器根据未被遮挡的区域预测缺失的面部部分。利用MSE损失函数lmae - MSE计算掩膜补丁的重建质量。如果模型学习到面部各部分之间的一致性,则重建的patch与输入patch之间的损失应该会减小。我们的面部部分掩蔽策略使每个部分随机选择,从而强制模型学习不特定于任何面部部分的表示。此外,由于这个阶段只使用真实的视频,而不使用任何Deepfake视频,它可以防止模型过度拟合到任何特定的篡改模式。

双流网络阶段

进入第二阶段,微调网络同时使用真实视频帧和Deepfake视频帧,使用交叉熵损失来提取真假视频间的差异;首先从真实视频帧和虚假视频帧之中提取帧并裁剪出人脸,将这些帧送入一阶段训练好的encoder中,为了聚合多帧的信息,我们使用编码器的最后一层对5帧的输出进行平均。

由于第一阶段学习真实视频的面部一致性,经过训练的DeepfakeMAE编码器可以提取真实视频的一致性特征。对于假视频,由于一致性被破坏,从编码器中提取的特征可能与真实视频不同。

双流的第二个网络使用了元学习的方式,元学习由于需要不同类型的人脸而不是大量的人脸,因此我们使用单个帧来训练分支以减少内存消耗,采用了resnet的前三层,这里有一些疑问,他说提出的face mapping就是56563的,可以直接和重建的图像计算重建损失,但是resnet block吐出的图像尺寸怎么会是56563的呢,而且这个重建是根据训练好的decoder重建的,意味着推理阶段使用了完整的MAE。

元学习阶段

没有看懂

对于每个epoch,由相同数量的假视频和真实视频组成一个样本批,构建二值检测任务。元训练阶段通过采样许多检测任务来执行训练,并通过从元测试中采样许多类似的检测任务来验证。然后,可以更新元列车阶段的参数。为了选择最佳的梯度步长,我们设置了一个参考集,记为T ref。我们利用每个梯度步骤来计算T ref的精度。选取精度最高的参数作为最终更新参数。最后,Meta-train阶段利用更新后的参数计算Meta-train损失。

结论

实验部分作者表示模型的泛化性比较强,在单一数据集上的效果不一定比得上其他模型。

  • 标题: Paper-DeepfakeMAE
  • 作者: Huang Zhiwei
  • 创建于: 2023-05-02 13:21:38
  • 更新于: 2023-09-02 23:42:09
  • 链接: https://huangzhw0221.github.io/2023/05/02/Paper-DeepfakeMAE/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
 评论