DeepfakeMAE

来源: ARXIV
Link: https://arxiv.org/abs/2303.01740
关键词: MAE
备注: 人脸Mae对比学习，复现了landmark mask策略
状态: Done

DeepfakeMAE从被蒙面的假人脸和真实人脸重建人脸。我们假设Deepfake视频往往缺乏面部部分之间的一致性(或面部部分一致性)，并且DeepfakeMAE对真实人脸的重构优于对假人脸的重构。例如，操纵嘴唇会使嘴唇的外观与面部其他部位不一致。

方法

为了更好地提取未知Deepfake的鲁棒特征，该方法利用人脸掩码自编码器进行特征学习。此外，该方法利用训练好的人脸掩蔽自编码器模型，利用双网络检测真假视频的差异。

一致性学习阶段

与训练MAE模型，使用了新的掩码策略，一方面是使用了根据人脸关键点掩码的思路，将人脸分成了三个部分，眼睛、脸颊鼻子、嘴唇；另一方面是降低了掩码率。

在编码器的处理过程中，去掉被遮挡的人脸块，留下未被遮挡的区域。通过这种方式，解码器根据未被遮挡的区域预测缺失的面部部分。利用MSE损失函数lmae - MSE计算掩膜补丁的重建质量。如果模型学习到面部各部分之间的一致性，则重建的patch与输入patch之间的损失应该会减小。我们的面部部分掩蔽策略使每个部分随机选择，从而强制模型学习不特定于任何面部部分的表示。此外，由于这个阶段只使用真实的视频，而不使用任何Deepfake视频，它可以防止模型过度拟合到任何特定的篡改模式。

双流网络阶段

进入第二阶段，微调网络同时使用真实视频帧和Deepfake视频帧，使用交叉熵损失来提取真假视频间的差异；首先从真实视频帧和虚假视频帧之中提取帧并裁剪出人脸，将这些帧送入一阶段训练好的encoder中，为了聚合多帧的信息，我们使用编码器的最后一层对5帧的输出进行平均。

由于第一阶段学习真实视频的面部一致性，经过训练的DeepfakeMAE编码器可以提取真实视频的一致性特征。对于假视频，由于一致性被破坏，从编码器中提取的特征可能与真实视频不同。

双流的第二个网络使用了元学习的方式，元学习由于需要不同类型的人脸而不是大量的人脸，因此我们使用单个帧来训练分支以减少内存消耗，采用了resnet的前三层，这里有一些疑问，他说提出的face mapping就是56563的，可以直接和重建的图像计算重建损失，但是resnet block吐出的图像尺寸怎么会是56563的呢，而且这个重建是根据训练好的decoder重建的，意味着推理阶段使用了完整的MAE。

元学习阶段

没有看懂

对于每个epoch，由相同数量的假视频和真实视频组成一个样本批，构建二值检测任务。元训练阶段通过采样许多检测任务来执行训练，并通过从元测试中采样许多类似的检测任务来验证。然后，可以更新元列车阶段的参数。为了选择最佳的梯度步长，我们设置了一个参考集，记为T ref。我们利用每个梯度步骤来计算T ref的精度。选取精度最高的参数作为最终更新参数。最后，Meta-train阶段利用更新后的参数计算Meta-train损失。

结论

实验部分作者表示模型的泛化性比较强，在单一数据集上的效果不一定比得上其他模型。

Paper-DeepfakeMAE

DeepfakeMAE

方法

一致性学习阶段

双流网络阶段

元学习阶段

结论