FER-former

来源: ARXIV
Link: https://arxiv.org/pdf/2303.12997.pdf
关键词: FER
备注: 静态图像FER任务，Clip多模态，这个比较好理解
状态: Done

多模态（CLIP）+CNN-Transformer用于静态图像表情识别

背景介绍

1、表情识别中的标签都是one-hot的，用离散的标签表征连续的情感是不合理的，而且野外数据集中存在标注歧义，所以使用了文本编码器生成“软监督”作为损失；

2、ViT模型需要大量的图像训练才能发挥威力，而CNN模型提取的高级特征又存在瓶颈，所以提出CNN-Transformer提取和优化图像特征。

3、在此基础上，将CNN提取的特征分解成多粒度的，再投影成一组特征用ViT做优化。

模型

模型由三部分组成：多粒度的embedding、混合注意力模块、异构域（跨模态）监督。CNN路使用在Celeb-1M上预训练的IR-50提取特征，Text Encoder是基于CLIP微调得到的。

multi-granularity embedding integration (MGEI)

作者认为ViT模型的特征提取性能需要非常大量的数据（sufficient amounts of data）才能支撑，所以使用预训练的CNN模型Arcface提取图像特征，得到C*H*W的特征，经过池化得到C*12*12的特征；
然后下采样获得不同尺度的特征Xpi，使模型能够克服遮挡和姿势差异的问题；将不同尺度的特征展平后投影，得到维度一样的特征，可用送入transformer了。

hybrid self-attention

input feature和class token组成一组输入Z’；为了将图像特征与文本特征相结合，还设计了一个转向token（steering token）；拼接后得到完整的输入Z。

heterogeneous domains-steering supervision (HDSS)

one hot硬编码标签导致监督标签同质，阻碍了FER性能的进一步提高。收到CLIP的启发，通过监督图像特征与文本特征之间的相似性，使图像特征也具有文本空间语义相关性，从而缓解标注歧义的问题。

为每一个情感类别生成一句提示语：this is a face image of {expressiong}，提示语经过Text Encoder后得到7个Text Feature：

$$
T = \left { T1;T2;…Tm \right } ,T\in R^{m*d}
$$

用生成的转向token（steering token）和这些特征计算相似度得到一个类别；用Transformer的class token做分类。分别计算两个损失。

实验部分

在RAF-DB上的实验结果为91.30（SOTA 92.21 来自PosterV2）

在FERPlus上的实验结果为90.96（SOTA 93.00 来自PosterV2）

在SFEW2.0上的实验结果为62.18

Paper-FERFormer