Paper-FERFormer

Huang Zhiwei

FER-former

来源: ARXIV
Link: https://arxiv.org/pdf/2303.12997.pdf
关键词: FER
备注: 静态图像FER任务,Clip多模态,这个比较好理解
状态: Done

多模态(CLIP)+CNN-Transformer用于静态图像表情识别

背景介绍

1、表情识别中的标签都是one-hot的,用离散的标签表征连续的情感是不合理的,而且野外数据集中存在标注歧义,所以使用了文本编码器生成“软监督”作为损失;

2、ViT模型需要大量的图像训练才能发挥威力,而CNN模型提取的高级特征又存在瓶颈,所以提出CNN-Transformer提取和优化图像特征。

3、在此基础上,将CNN提取的特征分解成多粒度的,再投影成一组特征用ViT做优化。

模型

模型由三部分组成:多粒度的embedding、混合注意力模块、异构域(跨模态)监督。CNN路使用在Celeb-1M上预训练的IR-50提取特征,Text Encoder是基于CLIP微调得到的。

multi-granularity embedding integration (MGEI)

作者认为ViT模型的特征提取性能需要非常大量的数据 (sufficient amounts of data)才能支撑,所以使用预训练的CNN模型Arcface提取图像特征,得到C*H*W的特征,经过池化得到C*12*12的特征;
然后下采样获得不同尺度的特征Xpi,使模型能够克服遮挡和姿势差异的问题;将不同尺度的特征展平后投影,得到维度一样的特征,可用送入transformer了。

hybrid self-attention

input featureclass token组成一组输入Z’;为了将图像特征与文本特征相结合,还设计了一个转向token(steering token);拼接后得到完整的输入Z。

heterogeneous domains-steering supervision (HDSS)

one hot硬编码标签导致监督标签同质,阻碍了FER性能的进一步提高。收到CLIP的启发,通过监督图像特征与文本特征之间的相似性,使图像特征也具有文本空间语义相关性,从而缓解标注歧义的问题。

为每一个情感类别生成一句提示语:this is a face image of {expressiong},提示语经过Text Encoder后得到7个Text Feature:

$$
T = \left { T1;T2;…Tm \right } ,T\in R^{m*d}
$$

用生成的转向token(steering token)和这些特征计算相似度得到一个类别;用Transformer的class token做分类。分别计算两个损失。

实验部分

在RAF-DB上的实验结果为91.30(SOTA 92.21 来自PosterV2)

在FERPlus上的实验结果为90.96(SOTA 93.00 来自PosterV2)

在SFEW2.0上的实验结果为62.18

  • 标题: Paper-FERFormer
  • 作者: Huang Zhiwei
  • 创建于: 2023-07-13 23:26:28
  • 更新于: 2023-09-02 23:42:24
  • 链接: https://huangzhw0221.github.io/2023/07/13/Paper-FERFormer/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
 评论