Paper-FERFormer
FER-former
来源: ARXIV
Link: https://arxiv.org/pdf/2303.12997.pdf
关键词: FER
备注: 静态图像FER任务,Clip多模态,这个比较好理解
状态: Done
多模态(CLIP)+CNN-Transformer用于静态图像表情识别
背景介绍
1、表情识别中的标签都是one-hot的,用离散的标签表征连续的情感是不合理的,而且野外数据集中存在标注歧义,所以使用了文本编码器生成“软监督”作为损失;
2、ViT模型需要大量的图像训练才能发挥威力,而CNN模型提取的高级特征又存在瓶颈,所以提出CNN-Transformer提取和优化图像特征。
3、在此基础上,将CNN提取的特征分解成多粒度的,再投影成一组特征用ViT做优化。
模型
模型由三部分组成:多粒度的embedding、混合注意力模块、异构域(跨模态)监督。CNN路使用在Celeb-1M上预训练的IR-50提取特征,Text Encoder是基于CLIP微调得到的。
multi-granularity embedding integration (MGEI)
作者认为ViT模型的特征提取性能需要非常大量的数据 (sufficient amounts of data)才能支撑,所以使用预训练的CNN模型Arcface提取图像特征,得到C*H*W
的特征,经过池化得到C*12*12
的特征;
然后下采样获得不同尺度的特征Xpi
,使模型能够克服遮挡和姿势差异的问题;将不同尺度的特征展平后投影,得到维度一样的特征,可用送入transformer了。
hybrid self-attention
input feature
和class token
组成一组输入Z’
;为了将图像特征与文本特征相结合,还设计了一个转向token(steering token
);拼接后得到完整的输入Z。
heterogeneous domains-steering supervision (HDSS)
one hot硬编码标签导致监督标签同质,阻碍了FER性能的进一步提高。收到CLIP的启发,通过监督图像特征与文本特征之间的相似性,使图像特征也具有文本空间语义相关性,从而缓解标注歧义的问题。
为每一个情感类别生成一句提示语:this is a face image of {expressiong}
,提示语经过Text Encoder后得到7个Text Feature:
$$
T = \left { T1;T2;…Tm \right } ,T\in R^{m*d}
$$
用生成的转向token(steering token)和这些特征计算相似度得到一个类别;用Transformer的class token做分类。分别计算两个损失。
实验部分
在RAF-DB上的实验结果为91.30(SOTA 92.21 来自PosterV2)
在FERPlus上的实验结果为90.96(SOTA 93.00 来自PosterV2)
在SFEW2.0上的实验结果为62.18
- 标题: Paper-FERFormer
- 作者: Huang Zhiwei
- 创建于: 2023-07-13 23:26:28
- 更新于: 2023-09-02 23:42:24
- 链接: https://huangzhw0221.github.io/2023/07/13/Paper-FERFormer/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。