您的位置:首页 > 其它

2016 ECCV论文 《Peak-Piloted Deep Network for Facial Expression Recognition》

2019-05-10 16:07 429 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/qq_42052956/article/details/90072872

原文链接:https://arxiv.org/pdf/1607.06997.pdf

1、问题的提出
FER仍然具有挑战:
(1)对于同一种表情,不同的人往往表现出不同的强度和视觉外观;在视频中:non-peak、peak。
(2)同一个人的peak和non-peak表情在属性上可能存在显著的差异,如嘴角弧度、面部皱纹。
(3)Non-peak表情比peak表情更常见,而对non-peak表情识别比较困难。

近年来,深度学习引进FER,但依然有一些重要的局限:
(1)大多数方法在学习过程中独立考虑每个样本,忽略了每对样本之间的内在相关性;。。
(2)他们专注于识别peak表情,而忽略了最常见的non-peak表情,对non-peak样本的识别非常具有挑战性。

基于上述,提出了PPDN
(1)用peak的中间特征监督non-peak的中间特征 ,即把non-peak到peak的演化过程嵌入到神经网络中,将non-peak表情映射到相应的peak表情,放大了non-peak表情之间的细微差别,从而实现表情强度不变性。提高了non-peak 图像表情识别的准确率,解决了中间表情(non-peak)难以识别的问题
(2)针对PPDN提出了一种特殊的反向传播算法PGS(PGS:peak gradient suppression),该算法驱动non-peak表情的特征向对应的peak表情的特征响应转化,而不是相反(单向),这避免了因为non-peak表情的干扰而降低对peak表情的识别能力。
(3)PPDN进行了两个最小化优化:
(3.1)特征由non-peak向peak的转化;
(3.2)表情识别任务。
(4)为了non-peak到peak的映射比较容易,我们将重点放在人脸表情的高层次特征上,这不仅更加抽象,而且与FER直接相关。
(5)此外,PPDN是一种通用的体系结构,可以扩展到其他任务。

2、FER方法分类
基于序列的方法
基于静态图像的方法
手工特征方法:特征提取、特征选择和分类,此方法由于不同优化目标的组合,这可能导致次优结果。
深度学习方法

3、方法原理
(1)训练过程中,以一对non-peak和peak图像输入(同一表情、同一人),经过卷积层和全连接层后,生成各自的特征,然后把non-peak和peak表情的特征之差的L2范数进行最小化,以把表情的演化过程嵌入到PPDN网络中。通过这种方式,PPDN将峰值引导的特征转换和面部表情识别集成到一个统一的体系结构中。(两个优化)
(2)PGS的单向转化的实现:(不能从peak向non-peak转化)
(2.1)在每次反向传播迭代过程中,忽略特征差的L2 -范数最小化过程中peak表情图像产生的梯度信息,而保留non-peak表情产生的梯度信息。(优化转化)(而SGD两个梯度都用)
(2.2)peak和non-peak图像的识别损失梯度与传统的反向传播相同(优化识别)
这样的单向转化避免了由于non-peak样本的影响,使得网络对peak样本的识别能力下降。

4、实现
(1)PPDN以GoogLeNet作为基础网络,peakpiloted feature transformation只在最后两个全连接层使用。(对使用在不同的卷积层上也做了实验比较)
(2)由于在现有的小型FER数据集上对深度网络进行训练是不可行的,我们在大规模人脸识别数据集CASIA Webface上对GoogLeNet进行了预训练,然后针对FER进行微调。微调的时候,用预训练模型初始化卷积层的权重,用“xaiver”函数初始化全连接层权重。
(3)训练时用一对图像作为输入;测试时以一张图像作为输入。

5、实验
(1)按照论文[10](2012CVPR)、[11](2009IVC)的标准设定,采用“10折个体独立交叉验证”进行验证。
(2)基于静态图像时,一般取序列的最后三张图像作为训练和测试样本
(3)数据分析
前6张,neutral;
7th-9th,weak expressions;
最后一张,peak expression;
7th之后的全部,combined。
(4)性能对比
基于静态
On ck+(97.3)
2005CVPR,AdaGabor [34],(93.3),基于AdaBoost
2009IVC,LBPSVM [11],(95.1),基于AdaBoost
2014CVPR,Boosted Deep Belief Network (BDBN) [4],(96.7),联合优化了特征提取和特征选择

On Oulu(72.4)
2014,UDCS[35],(49.5)

基于动态


(5)特征转化的时机
Peak引导特征转换可以应用在不同的卷积层和全连接层上,可以对non-peak响应进行不同级别的peak响应监督。例如,前期的卷积层提取人脸的细粒度细节(例如局部边界或光照),而后期的层捕获更多的语义信息,例如嘴巴和眼睛的外观模板。

通过在不同的层上添加了峰值引导的特征监督,文中给出了比较。而比较结果表明,与早期卷积层相比,峰值引导的特征转换对高层语义特征表示(两个全连接层)的监督更有效。

PPND的泛化能力
应用于人脸识别(learning pose-invariant features)
peak expressions --> near-frontal faces
non-peak expressions --> profile faces

6、其他
建议重点看看图中标红的论文

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐