深度卷积网络迁移学习的脸部表情识别

内容简介：深度卷积网络迁移学习的脸部表情识别

本文章是由电子科技大学洋洋同学投稿在我们《读者也是作者》专栏，在此非常感谢你对“计算机视觉战队”平台的支持，希望今天的分享可以给大家带来一些知识点的认识和帮助，也希望更多的读者在本专栏分享更多的知识和感想，谢谢！

本次我想给大家分享一篇我阅读的一篇论文总结，希望可以给做人脸表情识别和深度学习的同学带了帮助，谢谢！也感谢“计算机视觉战队”平台可以给我这样一个机会。

这次看的这篇paper主要提出一个基于深度卷积网络迁移学习的有效脸部表情识别模型。

在 MSRA-CFW 数据库中通过 1580 类脸部识别的任务训练深度卷积网络（ ConvNets ），且从训练的深度模型迁移高层特征去识别脸部表情。主要根据四个面部表情数据库（ CK+ ， JAFFE ， KDEF 和 Pain expressionsform PICS ）建立了一个面部表情数据库含有七个基本情绪状态和 2062 个不平衡样本。

与基于 SVM Gabor 特征的 50.65% 识别率和基于 SVM Distance 特征的 78.84% 识别率相比较，本文达到平均 80.49% 的识别率。

考虑到实际情况下的遮挡情况，在遮挡情况下测试了该模型并证明了可在较小遮挡情况下可保持分类能力。为了进一步提高面部表情识别模型的能力，将改进后的模型融合高层特征，该高层特征从相同结构和不同训练集的两个训练好的深度 ConvNets 中迁移得到，改进后的模型明显提高了其在遮挡状态下的分类能力，并在自建面部表情数据库中达到平均 81.50% 的识别率。

主要工作：

设计了一个有效的面部表情识别模型，通过一个从深度 ConvNets 迁移学习的新想法去提取鲁棒特征用于面部表情识别，并提供了新的混合深度 ConvNets 去提高迁移特征的鲁棒性适用于遮挡情况。

一、深度卷积网络的面部识别

深度 ConvNets 由四个卷积层和最大池化层去特征提取，全连接的高层特征层和 Softmax 输出层预测识别类，具体如图 1 所示。

深度卷积网络迁移学习的脸部表情识别

图 1 深度 ConvNets 的结构用于人脸识别

输入图像是 39 × 39 灰色面部块，在 MSRA-CFW 数据库中其通过人脸检测算法从人脸图像中提取。每一层的特征数量在减少，最后将高层特征层固定在 120 个特征，其可表达丰富的人脸信息。最后一个 Softmax 输出层全连接的高层特征预测 1580 个识别类。深度模型中的卷积运算被描述为：

深度卷积网络迁移学习的脸部表情识别

其中x^i和y^i表示第 i 个输入映射和第 j 个输出映射。*表示卷积，k^i,j表示第 i 个输入映射 x^i 和第 j 个输出映射 y^i 的核卷积连接。b^j表示第 j 个输出映射的偏置。

卷积操作的激活函数采用 ReLU 函数（f(x)=max(0,1)），其比 Sigmoid 激活函数更好。为了学习不同区域特征，每一层深度 ConvNets 的权重是局部共享。高层特征层全连接第四个卷基层（在 ReLU 函数之后），部分任务描述为：

深度卷积网络迁移学习的脸部表情识别

其中 x^i和y^i 分别表示第四层卷基层的第 i 个输出值和在高层特征层中的第 j 个特征。x表示普通乘积。 k^i,j 表示第 i 个输出值和第 j 个特征之间的权值， b^j 表示第 j 个特征的偏置。

深度 ConvNets 的输出是一个 1580 方式（ 1580 种身份）的 Softmax ，其预测 1580 种输入面部块的概率分布，概率分布函数如下：

深度卷积网络迁移学习的脸部表情识别

其中 x^i 线性地连接着最后隐藏层的高层特征z ， y^i 表示1580类的第i个概率。

深度卷积网络迁移学习的脸部表情识别

二、面部表情识别

深度 ConvNets 充分训练后，采用多类 SVM 和来自训练好的深度 ConvNets 迁移的 120 维高层特征去分类 7 个表情状态（ 6 个基本表情和一个自然表情）。多类 SVM 的训练数据包含(x1,y1),...,(xN,yN)，其中xi表示 120 维特征向量（归一化和白化后），yi(yi∈(1,...,7))表示面部表情相对的标签。多类 SVM 建立 7 个表情函数，每一个描述为wkφ(xi)+bk去分开不同类别的训练向量。计算相当于一个优化问题，其最小目标函数：

深度卷积网络迁移学习的脸部表情识别

目标的条件：

深度卷积网络迁移学习的脸部表情识别

其中 φ(xi) 表示核函数映射训练向量xi到更高维空间，其是线性的或者接近线性可分。C 表示惩罚函数，其惩罚训练误差。

深度卷积网络迁移学习的脸部表情识别

表示松弛变量向量。

深度卷积网络迁移学习的脸部表情识别

表示偏置向量。最后，判定函数表示为：

深度卷积网络迁移学习的脸部表情识别

其中x和f(x)表示输入特征向量和输出面部表情标签。

在文章的工作中， φ 核函数选择径向基函数（ RBF ），其已经非常广泛被用于分类。 7 个类别的 SVM 模型后已经被学习，本文训练好的模型可以用于识别面部表情。

三、模型改进用于遮挡面部

为进一步提高遮挡的鲁棒性，本文改进面部表情识别模型，改进的模型融合了两个训练好的深度 ConvNets 迁移的高层特征，且使用相同 7 个类的 SVM 分类器，其有 240 维高层组合特征去对 7 个表情状态分类。不同的是，其中一个在 MSRA-CFW 数据库中训练，另一个在 MSRA-CFW 有增加遮挡样本数据库中训练。

深度卷积网络迁移学习的脸部表情识别

图 2 用于遮挡面部的改进面部表情识别模型的结构

四、实验结果

1 ）模型比较结果

深度卷积网络迁移学习的脸部表情识别

图 3 三种表情识别模型在七种情绪状态下的表现

2 ）在遮挡条件下的模型评估

在遮挡条件下，该模型的性能进行评估，构建的人脸遮挡环境中，随机选择的区域方块大小 M 为:

5% ， 10% ， 15% ， 20% ， 25% ， 30% ， 35% ， 40% ， 45% ， 50%

深度卷积网络迁移学习的脸部表情识别

图 4 不同遮挡率的遮挡人脸

深度卷积网络迁移学习的脸部表情识别

图 5 在遮挡面部块的改进前后模型结果

五、总结

提出了一种有效的面部表情识别模型，其是来自训练的深度 ConvNets 迁移的鲁棒特征。深度 ConvNets 已通过面部识别任务在 MSRA-CFW 数据库训练，相比于基于 Distance 特征的 78.84% 识别率和基于 Gabor 特征的 50.65% 识别率，本文在自建人脸表情数据库的表情识别达到 80.49% 的识别率。同时本文还证明了在较小面部遮挡情况下，所提出的模型可以保持其分类能力。为了提高其分类能力，进一步改进了模型，在遮挡情况下改进后的模型分类能力有明显提高，并在自建表情数据库中实现了平均 81.50% 的识别率。未来的工作将探索不同的面部姿势和实时识别模型。

注：改文章已经共享在“计算机视觉战队”平台的《读者也是作者》专栏，如果有感谢的同学朋友，可以在该栏目里下载相关学习论文（有可能包含代码）。

作者介绍：

来自电子科技大学的在读研究生，他不愿透露个人信息（笔名：洋洋），但是他主要方向是人脸识别。他希望通过本平台的《读者也是作者》共享栏目，将自己平时的积累，读后感，总结分享给其他人，在此向洋洋同学表示感谢！在此，也希望更多的同学朋友来我们《读者也是作者》专栏，分享您们平时的小总结，小分析，小感想。谢谢！

深度卷积网络迁移学习的脸部表情识别

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

后谷歌时代:大数据的衰落及区块链经济的崛起

乔治·吉尔德 / 现代出版社 / 2018-9-5 / 68

以大数据和机器智能为基础的谷歌时代（信息互联网时代）是一个令人敬畏的时代。但它即将终结。《后谷歌时代》一书的作者乔治•吉尔德是一位颇具远见卓识的智者。他在技术和文化领域具有无与伦比的视野和见地。他向读者描述了谷歌所面临信任与安全危机，并勇敢地预测了即将到来的后谷歌时代。谷歌用其惊人的“搜索和排序”能力吸引了整个世界。功能强大的搜索引擎，看似免费小应用，诸如视频、地图、电子邮箱等，让......一起来看看《后谷歌时代:大数据的衰落及区块链经济的崛起》这本书的介绍吧!

码农工具