基于深度学习的人脸识别技术研究

2018-09-18齐忠文

新媒体研究 2018年14期

齐忠文

摘要将深度学习等人工智能技术应用于广播电视节目内容监测中，提出利用人工神经算法解决人脸自动识别问题。探讨BP神经网络主要算法特点，进而给出人脸自动识别流程和方案设计。

关键词深度学习；人工神经网络；人脸识别；BP网络

中图分类号 G2 文献标识码 A 文章编号 2096-0360（2018）14-0026-02

随着广播电视的快速发展，传统的人工监听监看方式难以满足内容监管的需要。一些虚假电视医疗广告、购物短片极大损害广播电视作为主流公共媒体的公信力，侵害人民群众利益。部分违规电视广告中虚假专家常常以不同身份，在多个购物短片、医疗广告中扮演不同角色。在电视节目内容监管中，经常需要对上述包含有目标人物的电视节目进行快速分类，准确鉴别。面对海量电视节目，紧靠人工肉眼难以及时准确发现违规节目，因此，我们考虑利用深度学习技术应用在人脸自动识别中，对目标人物人脸进行智能识别，从而提高监测监管自动化程度，迅速发现及时处置违规节目。

1 深度学习技术

深度学习是人工智能研究一个重要的研究部分。它汲取了多个学科的研究成果。包括数学、统计学、信息学、通信原理、计算机基础理论乃至哲学、心理学等方面的研究支持。换个角度来讲，深度学习可以看作利用计算机科技模拟人类学习思考过程，从已知的激励响应、函数结果中，不断迭代优化函数模型，进而在提供新变量数据时，系统根据模型判断出即将产生的激励结果。近年来，受益于计算机和互联网等信息技术的发展成就，深度学习在人工智能研究中得到飞速发展。在语音识别、辅助判定方面，研究成果颇丰。在视频自动识别领域，深度学习也得到了积极应用。同语音智能识别相比，视频图像自动识别更加复杂。

2 人工神经网络基本原理

人工神经网络技术是采用计算机、网络等技术模仿生物神经网络的研究。人工神经网络具有非线性、非有限性、非稳定状态和非平衡性等特性。

1）非线性。自然界中大部分系统都是非线性的，我们将人工神经网络中的神经元设置于开关两种状态，进而模拟非线性系统。

2）非有限性。神经网络系统的响应，不只取决于单个单元，而取决于相互影响的多个单元。

3）非稳定状态。人工神经网络判定性能不是一成不变的，而是通过数据迭代，系统性能不断提升进化完善。

4）非平衡性。通过数据迭代，性能不断提升过程中，影响系统性能的单元并不均衡。某种状态下，性能提升往往取决于特定函数的提升过程。

经过测试比较，目前，比较好的算法是基于反向传播算法。基于反向传播算法基本原理是通过输入激励和系统响应修正的不断优化，来逐渐提升系统判定能力。分为两个阶段来完成，首先是激励的正向输入，然后是不断逼近测试结果的系统调整。早期反向传播网络只有三层，input layer、hidden layer和output layer。受限于当时计算机硬件性能影响，基于反向传播算法耗时较长，并未得到进一步发展。近年来，随着信息网络计算的进一步发展，计算机计算性能大幅提升。并受益于大数据、云计算等信息技术发展。基于反向传播算法的深度神经网络分析再次走入人们视野，展示出其应用价值。

人工神经网络算法最大的优势是，系统自动提取待检样本的特征。我们无需对样本进行分解处理，这同以往的检测识别方法相比，不仅节省了时间，简化了流程，还提高了系统的鲁棒性。例如在检测电视节目中单帧画面的时候，人工神经网络系统自动提取画面像素中的隐含特征。此外，利用人工神经网络系统，各个人造神经元同时独立工作，也提高了系统运算效率。

3 电视节目中人脸画面识别处理

在电视节目人脸画面中，存在人脸之外的无关信息。这些无关信息会对系统自动识别带来干扰，增加系统负担。另外也会导致系统迭代结果达不到优化效果。因此，首先，我们需要将节目画面中人脸以外的节目信息过滤掉。

1）人脸侦测。人脸侦测的任务是在视频节目每一帧画面当中，检测是否有人脸存在，并去除人脸以外信息，将人脸画面提取出来。早期人脸侦测主要依靠与模板比对，通过色泽，对比度等信息比较完成。缺点是耗时长，识别率低。利用BP网络的侦测设计，可以很好解决以上问题。Multi-task convolutional neural networks算法是我国深圳一家研究院提出的人脸侦测算法。一般来讲，第一层p-net作用为控制人脸边缘区域，并对同一人物画面归一化。第二层r-net作用为进一步确认人脸位置区域，去除第一层确认的非人脸区域。第三层可以理解为第二层深化，人脸部位区域更加准确。

电视节目中的人脸姿态千变万化，颜色、大小、方向各不相同，如果不加处理即进行分类训练，增加了后续分类判定的难度和准确性。因此，需要对不同姿态类别的人脸进行规范化处理，形成规范统一的人脸预处理样本。目前比较好的归一化方法一般采用仿射变换，即对电视图像中的人脸进行平移缩放，规范至画面中央。

2）人脸特征提取。经过预处理的人脸图像各种特征在同对应的基础模型各特征比较后，形成规范化的人脸特征参数，构成规范人脸特征向量，如图1。利用卷积神经网络将规范后的人脸特征向量对应至各节点，便于分类。不同类型的预处理过程，得到的特征向量维度并不相同。因此，我们采用将高维度向量降低维度，这样我们可以在不减少信息熵的基础上，降低系统设计难度和训练时间，从而获得比较好的合成特征向量。在合成特征向量中，会有很多冗余信息，这些信息会增加识别开销，降低判定效率，在设计中一般采用稀疏特征向量映射方式解决这一问题。

3）人脸样本数据库资源。正如前文所述，深度机器学习的技术支撑是海量的数据资源和当前普遍低价高效计算能力（包含云计算支持）。而海量的数据中，必然含有对系统迭代优化零贡献甚至是负贡献的无效数据。虽然有一些研究机构提供相对数量的人脸样本基本数据，但就目前来讲，规范化的数据仍然显得稀少珍贵。为了解决这一问题，部分研究机构开始构建并开放自己的人脸数据资源

库[1]。VGGface数据库目前包含260万张人脸数据样本。CASIA是国内最大的人脸数据库，包含近50万张人脸数据样本。目前，也有使用计算机爬虫技术在互联网上搜索储存人脸样本资源的数据库。相信这些数据在规范化后同样可以得到广泛使用。

4 人脸自动识别系统设计

基于电视节目对特定人物人脸识别的需求和深度学习技术特点，我们提出搭建人脸自动识别系统架构。系统应满足7×24小时稳定运行、可扩展等要求。整个系统分为编目单元、处理单元和业务单元三部分。

1）编目单元。编目单元负责完成电视节目的下载、存储和编目。首先从各监测系统（有线、无线、卫星等）中把待检节目下载存储。对下载后的节目进行初步識别、切段和标记。该单元还负责目标人物特征参数的存储。

2）处理单元。处理单元是人脸自动识别系统的核心单元。主要负责侦测视频图像是否含有人脸信息，并去除人脸以外的干扰信息，对人脸位置进行校正对齐。将归一化的人脸信息输入深度学习系统，输出判定结论。该单元还要完成系统的训练学习任务，通过一次次数据迭代，完成优化系统功能。

3）业务单元。主要包括系统管理与参数设置，数据维护、监看任务管理。其中任务管理包括建立任务、实时或者下载任务。业务单元中，最重要的是人工审核处理。根据系统规划，自动识别完成后，需要对比对结果进行复核。

4）业务流程。通过各监测系统，按需求下载待检测节目录像。对录像节目进行预处理。预处理包括统一节目格式、归一化人脸信息数据等。之后将处理后的人脸数据输入检测系统。系统将待检数据同特征库中的数据进行比对，检测结果上报人工席位，最后由人工席位完成数据核准。人工席位不定期更新人脸数据库，保证数据库数据完整有效。

5 结论

深度学习技术已经广泛应用于语音识别、图像识别等人工智能领域。将深度学习、神经算法等人工智能技术应用于广播电视节目内容监测的人脸比对等方面，将极大提高业务效率，从而更加准确发现违规节目，维护广播电视秩序。相信人工智能技术的进一步发展会进一步加快其在广播电视监测监管领域的成果转化。

参考文献

[1]郭丽丽，丁世飞.深度学习研究进展[J].计算化科学，2015，42（5）：28-33.