基于CiteSpace的人脸识别研究文献可视化图谱分析
2022-12-10王贺霏蒋云云
王贺霏, 蒋云云, 傅 博
(辽宁师范大学 计算机与信息技术学院, 辽宁 大连 116081)
0 引 言
人脸识别技术, 即计算机通过分析静态图像或动态视频自动提取利于识别的人脸特征, 并将特征与数据库中已有人脸特征进行比对, 从而鉴别人脸身份的一种技术[1]。目前, 人脸识别技术已被应用于军事、 公共安全和教育等领域, 其广泛应用主要得益于其特点优势以及技术层面的发展进步。与指纹、 虹膜等特征相比, 人脸图像无需接触更易获取、 涵盖信息丰富且不需要用户主动配合[2]; 在计算机视觉不断发展的趋势下, 人脸识别技术已经能一定程度上降低光照、 表情等因素的影响, 且识别结果也基本满足实际应用需求。在智慧军营方面, 人脸识别技术结合智能监控, 实现对可疑人员的快速识别并及时作出响应, 极大提高了军事重地的安全防范能力[3]。在人脸识别技术解决年龄增长带来影响基础上, 腾讯优图实验室利用该项技术找寻多年前走失儿童, 成功案例已累积上千例。基于人脸识别的智慧课堂通过智能考勤、 学生行为分析等途径辅助教学, 保证学生学习效果并提高学校的整体教学效率[4]。此外, 人们常使用的刷脸支付、 美颜相机、 手机面容锁等都依赖于人脸识别技术。
有关人脸识别的研究至今已有近70年历史, 早在上个世纪60年代, 人们就已经开始对人脸识别技术进行探索。到90年代, 人脸识别技术取得了长足发展, 诞生了许多代表性的人脸识别算法, 基本分为基于几何特征、 代数特征和模板等思想的算法。Brunelli等[5]对恒定光照下的188张人脸图像进行处理, 归一化提取出的几何特征向量用于模式识别分类, 识别率达到90%, 但存在计算复杂度高, 光照依赖性强等问题。Turk等[6]基于KL变换(Karhunen-Loève Transform)得到一组特征值较大的特征向量, 并将这些特征向量称为”特征脸”, 再由高维图像空间变换到”特征脸”空间进行识别, 该方法是基于代数特征进行识别中运用最多的方法。此后算法都是在这些代表性算法的基础上进行改进。张淑军等[7]提出了一种基于主动外观模型(AAM: Active Appearance Model)提取人脸特征的方法, 通过统计分析的方式建立包含人脸纹理、 形状信息的先验模型, 利用模型提取人脸特征, 在一定范围内减少了姿势、 表情等的影响。
在CPU(Central Processing Unit)以及GPU(Graphics Processing Unit)的发展驱动下, 计算机的计算能力大大增加, 同时随着大数据时代到来, 学界开始注意到基于深度学习的人脸识别方法所具备的巨大优势。基于深度学习的方法避免了传统方法选取特征时主观性的影响, 主要是通过调整网络参数使神经网络自动提取人脸图像的特征继而进行识别。针对同一人脸数据集LFW(Labeled Faces in the Wild)进行比较, 传统特征脸方法识别率较低仅达60%, 识别结果不能满足实际应用需求。2012年, Huang等[8]首次基于LFW数据集, 结合RBM(Restricted Boltzmann Machine)模型与深度信念网络应用于局部二进制模式(LBP: Local Binary Patterns)进行测试, 获得了87%的识别率。2014年, Taigman等[9]采用9层深度神经网络推导得出全新的人脸表示, 在LFW数据集中识别率达到97.35%, 性能接近人类水平。此后, Schroff等[10]创造性地提出了FaceNet系统, 将人脸图像映射到欧几里得空间, 使识别率进一步提升至99.63%。2018年, Wang等[11]将角边缘引入softmax损失函数进行优化, 提出新的损失函数AM-softmax, 限制优化参数m=0.4时在数据集LFW和MegaFace进行测试分别得到了99.17%和72.44%的识别率, 相较于原始softmax损失函数提高了2.09%和33.38%。2021年, 孙俊等[12]基于细节注意力机制和语义注意力机制分别设计低层特征与高层特征, 将两类特征相加用于人脸鉴别, 实验结果在LFW数据集上得到高达99.87%的识别精确率。最近Golwalkar等[13]实现了基于深度度量学习技术与FaceMaskNet-21模型的人脸识别系统, 对图像、 实时视频流中佩戴口罩的人脸进行识别, 正确率达到88.92%。基于深度学习的人脸识别技术使人脸识别在有干扰条件下取得了突破性的进展, 得到了更为广泛的应用。
为进一步研究目前全球人脸识别领域的发展情况, 笔者采用文献计量方法, 通过Web of Science数据库, 以”face recognition”为关键字检索, 共索引到15 494篇文献, 并按相关性排序从中选择10 000篇论文, 使用CiteSpace软件从国家、 学科、 研究机构、 被引频次、 热点关键词等角度进行可视化图谱分析。笔者同时指出人脸识别领域仍存在有遮挡、 姿势变化、 图像质量参差不齐等亟待解决的问题, 并提出建议供未来研究进行参考。
1 分析方法与数据收集
1.1 相关软件
文献计量学广泛应用于图书馆学、 情报学、 统计学等领域, 其通过统计学及数学方法对学科文献资料进行计量, 以探寻相关领域的形成、 现状及未来发展趋势, 进而解决文献数量不断累积与文献需求特定化之间的矛盾。2004年, 美国德雷塞尔大学信息科学与技术学院副教授陈超美开发了一款基于java语言, 以“共现聚类”为基本思想的出色的文献计量软件CiteSpace。该软件自研发后, 便得到了国内学术界的广泛关注。
CiteSpace主要提供了3类图谱的制作, 包括合作图谱、 共现图谱与共引图谱, 每类图谱都提供3种可选的可视化方式, 包括聚类(Cluster)、 时区(Timezone)以及时间线(Timeline)视图[14]。合作图谱除了可实现对作者(Author)、 机构(Institution)及国家(Country)间合作情况可视化外, 还可从合作密度角度找到具有广泛影响力的作者、 机构等。共现图谱中针对主题(Term)与关键词(Keyword)的共现图谱使用最为频繁, 有利于对学科领域的研究热点与发展前沿进行分析, 并配合时间线视图研究热点演变趋势。共引图谱可以实现对引用文献的重要性进行分析, 并反映研究主体间的内在相关性。
1.2 数据收集
Web of Science数据库收录文章全面且权威, 因此笔者选用Web of Science 数据库作为检索文献题录的数据来源。笔者于2022年3月2日开始检索, 在Web of Science网站中选择高级检索(Advanced Search), 为搜索人脸识别相关文献, 以TS=(“face recognition”OR”facial recognition”)为检索式, 限定搜索范围为Web of Science核心数据库(Web of Science Core Collection), 文献类型为article, 共搜索到15 494条记录, 并按照相关性进行排序。选择export以纯文本形式导出10 000篇文献全纪录(Full Record), 以download_0X为文件名保存至input文件夹中。
1.3 分析方法
笔者基于5.8.R3版文献计量软件CiteSpace从热点国家、 学科、 机构以及核心关键词等角度对人脸识别领域10 000篇文献全纪录进行可视化分析, 进而分析该领域研究热点与前沿。在分析前, 对导入文献数据进行清洗, 通过CiteSpace提供的Remove Duplicates功能去除重复文献。限定时间跨度为1995-2020年, 时间切片大小依据分析角度的改变而改变。聚类词来源(Term Source)、 关键词类型(Term Type)与连接强度计算(Links)保持软件默认设置。阈值选择准则(Selection Criteria)选择TOP 50的设定, 即任意时间段选择引用量TOP 50的文献进行分析。为得到可视化结果较为清晰的图谱, 剪枝方式(Pruning)勾选Pruning Sliced Networks。基于以上基本设置, 针对不同的分析目标调整相应的结点类型Node Type即可得到可视化图谱, 进而对人脸识别领域进行热点前沿与发展脉络的梳理。
2 结果分析
2.1 人脸识别研究文献的国家分布分析
CiteSpace中选择新建项目位置与待处理数据位置, 设置结点类型Node type为Country, 时间切片Years Per Slice为2, 限定时间范围Time Slicing为1995-2020年, 对25年间发表文献进行国家合作图谱可视化。调整图谱至结点阈值191, 得到国家合作可视化图谱如图1所示。图谱可视化结果中共包含185个结点, 每个结点代表一个不同的国家, 结点间连线共计726条, 连线表示国家间的合作关系, 连线越粗表示合作越密切, 连线颜色标志了国家间第1次合作的时间, 冷色调表示合作时间较早, 暖色调表示合作时间较近。
图1 1995-2020年人脸识别领域国家合作可视化图谱Fig.1 Visualization atlas of national cooperation in the field of face recognition from 1995 to 2020
目前涉足人脸识别领域的国家和地区已达185个, 占全世界233个国家和地区的82.9%以上, 足以证明人脸识别已经得到了全世界大部分国家的关注。根据所得图谱分析可知, 中国与美国是人脸识别领域中提供主要贡献的两大国家, 与其他国家相比差距悬殊, 笔者选取的10 000篇文献主要分布在以中国、 美国、 英国、 韩国、 澳大利亚和印度为主的几个国家。统计文献发表量前十名的国家如表1所示, 据表1可知, 中国是人脸识别领域发文量最多的国家, 共发文2 813篇。此外, 图谱中的连线极为密集, 国家间的合作密切, 美国和中国的对外合作尤为广泛, 但中美两国相比, 美国国家间合作更加密切。中介中心性是指某节点在图谱中任意两节点的最短路径中起连接作用的次数, 次数越多, 中介中心性越大, 表示该节点的影响力越大, 普遍认为中介中心性大于0.1的节点是关键节点。从该角度分析, 美国、 英国、 中国的中介中心性分别是0.59、 0.35和0.15, 学术影响力较大, 其余所有国家的中介中心性均未达到0.06。
表1 1995-2020年人脸识别领域国家发文量统计表
美国与英国对人脸识别领域的探索起步最早, 且在该领域起到奠基石作用的标志性算法大部分由美国、 英国提出。例如, 特征脸算法[6]、 Fisher脸方法[15]、 隐马尔科夫模型(HMM: Hidden Markov Model)[16]等。同样, 深度学习技术对人脸识别发展的促进作用不言而喻, 而美国在深度学习领域的成就也奠定了其在人脸识别领域的地位。其中卷积神经网络(CNN: Convolutional Neural Network)在人脸识别领域的应用非常成功, 谷歌著名的FaceNet以及脸书的Deepface都基于CNN网络[17]。CNN诞生的灵感来源于1962年Hubel等[18]针对动物视觉皮层的研究, 直到2012年, Krizhevsky等[19]提出了一个基于CNN的经典架构----AlexNet, 该结构中ReLU、 Dropout、 Pooling、 Overlapping等创新性的使用极大提高了模型性能。此后提出的NIN[20]、 VGGNet[21]、 GoogLeNet[22]都基于AlexNet并对其进行不断完善。2019年, Ranjan[23]等基于AlextNet和ResNet两种架构, 分别融合网络的中间层得到了两个全新的多任务学习模型HyperFace和HyperFace-ResNet, 实现人脸检测与识别以及姿势检测, 并在无约束数据集上实现了最优的性能。此外, 为了促进人脸识别技术的深入研究, 美国较早组建了多个通用人脸数据库供学者研究, 包括FERET(Facial Evaluation Recognition Technology)、 MIT(Massachusetts Institute of Technology)、 Yale、 PIE(Pose Illumination Expression)等脸数据库, 并不断扩充完善。在美国取得卓越的阶段性成果后, 其在人脸识别领域的学术影响力不断提高, 其文献更容易得到其他国家的信赖与重视。
结合以上图谱分析可知, 各国针对人脸识别领域的研究合作广泛, 已经形成了覆盖全球的合作网络, 但从合作密度上讲, 美国与其他国家间合作最为密切, 其次是英国、 中国和加拿大。肯尼亚、 乌干达和布基纳法索3个国家之间连线较粗, 基本形成了区域性的学术共同体, 内部交流密切, 但封闭性较强。根据表1文献数量与表2中介中心性综合分析可知, 美国在人脸识别领域处于第1梯队, 而中国虽然在文献发表数量上位居第1, 但文献的影响力与美国、 英国相比仍有一段距离, 文献质量仍有待提高。
表2 1995-2020年人脸识别领域国家中心性TOP10
2.2 人脸识别研究文献的学科分布分析
设置Node Type为学科Category, Visualization保持默认选项, Pruning区勾选Pruning Sliced Networks, 时间切片选择2, 运行CiteSpace得到学科合作可视化图谱如图2所示。图谱中包括460个节点, 节点数目众多, 并且可清晰地看到多个面积占比较大的关键节点; 图谱中包括2 289条连线, 两个节点间连线的粗细表示了节点间联系是否紧密。由此得知, 人脸识别领域相关研究已经延伸到多达460种学科, 且学科间紧密联系。
图2 1995-2020年人脸识别领域学科合作可视化图谱Fig.2 Visualization atlas of disciplinary cooperation in the field of face recognition from 1995 to 2020
对各学科文献发文量进行统计如表3所示, 研究人脸识别领域的相关学科中, 计算机科学(Computer Science)、 工程学(Engineering)、 人工智能(Artificial Intelligence)3个学科占据核心地位, 并延伸至心理学(Psychology)、 神经科学与神经学(Neurosciences & Neurology)、 影像科学与摄影技术(Imaging Science & Photographic Technology)、 数学(Mathematics)等学科范围。计算机科学、 工程学与人工智能3个学科比较, 不论从文献数量或中介中心性角度上分析, 计算机科学都具有一定优势。而人脸识别技术隶属于计算机视觉领域, 与计算机技术密不可分, 计算机科学主导地位不足为奇, 工程学、 心理学以及神经科学与神经学更值得关注, 结合表3可知, 3门学科均属于关键节点。
表3 1995-2020年人脸识别领域学科发文量统计表
工程学是一门应用学科, 是基于自然科学原理设计实用物体的学科, 在人脸识别的具体应用产品方面发挥了巨大的作用。最为普遍的就是智能手机的人脸解锁功能, 在全球疫情的大环境下, 口罩已经成为人们生活中必备品, 而出于安全性的考虑, 许多手机的人脸解锁功能无法支持遮挡情况下的识别, 为用户带来了使用上的不便。目前IOS系统15.4 iPhone12及以上机型在Face ID的配合下可支持戴口罩的手机解锁, 但存在不稳定, 发热耗电异常等潜在问题, 戴口罩人脸识别技术仍有待升级。
表4 1995-2020年人脸识别领域学科中心性TOP10
此外, 在医疗、 公安、 身份验证和智慧城市等领域均开发了代表性的系统。基于云计算的发展, Kumar等[24]提出老年医疗保健检测系统, 通过多类型移动设备对老年人进行监控, 同时在云服务器中对捕获到的人脸图像以及语音进行识别从而判断病人状态, 弥补了血糖、 血压等传统检测方法在时间空间方面受到的限制。神经与神经元学科与神经网络的提出息息相关, 在神经科学领域取得的研究成果下, 才提出了人工神经元, 一系列的神经网络也是在哺乳动物神经机理的启发下产生的。
2.3 人脸识别研究热点机构分析
选择结点类型为机构Institute, 时间切片选择1, 运行数据, 调整阈值大小为85至图谱分布清晰, 得到知识图谱如图3所示。图谱中包含共454个结点, 节点间862条连线,与学科合作图谱相较, 机构间合作分布较为广泛, 合作对象以科学研究机构与高校组织为主, 两类机构对人脸识别领域起着主要推动作用。统计发文量与中介中心性得到表5, 发文量前十名的机构中7名均归属于中国, 另外3所机构分别是新加坡的南洋理工大学、 美国的哈佛大学和卡内基梅隆大学, 中国科学院占据主导地位, 中介中心性与文献发表量均位居第1。
图3 1995-2020年人脸识别领域机构合作可视化图谱Fig.3 Visualization atlas of institutional cooperation in the field of face recognition from 1995 to 2020
表5 1995-2020年人脸识别领域机构发文量及中心性统计表
从中介中心性角度分析, 除中国科学院和格拉斯哥大学分别为0.15和0.11外, 其余机构均未达到0.1, 处于较低水平。中国科学院作为中国科学研究领域的中坚力量, 在人脸识别领域已经取得了很大成就。2010年, Shan等[25]对特征脸方法在代表性特征选取方面存在的不足进行改进, 提出人脸特征子空间(FSS: Face Feature Subspace)模型, 强调能区分人脸的个体特征, 实现无约束环境下人脸识别, 模型识别结果优于特征脸方法。2018年, 在大小、 相位特征的互补性的启发下, Li等[26]将Gabor小波变换提取得到的幅度特征与局部傅里叶相位特征融合解决鲁棒人脸识别问题, 在FRGC ver 2.0数据库的验证中使错误率降低了约30%。2017年, Liu等[27]发布了开源的人脸识别SDK-10层卷积深度卷积网络VIPLFaceNet, 模型通过在RelU层中添加一层归一化层, 使训练时长及测试时长均得到提升, 与经典的AlexNet相比, 在LFW数据集中测试错误率降低了40%。
英国的格拉斯哥大学发文量仅为50篇, 但影响力较强, 该机构擅于从心理学角度分析人脸识别中个人外表差异, 并认为个人内部的差异大于个人间差异, 提出面部照片不适用于身份识别的观点[28]。前10所机构中, 哈佛大学与卡内基梅隆大学虽然在文献发文量方面略显劣势, 但除中科院外, 其他机构发表文献的影响力都不及这两所机构。
2.4 人脸识别研究热点及前沿可视化分析
关键词基本概括了文章的核心要点, 可通过对关键词分析进一步把握人脸识别领域的研究热点。设定网络节点类型为关键词Keyword, 时间切片设定为1, 运行CiteSpace对关键性进行可视化分析, 得到关键词共现图谱如图4所示。共统计得到595个关键词, 节点间连线达4 194条, 网络密度为0.023 7。总体观察, 关键词共现网络结构紧密, 人脸识别在各领域应用已经得到了较好融合。
结合关键词出现频次与中心性统计如表6所示, 文献中出现频次排名前10的关键词有“face recognition”, “recognition”, “eigenface”, “representation”, “perception”, “image”, “feature extraction”, “model”, “classification”, “sparse representation”; 人脸识别领域研究的热点算法包括特征脸算法、 主成分分析法、 稀疏表示算法以及线性判别分析算法; 热点使用方法包括: 模型、 感知、 分类、 特征提取和模式识别。
图4 1995-2020年人脸识别领域热点关键词可视化图谱Fig.4 Visualization map of hot keywords in the field of face recognition from 1995 to 2020
表6 1995-2020年人脸识别领域高频关键词及中心性统计表
结合关键词聚类分析, 有助于识别并挖掘人脸识别领域代表性知识子群, 即该领域热点研究主题[29]。在关键词共现图谱的基础上分别选择“Label clusters”、 “ALL in one”进行关键词聚类, 为便于观察, 切换聚类结点的着色, 得到关键词聚类图谱如图5所示。图5中显示, 聚类模块值(Modularity)为0.502 9, 聚类平均轮廓值为(Silhouette)0.820 5, 聚类结构显著且可靠。热点研究主题包括: 特征提取、 面部感知、 面部识别、 大脑、 机制、 失认症及网络。
图5 1995-2020年人脸识别领域关键词聚类可视化图谱Fig.5 Visualizationatlas of keyword clustering in the field of face recognition from 1995 to 2020
除共现图谱外, CiteSpace提供了一种统计短时间内快速增长的专业词汇的方法, 即突现词分析法。不同于关键词共现图谱, 结合突现词的起始年份、 终止年份以及突现值, 更用于适合分析领域研究前沿。设置结点类型为关键词(Keyword), 在共现图谱的基础上, 选择突发性(Burstness), 点击refresh, 设置突现词数量为20。选择view得到前20位突现词如图6所示。其中按突现值排序前10位关键词有: 稀疏表示算法、 LDA(Latent Dirichlet Allocation)、 人纹外皮层、 面容失认、 面部识别、 特征脸、 物体识别、 皮质、K-SVD算法以及颞叶皮层。至2020年为止, 仍属于研究热点的关键词包括: 字典、K-SVD算法、 协作表示分析, 这3个方向即可认为是近年研究前沿。
3 结 语
为探究人脸识别领域研究现状、 热点、 前沿等情况并分析未来研究方向, 笔者以TS=(“face recognition”OR“facial recognition”)为检索式对Web of Science核心数据库ariticle类型文献进行检索, 相关性优先选取10 000条记录, 使用CiteSpace文献分析软件从国家、 学科、 机构、 热点关键词等多角度分析, 提出当前人脸识别领域尚存在的不足并给予改进建议。
人脸识别领域历经几十年发展, 至今已在多领域获得了较为突出的成果, 但在具体应用、 算法以及技术合作方面仍存在不足有待改进。应用方面, 口罩遮挡情况下的人脸技术的应用不够广泛, 识别率较低且识别效果不稳定, 国内外对有遮挡条件下的人脸识别技术研究也较少。目前现存的有遮挡人脸识别普遍基于二维人脸图像进行识别, 人脸图像易受到伪冒, 存在安全隐患。此外, 专门针对戴口罩人脸识别方向的数据集较少为学者研究带来了一定阻碍。对此类问题, 学者应针对有遮挡环境下的人脸识别算法继续深入研究, 并丰富口罩遮挡条件下的人脸图像数据集, 同时可将人脸识别技术与红外技术结合以提高识别的准确性, 此外, 为保证安全性, 人脸识别技术不可局限于二维人脸图像的识别, 基于三维的图像识别技术将更有保障。
从算法角度分析, “K-SVD”字典学习算法属近年研究前沿, 经过K-SVD算法学习得到的字典具有较好的稀疏性, 研究价值较高, 后续学者应从测试集方向对K-SVD算法进行改进, 除了在训练阶段关注样本的类标签外, 应注重测试集中可能存在的特征, 保证识别率。此外, 将类标签与字典原子关联的同时应注意结构的优化, 保证运行速度。
技术合作方面, 目前人脸识别技术与工程学合作较为广泛, 开发了一系列实用型识别系统, 但与心理学方向合作不够深入, 从人脸表情与人类心理角度深入研究, 或取得较有实用意义的应用。在未来, 可利用人脸识别技术识别人脸表情, 并通过建立心理学专家系统, 分析表情含义。这在学生课堂行为识别以及军事安防等方向都将会有实际意义。