中国名人人脸数据集①

2022-01-05杜潘飞李雄伟贾永杰

计算机系统应用 2021年12期

杜潘飞, 李雄伟, 贾永杰

1(陆军工程大学石家庄校区, 石家庄 050003)

2(中国人民解放军 93498 部队, 保定 071000)

1 引言

随着深度卷积神经网络的快速发展, 近来有很多关于收集大尺度人脸识别数据集的工作, 总的来说这些数据集大多是由其他国家的机构收集的, 如YTF[1]、CACD2000[2]、SFC[3], 其中的人脸图像大多都是国外的人脸, 国内的一些机构在实验室条件下采集的人脸图像数量较少. 相关文献表示人脸的面部特征包含有民族、年龄和性别等基本属性, 其中民族属性在人脸认知过程中先于性别和年龄特征, 是判断人脸的重要依据, 人类学研究表明: 由于受到文化、遗传、地域等诸多客观因素的影响, 不同民族面部特征之间确实存在差异[4-9]. 在人脸识别的应用中, 算法的性能严重地依赖于数据, 而欧美国家的人脸特征和中国人的特征是有很大差异的, 为此我们在本文中提出一个新的数据集, 其中的人物全部都是中国人, 该数据集包含丰富的姿态、宽广的年龄范围.

本工作的主要贡献有: 首先, 收集了一个尺度较大的国人人脸数据集, 命名为CCFace, 可以公开使用. 第二, 介绍了一种半自动化的数据集生成流程, 它极大地减少了手动标注的工作量, 这种方式为以后收集更大规模的人脸识别数据集提供了借鉴. 第三, 统计了这个数据集的关于性别、年龄、地域、民族等相关信息,并通过实验说明了不同民族和地域的人脸特征具有独特性, 本文涉及的代码实现以及数据集下载地址为:https://github.com/xiayule518/CCFace.

2 相关工作

到目前为止, 在人脸识别中经常使用的公开数据集有很多, 它们中的大多数都是关注于人脸的姿态、年龄、光照、遮挡的多样性, 很少关注于民族多样性,在这部分中我们介绍一些相关的数据集, 并分析他们的优缺点.

CAS-PEAL数据集[10], 2004年由中国科学院发布的, 通过高清摄像机拍摄的它是在限制场景下多姿态、表情、配饰、光照的人脸图像, 包含1040人物(595个男性、445个女性), 99 594张人图像, 作为国内较早的国人人脸图像数据集, 其数据集规模较小, 由于一些版权因素的考虑, 其中只有一部分可以公开使用,且是限制场景下收集的, 因此不适合现在流行的非限制场景下的人脸识别的模型训练使用.

Labeled Faces in the Wild (LFW) 数据集[11], 它于2007年发布, 是人脸识别中使用的最广泛的数据集之一, 包含5749个人物, 13 000张图像, 非限制场景下户外的人脸图像数据, 由于所包含的图像数量较少, 故主要作为人脸验证、识别的性能评价标准.

CASIA-WebFace[12], 2014由温森塞公司的Yi 和中国科学院的Lei 等人发布的大尺度人脸识别数据集,作者从IMDb网站上爬取的名人图像, 通过一种半自动的方法进行了标注. 其中包含10 575个不同的人物,共计494 414张人脸图像, 每个人物的人脸图像平均大约500个, 但大多都是其他国家的人脸.

CelebA (CelebFaces Attribute)数据集[13], 2015年由香港中文大学发布的大型人脸属性数据集, 其包含了共计202 599张亚洲名人图像, 其中每张图像由40种属性注释, 该数据集中的图像覆盖了大量的姿势和背景, 可用于人脸属性标识训练、人脸检测训练以及landmark标记等.

Glint360K[14], 2020年发布的全球最大最干净的人脸公开数据集, 包含360 232人物总计17 091 657张来自全世界的人脸图像. 截止目前为止, 其类别数和图片数目比主流训练集的总和还多, 通过采用空间FC训练策略, 在Glint360K上训练的基线模型可以很容易地获得最先进的性能. 该数据集的规模虽然较大, 但其中包含的人物多为国外人物, 其人脸特征和国人相差较大.

3 数据集构建

在人脸识别的研究过程中, 快速且高质量地构建大尺度数据集是算法优化的前提, 为此本文提出一种半自动化的构建方法, 在保证数据集质量的同时, 极大地降低时间成本. 数据集的构建流程如图1所示(其中带阴影的模块为自动过程), 数据集的构建过程主要包括人物图像获取、人物图像过滤和人脸图像标注3个步骤.

图1 数据集构建流程

3.1 人物图像获取

数据集构建的基础是获取包含指定人物人脸区域的图像, 在这部分中详细介绍如何从互联网上获取指定人物图像, 主要包括: 确定人物名单和下载人物图像.考虑到网络图片获取的难易程度和隐私等问题, 也为了尽可能多地获取人物图像, 本文选择国内网络或电视中出镜率较高的名人图像作为获取对象, 首先在搜索引擎中以“中国名人名单列表”为关键字获取100位公众人物名单, 之后以知识图谱的搜索方式搜索于此有关联的人物, 最后从其中确定了431个作为候选人物.

确定人物名单之后, 使用爬虫的方法, 从互联网上通过关键字搜索的方式获取人物图像, 并全部保存为jpg格式, 下载的每个人物的图像分别放在该人物的文件夹下. 为加快的下载图像速度, 在本文中使用多线程的方式(本实验中采用16线程), 下载过程中获取的图像中包含很多错误图像(例如下载错误的、不能正常打开的), 故在下载之后首先使用OpenCV过滤下载出错的图像. 首次过滤之后, 共获得498 048张人物图像,这步获取的人物图像中可能包含一张或多张人脸图像,也可能不包含候选人物的人脸图像.

3.2 人物图像过滤

人物图像下载完成之后, 为过滤掉其中不包含候选人物的图像以及明星人物图像化妆过重而不能识别的问题, 在ArcFace[15]提供的模型算法的基础上, 对图像进行识别分类, 通过对人物图像中的人脸进行识别来移除其中不包含候选人物和妆容影响过大的图像, 主要的流程为: 挑选特征人脸图像, 使用人脸识别算法分类.

当前人脸识别算法的基础是构建人脸特征库, 即对于所有候选人物通过从已下载的人物图像中挑只包含选该人物清晰的、不同年龄的3～5张无状或淡妆正脸图像作为该人物特征. 在手工挑选所有人物的人脸特征图像完成后, 通过使用卷积神经网络提取种子图像的特征, 生成512维的人脸特征向量, 并将其保存为bin格式文件, 所有特征向量便构成人脸特征库, 以此作为识别过程中的搜索比较的对象.

为了将已下载的所有图像按其所包含的候选人物人脸图像移动到对应人物名称的文件夹内, 我们使用人脸识别算法ArcFace来识别图像中包含的人物. 在已经构建完成的候选人物人脸特征库基础上, 对于下载的每一张图像, 执行人脸检测-向量特征化-识别的过程来和该人物挑选的特征向量做比较, 判断该图像中是否包含该人物的人脸图像. 此步完成之后我们移除不包含候选人物的图像, 此时共包含503 727张人物图像.

3.3 人脸图像标注

对原始的人物图像分类完成之后, 首先要检测其中的人脸区域(一些图像中可能含有多个人脸), 并将其保存为指定像素大小的本地图片, 继而完成人脸图像的分类, 最后人工核对人脸图像, 在完成这些工作之后, 便生成了可用于人脸识别的数据集.

为了获取质量较好的人脸区域图像, 通过尝试几种人脸检测算法, 最终决定在第3.2节生成的人物原始图像基础上, 使用MTCNN[16]提供的模型进行人脸检测, 人脸检测过程检测到的人脸图像中仍然可能存在混淆项(例如不属于该人物的图像), 故再次使用人脸识别算法对每个人物的人脸图像作识别, 移除其中不属于该人物的人脸图像；对于移除混淆项后仍然存在的重叠项和未成功识别的混淆项, 采取人工删除的方法来清洗每个人物的人脸图像.

在完成所有的数据清洗工作之后, CCFace最终得到431个人物总计506 874张人脸图像. 由于该数据集的尺度较大, 我们不能完全保证所有检测到的人脸都被正确标注, 数据集的质量将由以下的实验说明. 从数据集的构建过程可以看出, 这种构建方法需要人工操作的部分为人物名单挑选、特征人物图像挑选与人脸标注结果核对, 这部分的工作量约占整个流程的30%左右, 比其它数据集构建过程减少约30%～40%的工作量.

4 数据集统计分析

在人脸识别中, 多个因素会影响识别精度, 在前言部分介绍的当前通用数据集都不同程度的考虑了光照、姿态和遮挡等因素的影响, 其它一些数据集(如IMDBFace[17]、CACD2000和Adience[18])研究了年龄、性别对精度的影响； NIST最新研究结果[19]表示面部识别的表现通常会因为人的种族、性别或者年龄而产生差异. 因此在CCFace数据集收集的人脸图像中不仅包含姿态、光照、遮挡多样性, 而且也涵盖了性别、年龄、地域和民族影响因子, 参考IMDBFace、CACD2000和Adience中的统计方法, 在本部分中我们主要对后4项影响因子做了相关的统计. 为获取人物属性信息,本文在参考互联网人物知识图谱构建的方法[20]的基础上, 以人物中文名称为关键字自动从互联网搜索该人物的相关信息.

4.1 性别

人脸是一种非常重要的生物特征, 具有结构复杂、细节变化多等特点, 同时也蕴含了大量的信息, 比如性别、种族、年龄等, 而男性和女性的人脸特征相差较大, 故而在该部分中我们首先考虑性别因素. 在本数据集中共计431个人物实体, 其中男性185人, 女性246人；男性人脸图像193 090张, 女性人脸图像313 784张, 其分布如图2所示. 在目前的实际应用中识别男性人脸上的表现要优于女性人脸[21], 从图2中可以看出男性和女性人数、人脸图像数的比例约为4:6, 我们用增加女性人脸的数量来提升女性识别的性能.

图2 性别分布

4.2 年龄

随着年龄的增长, 人脸的特征也将会有较大改变,尤其是青少年, 因而年龄跨度在人脸识别中一直以来是一个技术难点, 近些年来的一些文献表示年龄因素对人脸识别的精度有较大的影响[22,23]. 在本数据集中我们收集了多个年龄段的人物, 并且每个人物的人脸图像中包含了其各个年龄的照片, 故而在年龄方面CCFace具有丰富的多样性, 人物的年龄跨度统计如表1所示.从表1可以看出20～60岁年龄段的人脸数占比超过90%, 这也与当前实际应用中使用人脸识别应用该年龄段人数比例的实际情况基本相符.

表1 年龄段分布

4.3 地域

我国是一个地域辽阔人口众多的国家, 目前可以分为7个行政区, 早些年便存在对各行政区人脸特征的研究[24], 其研究表明中国人的人脸特征由于受到地理环境、气候等因素的影响, 其所属行政区的人的脸部特征存在明显差别, 因而按行政区来说明该数据集的多样性也是合理的. 在本数据集中收集各个行政区的人物数量与人脸数量, 具体汇总如表2.

表2 地域分布

4.4 民族

我们国家是一个拥有56个民族的大家庭, 而不同民族的人脸特征也存在一定的差异性, 如: 肤色、脸型等. 在当前人脸识别应用中, 不同民族的识别精度也存在差异, 如在肤色较白的人脸上表现优于肤色较深的人脸(11.8%～19.2%的错误差别)[21], 当前的人脸识别算法都是数据驱动的, 数据的好坏和多少直接影响其识别性能, 故而本数据集中收集不同民族的人脸, 其数量统计如表3所示. 第六次全国人口普查报告显示: 汉族占比91.6%、壮族占1.28%、藏族0.78%；从表3中可以看出本数据集各民族比例与之大致相符.

表3 地域分布

5 实验分析

为说明使用该方法构建CCFace数据的质量, 在本文中使用和本数据集尺度相当的CASIA-WebFace(以后简化记为WebFace)数据集分别训练多个人脸识别模型. LFW与CAS-PEAL分别作为国外、国内人脸验证集来测试模型的精度. 对于数据预处理我们遵循SphereFace[25]与CosFace[26]的处理方式, 生成归一化的112×112的人脸裁剪图像. 由于计算资源的限制, 在本文中选择CosineLoss[26]与Softmax作为损失函数,ResNet50, ResNet-100[27]和MobileNetV1[28]作为主干网络, 分别记为CosFaceMobileV1 (CosineLoss+MobileNetV1)、Soft-maxMobileV1 (SoftMax+MobileNetV1)、CosFaceRes50 (CosineLoss+ResNet50)和CosFaceRes100 (Co-sineLoss+ResNet100). 在本文中所有的实验在Mxnet[29]上实现, 设置batch_size为96,动量为0.9, 权值衰减为0.0005, 初始的学习率为0.1,所有训练都在260 k次迭代后终止, 使用3×NVIDIA GeForce RTX 2028Ti (11 GB)的GPU完成训练.

5.1 WebFace实验结果

作为对比, 首先使用WebFace数据集训练以上列出的4个人脸识别模型, 模型最终性能如表4所示. 从表4中可以看到文中使用的4个人脸识别模型在使用WebFace作为训练集时, 识别国外人脸的精度要高于国内人脸的识别精度. CosFaceMobileV1, Softmax-MobileV1, CosFaceRes50, CosFaceRes100模型在LFW上的精度比在CAS-PEAL上的精度分别高3.3%,4.9%, 0.9%, 0.8%.

表4 WebFace结果 (%)

5.2 CCFace实验结果

之后以CCFace数据集训练相同的人脸识别模型,模型最终性能如表5所示. 从表5可以看出本文选择的4个人脸识别模型在使用CCFace数据集作为训练集时, 对国人人脸的识别精度要高于对国外人脸的识别精度. CosFaceMobileV1, SoftmaxMobileV1, Cos-FaceRes50, CosFaceRes100模型在CAS-PEAL上的精度比在LFW上的精度分别高0.2%, 0.9%, 1.1%, 1.5%.

表5 CCFace结果 (%)

5.3 实验结果分析

综合表4、表5可以得到, 以CCFace为训练集训练的模型在LFW上同样达到了较高的精度, 这说明该数据集和当前流行的人脸识别数据集一样, 也可作为通用人脸识别应用的训练集. 另外分别对比表4、表5的第3列可以发现CosFaceMobileV1, Softmax-MobileV1, CosFaceRes50, CosFaceRes100模型以CCFace为训练集时, 在CAS-PEAL集上的验证精度比以WebFace为训练集的验证精度分别高0.7%, 3.8%,0.2%, 1.0%, 说明CCFace比WebFace更适合作为国内人脸识别应用的数据集.

6 结论

本文提出一种半自动构建方法, 该方法减少了构建人脸识别数据集的工作量, 通过该方法可以快速构建一个高质量人脸识别数据集, 并以此方法构建一个人脸数据集, 命名为CCFace. 该数据集全部都是中国人的人脸图像, 其不仅包含了姿态、光照、遮挡的多样性, 也包含了年龄、地域、民族、化妆等多范围跨度, 每个人物的人脸图像平均包含1000多张的人脸图像. 实验结果说明该数据集相比于其它包含国外人物的数据集更适合我国人脸识别应用的使用, 证明不同民族之间的人脸特征具有差异性. 下一步的工作内容将详细研究民族因素在人脸识别中的具体影响, 并进一步增加数据集的人员数量.