基于全量数据中心和特征值提取的人脸识别门禁系统建设
——以南京体育学院为例
2022-03-30冯新淇谭海涛
冯新淇 谭海涛 王 海 魏 宁
(南京体育学院,江苏 南京 210000)
随着物联网、大数据、图像处理及人工智能等信息技术的快速发展,计算机视觉(CV)领域技术逐渐趋于成熟,作为新兴计算机视觉与模式识别交叉领域的生物识别技术应运而生。所谓生物识别技术,是指通过计算机利用人体所固有的生理特征(指纹、虹膜、脸部、血管等)来进行个人身份鉴定的技术[1]。人脸识别算法从早期的几何特征算法发展到现在的基于深度学习的算法,在大数据和神经网络技术的支持下,识别率接近百分之百。目前,人脸识别技术在全国各大高校中逐渐普及,用于教室考勤、会议签到、考试实名验证、门禁通行等诸多场景中。这种高效便捷且人性化的管理模式提高了管理效率,推动了高校从数字校园到智慧校园的进步。本文主要利用基于全量数据中心和特征值提取的人脸识别门禁平台架构,解决南京体育学院两校区人员进出通行管理的问题。
1 门禁系统建设基础、实现功能及需要解决的主要问题
校级门禁系统的建设,需要建立以人员数据为基础,以门禁管理平台为核心,依托智能化门禁设备和人脸识别技术完成“刷脸”通行的一系列建设流程和框架,以实现各类智慧应用和个性化服务。南京体育学院作为一所特殊高校,传统门禁管理方案无法满足其动态、个性化的需求,因此需要构建一种新的系统来解决以下几个问题。
1.1 人员相关数据问题
校园门禁系统的建设与使用依赖于基础数据的支撑,人员数据作为门禁系统建设的基础,其准确性和完整性至关重要。建设南京体育学院校园门禁系统所涉及的人员数据大致分为以下几类:人员基础信息数据、人脸数据、人员通行规则数据等。根据部门职能管理通行人员分类如下:教职工、本科生、研究生、运动员、临时人员、校外访客。南京体育学院作为体育类院校,信息化基础薄弱、起步晚,业务系统建设情况参差不齐,因此一部分人员数据分散在各个业务系统中,软硬件的壁垒限制了系统之间的数据共享,出现了数据差异,无法确认权威数据源;另外一部分人员不存在于任何管理系统,人员数据处于未知的状态。另外,根据目前的人员已知数据,校内普遍存在“一人多身份”的现象,如A既是研究生又是教职工,B既是运动员又是本科生。不同身份人员管理口径不一致,通行权限也没有明确的规则,给通行策略带来了极大的不确定性。上述人员数据不完整、不准确,“一人多身份”,通行权限多变性等诸多问题给实现校园全量人员“刷脸”通行带来了极大的挑战。
1.2 平台兼容性、扩展性和安全性问题
校园门禁系统建设的核心是打造一个校级门禁管理平台,实现人脸照片采集、多级授权、数据下发、通行管理等功能。学校部分业务部门已经尝试建设了局部的人脸识别通道,如何在建设过程中兼容已有的门禁设备,避免重复建设,也成为一个难题。项目启动后,使用部门根据实际工作需要提出了针对南京体育学院运动员食堂等特殊场景需求,同时支持根据学校管理政策变动进行平台对应功能调整,支持对接会议签到、教室考勤点名等应用,对门禁平台的可扩展性提出了更高的要求。由于人的面部特征具有易采集性,容易被窃取并模仿,可以通过人脸照片攻击、视频攻击、面具攻击、化妆攻击或计算机三维建模等手段模拟人脸进行识别,从而威胁用户财产甚至人身安全。因此,门禁平台的兼容性、扩展性和安全性成为本次方案设计的重要考虑因素。
2 基于全量数据中心和特征值提取的门禁系统搭建
2.1 建设思路与架构
为保证门禁平台的兼容性、扩展性和安全性,并解决目前面临的人员相关数据问题,本文提出一种基于全量数据中心和特征值提取的门禁系统建设方案,整体建设思路与架构如图1所示。该架构将源头业务系统的人员数据与通行规则数据进行整合,以数据中台为依托,汇总梳理全量人员基础数据、通行白名单数据、多身份人员数据,以标准API接口将源头数据对接到门禁管理平台,门禁平台向下兼容不同硬件管理平台与硬件设备,向上通过标准化接口提供多样化扩展应用服务,并通过人脸提取特征值下发到终端的方式提升安全性。
图1 基于全量数据中心和特征值提取的门禁系统建设框架
2.2 基于数据中台的人员数据治理与数据规范制定
“数据中台”这一概念的首创者是阿里巴巴,它是指以数据为中心,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,并对外提供便捷数据服务的一种技术架构,能够实现数据对于应用业务的价值[2]。人员数据作为门禁系统建设的基础,为保证全量人员数据的规范性和标准性,特制定全校人员的统一编码规范和数据标准,发布《南京体育学院人员编码规范实施办法(暂行)》。为保证准确性、完整性、实时性,通过数据中台的数据同步接口将人事系统、教务系统和研究生系统等已有系统的教职工和学生基础数据进行集成对接与治理,同时新建运动员管理系统、临时人员管理系统和访客系统,作为运动员、临时人员和访客数据的权威数据源头进行数据集成对接,整合来自各个流程平台的线上、线下的学生请销假、教职工返校、运动员请假等通行规则数据进行集成对接,最终由数据中台将全量人员的基础数据及权限推送到门禁平台中,解决门禁通行中“人员身份”和“人员通行权限”的问题。
在门禁平台根据中台的人员基础数据和通行白名单数据进行权限下发时,通常会遇到两类问题:一是同一个人同一身份的权限来自不同的通行规则分组,并且不同分组中的规则给出的权限出现冲突时,平台无法给出准确的通行权限进行下发授权;二是同一个人出现多个身份且不同身份的通行权限出现冲突时,平台根据不同身份进行分别授权,最终造成只要有一个身份具有通行权限,则此人具有“刷脸”进出权限,不符合校园实际使用场景的管理。
为解决第一个“一人多权限”问题,门禁平台在人员授权功能中设计“多数据源计算”模块。在模块中自定义教职工组、学生组、运动员组、白名单、黑名单、自定义人员角色分组(如开学白名单、迎新志愿者)等的规则之间的优先级,从而利用不同分组的交集、并集组合计算出最终通行权限。
为解决第二个“一人多身份”问题,利用全量数据中心打造多身份管理平台。多身份管理平台对人员姓名、性别、身份证号、人脸照片(特征值)、一卡通账号等基本属性字段进行组合,并根据实际使用场景中的重要程度分配不同的权重,配置人员身份自动合并的初始化计算公式,如图2所示。多身份管理平台可以通过合并多个不同身份的人员账号识别出唯一的自然人,分配一个新的UID(Unique Identity),而作为原有身份主键的学工号无法作为唯一ID识别一个自然人的身份,只能作为自然人的身份属性数据。例如上文中提到的既是研究生又是教职工的自然人A,身份合并后生成唯一的UID作为主键,除了姓名、性别、身份证号等原有属性外,学号、工号、身份类型集合也成为A新的属性字段。然后利用数据中台将多身份管理平台人员多身份数据表推送到门禁平台中,结合人员基础数据和多数据源计算模块进行组合判断权限,从而避免因一人多个身份的通行权限不同而导致最终权限无法识别或者识别错误的现象。
图2 多身份统一管理平台
基于数据中台打造全量人员数据中心,制定数据标准和数据规范,将源头人员基础数据和通行数据进行数据集成、清洗和整合,按照统一的数据标准和规范存储,识别人员多身份信息,多数据源组合计算,生成通行白名单,为门禁平台提供数据支撑服务。
2.3 基于特征值提取的人脸识别技术
人脸识别技术主要应用于人脸验证(Face Verification)和人脸身份识别(Face Identification)[3]。人脸验证用于判定两张人脸图像是否属于同一个人,如门禁系统中的刷身份证模式,依靠人脸验证技术证明人证一致。人脸身份识别是用于识别图像中的人脸身份问题,如校园人脸识别门禁。两者的本质是等同的,且都依赖于高效的人脸特征值提取技术。特征值提取技术是指对生物特征进行取样,提取其唯一的特征,通过计算机将该特征数字化,转化成数字代码,并进一步将这些代码组合成特征模板。在交互认证时,识别系统获取生物特征,通过滤波、降噪等处理算法后将该特征形成数字代码,与数据库中的特征模板进行比对,以确定是否匹配,从而确定身份,具有很强的安全性和可靠性。而人脸识别的原理是依据人脸特征,在原始图像上根据人脸检测算法得到人脸区域,再根据特征提取算法提取人脸特征,最后根据这些特征对人脸图像进行身份识别认证[4]。
深度学习技术是以数据的原始数据形态作为算法输入,经过算法层层抽象,将原始数据抽象为特征表示,最后以特征到任务目标的映射作为结束,无须夹杂任何人为操作。而人脸识别技术本质上是利用深度学习技术解决图像特征提取问题[5]。传统的人脸识别技术主要通过提取局部的、浅层的特征,如LBP、SIFT等图像特征描述算子,然后进行多种特征的融合,利用主成分分析法(PCA)降维后再采用传统的机器学习分类器进行人脸验证,但是这种特征提取技术易受人脸图像的光线、姿态、表情、年龄、遮盖等噪声影响[6]。近些年来,随着深度学习技术的迅猛发展,人脸识别技术也取得了突破性的进展。目前深度学习能够提取图像深层的、抽象的、概念化的特征,与传统特征描述算子提取的浅层特征相比,能够从图像全局的角度提取到人脸最本质的特征,对人脸的角度、姿态、表情、光线、年龄、遮挡、背景等噪声具有很强的抗噪能力。
基于人脸特征值提取的人脸识别技术思路,就是将人脸图像从像素空间映射到另一个空间,并在另一个空间中做相似性计算,这是图像识别的基本思想[7]。通过变换到另一个空间,相似的人脸图像会聚到一起,差异性较大的人脸图像距离会较远。因为人脸图像受各种因素的影响,包括角度、姿态、表情、光线、年龄、遮挡、背景等不同,造成同一个目标人脸图像在视觉信息上存在很大的差异,这样的图像在原像素空间分布中很难用简单的线或者面区分开,但是如果变换到另一个空间,就能够很好地把他们区分开了。
因此,基于特征值提取的人脸识别技术的应用,减小了视角、背景、光线、姿态、表情、年龄、遮盖等不同因素对人脸识别的影响,极大地提高了人脸识别的准确率,缩短了识别响应时间,提升了系统的安全性。
2.4 门禁管理系统的设计与实现
目前市面上主流的门禁建设厂家大致分为三类:传统的硬件设备类厂家、人脸识别算法类厂家和门禁软件产品类厂家。传统的硬件设备类厂家的平台管理功能较弱且具有排他性,人脸识别算法类厂家的中心计算模式时间延迟较高、边缘计算模式终端照片安全性存在风险,门禁软件产品类厂家无独立硬件设备且平台可定制化能力弱。因此,本次项目实施为满足平台的兼容性、扩展性和安全性,从硬件设备选择、软件功能定制、建设实施过程等多角度着手进行了设计与实现,如图3所示。
图3 门禁管理平台设计与实现
2.4.1 兼容性
一是摒弃传统利用人脸采集设备进行定点拍照采集的方式,本项目部署移动端照片自助采集程序,完成照片的自助采集上传、合规性自动校验、后台审核等流程后,由门禁平台根据不同品牌的终端设备型号进行自动调整适配。二是向下兼容不同门禁设备厂家的管理平台与终端设备,目前南京体育学院门禁管理平台已成功与大多数主流门禁设备厂家完成管理平台对接,也可以通过异构管理中间件直接对接不同厂家的终端硬件设备,不具有排他性。
2.4.2 扩展性
门禁平台可通过标准接口,向鉴权后的第三方应用提供人脸照片调用服务和AI算力服务。以会议室签到为例,当会议室人脸识别面板具有计算能力时,门禁平台可以提供人脸照片调用服务,将人员基础数据和人脸数据提供给第三方,避免重复进行数据和人脸采集;当终端面板不具有计算能力时,由门禁平台提供AI算力服务,终端将照片上传到平台,平台将识别结果反馈到终端面板。两种灵活的调用服务为人脸识别应用建设提供了很强的扩展性。
2.4.3 安全性
为更好地保护校园师生的人脸隐私数据,保障平台的安全性,项目在建设实施过程中将门禁设备与校园网所在环境进行了隔离,做到专网专用。人脸数据的安全性在采集、存储、下发、调用、备份等过程中得到了充分的体现。师生可在了解隐私保护协议并签署知情同意书后进行自助采集人脸数据,审核通过后,后台会对人脸库照片进行加密存储、统一管理。门禁平台通过特征值提取服务器将照片进行特征值提取,然后将特征值通过硬件管理平台下发到终端人脸识别设备,避免直接下发照片带来的隐私数据泄露风险。终端设备采用人脸活体检测技术,可以有效识别照片攻击、视频攻击、面具攻击、化妆攻击等假体攻击行为[8]。人脸活体检测技术旨在判断系统采集的人脸数据是否为真实的人脸,以防止伪造的假体人脸攻击带来安全威胁,提升人脸识别安全性[9]。另外,门禁平台在向第三方提供人脸照片或特征值调用服务时会进行盲水印处理,做到来源可溯,去向可查。门禁平台的智能数据同步代理(Agent)会与数据中台进行定期数据交互,人脸照片和特征值数据也会通过数据中台进行备份,实现了人员基 础数据和人脸数据可复用,人脸库照片或特征值丢失后版本可回溯,提高了数据安全性。
3 总结与展望
基于全量数据中心和特征值的门禁系统建设在校门进出管理、学生迎新返校等诸多场景得到了应用,推进了学校治理能力的现代化,辅助校园智慧化、精细化管理水平的提升。但是目前该架构还存在门禁平台、硬件管理平台与终端设备之间的耦合度过高,导致一方出现变动后对其他模块产生不可预估的影响,从而影响终端人脸识别结果的问题。因此,该架构只有在实际使用的过程中不断磨合与改进,才能在保证门禁平台兼容性、扩展性和安全性的基础上获得最佳的用户体验。