入校信息核验系统的设计开发
2022-02-16徐士博李雨阳王绍卿
徐士博 李雨阳 郑 顺 王绍卿
(山东理工大学计算机科学与技术学院,山东 淄博 255049)
0 引言
为加强常态化疫情防控工作[1,2],落实疫情防控要求,对于拟进入校园的教职员工、外地返校的学生,或校外人员,很多学校要进行健康码[3]、行程卡[4]、48小时核酸阴性检测结果[5](以下简称“三码”)的检验,三项信息符合标准,才可以进入校园。传统的人工信息核验过程慢,且人为核验容易出现纰漏。另外,人工核验不能自动生成报表,更不便于对历史数据进行管理,比如不能快速摸排近14天入校人员的到访城市信息。本文设计并开发入校信息自动核验系统,利用计算机运算速度快、精确度高的特点,实现三码信息的收集、提取、存储、自动核验、数据可视化展示等功能,极大地提高了入校信息核验工作的效率,有效地助力了高校的常态化疫情防控工作。
1 系统的功能设计
入校信息核验系统包括三级用户:超级管理员、部门管理员和入校人员。超级管理员用于开通每个部门的管理员账号和唯一的三码提交URL;部门管理员对本部门的人员进行名单管理、查看今日入校核验结果和详情、查阅历史数据和可视化的结果等;入校人员主要是完成个人三码截图的提交。
系统主要包括四个功能模块:入校信息收集、关键信息提取、统计与报表、数据可视化。系统采用B/S架构,结构如图1所示。
图1 系统结构
1.1 入校信息收集
根据每个部门专属的提交URL,拟入校人员使用手机应用程序,如微信、QQ、浏览器等,将三码截图提交到系统。其中,因手机截图文件的尺寸较大,为减少服务器空间占用,在存储到服务器前,系统对截图文件进行自动压缩。
1.2 关键信息提取
对拟入校人员提交三码截图文件,系统采用OCR技术对图像中的文字信息进行识别,并提取和存储关键信息。其中,日期、时间、身份证号、手机号等信息采用正则表达式进行提取。
1.3 统计与报表
统计与报表模块主要包括今日入校详情、未提交名单和核验未通过名单。今日入校详情以列表形式展示三码截图中包含的关键信息,以及自动核验的结果。未提交名单用于展示部门内哪些成员没有提交三码截图,便于部门管理人员督促。核验未通过名单用于向上级部门进行报表,不仅包含相关的姓名、联系方式等基本人员信息,还包括核验未通过的原因,如酸阴性证明超过48小时等。
1.4 数据可视化
数据可视化模块主要对历史数据进行可视化展示,用于管理部门整体掌控所有入校人员的相关信息。其中提交次数可视化采用散点图的形式,提交时间可视化采用柱状图的形式,到访城市可视化采用二级地图的形式展示入校人员近期的旅居地,这为后期的常态化的中高风险地区旅居史摸排工作提供了数据支撑。
2 入校信息核验系统的实现
2.1 构建入校人员信息库
入校信息核验系统的数据库选择使用当前主流的MySql数据库。系统的数据库中主要包含admin、department、person、enterInfo四个表。admin表要存储各个部门相关的部门编号、用户名、密码等信息。department表主要存储部门的部门编号、部门名称等信息。person表主要包括部门现有人员的学号/工号、姓名、身份证号、电话等信息。enterInfo表主要存储入校人员三码关键信息,以及对应的自动核验结果等数据。数据库系统的E-R图如图2所示。
图2 E-R图
2.2 三码截图的收集和关键信息的提取
拟入校人员使用手机端应用程序打开部门专属的URL,输入个人信息和选择三码截图。然后,系统自动对截图文件进行OCR识别,并提取关键信息。
2.3 信息核验和校对
对抽取的三码信息进行自动核验,用红色显著地标注核验不通过信息。对于部分特殊情况,比如全员核酸后用户上传完成检测的贴纸照片而导致的识别异常,部门管理员可以打开用户三码截图文件进行人工校对。
2.4 比对名单生成报表
系统根据当天用户提交的情况,与数据库中的名单进行自动比对,生成没有提交入校信息的人员名单报表,以及提交但审核未通过的人员名单报表。报表生成过程中自动关联相关人员的身份、联系方式等信息。
2.5 数据可视化展示
系统将各类处理好的数据导入可视化模型中,生成散点图、柱状图、地图等多种样式的图形化界面,清晰地展示入校人员信息提交时间和次数、到访城市等信息,为中高风险地区旅居史摸排提供数据支持。
3 系统关键技术
3.1 多线程文字识别
Paddle OCR是一个实用的超轻量级OCR技术,拥有识别速度快、准确率高的特点,可以满足三码信息的识别需求。为应对多用户并发提交,系统设计多线程[6]并行识别技术加速文字识别。
3.2 关键信息的提取
三码中的关键信息主要包括三类:个人信息、日期时间和结论信息(如绿码、核酸阴性等)。系统采用正则表达式从OCR识别出的文字内容中进一步抽取这些关键信息。正则表达式的灵活性、逻辑性和功能性较强,可以迅速地用极简单的方式达到对字符串的复杂控制。
3.3 数据的可视化
本系统采用ECharts,以正则表达式处理后的数据为基础,来进行数据的可视化工作。ECharts可以提供直观,生动的数据可视化图表,极大地方便了管理者对入校人员的三码信息的查看。
4 结语
入校信息核验系统已经正式运行一个多月,从系统运行情况来看,一方面,核验准确性高,反馈迅速,大大缩短了各部门在入校信息核验工作上的时间,提高了工作效率。另一方面,历史数据可追溯,强化了各级部门的责任。该系统有效地助力了高校的常态化疫情防控工作,为坚决打赢疫情防控阻击战提供了技术支持。