基于百度OCR识别的研究生智能推免选拔平台
2020-11-06张宜轩王永芳
张宜轩 王永芳
摘 要:通过对临沂大学研究生推荐免试选拔过程的调查研究,基于其线下选拔耗时长、工作量大的现状,依托百度OCR识别技术设计了一种研究生智能推免选拔平台。在平台设计中提出可行的最优推荐匹配算法:利用OCR识别技术和KMP算法进行关键字匹配、智能评分。平台还能够实时共享推免信息,在学生端和教师端之间建立随机关系,实现教师端材料盲审,有效降低时间成本、提高选拔公平程度,对当下推荐免试生选拔有突出的借鉴意义。
关键词:推荐免试选拔;KMP算法;最优推荐匹配;OCR识别
中图分类号:TP391.41;TP18 文献标识码:A 文章编号:2096-4706(2020)13-0085-04
Abstract:Through the investigation and research on the process of recommendation exemption of Linyi University postgraduate students in recent years,based on the current situation of long time-consuming and heavy workload in offline selection,designed an intelligent recommendation and examination free selection platform for graduate students relying on Baidu OCR recognition technology. Proposed a feasible optimal recommendation matching algorithm in the platform design:OCR recognition technology and KMP algorithm are used for keyword matching and intelligent scoring. The platform can also share the promotion and exemption information in real time,establish a random relationship between the student side and the teacher side,realize the blind review of the teacher side materials,effectively reduce the time cost and improve the fairness of the selection,which has a prominent reference significance for the current selection of candidates without examination.
Keywords:recommendation and examination free selection;KMP algorithm;optimal recommendation match;OCR recognition
0 引 言
随着研究生招生规模的逐步扩大以及考研人数的日趋增加,推荐免试攻读研究生成为热议话题。但根据前期调查结果,研究生推免工作的重心依然是在线下遴选优秀应届毕业生。这种方式不但耗时长且选择标准单一、有失公允,而且根据教育部有关文件精神,真正“有意义”的选拔应当更加注重学生综合能力[1],例如毕业生在本科阶段的项目经历、学科竞赛经历等,只有确立双重标准、严格考核,才能体现“选拔、推荐”的真实含义。如何将这部分阅历丰富、综合素质强的学生群体列入选拔的备选库中,是本平台设计的核心问题。
本平台通过建立学生待审核记录与审核教师的随机关系,提高了线下校内推免生审核过程的透明度、公平度,有效降低了传统审核的工作量;同时,为了提高审核评分的准确度和考察学生的综合素质能力,本平台调用OCR识别(Optical Character Recognition,光学字符识别)[2]技术对学生上传的图文资料进行关键字识别,根据识别结果进行最优推荐匹配[3],最后审核教师根据推荐结果设置赋分比例。在用户端平台将用户已有成绩在各专业中进行实时比对和排名,帮助用户了解最新选拔状态。
1 平台功能与编程
本平台采用C/S架构的交互方式,以微信开发者工具(版本号v1.02.1911180)作为主要开发平台[4],并通过Spring Boot框架与数据库进行间接连接。本平台的主要功能有上传成果材料、排名汇总、动态信息共享、最优推荐匹配、赋分比例设置等。
数据库方面,平台选用MySQL进行数据存储,平台的学生用户表、用户排名信息表结构如表1、2所示,平台功能结构图如图1所示。
2 平台功能实现
本文主要从快速注册模型、最优推荐匹配、专业排名以及信息动态共享四个方面对平台的功能进行详尽的描述。
2.1 快速注册模型
该模型由登录、注册两部分组成,登录部分以临沂大学校徽为界面主题,以用户名和密码作为凭证进行登录;在注册部分引入搜索框注册机制,相当于在用户注册之前对重复学号的数据进行拦截处理,其具体实现情景如图2所示。
如果出现学号重复的情况,平台提示“禁止重復注册”;通过学号验证后的用户方可输入用户名、手机号码等完成全部注册过程。平台通过引入快速注册模型,成功地解决了重复注入信息造成的平台异常。其核心策略解释如下:
算法模糊搜索下实现的布尔判重函数
输入有关学号的模糊文本
输出判重提示
bool IfExists(String number){
if(数据库中数据equals(number))
return true;
else return false;
}
2.2 最优推荐匹配
OCR识别技术[5]是百度AI开放平台的一项重要功能,OCR作为一种AI智能产品,可以将用户上传的图片提交给百度AI服务,在微信小程序中调用此API,不需要服务器的参与,适合初学者的学习和使用。平台利用OCR识别技术实现的功能主要有:
(1)用图像数据字段实现图片存储,并在后续教师查阅学生材料时将图片存储字段转换成可顯示的图片类型进行展示[6];
(2)在微信小程序端设置了人工智能识图功能;
(3)对转换后的图片文字进行关键字匹配。
平台设置的关键字ki(i=1,2,3)和对应的分值范围主要分为3类(以计算机学科为例,材料未涉及论文),其中比赛项目关键字k1?{ACM-ICPC(50分),CCF(50分),CCSP(50分),蓝桥杯(45分),程序设计(45分),数学建模(45分),国家奖学金(60分)},比赛级别关键字k2?{省赛(25分),国赛(30分),区域赛(35分)},获奖级别关键字k3?{一等奖(10分),二等奖(6分),三等奖(3分),Gold(10分),Silver(6分),Bronze(3分)}。由于单项材料获取的文字内容较少,匹配过程采用Knuth-Morris-Pratt字符串匹配算法[7](KMP算法),匹配成果材料评分结果[8]分为3类yj(j=1,2,3),分别为优秀(90~100]、良好(80~90]和合格(其他分数段),具体过程用公式表达:
该项功能对用户提交的图片内容进行最优分数匹配,教师具有审核和根据学校相关政策修改分数的权限。此功能的实现有效提高了整个审核环节的效率,而且能够智能化审核流程、量化赋分标准。平台上交成果材料功能的具体实现如图3所示。
2.3 专业排名
管理员在平台确定选拔比例后,依次点击“生成排名”“检录信息”就可以分专业登记选拔状态。这一部分实现的关键在于编写SQL排序语句[9],关键语句如下:
算法分专业排序算法
输入专业名称、设定推免比例
输出各专业排序名次
SELECT 学号,(@排名序号:= @排名序号+1) AS 排名 FROM (SELECT * FROM 用户排序表) 用户排序表,
(SELECT @排名序号 :=0) b ORDER BY 用户排序表总成绩 DESC;
该部分主要解决两大问题:
(1)插入、更新大批量数据时尽量采用耗时相对较低的算法,否则易造成下标出界;
(2)在重新指定选拔比例时,应当在现有记录删除后再插入该专业所有记录,否则易导致专业混合排序,不利于统计。
2.4 信息动态共享
平台将动态报考信息进行共享,既可以帮助学生掌握报考专业的竞争激烈程度,又可以给学生智能化推荐报考专业。其具体的实现过程如图4所示。
在用户点击不同专业时,平台会将该用户当前的学业成绩与数据库中该专业已有的最终成绩作差比较。根据差值不同的范围,平台解析范围大小并做出动态反馈。现在把上述过程总结为模拟排位算法模型,该模型可以帮助考生快速知悉报考专业的大体情况,在一定程度上缓解了盲目报考产生的“扎堆”现象、提升报考成功率。
下面给出模拟排位算法的伪代码:
算法模拟排位算法
输入用户当前既有学业成绩、点选专业
输出提示内容(具体的分差提示内容如表3所示)
public Map cmpWithTotal(score, career){
do dif ← score-total;
Map map = new HashMap<>();
put(“提示信息”)
}
3 结 论
针对当前优秀毕业生推免工作中存在的问题,为了更好地推动无纸化办公、提高推免过程的智能化,本文设计了研究生智能推免选拔平台。平台通过百度OCR技术,共享AI领域的应用场景和解决方案,对用户提交的材料进行关键字匹配和赋分分类,综合定性分析学生素质和能力;通过设置模糊查询,改变以往表单注册的固有形式,有效地降低了重复率;通过信息动态共享功能,可以帮助报考学生避免“扎堆”报考的现象,指导不同分数段的学生科学报考;通过分专业排名功能,可以帮助管理员掌握各个专业的具体选拔情况。本平台将OCR识别技术与微信小程序深度结合,有效提高了选拔过程的效率,加强了对学生综合素质能力的考察,提高选拔过程的智能化程度。
参考文献:
[1] 张学谦,李金龙,裴旭,等.我国一流大学建设高校硕士研究生入学机会平等性测度及表现 [J].学位与研究生教育,2019(6):38-44.
[2] 王志豪,朱浩宇,翁子扬,等.基于百度AI开放平台的广告匹配度方案 [J].电脑知识与技术,2019,15(36):195-197.
[3] 陈超祥,丁健龙,陈友荣.智能短信就业服务平台的设计与实现 [J].计算机工程,2009,35(7):191-194.
[4] 李哲,周灵.微信小程序的架构与开发浅析 [J].福建电脑,2019,35(12):66-69.
[5] 何文琦.基于OCR技术的高校财务报销新探索 [J].商业会计,2020(10):79-81.
[6] 程海峰.基于微信小程序的图片分享系统的设计与实现 [J].工业控制计算机,2019,32(2):97-98.
[7] 李莉.基于字符比较的单模式匹配算法的研究与分析 [D].福州:福建师范大学,2016.
[8] 李薇,肖仰华,汪卫.基于中文知识图谱的人物实体识别 [J].计算机工程,2017,43(3):225-231+240.
[9] 滕刚.关系数据库排名运算方法的研究 [J].电脑开发与应用,2009,22(12):36-38.
作者简介:张宜轩(1996—),男,汉族,山东泰安人,本科,研究方向:算法设计与分析;通讯作者:王永芳(1987—),女,汉族,山东临沂人,讲师,博士研究生,研究方向:人工智能、模式识别。