基于改进的十三点特征提取算法的智能阅卷系统研究
2015-06-02任日丽彭利红
任日丽 彭利红
摘要:随着移动互联网技术的不断发展,智能手机等触控式智能设备迅速进入人们的生活。本文通过对我国传统的客观题阅卷方式进行分析,针对客观题阅卷中存在阅卷工作量大、考生成绩准确性有误差等问题,提出了利用表格图像的倾斜校正法与改进十三点特征提取方法,运用Android平台下调用本地化代码、图像采集与定位技术与手写字符识别术,设计与实现了移动阅卷系统。该系统包括图像的釆集、图像的预处理、表格图像的倾斜校正、表格图像定位和字符识别等模块。论文详细的论述了其研究过程。
关键词:智能阅卷;图像校正法;字符识别术
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)09-0197-02
考试作为衡量教学效果的重要指标,考试离不开试卷评阅。传统的正轨考试考生必须通过2B铅笔在特定的答题纸上作答,并且使用专业的价格不菲的光电阅卷机,这不是所有学校的最佳选择对象。由于市面上经常出现不合格的2B铅笔,造成光电阅卷机识别不了,导致考生成绩不准确等违背考试公平性的现象。还有一些学校采取答题卡作答方式考试,评阅老师则采取在正确答案处挖孔,采用覆盖答题卡的形式阅卷,但这样部分考生可以找到答题捷径,就是多涂几个答案,这样便会导致评阅成绩的误差,由于这种方式缺乏科学性也没有广泛应用。还有一种基于影像识别自动阅卷系统,它通过扫描采集数据再通过图像识别技术,识别试卷答案图像并计算得分,系统将自动存入成绩以供学生在线查询。但这种评阅系统需要对答题卷的格式进行特定的设置,而且对每一份答题进行扫描,也是一个相对比较繁重的工作,并且学校需要配置多台扫描仪,比较不符合实际教学现状。
鉴于以上几种阅卷方式的弊端,笔者研究通过智能手机摄像头拍摄试卷,采集试卷图像,然后利用图像识别算法实现自动评阅试卷的功能。系统自动将成绩录入,学生只需要拥有一台Android智能手机,便可在线查阅考试成绩及排名等情况。这种方式既有利于减轻评阅老师的工作量,又利于学生能第一时间收到成绩单,从而提高学生学习的积极性。无需再通过寄成绩单的形式,将考生成绩邮寄到家长手中。阅卷前,老师只需提前把正确答案录入到Android智能手机中即可。由于电子化社会的飞速发展,绝大部分的师生及家长都在使用Android智能手机,因此不需要额外的设备配置,减轻了学校财务支出。而且考生与阅卷老师的比例一般是几十比一,拍照的任务量不多,能很好的解决考试成绩误差、阅卷老师工作量大、学生及家长获取成绩不及时等问题。因此,这一研究对广大教育工作者评阅试卷具有重大意义。
1 研究内容
1)搭建自动阅卷系统的整体框架
框架模块由图像数据预处理模块、表格图像定位拆分模块、字符识别模块。其中图像数据预处理模块主要包括学生试卷图像灰度化、图像的二值化、图像的去噪;表格图像定位拆分模块则包括图像识别区域的定位、表格版面分析;字符识别模块包括字符特征提取、手写字符的识别。
2)图像采集与定位技术
由于学生答题卷不存在颜色特征,系统采集的学生答题卷图片需要某种方式来对学生答题区域进行定位。实际考试中,学生可能采用黑色笔作答,不能像车牌识别一样通过颜色定位的方法来确定识别区域。同时,由于学生作答习惯不同,如何使用恰当的算法确定试卷答题区域,并从中提取出需要识别的字母是本课题难题。本课题采用智能手机的照相机获取真彩色图像的方式进行图像釆集。与利用扫描仪进行图像釆集相比,釆用智能手机中自带的照相机进行图像釆集的方式有简单、方便、快捷等优势。通过Android操作系统自带的照相机进行图像的采集,并将采集到的图像存储到SD-card中等待后台应用程序进行处理。
3)手写字符识别
字符识别是一种新型的自动化技术,常常应用于车牌识别、路标识别、文档识别等领域中。而手写字符识别则作为字符识别中的重要研究模块之一,是图像处理与人工智能相结合的一种技术。在本系统中,如何选择适合应用在智能手机下的手写字符识别算法来高效地识别出客观题的答案是本课题的重点。本文采用的手写体字符特征提取的具体步骤为:首先搜索字符区域,将搜索到的字符区域分割成2*4=8个小区域,计算出每个小区域中黑色像素点的个数,将每个区域的黑色像素点个数除以每个小区域像素总数,分别得到8个特征;然后分别统计水平方向中间两行和垂直方向中间两列的黑色像素占整行,整列的比例作为4个特征;最后统计所有黑色像素占整个区域的比例作为最后一个特征。
特征提取之后,需要对手写字符进行识别,目前手写字符识别算法很多,如模板匹配、支持向量机、神经网络等。由于本课题的设计平台是智能手机终端,所以选择模板匹配中的最近邻算法进行字符识别。本文首先将标准的书写方式作为模板录入模板库中,接着利用图像之间的最短距离作为判别函数。本文分别利用了模板提取法(选用25个特征),十三点特征提取法以及改进后的十三点特征提取算法。利用最近邻匹配算法进行对比,每个字母和数字选用了 3个模板、24个测试集。由于书写风格不同,光照、纸张对图像识别效果的影响,现有的对脱机手写字符识别的算法很难得到100%的准确率。不过,相对于改进前的十三点特征提取算法与模板提取法。利用十三点特征提取算法,在A、C、D识别上准确率已经很高。
2 结束语
本文设计完成了基于Android智能手机的自动阅卷系统,并在三个方面取得研究进展:其一,针对表格图像的倾斜校正,改进了传统的投影轮廓分析法,用实验验证了改进后的算法有更好的运行效率;其二,针对表格图像定位与拆分模块进行了优化,弥补了传统表格定位算法在特殊场合下定位不准确的不足;其三,针对手写字符识别模块,改进了适用于手持终端的十三点特征提取法。本项目所涉及到的研究内容不仅在理论上具有较大的意义,而且具有非常重要的实用价值和广泛的应用推广前景。
参考文献:
[1] 张站,刘政怡,吴建国,等.基于图像识别的阅卷系统的设计与实现[J].微型机与应用,2011, 30(4): 44-47.
[2] 李旭东.基于Android移动终端摄像的图像处理与应用[D].电子科技大学,2011.
[3] 葛艳,高占江.基于Android系统的音乐播放器设计与实现[J].微型机与应用,2014(1).
[4] 曾健平,邵艳洁.Android系统架构及应用程序开发研究[J].微计算机信息,2011,27(9):1-3.
[5] 葉炳发,孟小华.Android图形系统的分析与移植[J].电信科学,2010(2): 65-68.
[6] 王克锋.基于Android的信息推送管理系统的设计和实现[D]. 大连理工大学, 2012.
[7] 许雁飞,陈春玲,陈夏梅.基于OpenCV的脱机手写字符识别技术[J].信息与电脑,2011(8):039.
[8] 于伯峰.印刷体中文文档中表格和汉字的识别研究[D].哈尔滨工程大学,2011.