APP下载

基于课题的OCR技术在手写纸质教案数字化存储中的应用

2019-09-10李艳杰

现代信息科技 2019年18期
关键词:数字化

摘  要:为了提高教师教案设计能力和教学能力,山东华宇工学院(以下简称“本校”)存留了许多优秀的手写版纸质教案,但是纸质教案的共享和借鉴会受限制,本文提出的利用OCR技术进行数字化加工,实现了纸质化教案的数字化形态;方便教师共享、学习、引用,以便于缩减备课时间,提高课堂教学效果。

关键词:纸质教案;数字化;OCR技术

中图分类号:TP391.43     文献标识码:A 文章编号:2096-4706(2019)18-0054-03

Abstract:In order to improve the ability of teacher’s plan design and teaching,Shandong Huayu University of Technology (hereinafter referred to as “our university ”) has retained many excellent handwritten paper-based teaching plans,but the sharing and reference of paper-based teaching plans will be limited. In this paper,OCR technology is used for digital processing to realize the digital form of paper-based teaching plans. It is convenient for teachers to share,learn and quote,so as to reduce the time of preparing lessons and improve the effect of classroom teaching.

Keywords:paper teaching plan;digitalization;OCR technology

0  引  言

隨着信息化的普及,手写的纸质教案也被打印的电子教案逐步代替。在教学过程中,教师会随时记录教学过程中遇到的问题和解决的方案,所以很多手写的纸质教案具有很高的借鉴价值,为了让这些教案发挥优势,让更多的教师从中得益,就有必要把手写的教案进行数字化加工,实现其形态的电子化,这样会方便传输和共享,便于教师学习和借鉴。本文以本校电子信息工程学院教案数字化加工项目为例,阐述OCR技术在教案加工过程中的应用。

1  对OCR的理解

OCR是Optical Character Recognition的缩写,即光学字符识别,是指利用电子设备查看打印或者手写的字符,需要检测相对暗或者亮的对比度以确定其字体的形状,并且用字符识别的方式将形状翻译成计算机文字的过程。OCR一般分为两大步骤:图像处理以及文字识别。图像处理,即对通过扫描仪存储到计算机的图像进行预处理,处理工作包括灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤;图像预处理过后,后期将通过文字特征来识别提取文字。

2  手写教案数字化转换所需要的硬件和软件

笔者认为,汉字识别可以有两种方式:即编程实现和OCR汉字识别软件;如果用Java编程实现,可以利用网络提供的开源的类库,例如Tess4J,Tess4J项目自带英文字体库,所以要识别中文信息,还需要下载中文简体字体库。Tess4J项目部分代码如下:

public static String teachingWord(String imagePath)

{

try {

File image = new File(imagePath);

BufferedImagetextImage = ImageIO.read(image);

Tesseract instance = Tesseract.getInstance ();

instance.setDatapath("C:\\Program Files (x86)\\Tesseract-OCR\\tessdata");//需要有对比的语言库

instance.setLanguage("chi_sim");// 手写的文字识别

String words = null;

words = instance.doOCR(textImage);

return words;

}

catch (Exception e)

{

e.printStackTrace();

}

}

但是这种方式比较适合少量的图像文字识别。对于教案这种大批量的文字识别,可以直接利用网络中的汉字识别软件,通过一台电脑便可以完成。如果有文字量较大,可以加上扫描仪,在扫描的过程中进行识别。不同的扫描仪可能附带的OCR汉字识别软件不一样,例如捷速OCR中文版文字识别软件、清华紫光OCR等等。OCR软件的种类不是很多,因为对手写字的识别还不是很成熟,其使用方法稍微有所不同。

3  利用OCR技术进行数字化的流程

为提高教师设计教案和提高课堂教学的能力,本校在每学年都会进行教案和教学评比,在此期间,留存了很多优秀的手写版纸质教案。为了让青年教师更快地学习和提高,学校顺应数字化潮流,对于一些有价值的、手写的纸质版文件,进行数字化加工工作,方便传播和借鉴。本文以《Mysql数据库技术》为例,建立一个索引篇名为“Mysql数据库”的数字化教案需要的信息包括教案的课程名称、学年学期、教师姓名、专业、班级、教材、理论或实践学时等等。如果采取教师自己录入信息的方式,会花费大量的时间和精力,而且容易出现错字,影响其他教师借鉴,使用OCR技术进行字符识别,就可以大大节省时间和成本,下面以图1为例,简述OCR技术在实际运用中的大致流程。

3.1  教案图像扫描输入

在教案的数字化转换过程中,首先需要扫描,扫描时要设置参数,合适的参数设置能使图像质量更加趋向于OCR识别的要求,提高识别率和正确率。设置分辨率时,分辨率过小,像素点在单位尺寸上的分布就少,足够的图形信息不容易甚至无法获得,导致识别率低;但分辨率太高,也会使识别率较低,因为教案在书写时可能用力不均匀,过高的识别率会导致在扫描过程中把一个整体的字识别成几部分,出现错误,并且保存时图像文件会很大,占用更多的存储空间。实际操作时,可能会根据情况反复调整,最终可以将分辨率锁定在300dpi左右。对于色彩模式的选择,由于教案通常为黑色,过多的颜色只会变成干扰信息,所以可以采用黑白二值模式。由于纸质教案存放时间久,文字可能会变浅,纸张也可能变黄,所以要处理扫描后的图像,首先要设置为灰度的色彩模式,将图像划分为不同的灰度级别,其次要通过某种算法将其灰度值以下的像素點都认定为白色,使其能黑白分明。不同教师的教案,亮度和对比度会有差别,需要调整亮度和对比度,所以为了改善图像质量,进一步提高OCR的识别率,对于书写字迹比较淡,笔迹较细的教案,可以适当调低亮度;文字小、笔画粗的调高亮度。调节亮度的同时,文字也会一起变淡,所以还要提高对比度,使文字和纸张区别度高一些。调节亮度和对比度,目的是使文字和纸张黑白分明,有利于增加OCR的识别率。

3.2  对图像进行预处理

扫描的时候由于各种情况,可能会出现图像模糊、畸变、断笔、粘连、倾斜等问题,所以需对其进行预处理。可使用Photoshop或其他工具,对图像进行纠偏和去污处理,这样可减少后期文字识别时遇到的字迹模糊不清楚等问题。

3.3  图像版面分析

图像版面分析即识别图像的区域属性,是横排文字还是竖排文字、表格还是图片、规则版面还是不规则版面等。

3.4  对文字进行切分

需要自动切分和人工切分的参与。对图像的初步识别可以通过计算机进行自动切分,按照字符每一行的上界限、下界限、每个字符的左右边界将文字自动切割成独立的个体。自动切分可能会出现偏差或错误,所以自动切分完成后,要对文字进行校对,利用人工切分在切割有误的地方重新切分,以保证句子的完整性。

3.5  对文字进行特征识别

根据每个文字的固定特征,对文字进行识别,通过特殊特征的提取,例如笔画位置、交叉点数等结构特征,就可以得到字符。

3.6  人工校对

初步得到的字符通过对比文字数据库,可以得到文字。文字比对识别需人工干预进行错字标改。除此之外,还要进行人工校对,人工校对也是比较重要的环节,几乎可以把全部的错误进行改正。

3.7  成品输出保存

文字校对结束后,可以根据内容进行格式排版,确认无误后,便可以导出需要的文件格式,即Word文档,至此便完成了数字化工作。

4  运用OCR技术进行手写教案识别时遇到的问题

4.1  手写教案行列分布不均匀

由于手写教案的行列分布不均匀,在进行自动切分时,会导致有时切分成功率不高,需要再次进行人工切分。

4.2  手写教案单个文本规则性差

手写的纸质教案和印刷体不同,印刷体大多都是规则的字体,因为这些字体都是计算机自己生成再通过打印技术印刷到纸上。在印刷体的识别上有其独特的干扰:在印刷过程中字体很可能变得断裂或者墨水粘连,使得OCR识别异常困难。当然这些都可以通过一些图像处理的技术尽可能地还原,进而提高识别率。但手写体文本因为每个人的写字风格不一样,所以规则性比较差,虽然肉眼可以识别,但是计算机很难识别,有的老师的教案由于字体的原因,识别率太低,需要进行反复的参数设置和预处理等过程,花费很长的时间。笔者认为,要解决这个难题,机器需要针对某一种字体有自学习的能力,才能识别相似的字体,提高识别率。

5  结  论

在手写纸质教案数字化存储过程中,应用OCR技术可以有效地提高工作效率,减少不必要的工作量。通过运用OCR技术进行手写纸质教案的数字化存储,实现了文字识别功能,提高了资料加工的效率,为手写教案的存档、共享、传播和借鉴提供了方便。

参考文献:

[1] 刘明英.档案数字化过程中OCR技术的应用分析 [J].中国高新技术企业,2017(5):55-56.

[2] 郭军.基于数字扫描仪性能的文本型数字图像OCR识别准确度提高策略研究 [J].网络安全技术与应用,2017(9):118-120.

[3] 常参参.基于OCR技术的通用证件识别系统 [D].南昌:南昌大学,2018.

[4] 范义斌,许为,杨志鹏.基于OCR技术的原始单据管理系统设计 [J].中国外资,2018(11):84.

[5] 姜嘉佳.OCR技术在报刊加工中的应用分析 [J].科技传播,2019,11(10):159-160.

[6] 刘宁波,李刚,张华强.基于OCR技术的发票自动识别校验系统设计 [J].电脑知识与技术,2019,15(11):6-7.

作者简介:李艳杰(1978-),女,汉族,山东德州人,讲师,硕士,研究方向:数据挖掘技术。

猜你喜欢

数字化
让工业互联网成为城市经济数字化的新引擎
“2021中国数字企业峰会”在太原举行
揭示数字化转型的内在逻辑
从千人千面到千店千策
数字化起舞
厂家如何布局营销数字化
高中数学“一对一”数字化学习实践探索
中国民族语言的标准与数字化
基于数字化校园的学科融合教学与实践
高中数学“一对一”数字化学习实践探索