OCR技术在报刊加工中的应用分析
2019-07-16姜嘉佳
姜嘉佳
摘 要 OCR技术在图书数字化加工过程中发挥了巨大作用,实现了报刊的电子化形态,由于技术的限制,目前OCR技术的利用并不是最佳状态,在文字识别率过程中,会受到图像外在因素影响如扫描参数、图像质量等,降低识别率,未来对OCR技术的研究升级还有待完善和提高。
关键词 OCR技术;数字化;扫描参数;识别率
中图分类号 G2 文献标识码 A 文章编号 1674-6708(2019)235-0159-02
随着数字化时代的趋势,越来越多的图书馆致力于图书的信息化建设来实现信息资源的整合,以保证图书馆的生存和发展。通过将馆藏文献如期刊、报纸、图书等进行数字化加工,形成电子资源数据库,实现数字图书馆的功能。在图书数字化加工领域,OCR技术发挥了作用,最大限度地降低了人工著录时发生问题的概率,既节约成本,又提高效率。本文就以上海图书馆报刊数字化加工项目为例,探讨OCR技术在报刊加工中的应用及难点和解决方法。
1 OCR技术概念特点
何为OCR?OCR的全称是Optical Character Recognition,意为光学字符识别,是指利用电子设备查看印刷体字符,以检测亮暗方式来确定字符轮廓,通过字符识别方式将其转换成计算机文字,整个过程分为图像处理与文字识别两大步骤。图像处理,即对通过扫描仪存储到计算机的图像进行预处理,处理工作包括图片降噪、灰度值、二值化、倾斜矫正、文字切分等步骤。图像预处理过后,后期将通过文字特征来识别提取文字。
2 我国OCR技术的发展现状
OCR是由德国科学家Tausheck于1929年提出来的,随后美国科学家Handel也提出了文字识别的想法,随后世界各国就开始了文字识别的研究。我国OCR技术起步较晚,70年代初才开始研究数字、字母、符号的识别,90年代清华大学推出了首套中文OCR产品,这一成果标志了国内在OCR技术研究领域有了质的飞跃。随着技术不断地推陈出新,目前国内已有多家大型公司致力于OCR技术的研究发展,像汉王科技公司、点通数据公司、合合信息技术公司等。从单一的印刷体字体识别,到多字体简繁混合、中英文混合识别,到现在各种识别系统的推出,OCR技术已經逐渐成熟并融入了各行各业。
3 OCR技术的应用及流程
为顺应数字化时代的潮流,上海图书馆致力于图书的数字化加工工作,从最初的印刷月刊到网络平台一体化,每年数字化加工处理的期刊文献达500万条,创办的《全国报刊索引》亦是知名信息服务品牌,提供期刊、报纸、特辑资源数据库,包括《晚清期刊全文数据库》、《字林洋行中英文报全文纸数据库》、《现刊索引数据库》等。
以《现刊索引数据库》为例,建立一个索引篇名数据库需要的信息包括期刊的期刊名、年卷期、题名、页码、作者、单位、分类号、主题词、摘要等。假设人工著录信息必须要大量的人力物力财力,且非常容易出错,比如录入错字,错行,甚至错篇等。使用OCR技术著录信息,就可以大大节省时间和成本,以下是OCR技术在实际运用中的大致流程,如图1。
1)图像扫描输入。用扫描仪把期刊整本输入进计算机,为确保存储的图像质量及后续的识别工作,在扫描过程中,设备参数至关重要,包括色彩模式、分辨率、扫描阈值、亮度、对比度、保存格式等。2)图像预处理。扫描的时候由于不同纸张的厚薄度、光滑度、印刷质量等情况会出现图像模糊、畸变、断笔、粘连、倾斜等问题,所以需对其进行预处理,可使用Photoshop或其他工具,处理包括降噪、灰度化、二值化、去黑边、去底色等,如此一来可减少后期文字识别时遇到字迹模糊不清楚等问题。3)图像版面分析。图像版面分析即识别图像的区域属性,是横排文字还是竖排文字,表格还是图片、规则版面还是不规则版面等。4)文字切分。分为自动切分与人工切分。自动切分是计算机通过对图像的初步识别,按照字符每一行的上界限、下界限、每个字符的左右边界将文字自动切割成独立的个体。人工切分即在自动切分的基础上对完成切分的文字进行校对,在切割有误的地方重新切分,保证单词、词组、句子的完整性。5)文字特征识别。因为每个文字都有其固定的特征,根据特征对文字进行识别,通过特殊特征提取,如笔画位置、交叉点数等结构特征,就可以得到字符。6)文字比对识别。初步得到的字符通过对比文字数据库,可以得到文字。文字比对识别需人工干预进行错字标改。7)成品输出保存。文字校对结束后,系统根据内容自动进行格式排版,确认无误后,成品导出需要的文件格式,即完成了数字化工作。
整个数字化加工流程看似复杂繁琐,实际用到OCR技术识别图像只有零点几秒,难点就在于前期的图像处理与后期的校对处理,前期的图像全文扫描与预处理工作,直接导致了整体的文字识别率。而后期的人工校对也是在识别率基本正确的情况进行校对。
4 OCR技术的难点
虽然图像的前期与后期工作较为繁琐复杂,但比起传统人工手动文字录入,OCR技术的使用在速度、准确、便捷等方面略胜一筹,人会因为疲劳等各种原因犯错,但机器不会,因此使用OCR技术加工整体消耗的人力物力都比人工著录要少的多。尽管OCR技术很先进,在保证图像扫描质量的前提下,后续的文字识别过程仍会遇到下面几种问题:
1)文字切分错字。在进行文字自动切分时,部分固定词组会因为分行而造成切分错误。2)相近文字识别不出来。目前对于那些结构特征相近的字,OCR技术仍不能完全分辨出来,如分和兮,人或入,艺和芝等。3)英文单词识别困难。比起汉语,英文字母识别更困难,尤其是中文、英文和数字混合排列的时候,问题最为明显,原因在于结构大都比较相近,扫描的时候会由于光线问题造成识别混乱,如a和d,大写i和小写L,小写L和1,G或6等。
5 提高识别率方法
1)选择合适的数字扫描仪。一般从图像传感器性能、扫描分辨率大小、扫描适应能力、操作便捷性几方面考虑,针对不同的扫描资料选择简便的扫描仪。2)合理设置扫描仪参数。包括色彩模式、分辨率、黑白值、亮度、对比度等。对于常见的文档资料,建议设置成黑白模式,或在特殊要求下选择彩色模式;合理确定分辨率,选择300dpi模式,除非有特殊情况,否则分辨率过高不仅会降低扫描速度、增加计算机存储,还会降低OCR识别;扫描后,如果字体颜色较浅或较粗,可以调节亮度和对比度。3)选择图像存储格式。扫描结束后图像的存储需要保证分辨率不受影响、无损压缩,且适应主流图像编辑软件和识别软件,建议选择JPEG或Tiff格式。4)即时更新文字比对数据库。对于可能出现的繁体字、象形字、外文字符,即时更新可避免识别率问题。5)人工校对的重要性。正是由于OCR技术的不够完善,不能做到100%的正确识别,后期的人工校对是提高识别率的重要环节,虽然人工校对费时,但相比于手工录入,总体耗时与错误率都要低很多。
6 结论
从技术角度出发,OCR技术的出现到发展,给图书数字化发展带来了翻天覆地的變化,它改变了传统纸质媒介的概念,实现了文字识别功能,提高了资料加工的效率,为文献的存档、数据查询开辟了新的篇章。使用OCR技术可以有效地提高工作效率,减少不必要的工作量。但是,OCR技术的识别率问题目前还是一个比较大的挑战,毕竟电脑不如人脑这么灵活,碰到图像扫描模糊、相近文字、换行断字、英文字符等识别率就会降低,如何降低错误率或利用其他工具来提高识别率,是OCR技术未来发展的一个重要环节。
参考文献
[1]钱炎.医疗保险系统中信息处理关键技术研究[D].南京:南京航空航天大学,2005.
[2]曾伊蕾,喻世俊,陶俊.基于OCR技术的图像验证码识别[J].软件,2013,34(10):106-107,110.
[3]张志远.复杂背景下文字增强算法研究与应用[D].上海:上海交通大学,2010.
[4]李冠艺.OCR技术在电子商务信息采集中的应用研究[J].电脑与电信,2013(8):56-58.
[5]陶新宇.《全国报刊索引数据库》刍议[J].现代情报,2004(9):9-10.
[6]刘明英.档案数字化过程中OCR技术的应用分析[J].中国高新技术企业,2017(5):55-56.
[7]蔡旸.JPEG静态图像压缩算法的研究[D].武汉:武汉科技大学,2009.
[8]郭军.基于数字扫描仪性能的文本型数字图像OCR识别准确度提高策略研究[J].网络安全技术与应用,2017(9):118-120.
[9]王玲丽.浅谈OCR技术在图书馆文献资源加工中的应用——以上海图书馆近代文献全文OCR数据制作项目为例[J].数字与缩微影像,2015(1):23-26.
[10]张肇玲.图书资料检索与信息化建设[J].人力资源管理,2018(4):396.