基于OCR技术的实验室合同评审资料信息化管理的应用研究
2019-11-16谈进球谭钧鸿郭子山
文/谈进球 谭钧鸿 郭子山
1 实验室合同评审资料管理现状
传统的实验室合同评审资料管理主要是依靠人工管理。例如对于合同评审资料的信息录入和保存工序,需要录入人员将全部或部分合同评审资料信息录入到计算机系统中分配检验任务,非常费工费时,而且容易产生信息录入错误,导致检验结果无效的风险。依据实验室管理要求,合同评审资料作为原始记录的一部分需要保存一定期限,在存储的过程中需要人工排序、标记以便后续查阅与归还。此管理过程也需花费大量人力与时间、管理难度大。纸质版资料经过长时间存储后也会产生破损,导致资料缺失。
而标准信息化管理模式作为一种新型的技术机构管理模式,能够有效解决传统的纸质管理模式当中存在的问题,实现标准化统一管理,从而提高技术机构的管理质量和管理水平,使技术机构的工作更加科学、公正、及时、可靠[1]。通过研制与建立一种新型的基于OCR技术的实验室合同评审资料信息化管理方法,能有效地解决传统的实验室合同评审资料管理所存在的问题。
因此,转换为电子文档系统存储是当前合同评审资料储存的重要方向。目前将纸质版文件资料数字化的普遍技术有缩微技术、扫描技术。合同评审资料的纸张品种较多,包含复印纸、印刷纸和不规则大小附件纸张,部分纸质申请表含有布样和订书钉等附件。缩微技术是将文献、工程图纸以图片等信息缩摄到缩微胶片上,并加以保存和利用。缩微技术以胶片为信息载体,采用感光摄影原理,是目前一种比较成熟的文献资料全文真迹存贮技术[2]。具有保存时间长和法律效力等特点,但是成本高、操作复杂,不适用于实验室纸质合同评审资料电子存档。扫描技术分为普通扫描和高速扫描,普通扫描是通过扫描仪对纸质申请表进行扫描,速度较慢并且繁琐,另外由于纸质申请表存在纸张褶皱、纸张大小品种不一以及含有布样、订书钉等物品,非常容易卡在扫描仪的擦纸轮上,导致损坏设备。所以扫描技术也不适合纸质申请表电子存档。高拍仪是近年来研制的新产品,也称速影仪或速拍仪。具有折叠式的超便捷设计,体积只有普通扫描仪的1/10,纸质版协议书只需放置在扫描区域,无需过机就能在一秒钟内完成高速扫描,并具有OCR文字和条形码识别功能。与此同时还具有拍照、录像、复印、网络无纸传真、制作电子书等众多功能。高拍仪的上述特征能满足纸质申请表电子存档的需求。
2 OCR技术简介
所谓OCR(Optical Character Recognition光学字符识别)技术,是指利用电子设备(例如高拍仪)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。采用OCR技术实现实验室合同评审资料管理与传统合同评审资料人工管理相比,优势首先在于操作简便高效、降低差错率、节约人工成本,同时也适用于实验室其他原始记录资料管理,具备适用范围广和推广性强等特点,是当前实验室科学高效管理的方向。
3 硬件及软件系统构成
3.1 硬件系统构成
基于OCR技术的实验室合同评审资料信息化管理的实现离不开条形码识别技术、光学字符识别(OCR)技术、高拍仪技术和计算机软件系统的运用。其中硬件包括条形码打印机、标签纸、高拍仪、计算机,硬件系统结构如图1所示:
图1 硬件装置图
资料合同评审前需预先使用条形码打印机在标签纸上打印出需要使用的条形码。条形码上面的信息是由九位数的流水号组成、每个条形码的信息是唯一的。合同评审时,需把条形码粘贴到样品袋上面,与此同时为了解决相应的合同评审资料经过扫描后、保存时能自动以条形码信息命名文件的需求,将受理的报告编号由单一编号设计成上下两个相同的子母样品编号条码[3],如图2所示。母编号贴在样品袋上,子编号贴在对应申请表上。粘贴在纸质申请单上面的子编号条形码的使用,为高拍仪自动识别申请表上报告编号提供了基础,并作为该份合同评审资料的唯一识别码流转、保存。
图2 条形码标签设计
具有高速扫描功能、条形码自动识别与命名功能、光学字符识别(OCR)功能的高拍仪对纸质版合同评审资料进行高速扫描、对条形码自动识别及命名。计算机则负责控制高拍仪工作,运行相关操作系统。
3.2 软件系统构成
软件系统包括高拍仪合同评审资料信息自动识别系统;高拍仪合同评审资料扫描、文件名识别系统;计算机电子文档导入和查询系统。
信息自动识别系统主要是通过高拍仪的OCR文字识别技术对印刷体的合同评审资料进行文字识别,将其上面的信息转换为电子文本格式,以便将信息导入相应的系统中;
扫描、文件名识别系统则是将纸质版资料通过高拍仪转换为电子版图片格式并能识别资料上的条形码以此命名文件名;
电子文档导入和查询系统负责将已经处理好的合同评审资料电子文档导入到相应的系统当中,并能按条件查询。
4 软件系统的设计与实施
4.1 高拍仪合同评审资料信息自动识别系统
本系统主要利用高拍仪光学字符识别(OCR)技术自动识别合同评审资料上的字体,形成电子文档,达到实际应用要求。系统实施流程如图3所示;系统操作界面图如图4所示。
图4 高拍仪合同评审资料信息自动识别系统操作界面及识别效果图
具体的操作流程是首先将合同评审资料放置在高拍仪指定的扫描区域,通过自动识别系统对需要识别部位进行框选、不需识别部位进行剔除,然后对框选部位进行OCR文字识别,若纸质版申请表扫描出来的图片质量好、图片清晰、不需识别部位剔除完整、识别率高则可形成电子文档,否则需重新调整纸质版申请表的位置及高拍仪的参数,重新对纸质版申请表进行OCR文字识别。从而将识别出来的信息转换到相应系统当中,替代了传统的通过人工逐字逐句地录入到系统当中,实现了实验室合同评审资料从人工管理到信息化管理的转化。
4.2 高拍仪合同评审资料扫描、文件名识别系统
扫描、文件名识别系统主要负责将纸质版合同评审资料转换为电子版格式,并与此同时能自动识别资料上的样品条形码,以识别的条形码信息来命名文件存储在指定文件夹中。系统实施流程如图5所示;系统操作界面如图6所示。
图5 高拍仪合同评审资料扫描、文件名识别系统流程图
图6 高拍仪合同评审资料扫描、文件名识别系统操作界面图
4.2.1 扫描功能
高拍仪的技术是近年来研制的新产品,也称速影仪或速拍仪。具有折叠式的超便捷设计,体积只有普通扫描仪的1/10,能在一秒钟完成高速扫描,将纸质版资料转换为电子文档,满足我们的需求。
4.2.2 条形码识别及自动命名文件名功能
运用高拍仪的条形码识别技术实现了对合同评审资料扫描的同时,对该份文件上的样品编码进行识别。若在扫描的过程中存在无法扫描的情况,系统会相应地提醒,提示该条形码无法识别需重新扫描;另外对于同一份合同评审资料存在两个或者多个连续的条形码的时候,系统会以连号的格式进行识别。将识别的样品编号命名电子文档文件名,单个样品编号条形码直接命名,两个或多个连号样品编号条形码命名中间加间隔号“-”,从而解决了一份合同评审资料要拆分成多份报告书的情况。
4.2.3 自动合成功能
扫描到含有附件的纸质版申请表,可以自动合成到已扫描的电子文档中,从而解决了合同评审资料有多页资料的情况。
4.2.4 保存及计数功能
对于已扫描的合同评审资料电子文档放到指定文件夹中保存,以便电子文档导入和查询系统对电子文档进行上传操作,并且可以现场对已扫描的文件进行计数,核对纸质版申请表扫描数量是否正确。
4.3 计算机电子文档导入和查询系统
电子文档导入和查询系统主要负责将经过识别的电子文档导入系统数据库中,并且可以根据相应的信息查询导入的信息。系统实施流程如图7所示;系统操作界面如图8所示。
4.3.1 导入功能
根据预先设置导入的文件夹路径,系统从该文件夹中抓取已扫描并命名好的合同评审资料电子文档,并批量导入数据库中,快速便捷。有效地提高了工作效率。
图7 计算机电子文档导入和查询系统流程图
图8 计算机电子文档导入和查询系统操作界面图
4.3.2 自动识别功能
按合同评审资料电子文档文件名导入数据库,系统自动辨别单个或者连号的电子文档文件名并以此为导入数据库后该文件的文件名;从而改变了需要人工输入报告编号与扫描后的合同评审资料建立一一对应的操作方法。此功能的完善有效地解决了合同评审资料存储慢且劳动强度高的问题,让合同评审资料快速准确地保存。
4.3.3 提醒、人工纠正及保存功能
当保存的文件名出现错误的时候,系统能做出提醒,并进行手动更改。对于没问题的扫描资料进行保存。此功能保证了纸质版合同评审资料在存储的过程中出现问题时,能及时有效地发现并解决问题,从而为合同评审资料能有效快速地存储提供保障。
5 结语
基于OCR技术的实验室合同评审资料信息化管理的应用研究,实现了实验室合同评审资料信息化管理的目的,优化了整个工作流程,从而达到资源共享和节能环保的效果,有利于纸质实验室合同评审资料长久保存,并对提高工作效率、减少差错,有着非常重要的实用意义。具体效果如下:
(1)优化流程。纸质申请表经过电子存档后直接存储并自动形成打包单号。大大改善了传统管理办法的不足,并省去了按纸质申请表编号排序及分类工序,提高工作效率。
(2)资源共享、节能环保。查阅者可以通过系统随时查阅纸质申请表电子文档,不受时间、地点和数量的限制,节约查询时间。
(3)长久保存。纸质申请表比较薄,经过排序、查询等工序,保存时间过长,往往不堪重负,出现损毁现象,纸质申请表形成电子文档可以实现长久保存。
(4)提高工作效率、减少差错。各个流程中由人工录入的信息优化为系统自动识别,实现信息化管理。