利用双层PDF技术实现地质资料信息化管理
2017-11-25李晓敏
李晓敏
摘 要:本文介绍了双层PDF技术的实现方法及操作技巧,旨在通过建立索引数据库实现对地质资料的信息化管理。在已扫描地质资料数据基础上,通过OCR识别生成文本与图像相结合的可检索PDF文件,100%保留原档案资料版面效果,实现文档的检索、复制等功能,提高地质文档电子化发展。
关键词:双层PDF OCR 地质资料 信息化
中图分类号:G27 文献标识码:A 文章编号:1672-3791(2017)10(a)-0014-02
目前,河北省地质档案馆的全部资料已经完成了图文扫描,数字化的数据为地质资料信息化发展提供了重要的数据资源。数字化的地质资料用于阅读虽然极大地提高了效率,但是目前所有的数字图文资料还不能够进行全文检索,数字化资料深层化的利用和解析还没有起到一定的作用。
因此,在现有数字化数据的基础上,开展OCR(Optical Character Recognition)识别,使之转化为双层PDF文件,并形成全文数据库,实现地质资料和数据的全面检索,促进地质资料由静态查阅向数字化信息管理发展。
1 双层PDF转换方法及流程
目前国内双层PDF转换技术已相对成熟,在现有技术条件下,大体可分为三种:软件转换、流程加工、识别重构。地质资料数字化双层PDF轉换主要运用第一种方法进行软件转换,即经过软件自动OCR处理后直接形成双层PDF文件。
1.1 图像处理
在图文扫描数字化形成成果基础上,对已有成果资料进行加工处理,在进行文件格式转换之前对扫描图像进行“消蓝去污”处理,消除影响识别图像中的噪音、斑麻点和下划线等因素,同时对栅格图片进行适当的纠斜处理,调整图片整体的亮度和对比度。
1.2 版面分析
自动进行版面理解并定位,文字识别前要进行识别范围选择,包括手动和自动选择,其中正文、附表、附件、审批等文字类的资料采用自动、手动选择相结合方式,通过OCR识别软件进行自动判别识别区域,对比各级目录按照内容格式要手动选择识别区域,并标出竖排区、表格区或图像区。对于图件中图名、比例尺、责任签需要识别区域则采用手动选择方式。
1.3 文字识别和校正
文字识别方式采用OCR自动识别和人工识别两种方式,对于正文、附表、附件、审批等文字类资料采用专业识别软件进行识别,通过人工校正使各级目录中文字识别率达到100%,附图中的图名、责任签、比例尺和老旧资料中的重要信息,采用人工识别方式,使用专业软件对照文字内容和位置,采集相关信息,将文字内容置于底层,最终形成双层PDF文档。
1.4 电子书制作
正文、附件、附表等资料中的封面、目录插回原位置,将分页的PDF电子文件合并成册,同时删除图像中的空白页,最终形成多页的PDF电子书文档,并挂接章、节、条、款等目录信息制作成可链接书签,实现准确定位与检索。
1.5 责任表制作
责任表的作用就是记录PDF文件的制作人以及与该文档相关的制作单位、制作时间等信息。
责任表作为单独一页,建立PDF文件放于该档资料的文件夹内,命名为“责任表_PDF”。
1.6 文件组织
文件组织包括文件命名和存放,按照电子文档汇交格式要求,对每个PDF文件进行命名,以档案地质资料为单元存储,将该档中所有PDF电子文件存放于以“档号_PDF”命名的文件夹中。
2 双层PDF转换问题
虽然双层PDF文件有很大的用途和作用,但是在实际的操作过程中,仍然存在着一些困难和问题。
(1)传统纸质的地质资料纸张样式、印刷方式是多种多样的,并且还存在着大量手写体和老旧资料中的数字公式、特殊符号等信息。受形成年代等因素影响,资料老旧、纸张质量差,执笔人手写清晰度等因素严重影响了OCR识别结果,识别的率最低仅为30%,特殊符号、地层以及公式的识别率几乎为0。
(2)目前OCR识别技术不能够实现对文档的整体扫描和完全识别,因此必须要根据实际需要的数据进行人工介入和校对,才能够获得相对完整的资料,满足对全文检索的要求。
(3)地质资料数据量大并且需要扫描的数据文档较多,电子文档转换的效率还受到计算机实际的反应速度和程序的流畅性等影响,因此在实际的转换过程还需要配置能够实现快速反应的高级计算机硬件设备。
3 提高OCR识别率的方法
为了提高工作效率,减轻横向校对即人工校对的工作量,就要从根本上提高图文识别率。经过试验,以下几种方法可以提高栅格文件的OCR识别率。
3.1 图像色彩设定
在实际的工作中灰度和彩色模式可实现纸质资料数据的高度还原,也是提高数字化扫描工作效率的第一选择,但是这两种模式下的扫描结果会受到背景的噪声影响,因此如果只是针对文字或者黑白插图的资料进行扫描,那么可以将程序直接设定为黑白,最大限度地提高识别率。最终的图像彩色设定需要根据所需资料的工作性质和规范进行相应的设置。
3.2 分辨率设置
分辨率的高低与扫描速度成反比,与成像质量和识别率成正比,但并不是分辨率越高越好,当分辨率设置过高,纸质资料中的微小瑕疵也会被计算机误读为特殊的标点符号或者记号,反而降低了文字的识别效率,因此经过反复的实验和操作,将扫描的分辨率设置为300dpi时,扫描速度和识别效率能够达到更好地平衡状态,同时满足速度和结果的双重要求。
3.3 图像处理
为了保证电子文档数据的有效性和正确性,在输出前还需要进行必要的图像处理,主要是通过倾斜校正和去污去噪达到输出图像的保真,同时提高OCR识别效率。
当双层PDF转换完成后,可将所获得的PDF文件与资料管理系统进行关联,建立相应的数据库,利用数据库目录文件的调用,实现全文数据的检索。通过OCR数字加工形成的双层PDF文件,可以最高保真的实现原版纸质资料的还原,同时在此基础上,能够满足全文检索和直接复制的需求,并且检索信息能够精准定位到特殊符号和字符,实现了地质资料的信息化、数字化管理,为地质资料数据信息的聚合研究和深度分析打下良好的数据基础。
参考文献
[1] 王励著.双层PDF技术在档案管理中的具体应用[J].现代商贸工业,2014(22):168-169.
[2] 郭金光.双层PDF技术及在档案数字化中的应用[J].陕西档案,2013(1):26-27.
[3] 周雪莹.采用双层PDF形式将方正版文件制作为可检索式PDF文件[J].编辑学报,2012(6):592-594.
[4] 艾红,徐泽智,章丽萍.方正书版大样转双层PDF文件的实现方法[J].武汉理工大学学报:信息与管理工程版,2011(2):241-216.endprint