双层PDF技术在档案管理中的具体应用
2014-04-29王励著
王励著
摘要:
为了适应我国经济的高速发展,档案管理数字化是一个必然的趋势。近些年,信息化技术不断发展,推动了档案数字化管理研究进程。双层PDF文档技术就是信息化技术的一种,它解决了非文本型的文档无法直接实现全文检索的问题,为实现全文检索提供了基础与可能。
关键词:
双层PDF技术;档案管理;应用
中图分类号:
F49
文献标识码:A
文章编号:16723198(2014)22016802
数字档案管理技术是随着信息化技术的变革而逐步发展起来的。档案数字化对于档案管理具有时效性和现实性。随着网络技术、中间件技术、数据库技术、海量存储技术的发展,数字档案管理技术也获得了极大的突破,形成了数字档案管理平台的概念,极大地提高了系统的可靠性和开发进度。目前,我国的数字档案系统的使用主体主要是公共的档案馆、石化、石油、电信、电力等大型企事业企业。因此,建立数字档案系统具有时效性和现实性。在过去,档案大多是纸质档案。要建立数字档案系统,将纸质档案数字化是一个必经程序。然而,将纸质档案扫描录入后所获得的文件只是一个图像文件,不是真正意义上的文本文件。非文本文件无法实现选择、检索和复制等功能,不利于电子档案未来的管理和使用。双层PDF文档技术的出现解决了这一问题。将非文本文件转换成双层PDF文档后就可以对内容进行选择、检索和复制,为实现全文检索提供了基础与可能。
1档案信息化管理研究现状及趋势
我国的档案信息化建设始于20世纪80年代末。从使用小型计算机通过机读档案的目录对档案进行管理,逐渐发展到建立数据库并使用微机开展信息检索,再到利用多媒体、网络技术等现代信息技术开展信息服务利用,我国的档案信息化建设经历了一个复杂的发展过程。1996年,国家档案局开始对电子档案管理进行了一系列的研究。1999年,国家档案局和深圳市档案馆提出了建立数字档案管理系统的构想。2000年,“数字档案管理系统工程研究与开发”作为全国重点档案科技攻关计划,被纳入了列入国家档案局的“十五”规划。目前,国内对电子档案管理的理论研究主要依靠大中院所。院所的理论研究实力比较强但是由于仅仅停留在理论层面的分析缺乏必要的实践和技术。相比之下,软件厂商对于数字档案管理系统的理论研究与开发的实力的投入少,理论整体实力偏弱,但由于实践机会较多,技术实力相对比较强。目前,档案业务管理产品的需求非常旺盛,但是对产品的要求比较高。然而,由于实践和理论投入力度不相当,导致厂商难以推出适应客户的需求的高端产品,却在低端产品市场产生了过度竞争。厂商要重视技术开发和应用研究,才能适应市场需求,推出适合客户的需要的产品。
档案信息化管理系统建设是一个复杂、曲折的过程,研究过程中必然会面临许多的问题与困境。而随着信息技术的发展,新出现的技术为这些问题的解决提供了可能。目前,档案管理数字化建设所采用的新技术主要有在线OCR技术、全文检索技术、双层PDF技术、数据交换技术、图形图像处理技术、流文件浏览技术和与OA、MIS、PDM、PORTAL、CA等其他系统的接口技术。这些不断发展的新技术为档案信息化管理系统建设提供了技术支持。其中,PDF技术改变了过去纸质档案录入后只能阅读不能复制、搜索的状况,对档案信息化管理系统建设具有重大的意义。
2双层PDF技术概述
双层PDF技术是指将Word文件或者图像进行格式转换或者将纸质文件扫描录入后,经过去污、纠偏,OCR识别程序后形成文本,将文本和图像结合在一起直接生成一个可以检索的双层PDF文件。双层PDF文件包含Text层和Image层,其中,Image层是原始图像,Text层是Image层的OCR识别结果。Text层和Image层内容位置上一一对应,100%保留了原始档案的字体、图像、图形和版面布局,并支持选择、检索和复制等功能。通过程序控制,可以对两个图层进行任意显示和切换,实现对文档中的文字、數字域进行精确定位。
双层PDF是一种比较理想的文件格式。在录入时,由于是在自动快速识别的基础上完成的,减少了文件处理的工作量。在使用时,双层PDF文件在完全保留原有的版面内容的基础上为使用者提供了搜索、复制等功能。双层PDF综合了纯数字化档案的优点,在实现信息的最大限度保全的基础上又满足了使用的需求,同时又克服了工作量大的缺点。由于双层PDF文档的管理与保存都非常便利,有利于节省管理的成本。
双层PDF技术的出现解决了以往非文本资料只能阅读,不能检索、复制的问题。通过双层PDF技术,将经过OCR识别的文本依附于PDF图像之上,配合OCR的自动识别,既满足了档案管理真实的存储需求,又方便了客户对档案的数字化利用。双层PDF技术改变了过去纸质档案数字化的困境,推动了纸质档案录入的工作进程。同时,双层PDF技术的推广对于纸质档案的保存与管理具有非常重大的意义。一方面,双层PDF的使用有利于减少对纸质档案的使用,从而保护了纸质档案。另一方面,通过对档案的双层PDF数字化加工,将经过加工后的双层PDF文件归档,有利于档案系统的管理。
3档案数字化过程中双层PDF技术的应用
3.1纸质档案的数字化处理应用
为了方便档案的数字化管理,纸介质文件要通过图像扫描仪进行扫描录入再通过数字化加工转化成相应格式。一般来说,对纸质档案的数字化加工流程有图像档案形成流程、双层PDF档案形成流程或纯数字化档案形成流程。双层PDF格式的文件的形成流程主要有两个方面:首先,将扫描获得的图像转入图像处理系统,对扫描图像进行处理和优化。其次,将处理好的图像利用双层PDF软件转化成双层PDF文档,形成标准的文本。
3.2在全文检索中的应用
目前档案检索的常见检索方式有主题、分类、文号、自序等。传统的档案检索通过不断完备搜索工具可以提高查全率,但是仍然存在本质缺陷。要从本质上提高查全率,提高搜索效率,就必须研究如何在档案文档中实现内容检索。双层PDF技术可以实现全文的复制、搜索等功能,因此,双层PDF文档技术在全文搜索中的应用对研究如何实现全文一站式搜索具有非常重要的现实意义。
首先,将处理好的双层PDF文档挂接到档案管理系统中的相应案卷和卷内文件目录。其次,再将原文的存放地址信息自动存入数据库,通过与案卷和卷内文件目录相对应,在档案文档的Text层文本内容及其元数据等相关信息之间建立永久联系,形成数据包。最后,在形成数据包之后,通过调用全文检索子系统内核函数,为数字化加工后的双层PDF文件和数据包建立对应的索引文件。创建索引时,要先提取双层PDF文档中的Text层、文档对应的卷内目录和案卷目录及有关元数据(也可以说是结构化和非结构化数据)的信息,再根据提取的信息创建索引文件。
通过与传统搜索方式进行对比,可以看出基于双层PDF技术的一站式全文检索的优势比较明显。首先,明显提高了搜索的效率。其次,在客户查询时,由于是通过访问索引而不需访问数据库进行搜索,减轻了数据库和系统的压力。再者,基于双层PDF技术的搜索的兼容性较强,可以适应不同的操作系统平台,支持多种数据库接口。最后,这种搜索的使用更加方便,用户可通过任意输入检索信息进行搜索。
4结语
综上,双层PDF技术综合了数字文件的所有优点,在档案管理中有着其独特的应用。要如何提高双层PDF技术水平,更好地发挥双层PDF技术的作用,将该技术用于更加需要的地方,是值得我们深思的问题。只有将技术用于合适的地方,才能使技术的利用价值达到最大化,减少人力物力的浪费,为构建档案信息化管理系统提供可能,不断提高档案数字化的效率。
参考文献
[1]许呈辰.档案数字化过程中OCR技术的应用[J].档案管理,2011,(1).
[2]向禹,吴世明.基于双层PDF和Lucene技术的全文检索研究与实现[J].现代情报,2014,(6).
[3]赵德美,和英.浅议数字化档案管理[J].科技情报开发与经济,2006,(21).