浅析汉字识别技术在档案管理工作中的应用
2014-11-10王庆吉
王庆吉
[摘 要]汉字识别技术,顾名思义就是计算机能够对汉字进行有效地识别,在档案管理工作中得到有效地应该用可以提高档案管理的工作效率。本文通过对汉字识别技术在档案管理工作中的应用进行了深入的分析,旨在给相关工作人员提供一定的借鉴。
[关键词]汉字识别;档案管理;应用
汉字识别技术就是将文字信息转化成计算机系统可以识别的信息,为计算机进行数据检索提供了方便,同时也提高了档案管理现代化的进程。汉字识别技术有其具体的应用价值,文中也会介绍这种技术的应用方式,为我国的档案管理工作的高效进行打下基础。
一、汉字识别技术的应用价值
汉字识别技术的应用价值主要体现在两个方面:
一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。首先,我国的档案库存数量非常大,种类也特别多,记载的历史都是非常重要的,且有着较高的利用价值。但是,这种档案只是单纯的存在于纸张上,利用程度很低。虽然可以通过扫描仪进行扫描,然后存储到计算机中,但是这种方法也有一定的局限性。在对档案进行利用的时候也存在着诸多不便。其次,档案馆接收的文件大多数也是纸质的形式,缺少文本文件,其中也有档案文件丢失的现象。所以,汉字识别技术的利用可以有效地提高检索效率,促进档案管理工作的顺利进行,有效地推动档案管理现代化的进程。另一方面,提供了一种新的档案目录数据的录入方式。通常人们理解的汉字录入就是运用电脑的键盘,通过敲击各个功能键录入文字。这种方式是青年人在工作过程中不得不熟练地职业技能,只要对这种打字的技能掌握到熟练地程度就可以轻松便捷的进行文字录入工作。但是,对于年纪较大的工作者来说,他们很难学会用键盘进行文字录入,而且一些档案管理工作的从业者多数都是经验丰富的老同志。这就给档案管理工作带来了一定的难度。现如今,较为新兴的技术就是汉字识别软件,这种方式的工作方法主要是进行“拖拉”,拖住文件标题、文号等内容,拉倒目录数据库的相关位置。所有的工作都在屏幕上进行,免去敲击键盘的过程。学习起来也比较容易,可以为任何年龄段的工作者接收。其重要缺陷就是手动的“拖拉”速度较慢,如果不熟练的掌握,很难超越键盘录入的速度。
二、汉字识别后生成的文本数据的属性问题。
1、原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。
2、知识性是档案的又一个属性。档案的知识性是档案本身所得有的性质。经过汉字识别后的数据与原来纸张上的汉字是相同的。只是在汉字识别的过程中会存在和一定的误差,如果这些误差忽略不计,还保持着和档案原件相同的知识性。
3、信息性。汉字识别后的数据信息只是存在的载体发生了变化,这种档案信息比纸质的文件档案更利于传播和利用,这种保存方式不会受到磨损和破坏。体现出一定的信息性。
汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。
三、汉字识别技术的应用方式
汉字识别技术在档案管理工作中的应用,主要适用于印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。
1、利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。这种利用方式的优点主要有:首先,方便用户;这就是人们所说的打印和复印。复印的内容与原始材料的信息内容是一致的。用户在对档案的利用时可以根据档案的复印件来进行。这样有助于对档案原件的保存。同时,其信息可以进行多次利用。其次,不给档案人员增加建库的工作负担;原始的档案管理工作都是在档案馆中,将厚重的档案文件存放在档案馆中。档案管理的工作的人员,对档案文件的管理就是对纸质的文件进行管理。如果利用汉字识别技术,就可以将纸张上的汉字通过扫描存储在计算机中,由于计算机系统有着超大的内存,所以可以存储较多的档案文件。这样就不需要建立更多的档案库来管理档案,只需在计算机上进行就可以了。最后,节省建库所需的经费开支。其缺点主要有:不能为全文检索提供数据,实现深层次开发档案信息资源的目的;存在对同一档案内容重复进行扫描和汉字识别的可能性。
2、输入档案目录。这种输入方法的成功利用,打破了传统的键盘输入的局限,为更多的档案管理工作者提供了录入的机会。但是其速度还没有达到预期的目标,成本费用也相对较高。但毕竟也是档案管理工作的一个有益的创新。
3、扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。这种方式必须在已有文件目录的前提下使用。其优点很明显,可以提供档案的原件,也可以提供一定的信息,并且对信息的利用效率也有所提高。档案管理人员对汉字识别后的文本数据不用做特别的维护,因为它和原档案一样,没有任何变化。但是也存在着一定的不足:汉字的识别技术对图像的分辨率要求非常高。所以存储的空间就相对来说很大,因而就需要较多的存储成本。针对这种现象,人们进行了实验,如果对于普通的用户,汉字识别较低分辨率的图像也可以充分满足其需要。
四、总结
汉字识别技术的运用能够在一定程度上推动档案管理现代化的进程,同时有效地提高档案管理工作的效率,为档案管理的规范化和科学化打下了坚实的基础。在这种方法进行利用的过程中,要注意从实际出发,符合档案管理工作人员的情况和档案状况,以提高档案信息的利用率。
参考文献:
[1]赵德文.对汉字识别技术在档案管理中的应用分析[J].黑龙江科技信息.2007(12)
[2]李丽.实现档案管理工作现代化的方法[J].科技信息.2010(15)