APP下载

档案鉴定、整编业务自动化的研究与实现

2015-05-30刘念齐巍李名选

北京档案 2015年10期
关键词:装盒库中数据格式

刘念 齐巍 李名选

摘要:传统的档案鉴定、整编方式,不仅浪费大量的物力、人力,而且给档案工作者带来了繁重的负担。对此,本文提出档案资源自动收集、鉴定和整编方法,在设定档案自动整编规则后,按照档案实体整编的实际业务流程,对采集的电子档案信息进行自动鉴定、整编,并辅之手动整编。

关键词:电子档案归档范围自动鉴定自动整编

目前,人工手动操作方式是较为普遍的档案鉴定和整编方法,这种方式很容易出错,极大地限制了档案信息鉴定和整编效率。同时,随着信息技术的发展,电子文件已广泛应用于国家机关、企事业单位及社会组织活动中。特别是随着档案管理需求的不断提高和网络技术的日新月异,传统的鉴定和整编方式,不仅浪费大量的物力、人力,而且给档案工作者带来了繁重的负担。鉴于此,本文设计了一套自动、高效的档案鉴定和整编系统,在设定档案自动整编规则后,按照档案实体整编的实际业务流程,对采集的电子档案信息进行自动鉴定、整编,并以手动整编进行辅助调整,保证档案鉴定和整编准确率的同时,还能提高电子档案的鉴定、整编效率。

一、档案鉴定、整编业务自动化的系统设计

档案的自动鉴定、整编基于自然语言处理技术,它是一门集语言学、数学、计算机科学于一体的理论和方法。通过该技术,人与计算机之间可以用自然语言进行直接交互。目前,自然语言处理技术广泛应用在机器翻译、电话翻译、人机对话、智能检索、自动文摘等方面,并在客户服务、知识管理、智能软件帮助、企业管理、网上营销等多个领域较为成熟。

自然语言处理技术的广泛应用及在相关领域的成功实践,为档案鉴定、整编业务自动化提供了科学合理的方向性指导。同时,考虑到档案鉴定、整编业务本身的特征,笔者参照国家档案局第8号令《机关文件材料归档范围和文书档案保管期限规定》(以下简称《归档范围》)、北京市档案局及北京市科学技术委员会对档案鉴定、整编业务的相关规范和要求,由计算机完成《归档范围》的条目拆解、关键词分词、语义理解过程,综合数据分析判断,确定文件是否符合《归档范围》,并自动获取保管期限,存入整编数据库中。在整编数据库中,通过本文设置的自动化功能,可以预先设定档案分类整编规则,当散文件库中(临时文件库)有新文件到达后,系统就会按照预先指定的整编规则进行自动整编,完成档案的模拟分类、整编、装盒过程。

由于计算机只能通过纯数学的方法理解中文自然语言,而仅通过中文语义、语法和关键词,无法保证自动鉴定、整编的完全性和准确性,例如,部分省市的档案部门为确保档案鉴定工作的准确性,采取由不同档案人员或者专家进行综合鉴定的模式。对此,我们采取的方式是,部分可以由计算机实现的,则通过计算机实现;不能实现的,则需要档案人员进行人工辅助,例如专门审核和辅助调整。在电子文件接收完成后,主要包括电子文件流转、鉴定、整编和归档四个步骤。(1)电子文件流转。通过XML可扩展标记语言,整理分布在各个文件数据库中的电子文件,统一数据格式,流转进入散文件库;(2)电子文件鉴定。对散文件库中电子文件进行鉴定,根据鉴定结果,对需要归档的文件过滤进入整编库,不需要归档的文件过滤进入文件资料库;(3)电子文件整编。按照既定的电子文件整编规则,对整编库中的电子文件进行模拟装盒,录入档案信息元数据,完成电子档案整编过程;(4)对整编后的电子文件归档,进入电子档案库,形成电子档案。

二、档案鉴定、整编业务自动化的实现

(一)电子文件的自动流转

由于电子文件分属于不同的操作系统、信息系统和数据系统中,具有不同的数据格式、数据标准和管理办法,使得这些电子文件无法交互和利用,影响了资源的共享和利用。对此,本文选择以XML文件为通用数据交换格式,将各异构数据库通过XML解析方式进行统一,完成电子文件资源的异构整合。

如图1所示,本文根据共享数据库端的数据表结构,需预先定义好用来交换共享的XML数据格式,通过数据格式转换将数据库中的关系表统一转化为XML结构;为防止转化中出现数据类型错误,可采取XML Schema或XML DTD对数据格式进行验证。如验证有不合法的数据,由异构数据库端重新转换;然后将转换合格的数据交由VPN,通过虚拟专用网络(VPN)对网络传输加密,可保障数据传输的安全性;在共享数据库端收到VPN加密后的数据后,再进行解密、XML格式逆转换;最后,将XML数据转换为关系表后,导入共享数据库中。

(二)电子文件的自动鉴定

电子文件的自动鉴定将《归档范围》拆解为固定数量的过滤规则,做成计算机可识别的归档范围模板。当不同信息系统的电子文件流转时,通过此归档范围模板对每份电子文件进行过滤,最终通过过滤模板的文件,是需要归档的电子文件,将其加入整编库;不能通过过滤模板的文件,是不需要归档的电子文件,将其加入文件资料库,作为文件资料留存。具体步骤如下:(1)假设《归档范围》可以拆解为N个文件过滤模板,记为:m1,m2,m3,……mN;(2)通过中文信息关键词,对m1,m2,m3,……mN这N个过滤模板进行匹配,完成每个模板mi(1≤i≤N)的过滤过程,即如果关键词匹配成功,则视为符合既定的过滤规则,通过过滤模板;反之,则视为未通过过滤模板;(3)对过滤模板集合{ m1,m2,m3,……mN },将电子文件可以通过的过滤模板记为集合{mi}(1≤i≤N),将集合{mi}的基数记为X,那么:若X≥1,则视为电子文件通过过滤规则模板,将其加入到整编库中;若X=0,则视为电子文件未通过过滤规则模板,将其加入到文件资料库中。

(三)电子文件的自动整编

电子文件的自动整编是模拟现实中实体档案的整编过程,由计算机自动完成文件的分类、整理和装盒。数据库中并不存在真正的档案盒,所以每个文件只需赋予一个盒号。电子文件的自动整编流程可概括为:根据预先设定的档案分类方式,浏览整编库中所有记录,确定每条记录对应的分类,并将整编库中所有文件整理装盒插入档案库,具体流程如图2、图3所示。需要说明的是,每次档案装盒完毕后,最后一批档案盒可能是未装满的,因为每次装盒的页数不可能刚好是N(N表示档案盒的容量)的倍数。下次装盒时,需要找到未装满的档案盒,并继续装入过程。对于最后一个档案盒都可能是不满的情况,设计关系表BoxStatus,用来表示“当前档案盒”(未装满的档案盒)的状态。在系统功能执行时,按图2、图3的工作流程,可以设定计算机在每天的特定时间内完成档案自动鉴定、整编的过程。

参考文献:

[1]宋魏巍.欧洲大陆国家档案鉴定理论与鉴定方法论发展述评[J].档案学研究,2013(3):81-86.

[2]黄霄羽.国外档案鉴定实践的共同特点[J].北京档案,2010(1):44-46.

[3]张蕾.对推进机关档案文化建设的思考[J].档案学研究,2015(3):25-27.

[4]张妤.外国档案鉴定理论发展研究[J].兰台世界, 2011(4):21-22.

[5]汪孔德.论档案鉴定的本位原则[J].档案学研究, 2003(5):15-18.

[6]黄霄羽.外国档案鉴定理论的历史发展及其规律[J].中国档案,2003(9):28-30.

作者单位:1.北京电子科技学院

2.北京市科学技术委员会

猜你喜欢

装盒库中数据格式
动物城堡
动物城堡
在智能交通系统中PLC数据格式转换方法的研究
智能盘库在自动化立体库中的探索和应用
论子函数在C语言数据格式输出中的应用
DWG与SHP数据格式互转换方法研究——以龙岩规划测绘数据为例
GDZ-180型连续式自动装盒机
GDZ-180型连续式自动装盒机
GDZ-180型连续式自动装盒机
GDZ-180型连续式自动装盒机