网络环境下福建省科技计划项目电子文件归档技术性问题研究
2015-05-30洪源清
摘 要:自2003年起国家科技计划项目全部通过网络在科技计划项目管理系统申报、受理。据统计,仅2013年一年就将产生2900多项的科技计划项目档案, 这些项目档案不仅有纸质档案,同时又有电子档案。本文通过对福建省科技计划项目电子文件归档管理系统的研究与分析,就实现科技计划项目电子文件归档需要解决的技术性问题逐一进行探讨,提出解决方案。
关键词:科技计划项目;电子文件;归档;技术;研究
0 引言
科技计划项目研究是指在国家科技计划中实施安排,由单位或个人承担,并在一定时间周期内进行的科学技术研究开发活动。电子文件是以代码形式记录于磁带、磁盘、光盘等载体,依赖计算机系统存取并可在网络上传输的文件。本世纪初我国开始改革科技计划项目管理模式。从2003年起国家科技计划项目全部通过网络在科技计划项目管理系统申报、受理。据统计,2013年福建省通过科技计划项目管理系统申报立项的省级以上科技计划项目共计2922项,安排年度经费17.92亿元。这样仅2013年一年就将产生2900多项的科技计划项目档案, 这些项目档案不仅有纸质档案,同时又有电子档案。实现科技计划项目电子文件归档,完善科技计划项目档案双套制管理,成为当今科技管理、科技研究和档案管理人员共同面对的问题。
1 福建省科技计划项目电子文件归档管理系统的研究与分析
1.1 福建省科技计划项目管理系统
福建省科技计划项目管理系统前台和后台业务模块全部采用B/S结构体系,通过先进的平台技术和设计构架,紧密集成办公自动化系统,建立福建省科技厅与各科研单位和专家之间网上项目申报管理的通道,实现项目網上申报、查询、申请、审批、验收等业务功能。
1.1.1 系统软硬件环境及配置
软件环境及配置:Windows 98、Windows XP、Win2000、Windows NT或Windows2003操作系统。Microsoft Internet Explorer 6.0及以上浏览器。office 2000、office XP,office 2003办公软件套件,完整的功能支持最好使用office 2000以上版本。
硬件环境及配置:Intel PIII450中央处理器(CPU),128MB内存。10GB硬盘,10M/100M自适应以太网卡。与Internet网络连通。
1.1.2 系统用户功能
主要用户功能包括:用户注册、专家注册、、单位管理、申报管理、立项管理、合同管理、历史项目、执行与验收、系统管理等。
1.2 福建省科技档案馆档案管理系统
福建省科技档案馆是接收、整理、保管和利用福建省省级科技计划项目档案的专门机构。目前科技档案馆使用的是科易档案信息管理系统,该系统是遵循国家档案局制定的规范标准,结合科技档案馆实际需求进行定制的一套综合档案管理系统。
1.2.1 科易档案信息管理系统主要特点
文档一体化。把档案收集整理组卷阶段延伸到文件管理阶段,实现与办公自动化的无缝衔接,做到电子文件即办即归。综合管理。不仅实现了文书档案的管理,还根据实际需求,扩展了科研、会计、照片、基建等档案的目录级管理。馆室衔接。系统可以实现与省档案局(馆)系统之间的数据结构的统一,在内容上设置移交进馆模块,可将目录数据直接上报给省档案局(馆)。
1.2.2 系统软硬件运行环境和功能模块
系统硬件环境:PC166以上,32MRAM;软件环境:操作系统为Windows95/98/2000/NT/XP。具备档案管理系统常用的功能模块,如文件管理、档案管理、检索、档案利用、档案统计、档案保管、鉴定销毁、移交进馆、档案编研以及系统管理等。
1.3 在两个管理系统中实现科技计划项目电子文件归档的工作流程
福建省科技计划项目管理信息系统融合J2EE技术与数据库技术,实现科技项目网上申报、推荐、受理、评审,任务书签定,执行情况跟踪和验收等功能。可以在内网(局域网)实现立项、经费计划、经费结转等功能。而福建省科技计划项目档案管理系统现在使用的是科易档案管理系统,该系统于2003年建立,为C/S结构,无法实现科技计划项目电子文件归档的技术要求,应进行改造升级,才能适应以下工作流程:
1.3.1 电子文件采集接收
通过Web Service技术,在科技计划项目系统和档案管理系统中建立对接通道,实现数据的交互对接。根据《福建省科技厅科技计划项目档案整理方法》规定的归档范围,收集科技计划项目信息系统中的科技计划电子文件,同时自动捕获或手动捕获文件元数据。文件和元数据自动进入中间库(预归档库)。
1.3.2 电子文件格式转换
科技计划项目管理系统中电子文件进入中间库(预归档库)之前要先进行统一的格式转换。
1.3.3 电子文件封装
对同一项目的科技计划项目应归档的电子文件自动封装成XML封装包,即每个项目自动封装成XML文件,并通过Web Service客户端向Web Service服务端进行发送。
1.3.4 电子数据检验
包括准确性检验:检验档案的内容、范围的正确性,鉴定文件是否需要归档;完整性检验:检验档案数据(包括文件和元数据)的完整性;可用性检验:检验电子文件的可读性等。
1.3.5电子数据迁移
将Web Service接收到的已通过检验的XML封装包自动解包迁入至档案管理系统中。
1.3.6 电子档案著录
排列电子文件顺序,编制档号,著录文件级和案卷级目录数据。
1.3.7 电子档案格式转换
系统将接收的电子文件统一按照格式转换的标准要求自动进行格式转换。
1.3.8 电子档案的封装
整理规范的电子档案数据将按照元数据封装规范要求自动封装成AIP封装包(档案信息包),提供长期保存的需求。
1.3.9 电子档案的长期保存和备份。
1.4 对现有科易档案管理系统进行改造升级
要顺利实现以上科技计划项目电子文件归档的工作流程,应对现有科易档案管理系统功能进行改造与升级。系统改造与升级要基于OAIS(即开放档案信息系统)模型,OAIS模型作为信息资源长期保存的国际标准。在系统设计中,应充分考虑到现有实际情况,可基于OAIS模型,采用统一标准封装档案信息数据,进而保证档案信息的真实性、有效性、可读性。
1.4.1 系统结构方面
现有的科易档案管理系统采用的是VB技术开发的,已不能满足现有的技术结构需求。科技计划项目管理系统采用的是J2EE的技术架构,为了能更好的实现数据的无缝对接,档案管理系统也应升级为J2EE技术架构。可以采用基于J2EE多层架构体系,使前端的表现与应用逻辑、数据存储相分离,通过组件式的开发与部署策略,使整个系统的架构清晰灵活,方便部署和扩展。
1.4.2 标准规范方面
科易档案管理系统主要是基于目录管理标准规范,无法满足对元数据的标准规范需求。科技计划项目管理系统要对科技计划项目电子文件元数据进行格式转换和数据封装,档案管理系统要达到科技计划项目电子文件元数据标准、格式转换标准和封装标准要求。
1.4.3 档案管理方面
科易档案管理系统现在是采用辅助的鉴定方式,并且不能实现对库房的综合管理。将来的档案鉴定需要采用网络化、流程化的鉴定方式,系统要增加流程化的鉴定方式,提高网络化管理要求。为了提高对实体库房的管理,系统还应增加“模拟库房”功能,实现对库房档案的排列定位、管理、统计等功能。
1.4.4 数据存储方面
为了能实现对电子数据的长期保存,科易档案管理系统要增加数据存储功能,包含电子档案原文存储管理、封装包存储管理、备份恢复、存储日志等功能。
1.4.5 档案利用方面
科易档案管理系统利用方式比较单一,只提供了简单检索、组合检索两种方式进行利用,并且也不能对利用的电子档案全文进行防扩散控制等。为了能够提供更高效的档案利用功能,系统增加“档案全文检索”、“档案跨类检索”、“档案跨库检索”功能,实现对档案数据库的高效检索。在查询档案全文时,系统要增加“数字水印”和“防拷屏、防打印、防下载”功能,提高利用档案原文的安全性。同时,要增加“光盘发布”功能,可对需要脱离系统使用的档案及原文发布至光盘等移动介质上,方便使用。
2 福建省科技计划项目电子文件归档需要解决的技术性问题
实现福建省科技计划项目电子文件归档的技术要求应基于“保证电子文件的真实性、完整性,保持电子文件的长期可读性”的基本原则。在技术功能上应达到:
一要适时捕获应归档的电子文件;
二要确定科技计划项目电子档案的元数据,并适时捕获元数据;
三要能将各种文件自动转换为标准文件格式;
四要采用符合标准的封装包格式,并能添加数字签名锁定;
五要基于元数据的建立,实现主要著錄数据的自动著录和项目名称、项目责任者、项目代号等多角度检索,乃至全文检索;
六要采用简便而安全的技术方法进行数据备份。所以,要实现基于项目管理系统和档案管理系统无缝对接的科技计划项目电子文件的归档还需要解决好电子文件的元数据设置、电子文件格式转换、电子文件的封装、系统的对接、电子文件的备份以及电子档案检索和防扩散等一系列关键技术性问题。
2.1 电子文件元数据
2.1.1 科技计划项目电子文件元数据
在科技计划项目电子文件归档过程中,会有大量的电子文件生成,为了系统有效地记录电子文件的内容特征、形式特征、背景和管理过程信息,结合福建省科技计划项目电子文件归档的需求,福建省科技档案馆参照中华人民共和国档案行业标准《文书电子文件元数据方案》(DA/T 46-2009)制定了《福建省科技厅科技计划项目电子文件元数据规范》。对福建省科技计划项目电子文件元数据共设置了269个元数据项,通过这些元数据项信息在科技计划项目电子文件归档的时候能够很好地维护科技计划项目电子档案的真实面貌。
2.1.2 科技计划项目电子文件主要元数据的设置
科技计划项目电子文件元数据除按照《福建省科技厅科技计划项目电子文件元数据规范》进行规范设置外,还要制定《科技项目系统和档案管理系统元数据项目及字段对照表》,即要设置科技计划项目电子文件的主要元数据,作为科技计划项目电子档案的主要著录项,使科技项目系统和档案管理系统的字段统一对应,以便科技文件材料数据快速导入。目前科技计划项目电子档案管理采用二级制管理模式,分别为项目级和文件级。在项目级设置的主要元数据项有项目名称、项目编号、承担单位、项目负责人、年度等。在文件级设置的主要元数据项比较复杂,因为每个项目包括项目申请书、评审材料等材料,每份材料中分别包含相关的数据项,如项目申请书包含项目名称、项目申请单位、申请日期、计划类别等。
2.2 电子文件格式
2.2.1 电子文件格式转换的必要性
目前,电子文件格式种类繁多,办公自动化、档案管理软件所用的开发语言、数据,难以进行及时接收、规范管理和有效利用。同时,计算机操作系统、数据库系统也是多种多样,这些都造成了电子文件格式的五花八门,同时各种管理软件又互不兼容,甚至软件相同、版本不同的文件彼此也不能通用,这就严重阻碍了电子文件接收和电子档案管理工作的开展。
2.2.2 科技计划项目电子文件归档的转换格式
《版式电子文件长期保存格式需求》(DA/T 47-2009)中要求对保存格式要可转换:
一是要支持其它格式与版式电子文件长期保存格式相互转换;
二是要支持过时的版式电子文件长期保存格式转换为新的版式电子文件长期保存格式。
目前福建省科技计划项目管理系统中的材料报送格式一般采用DOC格式进行报送,其中一些材料如附件等,也有采用PDF、DOC、EXCEL或JPG格式申报。按照《电子文件归档与管理规范》(GB/T18894-2002)要求,围绕系统中电子文件格式转换要求,对几种常用的文件格式进行系统比较研究,研究发现PDF在格式功能对比中是目前比较适合的文件转换格式。科技计划项目电子档案的信息采集可以通过科技计划项目归档时把电子文件转换成PDF格式通过系统接口归入档案数据库中。
2.3 电子文件封装
2.3.1 电子文件封装格式标准
封装格式主要依照档案行业标准《基于XML的电子文件封装规范》(DA/T 48—2009)。国家档案局在2009年发布了《基于XML的电子文件封装规范》(DA/T 48-2009),国家档案局推荐使用EEP(Electronic Records Encapsulation Package)作为电子文件封装方式。EEP是“封装电子文件全部数据及其元数据的数据单元”,是目前文书类电子文件(档案)长期保存的目标封装方式。科技计划项目电子文件的封装方法还应当根据科技计划项目档案的成套性的特点确定。
2.3.2 科技计划项目档案的封装
科技计划项目电子文件封装包中的电子文件元数据包括《文书类电子文件元数据方案》DA/T46-2009 规定的元数据、封装新增的元数据,同时还应包含《福建省科技厅科研档案整理方法》所列归档范围的文件、文件元数据等信息。具体的封装流程为:先在科技计划项目系统内将相关电子文件转化为PDF文件格式,连同文件的元数据一起存放到一个固定的工作目录下进行打包,进行数字签名以及签名锁定,形成包括文件型封装包和案卷型封装包的原始型电子文件封装包。然后发送到档案管理系统的中间库,根据归档要求进行验证和必要的修改,随后做第二次打包、数字签名以及签名锁定,形成修改型电子文件封装包并存储至档案管理系统中。
2.4 系统的对接
2.4.1 对接采用的技术
Web Service技术是利用标准的Web协议和可编程访问的Web组件,目标是提供跨平台的互操作性,让分布在地理上不同区域的计算机和设备协同工作。Web Service将应用功能封装成若干Web组件,并将其发布在网上,供需要获得这些功能的应用系统访问,而且各种应用系统间都能够通过这种方式进行互联互通。按照Web Service架构设计的系统将具有很好的跨平台性和兼容性。同时,Web Service技术是一种松散耦合型的计算技术。因此,在跨系统的资源整合和一站式应用服务系统的构建方面具有独特的优势。
2.4.2 实现两个系统的对接
福建省科技计划项目管理系统和科易档案管理系统是基于省科技厅的局域网将办理完毕的科技项目电子文件自动归档至科技档案管理系统中。考虑到跨平台性、松耦合、标准的协议和发展趋势,可采用Web Service技术方式实现科技项目管理系统与科易档案管理系统的数据交换和对接。
2.5 电子文件防扩散技术
2.5.1 电子文件的防扩散技术的种类
目前电子文件的防扩散技术主要有数字水印技术(Digital Watermarking)、复制打印控制技术和利用电子文件审批技术等。福建省科技计划项目电子文件目前采用的防扩散技术主要包括数字水印技术和复制打印控制技术。
2.5.2 科技计划项目电子文件可采用的防扩散技术
第一种防扩散技术是数字水印技术。数字水印技术是将一些标识信息(即数字水印)直接嵌入数字载体当中(包括多媒体、文档、软件等)或是间接表示(修改特定区域的结构),且不影响原载体的使用价值,也不容易被探知和再次修改。但可以被生产方识别和辨认。通过这些隐藏在载体中的信息,可以达到确认内容传送隐秘信息或者判断载体是否被篡改等目的。第二种防扩散技术是复制打印控制技术。防止电子文件的复制粘贴、打印下载等电子文件的扩散。未经授权的文件,无论创建者还是使用者都不能打印。只有经过申请,并得到管理员审核批准后,才能打印所指定的文件。
2.6 电子档案备份
2.6.1 電子档案备份制度
国家档案局6号令《电子公文归档管理暂行办法》要求:“归档的电子公文,应按本单位档案分类方案进行分类、整理,并拷贝至耐久性好的载体上,一式3套,一套封存保管,一套异地保管,一套提供利用。”国家标准《CAD电子文件光盘存储、归档与档案管理要求》也明确指出:“归档的电子文件至少要一式二套,一套封存保管,一套供查阅利用。必要时,复制第三套,异地保存。”
2.6.2 科技计划项目电子档案备份方式
目前科技计划项目电子档案备份主要采取异质备份和异地备份两种方式。
第一种异质备份方式。福建省对科技计划项目电子档案已建立制度,在增加、修改数据结束时要对系统的全部数据库文件进行移动硬盘脱机备份。将来在档案管理系统升级时要有自动备份功能,将数据库备份工作列为一项周期执行任务,由档案管理系统进行自动备份。同时,重要文书档案已经实现纸质档案和扫描件、电子档案双套制。
第二种异地备份方式。通过与省外科技档案馆建立互为异地磁盘备份的关系,形成比较可靠的防灾备份体系。
2.7 电子档案全文检索
2.7.1 全文检索与目录检索的区别
目录检索是对目录数据库中的内容进行检索,检索到的信息一般是文件的题名或者是档案工作者对该篇文档的高度概括。全文检索不仅能对数据库中的目录进行检索而且可以对目录所挂接的原文内容进行直接的检索。全文信息检索可以使用户在短时间内获取与需求紧密相关的信息,使用户有更多的时间去完成更重要的工作,从而大大提高了工作效率,同时,有利于用户获取所需的全部内容,用户所需的内容可能在多份文档的原文中出现,通过全文检索工作,一次就可查获用户所需要的全部信息。
2.7.2 科技计划项目电子档案全文检索
要创建全文索引库,就是要将科技计划项目档案的条目信息和相关联的电子文件一起通过识别转化成txt文本信息,然后通过系统的算法对所创建的文本信息进行分词,最后把关键词存入数据库的过程。创建全文索引库所支持的电子文件格式应该包括:DOC、PDF、TXT、HTML/HTM;如果文件的格式是TIF/TIFF、JPEG/JPG等图像格式则需要采用OCR识别技术先把图像识别为TXT格式的文本文件才可创建全文索引库。
3 结束语
科技计划项目电子文件归档管理工作是一项系统工程,我们的研究工作才刚刚开始, 从技术理论研究到指导实践还要有一个过程。现代科技发展很快,加快实现科技计划项目电子文件归档工作不单在福建省,在全国范围也是迫在眉睫的事情,所以要组织档案、信息、管理等领域的各方力量,集思广益,不断研究实践,积极进取。同时,配以相关的制度、技术和人才等方面保障措施,使科技计划项目电子文件归档目标得以顺利实现。
参考文献:
[1]洪源清,朱文,等.福建省科技计划项目电子文件归档管理研究[R].研究报告,2013.
[2]陈永成,黄建峰.分布式档案基础数据库建设理论与实践[M].档案出版社,2006.
[3]李硕.运用人工智能技术对企业档案进行管理[J].城建档案,2010(12).
[4]李昂.如何实现智能数字归档[J].软件世界,2009(11).
[5]金波.高校科研电子文件归档管理探究[J].兰台世界,2009(2).