高校封闭全宗数据迁移时数据审核问题的解析
2018-07-12章小四
章小四
【摘要】本文着重分析高校封闭全宗档案进行数据迁移时数据审核出现的问题,结合南京工程学院三个封闭全宗数据迁移的实际情况,提出从数据有效性、一致性及分布审核三个方面确保迁移工作的质量,从而促进档案的长期保存及数字档案资源的开发利用。
【关键词】高校封闭全宗;数据迁移;数据审核;长期保存;开发利用
作为教育与科研辅助型机构的高校档案馆,其馆藏的数字资源更是信息时代国家数据资源的重要构成。而一些合并高校因合并办学的特殊性,往往出现同一全宗的档案保存在不同的档案管理系统中。由此合并高校纷纷选择将合并前全宗进行数据迁移,并同步开展对应的数据审核工作,从而不断推进档案资源信息化建设工作。
一、高校封闭全宗的内涵及特征
根据教育部和国家档案局制定的《高等学校档案管理办法》及国家档案局发布的《高等学校档案实体分类法》的规定:一个学校应为一个独立全宗;对因学校撤销或合并,其撤销或合并的档案,应本着集中保管、方便利用的原则,经协议由一校或合并后的学校档案部门统一保存。其中,各个被撤销学校形成的所有档案即可视为一个已完结全宗或封闭全宗。由此可见,高校封闭全宗至少需具备两个特征:第一,它是一个独立全宗;第二,该全宗不再产生新的档案。而合并组建而成的高校,遵循“不同全宗不能分散、同一全宗不能混淆”的原则,应对并入的各个学校单独设立全宗,由此其档案部门则至少保存有两个及以上全宗,当中非合并后高校的档案即属封闭全宗。
二、南京工程学院封闭全宗数据迁移的工作基础
前身追溯至1915年创建的同濟医工学堂附设机师科的南京工程学院,于2000年6月由原两所国家示范性高等工程专科学校——南京机械高等专科学校、南京电力高等专科学校合并组建而成,2001年3月,原核工业部的南京工业学校并入其中。由此形成除“南京工程学院”以外的三个全宗,依次为“南京机械高等专科学校”(简称“机专”)、“南京电力高等专科学校”(简称“电专”)及“南京工业学校”(简称“工业学校”),该3个全宗含各类档案总数共计1万余卷,其中民国时期档案23卷。
2013年,南京工程学院档案馆引进新的数字档案管理综合平台,并配以专门的档案管理系统服务器、数台专门的计算机设备,以及其他网络设备,截至2015年,馆藏档案的数据迁移工作基本完成,包括合并前三个学校的全宗。由于新旧数字档案管理系统的差异,导致这三个全宗的数据库出现不同程度数据的缺失、无效或不一致等一系列问题。同年档案馆全面开展三个全宗的数据迁移及审核工作,并同步实施数据审核监管制度、档案信息系统安全与数据网络安全防范等辅助工作。
三、南京工程学院封闭全宗数据审核存在的问题
(一)数据有效性与一致性审核存在的问题。主要有如下几点:
1.当档案进行数据迁移时,由于新旧数字档案管理系统的差异,使得档案在不同系统中的文件格式不尽相同,故检查数据是否完整、准确且有效,是数据迁移有效性审核的重要内容。以电专全宗目录著录为例,其大部分著录项都可从旧系统中直接或间接导入,但如“分类号”“档号”等项,只能通过手动修改或添加才能补充完整,具体著录项对应关系。此外,由于早期该全宗的“年度”“分类号”等著录项不同于目前的规范,如“图1”所示,按照档案实录的原则,工作人员只能在新系统中重新设置数据表,再以纸质目录为依据,逐份录入,操作繁琐。
2.数据迁移时,数据一致性审核在于检查电子文件是否与所在档案内容一致,包括电子文件数量及电子文件内容两方面。一般数据迁移采用一次迁移、分次迁移与定期迁移等相结合的方式,迁移时电子文件会多次合并,出现一份档案重复关联同一份电子文件的现象。同时,由于数据按既定顺序在不同电子文件间同步迁移,而不同文件切换速度有差异,就可能导致与某一份档案对应的电子文件关联了另一份档案。
(二)数据分布审核存在的问题。机专、电专及工业学校3个全宗所包含档案类型多、案卷总量大。鉴于机专、电专及工业学校成立各自的学校档案室时间较长,三个学校的办学特色各不相同,且档案信息化推行的时间也较早,因此,在进行新旧数据库数据迁移时,三个全宗案卷数量及各类型档案统计的工作量就比较大,各类档案大致分布如“图2”(按永久、长期、短期来分,以案卷为单位统计)。
尤其是对各个学校每一种类型档案数量的统计,就可能出现重复或遗漏等偏差。若上述数据审核不细致,势必会导致后期系统的检全率及检准率有较大误差,为避免这些问题,需逐一排查,其工作量不言而喻。
四、南京工程学院封闭全宗数据审核工作的实施
(一)数据分布审核的实施。当合并前全宗数据由旧系统导入新系统后,可利用专门设计的统计软件,在选定不同门类后,再设置“条件字段”,如“保管期限”“档案类型”等,核查导入新系统各全宗的案卷数量是否完整、档案类型是否缺失。若出现案卷或档案类型数量前后不一致的情况,可直接锁定该部分数据,再重新比对旧系统中对应全宗的案卷数量或某类型档案数量,确保数据准确无误,从而快速有效地完成数据迁移时全宗数据的分布审核。
(二)数据有效性审核的实施。高校已完结全宗数据迁移时,可根据新系统的结构及特性,设定案卷目录及卷内文件目录数据表结构、字符集及数据类型等。具体数据审核可通过设定字段类型判断字段是否符合规定、字段是否为必填项判断案卷关键著录项是否遗漏、字段是否空值判断目录著录是否完整等,其中卷内文件目录数据表还应包含表名“T_FILE_DAG_JN_T125.WENHAO”的必填字段“文号”。当导入的数据不符合数据表字段的限定条件时,数据审核会显示数据错误,并列出错误类型及所在位置,工作人员据此实施数据的有效性审核。若显示错误为普遍错误时,如工业学校全宗1984年至1991年文书档案按“永”“长”“短”划分,形成诸如分类号“长”案卷,此类案卷数据迁移时,会出现分类号转换为“null”的错误,审核人员可通过软件直接批量修改。
(三)数据一致性审核的实施。档案工作人员对电子文件数量及电子文件内容的审核,可用系统程序语言设计的审核电子文件的小程序来完成。审核过程有:1.先判断档案关联的电子文件是否存在。2.再通过文件名是否重复判断电子文件是否重复,如若重复,则进行相应的操作。这种数据审核的小程序,能快速有效地批量完成系统电子文件的一致性审核,确保导入新系统的电子文件数量精准无误,档案与关联电子文件一一对应。
(四)审核辅助工作的实施。已完结全宗数据审核辅助工作的实施:1.通过落实数据审核监管制度,监管工作人员参照建立的数字档案信息数据标准,在审核过程中及审核阶段性结束期间,不间断对已录入系统数据进行核实把关,工作人员责任到位,不断修正各项数据,从而确保数据质量。2.在数据审核过程中,充分应用信息系统安全与数据网络安全防范技术,档案工作人员通过系统服务器定期更新数据,并对专门的计算机设置防病毒、防火墙技术,再对交换机、路由器及光纤等网络设备进行安全监管。
五、南京工程學院封闭全宗数 据审核工作的意义
(一)数据审核是维护档案信息长期保存的基础。不论是将档案数字化还是直接将电子文件作为档案保存,都先要涉及数据库系统构建、数据管理、数据存储、元数据管理等多项数字档案长期保存技术,而这些技术的工作基础就是数据库系统当中的各项数据。伴随信息技术的不断发展,保存数字档案信息资源的软硬件环境随之变化,当数据库及其他配套软件升级时,尤其是发生数据迁移时,系统中的数据则需相应以新的存储格式来变换或存储,出现数据的输入、输出、传递等环节,每一个环节的数据处理,都会直接或间接影响整个数据库系统的运作,进而决定保存在系统中的数字档案信息资源是否能被识别、检索,及至利用。由此,档案工作人员须对数据处理的每个环节不间断进行数据重新审核、监管,确保数字档案资源的长期保存。
(二)数据审核是确保档案信息资源有效开发的关键。实现档案信息资源的开发利用,要先完成档案信息资源的数字化建设,即实现纸质等载体档案的数字化及电子文件的归档。其中判断档案信息数字化的一项重要指标就是制定数字档案的数据标准,包括一般数据标准及元数据标准等。虽然目前国际上还未形成统一的数据标准规范,但国内档案管理系统中编码档案描述方案(即档案信息资源描述方式)却大致相同,均含档案目录、数据模型及文件定义类型等,它们在系统中都以数据单元的形式呈现。编码档案描述方案作为一种为适应档案馆及数据库的需要而开发的资源描述方式,为保证数据的长期有效,构建过程中档案工作人员必须要进行数据审核,确保其各项组成部分能利用软件控制系统文件的结构化显示、查询及检索,从而提供数字档案开发利用的渠道。
六、结束语
数据审核是保障数据迁移工作质量必不可少的环节,它会直接影响档案信息的长期保存及开发利用。正如南京工程学院,虽并校近20年,但为促进合并前3个已完结全宗的检索利用,学校档案馆在引进新的数字档案管理系统的同时,特开展了已完结全宗档案的信息化建设,积极推进合并前全宗档案信息的数据迁移。在整个迁移过程中,档案技术人员更是对所有案卷级和文件级目录格式、电子文件等都进行了全面的审核,并对照核实纸质目录及馆藏档案,确保了这些数据的唯一性。这种保质保量的迁移工作,才是维护档案信息长期保存的基础,更是确保档案信息资源有效开发的关键。
【参考文献】
[1]南京工程学院历史沿革[EB/OL]. http://www.njit.edu.cn/xxgk/lsyg.htm.
[2]南京工程学院档案馆简介[EB/OL]. http://dag.njit.edu.cn/bggk/bgjj.htm.
[3]冯洁.电子文件迁移研究[D].苏州大学,2012.