《归档文件整理规则》电子文件的其他整理要求(之七)
2018-05-10邹杰
邹杰
编者按:国家档案局于2015年10月25日批准发布档案行业标准《归档文件整理规则》(DA/T 22-2015),2016年6月1日起正式实施。为使各地档案工作者准确了解掌握标准规范的内涵,本刊分八期刊登国家档案局专业人员的系列解读。
《归档文件整理规则》(以下简称《规则》)规定,电子文件整理除组件、分类、排列、编号、编目等与纸质文件类似的整理环节外,还包括格式转换、元数据收集、归档数据包组织、存储等特有的整理环节。
格式转换
1.电子文件的归档格式要求
现阶段常用的文书类电子文件格式包括WPS、DOC(X)、RTF、OFD、PDF、PDF/A和TIFF等。为确保归档后电子文件长期可用,在电子文件整理工作中,各单位必须充分考虑电子文件对于软硬件系统的依赖性,对电子文件的格式提出要求。
在电子文件归档格式选择上,最关键的衡量指标就是“通用”和“开放”。“通用”是指电子文件归档格式要能够在绝大多数计算机上正常的显示和浏览。“开放”是指任何人都可以按照公开的文件标準对电子文件进行正常的解析和浏览。只有这样,电子文件才能真正实现电子文件长期保存的目标。
2014年,国家档案局印发《数字档案室建设指南》,对文书类电子文件(电子公文)的归档格式做出规定:
电子公文的正本、定稿、公文处理单应以OFD、PDF、PDF/A等版式文档格式归档保存,版式文档格式应符合《版式电子文件长期保存格式需求》(DA/T 47 - 2009),并支持向同级国家综合档案馆采用的长期保存格式转换。
集中记录修改过程的彩色留痕稿以及确有必要保存的重要修改稿可以WPS、RTF、DOC等同级国家综合档案馆认可的格式归档保存。
2.电子文件格式转换
电子文件格式转换就是为了长期保存和长久可用,将不符合归档要求的电子文件格式转换为符合《数字档案室建设指南》要求的归档文件格式。实行文档一体化的单位,可以在办公系统与档案系统的归档接口中集成文件格式转换服务,对不符合归档格式要求的电子文件自动进行格式转换。未实行文档一体化的单位,可在电子文件整理归档时,由有关档案整理人员手工完成格式转换工作。无论自动格式转换还是手工格式转换,电子文件格式转换完成后,应进行计算机自动检查与人工抽查相结合的手段,确保电子文件格式转换后文档内容和表现形式与转换前没有明显区别。
电子文件格式转换时,要符合以下要求:
一是归档时,不符合归档文件格式要求的电子文件原则上都应进行格式转换;
二是转换后电子文件内容和表现形式与转换前没有明显区别;
三是在条件允许的情况下,格式转换前后的电子文件均应归档;
四是电子文件格式转换时,应同时去除源文件中的全部加密措施;
五是有条件的单位,可以采取双层PDF等技术,使转换后的电子文件同时具备全文检索能力。
元数据收集
1.元数据收集要求
各单位在开展电子文件元数据收集时,应按照前端控制和全程管理的要求,从电子文件形成阶段即开展鉴定工作,对于应归档的电子文件,应立即将其纳入“全程管理”的范畴,监督其元数据的形成与管理,并及时予以捕获。
在实际工作中,各单位一般应制定切实可行的电子文件元数据方案,明确电子文件元数据项目,明确标注元数据项目是必填项还是选填项,标注元数据项目的填写内容和要求等,便于业务系统开展电子文件元数据的形成和捕获。通过业务系统,在电子文件形成、办理或收集过程中自动捕获有关电子文件内容、背景、结构和管理过程的元数据。
对于不能通过业务系统归档的电子文件,各单位应按照元数据捕获的有关要求,结合单位电子文件管理实际,采用WPS表格等工具尽量齐全地手工著录有关电子文件内容方面的元数据。
2.元数据收集范围
2009年,《文书类电子文件元数据方案(DA/T 46 - 2009)》发布施行,提出文书类电子文件元数据收集积累的有关要求。文书类电子文件元数据归档范围参见表1。
文书类电子文件元数据归档范围仅规定了文书类电子文件在归档时需要收集捕获的最基本的元数据(元数据名称前加“*”的为必选项),并不包括归档后为电子文件赋予的其他类型的元数据项目,各单位可根据自身实际添加适合本单位文件、档案管理的元数据项目。业务实体元数据(M226)应包括拟稿、会签、审核、签发、用印、登记、拟办、批办、承办、催办等业务行为,以及行为时间、机构人员名称等描述信息。
归档数据包组织
电子文件通过数据接口形式归档时,各单位业务系统要以一定的格式组织和存储电子文件和元数据。常用的归档数据包组织形式包括文件包和封装包两种形式。
1.文件包形式
文件包形式是将电子文件和元数据分别保存为格式文件,然后将这些文件按照一定的关系组织在一起,形成一个“包”形式的文件组合(如图1),文件包包括以下内容:
说明文件(命名为“说明文件.TXT”)。说明文件存放数据包有关信息,包括数据包参数(如数据包容量、数据包基本内容等)、数据包编号、数据包归档单位、数据包检查单位、读取本数据包内电子文件和元数据所需要的软硬件环境等信息。
目录文件(命名为“目录文件.XML”)。存放电子文件的目录信息,目录文件中的每条记录与每份电子文件相对应,每条记录中包括数据包内电子文件顺序号、档号、责任者、题名、日期、密级、电子文件名称、备注等内容。
其他文件夹(命名为“其他”)。存放各种其他存入载体的文件,包括元数据规范、数据封装规范、分类编号规则、文件命名规则及电子文件归档交接信息等,这些文件应采用文本、XML和其他符合长期保存要求的文件格式。
电子文件文件夹(图1中的“全宗文件夹”及其内部包含的全部内容)。一般按照档案管理的惯例以全宗号命名(没有全宗号的单位可以使用其他代码代替,只要能区分开不同的立档单位即可),用于存放电子文件及其元数据。电子文件文件夹一般按年度-类别-文件的层次设置最底一层文件夹。根据档案整理和分类方案以及实际情况,可对存储结构中的类别、文件等层级进行取舍。
最底一层文件夹(图1中的“文件1文件夹”等)。一般以文书处理号、件号、流水号命名,其中存放电子文件的元数据和电子文档。
2.封装包形式
封装包形式是按照档案行业标准《基于XML的电子文件封装规范》(DA/T 48 - 2009)要求生成的文件数据包,包括电子文件各种元数据和电子文件内容。按照标准形成的电子文件封装包,除了保存电子文件和元数据外,还具有电子签名验证功能和封装包修改功能。因此,归档时捕获的电子文件封装包在完成电子文件归档工作后应进行长久保存,只要电子文件没有销毁,其封装包应一直保存下去。封装包管理中应注意以下问题:
归档时的电子文件封装包一般情况下没有档号,只有电子文件在原业务系统中的电子文件号,无法与归档后的封装包一并管理,因此应按照归档时间和批次建立文件夹,原样保存。
在档案管理系统中整理完毕的电子文件,在通过相应的档案检查后应重新封装,参照OAIS中电子文件长期保存的要求制作AIP包。
3.两种数据包形式异同
文件包和封装包这两种归档数据包形式相同点是都采取XML格式组织电子文件元数据,体现了归档数据包与软硬件系统无关的特性。不同点是文件包格式的数据采取分类保存的原则,不便于查看某一份电子文件及其元数据情况;封装包格式的数据采取逐个电子文件和对应元数据组合保存的方式,单独看一份电子文件比较方便,但是全方位的浏览一次归档的电子文件情况则比较麻烦。
存储
如同纸质档案排架工作一样,如何分门别类、集中有序地存储电子文件,以便规范管理和高效利用电子文件,是电子文件管理的基本要求。一般情况下电子文件内容存储在计算机硬盘或磁盘阵列中,电子文件元数据保存在档案管理系统数据库中。
1.电子文件内容存储
电子文件整理完毕后,應依据档号等标识符构成要素在计算机存储器中逐级建立文件夹,分门别类、集中有序地存储电子文件及其组件,并在元数据中自动记录电子文件在线存储路径(如图2)。
图2左侧的层级文件夹分别代表全宗号、档案门类、年度、保管期限、机构(问题)和件号,六层文件夹组合在一起即指向唯一的一件电子文件,在此“件号”文件夹内存储的就是该件电子文件包含的全部计算机文件。注意:层级文件夹命名时,保管期限和机构(问题)文件夹应使用字母和数字组成的代码命名;如果直接采取年度—保管期限分类方案进行电子文件整理,则应略去机构(问题)层级文件夹。
2.元数据存储
在档案管理系统中,电子文件元数据一般使用关系型数据库进行管理。元数据存储时,因不同类型的元数据项目与电子文件的对应关系不同,需要区分几个数据表存储和管理电子文件元数据。
电子文件元数据在系统内可分成文件实体信息、文档信息、业务实体信息等数据表进行管理。
文件实体数据表。该表保存与电子文件存在“一对一”关系的文件实体元数据,数据表中的每一条记录对应一件电子文件实体信息。
文档信息数据表。该表保存与电子文件存在“一对多”关系的,与电子文件所包含的文档有关的元数据项目,如文档序号、稿本、格式信息、计算机文件名、计算机文件大小、文档创建程序等。数据表中的每一条记录对应一份电子文件包含的一个电子文档信息。
业务实体信息数据表。与“文档信息数据表”相似,业务实体信息数据表保存与电子文件存在“一对多”关系的,与电子文件业务实体有关的元数据项目,如业务行为、行为时间、机构人员名称等。数据表中的每一条记录对应一份电子文件的一项业务记录,如一件电子文件可能包含拟稿、审核、签发等业务记录,一项业务记录在该数据表中就是一条记录。
(作者单位: 青岛市档案局)