电子文件元数据自动采集的原则与实施路径研究
2015-05-30王健姜伟赵瑞红
王健 姜伟 赵瑞红
摘要:本文通过理论研究与实证分析,进一步论证了元数据是电子文件管理的命脉,是电子文件真实性、可靠性、完整性与可用性的重要保障,是对电子文件实施前端控制和全程管理的关键,是实现自动化管理和智能分析的重要基础;同时展示了对《文书类电子文件元数据方案》的实施与拓展,对元数据实现自动采集的需求分析、原则与思路以及具有可操作性的研究成果。
关键词:电子文件元数据自动采集
本文系“电子文件元数据自动采集与智能分析实证研究”的项目成果。通过探讨理论架构并系统实施电子文件元数据自动采集,实现标准化、自动化管理,全面提升机构电子文件管理水平,同时为电子文件内容信息智能分析奠定基础;通过智能分析研究,充分挖掘隐含在电子文件内容信息中的知识关联,深度开发,支持决策。
一、元数据自动采集需求分析
元数据是描述文件背景、内容、结构及其整个管理过程的数据。不同于传统意义上的著录,元数据内涵更丰富,功能更全面,要求更严格,不可能由档案管理人员在文件归档后进行著录,更不可能由形成机构文件管理人员或业务人员手工录入。元数据需要全程规划,需要嵌入系统,需要实时自动采集,需要真实、动态地再现电子文件管理的背景信息及过程信息。实现元数据自动采集,是元数据自身管理的要求,也是形成机构实际业务的需求。
(一)元数据管理要求
国际标准《信息与文献电子办公环境中文件管理原则与功能要求》(ISO 16175 1-3)一再强调,文件管理元数据(metadata)包括“识别、认证文件和文件背景关联等信息以及生成、管理、维护和使用文件的人员、流程和系统的信息,文件管理政策”。只有伴有界定了关键特征元数据的文件才是真实有效的文件,这些特征必须被清晰地记录下来。元数据在文件捕获点上对文件进行详细说明,固化文件与其业务背景的关联,对文件实施管理控制。在整个生命周期中,新的元数据不断伴随业务的开展、提供利用而持续增加,以长期保证真实性、完整性、可靠性、可用性,使得对文件的管理成为可能。
在电子文件管理系统中必须实现元数据的有效管理。电子文件管理系统(ERMS)作为专门用于对文件的维护和处置予以管理的系统,具有如下属性:在背景中生成文件;管理和维护文件;依据要求的时间长度维护文件;文件管理元数据要可以设定。
作为描述文件背景、内容、结构及其整个管理过程的数据,元数据最大的特征是动态性,动态地再现文件生成、流转、管理的全过程,在整个生命周期中为电子文件(包括由此转化而成的电子档案)的真实、完整、可靠、可用保驾护航。元数据的重要价值在于还原文件的背景信息,反映其所生成的政策法规和技术环境,显示与其他文件以及业务行为责任者等的各种关系,克服电子文件虚拟存在的局限。可见,元数据记录和反映的这些错综复杂、动态变化的信息已经无法仅仅依靠手工进行记录,必须嵌入系统,由系统自动判断、计算与识别,实现系统自动采集元数据是元数据自身管理的要求。
(二)机构业务需求
电子文件的特点决定了对元数据的采集必须前置,由前端形成机构伴随业务活动的开展和其间文件的形成进行采集与管理。《文书类电子文件元数据方案》(以下简称《元数据方案》)给出了88项元数据元素,其中80%需要形成机构进行采集,而且过程性元数据需要反复著录,侧重记录电子文件生成的技术环境与业务过程信息,所涉问题难度大且较复杂。特别是《元数据方案》中规定的一些元数据项存在“宏观”或“笼统”的情况,比如元数据中“日期”项,如不结合文件生成、运转、处置的流程予以细化,则无法确定采集节点和采集方式;仅从文件生成流程来看,面临着起草、会商、审核、签发等诸多“日期”,哪些日期最为关键、哪些应作为元数据予以采集、在文件生命周期中是否重复元数据以及如何采集等,都需要结合机构业务流程和相关规范深入研究,并实施精细化管理。对文件形成机构(即业务机构)而言,因为元数据管理而徒增繁重手工著录工作量,造成人力物力财力的巨大浪费,进而影响机构工作效率与绩效。需要指出的是,元数据并不是独立的,而是与机构自身电子文件管理基础密不可分。没有科学的电子文件、档案一体化全程管理流程,没有完备的电子文件元数据管理功能要求,便无法构建完善的元数据管理方案。因此,本文的研究内容是综合性的,从狭义来讲是电子公文元数据自动采集方案;从广义来讲是机构电子文件管理方案。
二、元数据自动采集原则
(一)基于档案管理的基本原则
1.来源原则。元数据采集虽然通过对电子文件信息加以采集、提炼、分析和组织,揭示文件、档案的内容及其产生规律,但是仍然以尊重档案的本质属性和规律为前提,在采集时注重体现电子文件来源,使机构中同一来源的电子文件通过元数据采集得到集中反映,使元数据与档案的来源相联系,以此通过元数据揭示同一来源的档案、文件之间的各种联系,为档案、文件的理解与利用提供来源方面的背景信息。
2.有机联系原则。有机联系原则也是档案管理的基本原则,是指系统中文件及组成系统的诸要素之间需保持时空上的相互联系。由于电子文件是以二进制代码的形式分散存在于计算机之中,因此保持文件之间的有机联系显得尤为重要,而要保持这种有机联系,必须依赖于元数据。以此原则为导向的元数据采集实质上就是电子文件信息的系统化增值过程,其目的是把分散的文件信息转化为互相联系、系统的信息流,形成更高级的信息产品,满足用户的特定利用需求。通过元数据采集与管理过程,使大量文件特征信息加以系统化和组织化,有效控制档案、文件信息揭示的数量和质量,克服档案、文件查询和利用的困难,提高检索效率,节省查询成本和精力耗费,实现价值增益。
(二)基于电子文件管理的原则
1.前端控制原则。就元数据采集来说,在已经建立了电子文件管理系统的机构,电子文件在系统中生成、运转,电子文件元数据采集的前端“超前”至系统的设计阶段,前端控制的形式也部分转移到系统功能的设计之中,即尽可能地把文件生命周期各个阶段的元数据需求设计在系统之中,以功能合理的OA系统作为管好电子文件的先决条件。
2.全程管理原则。在过程管理中,所有有助于说明电子文件重要属性和有效管理过程的信息都被作为元数据进行采集,以证实电子文件在管理系统中的运转状况,确保电子文件的管理质量。
(三)基于元数据管理的原则
1.标准化原则。标准化原则指在元数据设计过程中,要与现有的国家标准、行业标准、相关规范以及国际标准相一致。随着元数据技术和XML技术的广泛应用,现实环境中已经存在多种元数据标准。为保证信息组织的一致性,在元数据采集时必须在一定程度上遵循标准化原则。
2.互操作性原则。互操作原则体现在对异构系统间互操作能力的支持,不仅可以为自己的应用系统所操作,而且可以为其他组织或机构的应用系统所操作;不仅可在不同系统实现同一元数据标准间的数据的传输、交换或转换,而且可在不同元数据标准间实现数据的传输、交换或转换。在元数据的具体应用上,互操作性表现为易转换性,即在所携信息损失最小的前提下,方便地将元数据转换为其他系统常用的元数据。要实现这些功能,在元数据采集过程中必须慎重考虑元素语义和元素结构的准确定义,其中语义定义尤为重要。
3.可扩展原则。可扩展性原则指整个元数据体系和每个元数据模块都应该可以扩展,保留细化元数据元素的空间以适应未来需求的变化,并可通过复用、嵌接、扩展、细化、修改等方式,根据应用需求灵活地构建和扩展已有的元数据。本文将元数据划分为两大类:标准元数据和扩展元数据,划分依据为元数据的来源与不同功能。标准元数据,指《元数据方案》中的元数据项目。扩展元数据,指描述电子文件的网络生成环境和生成过程、揭示电子文件分类体系和社会关系、量化电子文件利用程度和重要程度的数据。见图1。
4.精细化原则。所谓精细化是指通常采用逐层描述元数据的方法,使得元数据的分析和采集工作进一步精确、细化。在电子文件管理中,精细化原则是保障电子文件有机关联性的关键,也是信息挖掘的重要保障。通过对元数据语义的进一步修饰,能够提高元数据的专指性和精确性。
三、元数据自动采集的方法
(一)在流程中采集
1.电子公文、档案一体化管理流程设计。课题组依据《党政机关公文处理工作条例》(2012年)、《党政机关公文格式》(GB/ T9704-2012)和《电子文件管理系统通用功能要求》(GB/ T29194-2012),为机构设计了一套电子公文、档案一体化全程管理流程,覆盖从文件生成、运转,到归档保存或销毁的全生命周期。一体化流程根据电子文件运动的特点,进行科学合理规划,将部分环节前置,部分环节后延,部分环节贯穿始终等,强调文件管理和档案管理的无缝衔接,详见图2。
2.在流程中采集的思路。在一体化流程的基础上,明确电子文件元数据实时采集的节点和每一节点需要采集的元数据项目。课题组将采集的关键节点确定为电子公文、档案一体化管理流程的每一个环节,并在每个环节分别设置需要采集的元数据项目,包括可选项和必选项。技术实现上,使用流程设计器,在后台事先设置每一环节需要采集的元数据,前台每一环节结束后,该环节需要采集的元数据便能实现实时采集。
(二)在格式模板和处理表单中采集
电子公文处理表单和格式模板则是实现元数据自动采集的重要“对象”。
1.规范化智能公文模板和处理表单设计。课题组严格遵循上述条例及规定等,充分考虑元数据自动采集的需求,设计了上行文、平行文、下行文三类合规性智能公文模板,以及发文稿纸和收文处理单。
2.格式模板和处理表单采集方法。将采集元数据的项目对应到电子公文模板和表单上相应的栏目,如题名元数据,可以定位于收文处理表单、发文稿纸上的题名栏目,即可实现自动采集。因此,按照规范设计的电子公文模板、发文稿纸和收文处理单可以采集到题名、发文字号、文种、紧急程度、主送、抄送、密级、保密期限、附件题名、成文日期、收文日期、保管期限等项元数据。采用这种方法,标准中的内容描述元数据全部都能实现自动采集。
(三)在系统设置中采集
部分元数据事先在系统设置时就已经确定,如描述电子文件生成的技术环境、个人角色及管理权限、业务操作信息等元数据需要在系统设置中自动生成。系统自动可以生成电子属性、业务实体元数据,具体包括机构人员、个人职位、行为时间,以及扩展元数据操作信息元数据,包括操作时间、操作次数、操作时长。
(四)在内容信息中采集
在内容信息中采集,是指对电子文件的内容信息进行深入的分词分析,如人名、地名、机构名等,这是本项目预期实现的电子文件内容信息的智能分析。该采集方法主要采用了机器辅助人工抽取、权重分析技术和分词技术等,其核心在于:基于主题词表实现主题词的自动采集;中文智能分词技术;语料库的词语统计方法;上下文语义判断技术;词表管理技术。
基于上述原则、思路与方法,课题组研发的“电子公文、档案一体化管理系统”不仅可以很好地实现在公文生成过程的元数据自动采集,保证电子公文真实、完整、可靠、可用,而且“档案管理子系统”可以完整、高效地承接“文件管理子系统”的所有前期成果,归档文件连同“发文稿纸”、“收文处理单”以及所有元数据的无缝衔接及归档。随着档案保管、检索、利用、统计、处置等业务活动的开展,基于元数据自动采集成果的精细检索、实时统计、价值判断、智能分析更将显示出实现元数据自动采集的强大功效。
参考文献:
[1]王健主编.文书学(第三版)[M].北京:中国人民大学出版社,2015.
[2]中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T 29194-2012电子文件管理系统通用功能要求[S].2012.
[3]中共中央办公厅、国务院办公厅.党政机关公文处理工作条例[S].2012.
[4]中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T 9704—2012党政机关公文格式[S].2012.
[5]王健等译.电子办公环境中文件管理原则与功能要求[M].北京:中国人民大学出版社,2012.
[6]中华人民共和国国家档案局. DA/T46- 2009文书类电子文件元数据方案[S].2009.
[7]姜伟,王健等.电子文件元数据智能分析与可视化呈现[J].北京档案,2015(7):24-26.
作者单位:中国人民大学信息资源管理学院
北京市人民政府外事办公室信息中心
北京市档案局