APP下载

档案元数据标准比较研究*

2014-12-28包海峰徐泺燚

档案与建设 2014年2期
关键词:著录检索规则

包海峰 彭 桢 徐泺燚 陈 刚

(南京大学档案馆,南京,210093)

随着信息网络技术的发展和普及,利用信息技术实现档案的科学管理成为档案管理部门和档案学术领域共同关注的问题,而档案元数据是对传统档案和电子档案实现有序管理的基础。

元数据(Metadata)是关于数据的数据。ISO/IEC 11179-3:2003(E)对元数据的定义为:元数据是描述数据的数据。它描述了数据的结构和意义,是连接数据和用户之间的桥梁。元数据具有一些基本特征:元数据一经建立,便可以共享;元数据结构和完整性依赖于信息资源的价值和使用环境;元数据形式灵活;元数据的开发和利用环境是变化的分布式环境;任何一种格式都不能满足不同组织的不同需要。档案元数据是数字档案馆的基础,江薇认为档案元数据是用来描述数字档案的内容、结构及背景特征的数据,它是一个结构化的标准体系。其目的是对数字档案信息资源进行组织、管理、发现、识别、选择、定位、开发利用和评价,追踪档案在管理和使用过程中的变化,有助于实现数字档案信息资源的凭证价值、集成整合与长期保存。数字环境下的档案元数据是描述数字档案信息的一种数据格式,利用它可促进互联网信息资源的组织和发现。杨杰认为对于档案管理部门元数据具有四个方面的职能,即:揭示职能、检索职能、管理职能和凭证职能。随着档案信息化建设的推进,档案信息资源的整合研究及实践的深入,档案元数据作为档案信息化建设工作的基础势必要跟上。

1.档案元数据研究现状

从研究文献上来看,截至2012年底,在中文CNKI数据库中用以“题名=元数据”为检索式进行检索,检索结果的时间跨度从1989年到2012年底,共2594篇,可以看出(见表1),从2000年左右,研究文献开始明显增加,至2012年底,每年关于元数据的文献数量基本稳定在200-300篇左右,其中(见表2)约50%集中在计算机软件及应用领域,图书情报领域的文献占18%,档案馆及博物馆领域的文献仅占5%。这说明除了计算机软件及应用领域,图书情报领域对元数据的研究是最深入的,档案馆及博物馆领域仅占5%,相对较少。实际上,图书情报领域对元数据的理论研究起步是比较早的,实践方面的探索和应用也取得了大量的成果。

如果以“题名=档案元*数据”为检索式进行检索,截至2012年底,共检索到140篇文献(见表1),每年的文献在10篇左右。从学科分布来看(见表2),除了计算机软件及应用领域外,主要集中在档案馆及博物馆领域,尽管如此,也仅有51篇。一定程度上可以看出国内在档案元数据研究和实践方面起步还比较晚,根据检索出来的论文可以看出档案元数据的研究成果相对比较零碎,多涉及基础框架的研究和介绍,研究缺乏系统性,研究特定元数据标准或特定技术下元数据标准较多,关注元数据之间关系的较少。档案元数据对于档案管理部门的重要意义不言而喻,缺少成熟的档案元数据标准体系的支持,数字档案馆建设必然会受到一定程度的影响。诚然,图书情报和档案有很多相通之处,档案领域可以借鉴图书情报及计算机软件应用领域的许多成熟的研究和实践成果,但是档案管理与图书情报的管理对象有所不同,档案有其自身的特点,如档案的真实性、完整性问题,档案的凭据作用和档案访问权限等,解决这些问题需要根据档案的特点,在充分借鉴其他领域研究成果的基础上,针对档案元数据进行深入研究和实践,这样才能进一步推动档案元数据的理论研究,从而更好地服务于数字档案馆的实践应用。

表1 文献年代分布表

表2 文献研究领域分布表

2.国内外常用元数据标准

目前国际上常用的元数据标准有:都柏林核心元数据集合(DC)、CDWA、VRA、FGDC、GILS、TEI、EAD、《国际档案著录标准(总则 )》ISAD(G)。 其 中 ,DC是Sherman和Price在2003年引入的作为数据提供方的最低限度映射要求的目标元数据,是一种跨领域的信息资源描述标准,DC以其简便高效的特点获得了广泛的认可和应用;CDWA用于数字图像及艺术品资源的描述;VRA用于艺术、建筑、史前文物、民间文化等艺术类的三维实体可视化资源的描述;FGDC用于空间地理数据内容的描述;GILS用于政府公共信息资源的描述;TEI用于电子文本的描述;EAD用于档案馆博物馆的档案手稿资料的描述;ISAD(G)是根据国际档案理事会与联合国教科文组织达成的协议,由1990年成立的国际档案理事会ICA(International Council on Archives)著录标准特别委员会制定的,指导和规范档案著录描述的通则性标准,此标准适用于各种形式和载体的档案资料。

国内现行的档案行业的元数据标准《DA/T 18-1999档案著录规则》(以下简称《规则》)是由我国国家档案局于1999年5月31日批准执行的档案行业的元数据标准。总的来说,EAD、ISAD(G)、《规则》是目前档案界应用最广泛的几种档案元数据标准,对档案界元数据的标准化起到了重要作用。《规则》于1983年10月拟定完成,再征求各档案部门的意见,集思广益,经过修改后,于1985年成为国家标准。现行的《规则》是1999年是由安徽省档案局起草,国家档案局批准的行业标准。《规则》所引用的标准有B/T3792.1-1983文献著录总则、GBT7156一1987文献保密等级代码、GB/T9704-1988国家机关公文格式、GB/T15418-1994档案分类标引规则、GB/T3860一1995文献叙词标引规则、DDA/T1一1992档案工作基本术语与DDA/T19一1992档案主题标引规则。

ISAD(G)从严格意义上来说,并不完全是元数据标准,而是为编制元数据标准提供的总则性指南,它对于现在大部分通行的档案元数据标准如EAD,都有着及其重要的指导和参考作用。国际档案理事会这样制定标准的初衷是尽可能地以档案资料的元数据标准化来建立档案信息智能控制与存取体系,协助以传统和电子方式进行档案资料的著录和这些著录间的转换。

EAD是网络环境下档案馆、图书馆、博物馆处理档案与手稿资料最常用的元数据,采用SGML(ISO8879)作为编码标准。EAD正式文本的结构由EAD DTD(EAD Document Type Definition,EAD文档类型定义)、EAD标签库、标签使用范例及应用指南构成。其中,EAD DTD是主体部分,是EAD主要功能得以实现的结构基础。目前,许多国家和地区已经针对EAD进行了实践,其中影响较大项目的包括:美国加州遗产项目(California Heritage Project)、加 利福尼亚博物馆和联机档案计划(MOAC)、英国皇家委员会发起的核心执行项目(Core Executive Pilot Project)、台湾“中央研究院历史语言研究所”采用EAD1.0版本对其所收藏的内阁大库明清档案进行著录转化。通过对EAD应用机构的调查与统计,截至2013年2月,已有90个机构开展了EAD项目。其中档案馆占了大多数,解决了档案信息远程利用服务的问题。其次为图书馆,国外一些大学的图书馆设有特殊馆藏室,如芝加哥大学图书馆的特殊馆藏部,就进行了检索工具的EAD格式转换项目。还有些特殊馆藏机构和博物馆等,如欧盟手稿及信函网络存档项目,制作了EAD格式检索工具也应用EAD来制作检索工具,这些机构的比例较少。目前,这三类在所有机构中的所占份额分别为:54.44%、25.56%、20%。

3.档案元数据标准的比较分析

EAD、ISAD(G)、《规则》作为在档案界最为普及的几种元数据标准,为档案信息化建设做出了重要贡献,得到了档案学术界和档案管理部门的充分肯定。但是由于它们制定的背景不尽相同,每种标准各有优势,同时也存在一些不足之处。本文对上述三种档案元数据标准进行比较分析,通过比较分析为今后档案元数据研究提供一定的参考。

总体来说,ISAD(G)很好地实现了如下基本功能:如实地记录和反映档案形成、保管和利用过程以及控制信息;为档案信息的组织和共享创造条件;满足数据交换需求;为整合来源于不同保管机构的档案信息提供便利。在当今的网络环境下,使用ISAD(G)可以规范档案的著录,对档案进行全周期标准化控制,从而实现档案信息高效利用。ISAD(G)基于多维控制的视角,对档案的内容、结构和背景信息都进行了完整的著录,建立了著录条目与档案实体之间的准确映射关系,实现了对档案整个生命周期的实时著录,保障了档案的真实性、可靠性、完整性和可用性。ISAD(G)具有以下特点:

(1)ISAD(G)有着深厚的实践基础,依循了需求导向原则。特别委员会在拟定初稿后,多次征求意见并修订完善,并不断参考各种新技术手段和利用工具。

(2)ISAD(G)订制的专家将档案工作中的前沿理论充分体现在标准之中,对全宗理论、多级著录原则的体现,使得该标准能够历经十数年而不落后。

(3)ISAD(G)具有很强的指导性,标准中既有对规则的详细描述,又有应用实例,从档案信息著录到实现机器可理解的形式化表述,均有较好的适应性,因而具有很强的应用性。

EAD是目前全球档案界最有影响的元数据标准之一,其具有以下几方面的特点:

(1)广泛适用性。EAD可以提供详细的全文描述和存取,除了能适应不同内容长度的著录对象,也能描述不同载体上的不同类型的档案,如电子文件、多媒体文件等。

(2)易用性和兼容性。EAD基于XML和SGML,该解决方案具有直观、易用、灵活,不依赖于任何软、硬件平台的特点,因此EAD具有易用性和很强的可移植性,并且可以简易地同现在许多其他基于XML 的元数据(如:DC、MARC、ISAD(G))相互转化,其良好的通用性大大降低了在实际工作中文件信息共享的成本。

(3)良好的可扩展性。各档案机构可以根据自身的工作需求,在给定的规则之下选择相应的元素组合和标识层次,在部分中按实际要求的顺序排列元素。

(4)便于检索。EAD的元素是结构化、层次化的,除了支持对字段和全文一般的检索如布尔逻辑检索、截词检索、近似检索之外,还可以在目录中查找单个项目和离散的数据项,便于满足用户的具体需要。

我国现行的《DA/T 18-1999档案著录规则》,是一定时期内档案著录工作实践经验总结,对档案著录工作具有全局的规范指导作用。《规则》初步实现对国内档案文献的管理和利用,能够简便易行地实现与全球其他编目规则的档案文献的元数据交流和共享,满足了不同内容的档案的著录的要求。与《规则》相配套的各种标准和辅助工具不断涌现,对《规则》的施行提供帮助,以减轻使用难度,提高现实的适用能力。

随着这些档案元数据标准在档案管理行业的普及以及网络信息技术的不断发展,这些标准在研究和实际应用中逐渐暴露出一些问题:

EAD是目前全球最有影响力的档案元数据标准之一,但是在长期实践使用过程中也存在一些不适应:

(1)软件的选择问题。源代码开放软件是一种允许他人运用、修改和重新编码的软件。目前还没有商业性软件用以支持源代码开放的EAD工具,很多机构会选择商业性软件,因为其在质量及后续升级等方面更有保障。

(2)如何向网络用户提供EAD编码检索工具是影响EAD发展的主要瓶颈。

(3)EAD本身的复杂性。档案机构在选择标准时也必须评估软件开发的复杂程度,而EAD本身的复杂性导致了部分档案机构的望而却步。

新《规则》是根据老版实行十多年中发现的问题和实际的需求情况进行了修改,虽是用行标颁发的,但在本质上是对老《规则》国标的修订本。《规则》在元素设置方面的存在一些先天的缺陷。该标准分的元素分为题名与责任说明项、稿本和文种项、密级与保管期限项、时间项、载体形态项、附注与提要项、排检与编号项7个大项,共计22个。但是相比ISAD(G)等元数据标准,99版本的《规则》的元素设置存在一些问题,因此存在着诸多的缺陷,主要有以下三点:

(1)题名相关元数据不完善。题名本身的复杂性,以及在检索时的重要性,使得在题名著录时需要完善的元数据加以描述。《规则》在题名项中只有正题名、并列题名和副题名及说明题名文字,这在实际应用中是不完善的,如在著录丛书时不能体现总题名、分题名以及这两者的关系,以及不能著录别名,如不能揭示《红楼梦》和《石头记》的内在关系。

(2)在附件元数据过于简单。附件是指文件正文后的附加材料,《规则》对于附件规定“只著录附件题名”,其他要素则全部省略,同时补充规定“若附件题名具有独立检索意义时亦可另行著录条目”,但“亦可”使得该条款不具备必要性和强制性,从而导致在实践中流于形式。同时,“另行著录条目”的档号和正文档号(主要是件号)没有明显的区别,因此由于“档号重复”,计算机无法对附件进行著录。在实际工作中造成的后果是,出现对附件不著录,或著录不全面、不准确,以及未将附件纳入检索体系,最终造成在档案利用工作中的“死档”现象,影响了查档效果,也损害档案本身的利用价值。

(3)著录元素不全。在《规则》中,著录的定义为“在编档案目录时,对档案内容和形式特征进行分析、选择和记录的过程”,这个定义仍然是基于手工整理档案编目和相应的管理过程,因而对于利用方式、相关背景以及获取著录信息的来源等方面相比传统档案发生了巨大变化的电子文件来说就过于狭隘了。如果按照上面的定义对电子文件进行著录,连如何读取该电子文件都未注明,信息技术更新换代之后,利用时的后续工作是很难展开的。除此以外《规则》没有对档案原始性方面的进行控制,这对传统档案(一般为纸质的文书)并没有很大影响,但在确保电子文件的真实性、完整性等方面缺少必要的描述。在电子文件著录方面缺失的元素有该电子档案的处理软件及相关版本、文件大小(字节数)、文件格式(后缀名)、加密格式以及载体相关等,这些对于电子档案的利用和真实性、完整性的保证是不可或缺的。除此以外,该标准也缺少档案层级著录相关的元素,无法实现结构化的全宗细化到文件级别的著录。

(4)缺少规范控制。早在20世纪初,美国图书馆学家卡特(Cutter CA)就在《印刷本字典式目录规则》一书中首次提出了“规范控制(Authority Control)”的概念。规范控制又称权威控制,是为确保标目在检索目录系统中的惟一性和稳定性而建立、维护、使用规范款目和规范文档的工作过程。《规则》在档案规范控制方面还有欠缺,这会影响到档案著录的标准化。

作为通则性标准,ISAD(G)更强调简易性和互通性,而EAD则更注重语义和语法的细致化。EAD作为更具操作性的元数据标准应用于实践领域,而ISAD(G)则作为指导性的原则为EAD等具体的档案著录规则提供指南和参照。

《规则》和ISAD(G)相比,还存在诸多差距,具体区别如下:

(1)ISAD(G)定义著录范围比《规则》更全面,能更好地适应网络时代的电子文件著录要求。

(2)ISAD(G)定义包涵了档案整个生命周期,而不仅仅是在归档之后的进行分析、选择和记录,它在文件生成之初甚至在之前就开始了著录工作,并持续至整个文件生命周期结束,可靠性、真实性、完整性得到了保证。它的定义中明确了档案著录是动态的过程,档案的特征信息在档案管理的每一阶段(包括文件的形成、鉴定、收藏)都要不断补充完善。而《规则》只是在保管期内进行一定范围内的控制。

(3)ISAD(G)能够实现多级著录,《规则》最多只能进行案卷与文件这样低级别的著录,对全宗与类别这样高级别的则是空白。因此,需要增加从全宗到所属部分的著录项,以便使档案著录能够完整地体现档案的各个级别层次。同时,多级著录需要基于公认的理论原则,如由总到分的档案著录原则,就是“尊重全宗”原则的实践结果。

4.档案元数据标准发展展望

每种档案元数据标准的制定都有不同的侧重,随着档案信息化建设的不断深入,档案元数据标准也需要做出相应的调整以适应不断发展的档案管理理论和实践的要求。总体而言,在今后档案元数据标准的发展过程中需要进一步拓展以下几个方面的研究:

第一,多层次和多功能的结合。这里的层次除了著录级别的多层次外,还包括元数据的选择和组合可以根据实际的需要细化到不同的层次。选择的层次不同,能实现的具体功能也不同。同时,元数据功能的整体趋势由保管查询扩展到了档案的管理和利用规则方面,能更好地实现档案的利用价值。

第二,时间跨度由保管期延伸到整个生命周期。在当今这个信息社会,电子文件所占的比重不断增加,如果不能保留必要的电子文件背景信息,则电子文件的真实性、可靠性及可用性就会大打折扣。

第三,满足个性化需求。电子文件是一种新的档案形式,有多种载体形态和记录方式。如果不去关注电子文件的特点并对相应的元数据标准进行适当的修改,那么标准很快就会落后于实际需求。同时,根据对象的特点做好元数据的个性化,就能更好地实现不同类型档案管理和利用。总的来说,元数据标准的修改和制订要以具体的应用为背景,针对某一特定类型的资源或实体的特点,不求标准可以包罗万象,满足具体需要即可。

第四,元数据的互操作。信息的交流和共享是大势所趋,为了向用户提供更为全面优质的检索利用服务,必须实现元数据的互操作。

[1]张正强.论中国电子档案著录标准化的发展方向.图书情报知识,2004(5):35-38.

[2]陈彩红.国内外元数据标准宏观比较研究.河北科技图苑,2011(1):65-67.

[3]江薇.关于我国档案元数据格式的建议.兰台世界,2008(4):24-25.

[4]杨杰.浅析元数据在档案领域的应用.兰台世界,2009(2):48.

[6]包海峰,陈刚.基于OAI的档案信息资源整合模式研究.档案与建设,2012(12):13-16..

[5]Sherman,C.&Price,G.2003.The invisible web:uncovering sources search engines can’t see.Library Trends 52(2),282-298.

[7]宋凯,李刚.档案著录元数据标准.档案与建设,2013(4):23-26.

[8]赵艳红,康蠡.http://www.cnki.net/kcms/detail/62.1025.2.20130407.1704.012.html.2013-04-07.

[9]周铭,陈雁兵.《档案著录规则》发展的回顾与展望.兰台世界,2007(10):5-6.

[10]赵芳.对我国《档案著录规则》再修订的思考[J].档案管理,2009(5),37-38.

[11]朱嘉琪.网络环境下书目数据的规范控制[J].中华医学图书情报杂志,2005(2):34-36.

猜你喜欢

著录检索规则
常用参考文献著录要求
常用参考文献著录要求
常用参考文献著录要求
撑竿跳规则的制定
数独的规则和演变
2019年第4-6期便捷检索目录
让规则不规则
TPP反腐败规则对我国的启示
专利检索中“语义”的表现
本刊参考文献著录要求