APP下载

电子文件管理元数据漫谈

2015-05-30赵屹

北京档案 2015年1期
关键词:管理系统标准信息

赵屹

摘要:从元数据的定义、元数据的作用、元数据与电子文件和背景信息的关系、元数据在电子文件管理中的使用四个方面对电子文件管理元数据进行研究和阐述。力求将研究性、知识性与易读性结合,有助于档案工作者了解元数据,进而依据元数据标准在实际工作中进行应用。

关键字:电子文件元数据标准封装

Abstract:This paper research and expound the four aspects of the metadata in electronic document management. The four aspects are the definition of metadata,the function of metadata,the relation? ships with electronic documents and background in? formation,the use of the metadata in electronic doc? ument management. There are the characters of re? search,knowledge and legibility in the paper and strive to help archivists understand metadata and then use metadata based on metadata standard in practical work。

Key words:Electronic documents;Metadata;Standard;Encapsulate

一、涵义:关于数据的数据

数字时代要完成对海量数字信息的管理,尤其是对网络信息资源的管理,信息管理者急需解决如何对信息进行有效组织。信息组织是采用一定的方式,将某一方面的大量的、分散的、杂乱的信息经过整序、优化,形成一个便于有效利用的系统的过程。在这个过程中,人们引入元数据概念来解决数据描述的问题。

元数据(Metadata)是关于数据的数据(data about data),用于记录数据的产生、数据的定义以及数据之间关系的种种属性,包括数据描述、数据结构等。

鉴于元数据的定义读起来太过抽象,有研究者形象地对元数据进行了解释:在契诃夫的小说《套中人》中这样描写一个叫瓦莲卡的女子:“(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋——一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!”这段话里揭示了瓦莲卡的四类信息:年龄(三十岁上下)、身高(个子高挑)、相貌(身材匀称,黑黑的眉毛,红红的脸蛋)、性格(活跃,吵吵嚷嚷,不停地哼着小曲,高声大笑)。有了这些信息,人们就可以大致想象出瓦莲卡是个什么样的人。推而广之,只要提供这四类信息,就可以推测出其他人的样子。用于描述这些信息属性的“年龄”、“身高”、“相貌”、“性格”就是元数据,它们是用来描述具体信息(数据)的数据。[1]

假设我们用计算机的数据库管理系统来管理类似上述事例中的人员信息,那么需要将每个人的信息输入数据库。在输入之前,我们必须先“告诉”计算机,对于每一个人,我们需要采集哪些数据。我们“告诉”计算机要采集每一个人的姓名、性别、年龄、身高、相貌、性格。如图1所示,这个“告诉”的动作是由定义数据库的数据结构实现的。

当定义好数据结构后,我们就可以在名为《人员基本情况表》的数据库中输入数据了。每一个人在数据库中成为一条记录。如图2所示,输入了3个人的基本情况,便成为该库中的3条记录。

这样,人员基本情况就被计算机管理起来了,可以进行检索和统计等操作。例如,统计年龄在“三十”左右的人员,计算机就会显示有2条结果,即“瓦莲卡”和“武大郎”;若有大龄剩女悄悄地利用该数据库寻找恋爱对象,她以“不打女人”为性格条件进行检索,那么武大郎就会成为符合条件的候选人之一。当然,武大郎的身高、相貌也会作为检索结果展现给该女士供其参考。在这个计算机管理人员信息检索的过程中,“姓名”是元数据,“瓦莲卡”、“李白”和“武大郎”是数据,“性格”是元数据,“活跃”、“豪放”和“不打女人”是数据……。可见,元数据是用于描述数据的抽象信息,数据是具体信息。所以,元数据是对数据最根本的描述,是数据的本质,也可以称其为描述数据的数据(date that describe data)。

二、作用:电子文件管理系统的“血液”

元数据最早出现和应用于计算机信息技术领域,在当前已经广泛发展并应用到众多专业领域。事实上,在社会生活中,元数据无所不在。有一类事物,就可以定义一套元数据。例如,文献领域适用于网络资源与文献资料的DC(Dublin Core,都柏林核心元数据),电子政务领域适用于政府信息的GILS(Government Information Locator Service,政府信息定位服务),档案领域适用于档案与手稿的EAD(Encoded Archival Description,置标档案描述)等都是各专业领域为描述本领域的对象而制定的元数据体系。其中EAD是用于描述档案与手稿的形式与内容的规范,以便它们作为网络信息可以在任何计算机平台上进行检索、显示与交换。

在电子文件管理中,有必要引入元数据概念来描述电子文件的定义、属性、结构、关系等数据属性,揭示电子文件的形成、内容、排版、格式及系统环境等,以便有效地记录电子文件的内容、背景和结构,方便对电子文件的标识、鉴别、描述、管理和长久利用。

元数据在电子文件管理中的作用可以概括为以下五个方面:一是全面描述电子文件;二是保障电子文件的真实性。电子文件在整个生命周期内,是在网络环境中动态流动的。元数据用于记录电子文件生命周期中所有重要的变迁,所经历的任务、部门、人员、操作等,依据这些记录可以再现电子文件流程;三是维护电子文件的完整性。电子文件的有些结构、背景与其内容相对独立,元数据以规范格式来描述电子文件的内容、结构以及背景,建立三者间的有机联系;四是有助于电子文件的长期可读。元数据可以对计算机系统进行说明;五是提高电子文件的可理解性。元数据集有助于利用者了解电子文件的内容、创建原因、流转过程、利用条件、内在关系与外在联系等。

目前,国际文件与档案管理领域已达成共识,元数据是实现对电子文件进行科学、有效、动态、集成管理的关键与基础,并被国外学者喻为是电子文件管理系统中的“血液(Blood)”。[3]

三、关系:与电子文件、背景信息密不可分

在当前的电子文件研究和管理中,对于元数据的概念、作用、使用还有一些模糊和误解存在。如有研究者将电子文件管理中的元数据定义为“由电子文件系统自动记录的关于文件形成时间、地点、人员、活动、文件系统、结构等方面的具体数据。”笔者认为,该定义存在较大偏差。首先,该定义的属概念是完全错误的。元数据是抽象数据,而非具体数据,它是对具体数据的抽象,所以才是数据的数据;二是元数据不是电子文件管理系统自动记录的,而是人为定义的。元数据是预先制定的标准、方案、体系或规则。电子文件管理系统自动记录的是数据。例如,一份电子文件是由“瓦莲卡”创建的,由“李白”修改的,由“武大郎”签发的。那么电子文件管理系统记录下的“瓦莲卡”、“李白”和“武大郎”是数据,而“创建者”、“修改者”、“签发者”才是元数据。元数据是预先制定好的方案,电子文件管理系统在开发时,依据预先制订好的元数据方案去记录相应的数据。假如在预先制定的方案中只有“创建者”和“签发者”而没有“修改者”,那么即使一份电子文件是由“瓦莲卡”创建、“李白”修改、“武大郎”签发的,但电子文件管理系统只会记录下“瓦莲卡”和“武大郎”,而不会去记录“李白”。因为李白是“修改者”,元数据体系没有要求记录修改者,依据该元数据体系开发的电子文件管理系统,就不会捕获并记录修改者的信息。

还有研究者提出,在电子文件管理过程中要捕获元数据。同理,元数据是预先制定的标准、方案、体系或规则,在电子文件管理过程中,是根据元数据标准去“捕获”、“自动记录”数据而不是捕获元数据。那些被“捕获”和“自动记录”的数据多数是背景信息数据。

对于电子文件、元数据、背景信息三者的关系,笔者认为,可以用一句著名的诗句来形容,如图3所示,[4]那就是“举杯邀明月,对影成三人”。

图中的李白暗应电子文件。电子文件若想永久保存,必须引入相应的记录机制,即把元数据“邀”到电子文件管理中。为此,需要制定电子文件管理的元数据标准。元数据标准就恍如图3中的月亮一样挂在那里。而背景信息是描述电子文件形成与维护背景的具体信息,它如同电子文件的影子一般与其形影不离,成为电子文件的重要组成部分。背景信息一般包括电子文件的发送信息、办理信息、归档信息、技术信息等(当然,人离了影子照样是完整的,电子文件离了背景信息就不完整了。因此这个比喻稍有偏差,只是用于帮助加强理解)。在图中,月亮决定了影子的方向和长短,类似地,元数据标准决定电子文件背景信息的内容和数量,即电子文件管理中需要捕获和记录哪些信息,才能确保电子文件的真实性、可靠性、完整性与可用性。电子文件管理系统必须依据元数据标准捕获和记录详细的背景信息,这种捕获和记录有自动生成、自动捕获、手工录入等不同方式。

四、使用:标准制定、系统引用、管理维护

在电子文件管理中引入和使用元数据,必须制定相应的元数据标准。世界各国对此都很重视,纷纷研究与制定各自国家的电子文件管理元数据标准。澳大利亚1999年发布世界上第一个专门解决文件长期管理问题的国家级元数据标准《联邦政府机关文件保管元数据标准》并于2008年进行了修订,英国公共文件局2002年发布《电子文件管理系统需求——元数据标准》,加拿大国家图书与档案馆2006年发布《文件管理元数据标准》等。[5]此外,还有前文提到的EAD,国际档案理事会于1993年制订、2000修订的《国际档案著录标准(总则)》,国际标准化组织2006年颁布的《信息与文献—文件管理流程—文件元数据—原则》和《信息与文献—文件管理流程—文件元数据—概念及实施》等。我国已经发布行业标准《文书类电子文件元数据方案》和《核电电子文件元数据标准》,以方便行业对电子文件的理解、管理、交换和利用。目前国家行业标准《电子文件元数据标准》进入公示和征求意见阶段。另外,我国有许多研究项目也在研究更具体的专业领域的元数据方案。例如,笔者主持的2010年7月结项的国家哲学和社会科学基金档案学项目“电子政务环境下电子公文流程分析与设计”对电子公文的元数据进行了分析和设计,设计了98个基本元素并对这些元素从序号、元素名称、来源、数据说明、数据类型、性质、数据捕获时机、数据捕获方法、对应关系九个方面进行了描述。

电子文件管理中元数据的使用一般通过电子文件管理系统实现。电子文件管理系统引用元数据,一般是在系统的设计阶段将元数据标准预设在电子文件管理系统中,而后元数据标准自始至终伴随每一份电子文件的整个生命周期。在电子文件的全程管理过程中,电子文件管理系统依据预设的元数据标准全面地、持续地实现对电子文件各种相关数据信息即背景信息的捕获。电子文件管理系统的实际操作要求元数据标准必须坚持可行性的设计原则,力求做到易于理解、易于使用、有效地控制元数据的数量,从而使元数据的设计具有实用价值。元数据的数量过多,会加大电子文件处理的工作量,占用更多的存储空间,导致更复杂的管理。所以,元数据的设计只要能够满足揭示电子文件的主要特征,记录电子文件的主要流程,满足电子文件管理需要即可。

元数据的使用还需要管理维护。在电子文件管理中使用元数据,对元数据的管理维护包括两个方面:一是元数据的实现,二是元数据的封装。

元数据是最基本的理论模型,在电子文件管理系统引用时还需要具体加以实现。实现是指用一种计算机可以识别的形式表示元数据,以便计算机程序能够对元数据进行处理。目前元数据一般都以XML(Extensible Markup Language,可扩展标记语言)作为编码标准,以XML Schema的方式实现,可以说XML Schema就是元数据。用XML描述元数据有以下四个方面的优点:一是具有等级结构,层次清晰,既可以很好地表达电子文件的物理结构,还能充分表达电子文件的内容及其逻辑结构;二是可以克服传统著录中字段的长度限制,详细标识各个元素内容;三是计算机可以通过识别XML标签理解元素的意义,从而将元素作为检索途径;四是电子文件数据可以不经转化直接在互联网络上发布,实现资源共享。

封装是将元数据与电子文件相关联的重要步骤。封装将元数据与电子文件绑定成一个完整对象,即形成一个整体封装包来进行保存和保护。这样的封装包是一个由电子文件及其元数据组成的自我包含、自我描述和自我证明的实体。元数据与电子文件的关联至关重要。失去二者间的关联,元数据将变得毫无意义,而电子文件的价值也将大打折扣。封装便于对电子文件及其元数据同时进行管理。封装是一种先进的电子文件保管理念,是确保电子文件长久保存和具有凭证价值的核心方法之一。2009年,我国颁布《基于XML的电子文件封装规范》用于规范电子文件的封装。它规定了基于XML的电子文件封装格式和要求,为电子文件提供统一的封装格式,保证电子文件及其元数据的完整合一性,以利于电子文件长期的保存和交换。

注释及参考文献:

[1]阮一峰.元数据[EB/OL].[2013-06-07].http:// www.ruanyifeng.com/blog/2007/03/metadata.html.

[2]佚名.最具特色的武大郎个人简历[EB/OL].[2013- 06-07].http://www.kaixin001.com/repaste/50395290_ 711409321.html.

[3]徐维.元数据:电子文件管理的关键所在[J].山西档案.2000(4):11-14.

[4]佚名.李白画像[EB/OL].[2014-12-30].http:// cul.jschina.com.cn/system/2012/08/18/014199383.shtml.

[5]刘越男,梁凯,顾伟.电子文件管理系统实施过程中元数据方案的设计[J].档案学研究,2012(2):56-64.

猜你喜欢

管理系统标准信息
2022 年3 月实施的工程建设标准
基于James的院内邮件管理系统的实现
忠诚的标准
美还是丑?
基于LED联动显示的违停管理系统
订阅信息
海盾压载水管理系统
一家之言:新标准将解决快递业“成长中的烦恼”
展会信息
基于RFID的仓储管理系统实现