APP下载

网络论文共享系统元数据管理模型研究

2010-08-10勇,马

湖北工业大学学报 2010年6期
关键词:数据管理实体对象

金 勇,马 力

(湖北工业大学管理学院,湖北武汉430068)

网络论文管理系统采用了OAIS(Open Archival Information System)参考模型[1]来进行论文信息的交换和管理.OAIS的主要目的是为了在一段不确定的时期内为特定的群体保存信息,其作为一种图书情报界比较成熟的元数据管理模型,广泛应用于数字图书馆、数字档案馆的元数据建设中.本文为网络论文和其他网络文献共享系统建立了一个通用的元数据管理信息模型.

1 论文信息元数据的信息模型

1.1 逻辑模型

1.1.1 信息对象 OAIS参考模型中的核心概念——信息同时包含数据及其相应的表示信息,故信息对象就由一个数据对象和相应的表示信息组成.数据对象可以是一个物理实体或数字对象,而表示信息则用来对数据进行全面的解释,将其转化成有意义的信息.OAIS中的所有信息类型都是以该信息对象为基础的.

1.1.2 数据对象 数据对象可以是一个物理实体,还可以是一个数字对象.无论是物理实体还是数字对象,要成为网络论文管理系统中长久保存的信息对象,还需要相应的表示信息.

1.1.3 表示信息 对于物理实体而言,其表示信息一般是关于其物理可见属性的观察和分析的结果,这部分信息将是信息对象的组成部分.表示信息可能包含对其他表示信息的引用,因为表示信息本身就是一个信息对象,它本身就拥有自己的数据对象和表示信息,如此往复下去形成一个递归的嵌套,这一现象被称为表示网络".

1.1.4 OAIS中信息对象类型划分 以OAIS模型实现的信息管理系统需要长期保存的信息类型有许多种,每一种信息都包含数据对象和充分解释数据的表示信息,故每种信息都被视为一个完整的信息对象.OAIS中的各类信息对象根据其内容和在操作中的功能划分有:内容信息对象、保存描述信息对象、包信息对象和描述信息对象.

1.2 OAIS中信息的逻辑模型

用OAIS中长期保存信息并方便特定用户访问信息所需要的信息对象,来模拟完成这些功能所需要的概念信息结构[2].

1.2.1 信息包(区别与包信息) 信息包是一个支持长期保存信息的概念结构.一个信息包是一个包含两类信息对象的容器——内容信息和保存描述信息PDI.信息包同时又和另两类信息对象联系:包信息和包描述.信息流程中使用的信息包有好几类,这些信息包分别被用来结构化并保存不同流程阶段的OAIS信息.信息从论文信息生产者到OAIS阶段,

或从OAIS到论文消费者阶段,每一阶段的信息要求都不同.图1是一个信息包的概念视图.该图表明一个信息包可以包含0或1个内容对象及0或多个PDI对象,并仅与一个包信息相关联,该包信息唯一的识别限定这个信息包.信息包同时还可与0或多个包描述相关联,包描述给出了内容对象的说明以达到高效访问.

图1 信息包的概念视图

1.2.2 信息包的种类 伴随着OAIS各个功能的处理交互,出现的信息流中主要有3类信息包:提交信息包SIP、存档信息包AIP和发布信息包DIP.区别OAIS中保存的信息包、提交给OAIS和OAIS发布的信息包是非常必要的.许多提交给OAIS的信息包所包含的表示信息或PDI没有达到OAIS保存信息的要求,而且其信息的组织方式也不符合OAIS组织信息的要求.最后,OAIS提供给消费者的信息也可能不满足发布信息的要求.于是,通过用3种类型的信息包SIP、AIP和DIP来承载不同流程阶段的论文信息,能大大简化论文档案信息处理流程中的信息流研究问题.

提交信息包SIP是指在论文信息生产者向OAIS提交论文信息阶段封装论文信息的信息包.它的形式和具体内容一般由论文信息生产者和OAIS之间协商而定.在OAIS内部,一个或多个SIP被转换成一个或多个AIP并加以保存.对于一个内容信息对象,AIP封装了它完整的PDI集合.一个AIP可能包含多个其他AIP的集合.对于消费者的订阅请求,OAIS还要将多个AIP或一个AIP的部分内容转换成DIP的形式以提供给消费者.DIP总是要以一种消费者可清晰辨别所需信息内容的格式展现出来.根据发布媒介和消费者要求的不同,DIP将以不同的格式呈现出来.

SIP和DIP的精确信息内容以及它们与相应的AIP之间的关系取决于网络论文管理系统和论文信息生产者、论文信息消费者之间达成的协议.它们的逻辑模型和图1给出的信息包模型是一致的.

1.2.3 论文元数据信息包AIP 论文元数据信息包AIP中也有一个被称作PDI的信息对象.但是,AIP中的保存描述信息对象PDI比普通信息包中的要求更多.普通信息包中PDI对象都是可选的,但在一个AIP中必须包括所有类型的PDI对象,每一类型的PDI内容都有助于判断包内容.

每个AIP都和一个结构化的描述信息相关联,该结构化的描述信息称为包描述",包描述使得论文信息消费者可以定位感兴趣的信息、分析信息并订阅需要的信息.将一个访问帮助需要的信息称为关联描述",一个包描述可能包含多个关联描述,其数量取决于各类访问帮助的数量.

1.2.4 特殊的AIP和包描述 这一部分对两种特殊类型的 AIP进行了阐述:论文元数据信息单元AIU和论文元数据信息集合AIC,它们都是AIP的子类型,AIU中保存的是不可再分的原子类型的信息内容;而AIC则将多个AIP(AIU或其他的AIC)以主题层次方式组合起来,这种方式使得消费群的访问更灵活高效.从概念上讲,一个AIC组合的所有AIP都包含在该AIC的内容信息对象中.由此,AIU和AIC的差别就在于它们的内容信息对象、包描述和包信息的复杂度.从信息保存的角度看,AIU和AIC之间的差别就非常明显:一个AIU被视为仅包含单个内容信息对象,并由一套PDI来描述它;而一个AIC的内容信息则往往包含其他多个AIC或AIU的集合,并且其中的每个AIC或AIU都有其自身的PDI.另外,整个AIC还需要一个PDI来描述内容集合信息.

与AIU和AIC相对应的还有两种特殊类型的包描述——单元描述和集合描述,它们都是包描述的子类型.单元描述的功能体现在提高访问AIU内容的效率;同样,集合描述的功能则体现在高效访问AIC内容.

1.2.5 论文元数据信息单元AIU及相应的单元描述 AIU可以被视为论文管理系统保存的原子信息".一个AIU仅包含一个内容信息对象(该内容信息对象可能包括多个文件的信息)和一套PDI.当一个信息对象被提交给OAIS时,一个单元描述就被创建了,这个单元是包描述的子类型,它是由从内容信息和PDI提取的信息,并加上OAIS特有的信息(比如唯一标识符)而形成的.

单元描述是一种特殊类型的包描述,它常常包含了描述AIU内容信息的一系列关联描述.同一般包描述相类似,所有的单元描述都必须至少提供一个针对检索帮助的关联描述.

1.2.6 论文元数据信息集合AIC及相应的集合描述 一个AIC的内容信息由完整的包含自身内容信息、PDI及相关包信息和包描述的AIP组成.

集合描述也是包描述的一个子类型,但它附加了更多的结构以更好描述AIC复杂的内容信息.集合描述中有两种新的关联描述类型——全局描述和成员描述.前者是针对整个集合的描述,而后者则分别对集合中的成员进行描述.

2 信息包转换

信息包及其相关的对象经历不同生命周期阶段中逻辑上的和物理上的转变.图2描述了OAIS运作过程中的主要数据流走向.这些数据流不包括管理数据.

图2 顶层数据流图

2.1 论文信息生产者实体中的数据转换

论文生产者实体中的数据一般以任何生产者想要的形式呈现.然而当这些数据将要进入OAIS保存时,生产者需要和论文管理者协商并产生一个提交协议.这个协议定义了信息的内容、格式及相应SIP的预期加入时间.SIP才是生产者提交给OAIS的信息包.

通过建立一个数据提交会话来将SIP不断地转移到OAIS.在一个生产者和OAIS之间传递数据的过程中,可以产生一个或多个数据提交会话.逻辑上,可以将数据提交会话看成一系列内容数据对象和描述对象的集合,尽管这些描述对象物理上既可以包含于一个数字对象,也可以被分割成多个不同的描述个体.除了SIP之外,数据提交会话还要包含信息对象到其承载媒介的映射信息,比如信息对象的编码、在文件中的逻辑位置描述等.

2.2 论文信息采集功能中的数据转换

一旦SIP进入OAIS,它的形式和内容就要发生变化,因为一个OAIS往往不会将数据以其进入OAIS时的SIP格式保存.事实上,数据的提交格式和保存格式不太可能是一模一样的.另外,在数据提交阶段,统一标识符等在OAIS中唯一标识信息包的信息是没有必要的,然而一旦信息包被保存在OAIS中,这类标识信息就是必要的了.

SIP和AIP之间的映射不一定是一对一的,可能出现多个SIP转换成一个AIP、一个SIP转换成多个AIP、多个SIP转换成多个AIP的情况.

采集功能将数据提交会话中获得的SIP转换成一组AIP和包描述,AIP保存于论文档案存储系统中,包描述则交由数据管理功能实体处理.

此外,采集功能实体还要划分被采集的信息对象,归类属于已有集合的信息对象,并发送修改相应集合描述的消息.OAIS和外部组织可提供额外的关联描述,能足够灵活地包容新描述,还需要协调数据管理系统和论文档案存储器之间的数据更新,提供合适的协调机制和错误恢复能力.

2.3 论文元数据存储和数据管理功能中的数据转换

论文元数据存储功能实体获取采集阶段产生的AIP并将其并入永久档案库存.数据管理功能实体则获取采集阶段产生的包描述并将其并入已有的集合描述中.这一阶段的数据转换主要是将采集阶段产生的逻辑数据模型映射为档案永久存储系统(比如DBMS数据库管理系统或HFMS层次文件管理系统)的存储格式.

OAIS的内部视图也就是存档信息的永久存储表示状态,故所有的编码和映射机制都已经完整记录下来.这里,数据转换过程主要是通过软件(如HFMS或DBMS)方式来实现的.在这种情况下,OAIS需要维持一个有效的数据转换软件或细致的内部格式文档,使得将来数据可以无丢失地移植到其他系统.

2.4 论文信息访问功能中的数据流和数据转换

当一个论文信息消费者想使用OAIS中的数据时,他可以使用查找帮助来定位感兴趣的信息.查找帮助可以给消费者展示一个本地化的相关结果库存视图,以方便消费者选择需要的AIP.为了创建这种帮助用户定位AIP或AIC的关联描述和查找帮助,OAIS需要消耗大量的时间和精力.在访问实体中,消费者需要创建一个搜索会话,在这个搜索会话中,消费者通过使用OAIS查找帮助来定位需求信息.这样的搜索过程往往是迭代往复的,首次进行宽范畴的搜索,再逐步缩小前一次的搜索范围直到找到满意的结果为止.

一旦消费者选准了需要的OAIS信息,他就可以使用订阅帮助来发送订阅请求.消费者可以定制数据发布会话的物理细节,如载体类型、对象格式等.订阅过程还允许消费者定制从AIP到DIP的转换细节.

访问功能还要通过数据管理功能获得订阅协议,仅当订阅协议的条件满足时,访问功能才处理订阅要求:向论文档案存储实体和数据管理实体发送AIP和相关包描述的请求,存储实体和数据管理实体则发送被请求对象的拷贝,访问实体再将收到的AIP和相关的包描述转换成一组DIP,并将这些DIP保存到分布式的物理媒介上,等待在数据发布会话中传递给消费者.根据OAIS提供服务的水平和消费者订阅要求的不同,这一转换过程的复杂度也有很大不同.最简单的情况下,DIP仅复制收到的AIP和包描述.最复杂的情况下,当OAIS提供划分子集服务时,信息对象的粒度都会发生变化,发布过程就要产生新的DIP和相关包描述.在没有任何转换的要求下,DIP和AIP之间的映射是一对一的,然而随着划分子集服务的使用,可能产生IP和AIP之间的映射不是一对一的,如多个DIP对一个AIP或一个DIP对多个AIP的情况.

3 结束语

电子文档是网络论文共享平台的核心信息资源,如何通过网络论文共享平台对电子文档进行一体化管理,如何实现信息基础设施的有效整合,以支持文档一体化管理,对于网络论文共享平台建设至关重要.网络论文共享系统元数据管理模型的建设是一个长期的过程,还有待于深入研究.

[1] NASA.Reference Model for an Open Archival Information System(OAIS)[S].CCSDS 650.-B-1.Blue Book.Issue 1.Washington D.C.January 2002:25-39.

[2] Busse S R D,Kutsche U Leser,Weber H.Federated Information Systems:Concepts,Terminology and Architectures[R].Technische Universit¨at Berlin,1999.

猜你喜欢

数据管理实体对象
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
CTCS-2级报文数据管理需求分析和实现
前海自贸区:金融服务实体
攻略对象的心思好难猜
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”