APP下载

云计算环境下信息资源的融合与集成

2011-11-14宋正德魏震方解放军海军兵种指挥学院广东广州510430

中国科技信息 2011年24期
关键词:信息源计算环境数据源

宋正德 魏震方 解放军海军兵种指挥学院,广东 广州 510430

云计算环境下信息资源的融合与集成

宋正德 魏震方 解放军海军兵种指挥学院,广东 广州 510430

本文在分析国内外在云计算环境下信息资源的融合与集成研究现状的基础上,提出了云计算环境下的信息资源的融合与集成方法,并对需要解决的问题进行了阐述,提出了解决方案。

云计算;信息融合;信息集成;本体

引言

信息融合(Information Fusion)是取得同一对象一致性的认识。信息集成(Information Integration)是形成不同对象相关联的整体。融合和集成的对象主要包括结构级和语义级。信息的融合和集成,本质上是数据的融合和集成,信息融合和集成的共性和最终目的是屏蔽数据源的复杂性,为用户提供单一的数据视图,而数据源可以分布在不同的地方,以不同的语义、格式存储,访问方法也各不相同。信息融合和集成中核心的问题是信息描述的标准化,主要解决信息的可理解性问题,包括人和机器对信息的理解。而且更重要的是机器对信息的识别,并能根据信息进行自动处理。

随着应用需求的不断增加,越来越多的用户希望能够透明地获取和处理来自这些海量信息源中的有用信息,实现多个软硬件系统以及不同信息源之间的互操作。然而,这些信息源物理上可能分布在异构环境的多个自治域中,有着不同的数据格式、存储方式、访问控制策略,逻辑上则可能在数据模型、操纵语言和数据语义等方面存在着很大差异[1]。同时,这些信息源的可共享性、共享方式、共享内容等也可能随时发生变化。异构信息服务系统可以屏蔽现在已有的各种异构数据管理系统不同的访问方法和用户界面,给用户呈现一个访问多种异构数据源的公共接口,提供一个集成处理多种数据源、整合多种数据查询结果的信息交互处理平台。

云计算是指在互联网上,信息提供者以服务的形式提供虚拟的信息资源,用户通过互联网按需获取可伸缩的信息资源[2,3]。它是一种全新的网络服务方式,它将传统的以桌面为核心的任务处理转化为以网络为核心的任务处理,利用互联网中的计算系统来支持互联网各类应用。云计算强调需求驱动、用户主导、按需服务、即用即付,用完即散,不对用户集中控制,用户不关心服务者在什么地方[3]。

1.国内外研究现状

国外相关的研究的主要有:IBM的DB2II (DB2 Infor-mation Integration)家族产品提供了访问各种各样、分布式的和实时的数据的能力;Stanford大学设计的Lore(Light-weight Object Repository)是一个专门用于管理半结构化信息的数据库管理信息系统[4];同样是Stanford大学设计的Ozone是一个可以对结构化和半结构化数据进行集成的模型[5]。国内相关的研究的主要有:东南大学开发的Versatile是一个基于CORBA的可扩展的异构数据源集成系统原型[6];中国科技大学开发的KD-IRIS系统[7],是为实现不同结构数据源(如关系、对象、空间地理数据库)间数据融合和信息处理需求设计;浙江大学开发的WrapperBase 是一个基于CORBA网络的Web信息集成系统[8],通过把各个网站的页面信息表述成特定结构模式的XML语言,并通过DOM解析把Web站点上的异构信息集成起来;中科院软件研究所提出的“基于本体的异构信息集成查询划分及转换”方法将全局查询划分为局域查询的方法,局域查询结果经过集成和转换后以统一的形式返回给用

户[9]。

目前对异构信息融合与集成的研究,侧重对结构化、半结构化和非结构化这种结构级的融合和集成,而在不同的信息源使用多种术语(词汇)表示同一概念;同一概念在不同的信息源中表达不同的含义;各信息源使用不同的结构来表示相同(或相似)的信息;各信息源中的概念之间存在着各种联系,但因为各信息源的分布自治性,这种隐含的联系不能体现出来等,这种语义级的异构的融合和集成鲜有成熟的方法和技术,语义级的异构的融合和集成是异构信息有效融合与集成瓶颈。

2. 云计算环境下信息资源的融合与集成

2.1 云计算环境下异构信息的本体表达

首先从功能、领域、行业等角度对异构信息进行分类和聚类,区分每个类别信息的异构类型。针对结构级异构,主要采用XML中间件技术进行标准化;针对语义级异构主要采取如下方面进行本体表达:Class(类):具有某些属性的个体的集合,对应于描述逻辑中的概念;subClassOf(子类):通过该原语定义一个类是另一个类或多个类的子类来创建类之间的层次关系,对应于描述逻辑中的概念包含;Property(属性):用来表示个体与个体之间或者个体与数值之间的关系,对应于描述逻辑中的角色;subPropertyOf(子属性):可以通过该原语定义一个属性是另一个属性或多个属性的子属性来创建属性之间的层次关系,对应于描述逻辑中的;domain(定义域):一个属性的定义域用来约束该属性适用的个体;range(值域):一个属性的值域用来限制哪些个体可以成为属性的值;Individual(个体):个体是类的实例,对应于描述逻辑中的x∈C。

2.2 基于本体的异构信息的融合

通过本体的方式描述每个信息源的语义,采用单本体作为一个全局本体为语义的形式化提供了一个共用的词汇库,所有的信息源都和这个全局域本体有关;通过多本体方法来对域的不同表示,用本体间的映射来确定不同信息源本体在语义上对应的术语,建立术语间的对应关系;基于本体和聚类分析的方法如下步骤:

2.2.1 从观测信息中选择一组样本;

2.2.2 定义特征变量集合以表征样本中实体;

2.2.3 通过本体之间关系来计算信息的相似性,并按照一个相似性准则划分信息集;

2.2.4 检验划分成的类对子集应用是否有意义;

2.2.5 反复将产生的子集加以划分,并对划分结果使用第4步,直到再没有进一步的细分结果,或者直到满足某种停止规则为止。

通过上述方法来来发现和处理冗余,发现冲突和消解冲突来对异构信息进行融合。

2.3 异构信息服务的无缝集成与互操作

Web Service提供了一个位于应用层和传输层之间的抽象层,为异构信息的工作流管理系统之间的集成和互操作提供了一个基础平台见图1。

异构信息服务的集成主要遵循如下原则:

基于云计算环境,面向跨空间、跨时间的工作流管理。

集成己有的各种信息服务资源,充分发挥这些资源的综合潜力。

信息服务系统的集成要面向业务流程,并考虑云计算环境下的新特点。

图1 异构信息服务的集成与互操作

Web Service提供的基于XML文档和SOAP的抽象机制,为系统中异构信息服务的集成以及提供透明的服务提出了真正的解决方案。基于这一技术可以满足异构信息服务系统之间信息服务集成的需求,Web Service使用基于文本的协议,与CORBA、消息队列技术等通信中间件支持的分布式应用相比,XML文档的解析将使基于Web Service分布式应用的性能降低

3.结语

近几年,云计算的发展越来越广泛,已经渗透的互联网的各个领域,世界各知名企业也都提出了自己的云计算发展战略,在信息资源的融合与集成机制上,更多的是应用在地理信息系统中,本文在分析国内外在信息融合与集成的研究现状的基础上,提出了云计算环境下的信息融合与集成方法,并对需要解决的问题进行了阐述,提出了解决方案,旨在使得互联网上的信息资源能更好的给使用者提供信息服务。

[1]Peter Fingar著.云计算21世纪的商业平台[P].北京:电子工业出版社,2009.11

[2]Cloud computing. [EB/OL]. http://www.ibm. com/developerworks/cn/web/ar-cloudaws1

[3]Anastasios Kementsietsidis,Marcelo Arenas.Data Sharing Through Query Translation in Autonomous Sources.In Proceedings of the 30th International Conference on Very Large Data Bases(VLDB 2004), Toronto, Canada, 2004: 468~479.

[4]Zachary G. Ives: Efficient Query Processing for Data Integation,University of Washington, 2002

[5]T Lahir,i S ahitebou,l JW idom. Ozone: Integration Structured and Semi-structured Data.Techniques University, 1999: 95~106

[6]王宁,王能斌.异构数据源集成系统查询分解和优化的实现[J].软件学报, 2000, 1: 222~228

[7]岳丽华,韩恺,龚育昌.异构数据源集成系统KD-IRIS[J],计算机科学, 2001, 28: 252~255

[8]吴啸鹏等.WrapperBase:基于CORBA网络的Web信息集成系统[J],计算机科学, 2001, 28: 264~268

[9]李剑,宋靖宇,钟华.基于本体的异构信息集成查询划分及转换[J].软件学报, 2007,18:2495~2506

10.3969/j.issn.1001-8972.2011.24.050

猜你喜欢

信息源计算环境数据源
云计算环境下船舶无线通信网络入侵检测方法
云计算环境下网络安全等级保护的实现途径
睡眠者效应
新媒体时代,记者如何正确使用信息源
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
大数据云计算环境下的数据安全
基于真值发现的冲突数据源质量评价算法
云计算环境下电子书包教育应用创新研究
美国智库对华军事研究的信息源分析——以兰德公司2000~2013年报告的引文分析为例