APP下载

多源信息融合研究综述

2015-12-06余肖生田智星

重庆理工大学学报(自然科学) 2015年12期
关键词:数据仓库数据源视图

余肖生,田智星,余 梅,2

(1.三峡大学计算机与信息学院,湖北宜昌 443002;2.武汉大学信息管理学院,武汉 430072)

目前,全球信息量以每年30%的速度增长,且这个速度还将上升[1]。大数据已成为各行业发展面临的“新常态”[2]。随着网络技术的发展,越来越多的互联网或企业内部网的可用数据源通过网络连接,通过一个一致的接口访问这些信息源的所有需求已成为信息融合领域研究的背后推动力量[3],而信息源中的数据呈现出异构性、分布性、自治性等特点[1]。在大数据环境下,如何高效地进行信息融合已成为信息资源有效利用的主要瓶颈。国内外学者在信息资源融合方面进行了有效的探索,并取得了一定的研究进展。本文从信息融合架构、信息融合模型、信息融合方法、信息融合技术、信息融合层次等5个方面对信息融合领域进行总结和分析,指出该领域研究的主要特点和趋势,以期对信息融合领域的研究发展提供一些借鉴和启示。

1 相关研究

信息融合是为综合信息系统的用户提供多个数据源的统一视图的过程[4]。从数据的来源看,既有来自传感器的流媒体数据,也有来自互联网的半结构化或非结构化数据,还有来自各类数据库的结构化数据。本文主要针对结构化数据的融合架构、模型、方法、技术等进行综述。

1.1 信息融合架构

目前的信息融合基本架构主要有2种,即虚拟化架构和物化架构。在虚拟化架构中,一个数据融合系统可以形式化地定义为一个三元组〈G,S,M〉,其中G是全局或中介模式,S是异构源模式集合,M是源和全局模式之间查询的映射[5-6]。在虚拟化环境中,数据存在于单独的数据源中。虚拟层是一个属于所有数据来源的虚拟模式。当系统收到虚拟层定义的用户查询时,先判定将被查询的相关数据源,然后根据不同的数据源将查询分解成不同的子查询。子查询由合适的数据源执行,再将各数据源响应的结果进行适当的结合后返回用户[7]。这种架构的优点在于返回给用户的数据总是当前最新数据。然而,最大的挑战是如何定义每个数据源和虚拟层之间的映射[8]。虚拟化架构的设计和实现有2个主要策略,即全局视图(GAV)和本地视图(LAV)。GAV是将各本地数据源的局部视图映射到全局视图,即全局模式被描述为源模式上的一组视图,如图1所示[9-10]。用户查询直接作用于定义在数据源模式上的全局视图。GAV的优点是查询效率较高,缺点是用这种方法构建出来的映射关系的可扩展性较差,不适合数据源存在动态变化的情况。LAV是将全局视图映射到各数据源上的本地局部视图,即各数据源模式被描述为全局模式上的视图,如图2所示。当用户提交某个查询时,中介系统通过整合不同的数据源视图决定如何应答查询。这种方法可看作利用视图回答查询。该方法的优点是映射关系的可扩展性好,适合于信息源变化比较大的情况,缺点是可能会造成“信息遗失”、信息查询效率低。考虑到LAV和GAV固有的局限,很多研究者试图创造一种包含两者优势、同时可克服两者劣势的“混合”方法,即GLAV[11]。

在物化架构中,将数据在全局层面进行实体化通常应用于数据仓库,且没有任何非结构化信息。该架构面临的挑战是一系列实体化视角的选定,另一问题是增量视图的维护。当底层数据源发生改变时,需要一个有效的方式维持实体化视图。数据仓库方法合并来自多个源数据的数据库,数据必须经过抽取、转换、加载(ETL)才能进入数据仓库。数据仓库在解决数据融合问题的同时,也存在自身的问题。数据仓库的主要难点是维护数据仓库和底层数据源之间的同步。一般地,有2种主要方法用于解决该问题:①周期性地重建整个数据仓库;②检测来源的变化,然后相应地更新[7]。

图1 GAV

图2 LAV

1.2 信息融合模型

Kangchan Lee等[12-13]根据互联网信息资源融合需求,提出了基于XML的中介框架(XMF)模型。它采用中介器-封装器体系结构,使用XML描述信息资源和映射规则,为最终用户提供一个融合的基础信息来源;王宁[14]以E-R-P信息管理模型为基础,提出了以实体管理、关系管理、问题管理以及元数据管理为核心组件的信息资源整合平台;黄萃[15]以电子政务信息流程为基础,构建了基于门户网站的电子政务信息资源整合机制模型;Ananthanarayanan等[16]为跨多个非结构化的数据源提供了一个数据驱动的相似性发现方法,以便被发现的信息能与现有结构化信息的模式融合,从而允许同时在结构化和文本数据上查询;文献[17]提出了基于本体的信息融合模型[17];Brzykcy[18]在 SIXP2P 系统中提出了基于XML数据的语义融合模型;Kim等[19]提出了模型驱动的数据融合(MDDI)模型,通过分离数据和元数据降低了数据融合的复杂性,从而有效地解决了数据整合的问题;张玉涛等[20]提出了基于主题图的电子政务信息资源整合模型,并对模型在Metamorphosis主题图环境中的处理流程和实际实施进行了初步的探讨;罗贤春等[21]提出了基于共享目录的电子政务信息资源整合模型。

1.3 信息融合方法

基于中介器的方法[22]:该方法是被许多融合框架采用的最著名的方法之一。它提出了中介器的使用,一个系统负责把一个单一模式上形成的用户查询重新表述成底层数据源在本地模式上的查询。这些数据源包含实际的数据,而全局模式提供了底层数据源的一个协调、融合、虚拟的视图。映射可以通过采用GAV或LAV来完成。当融合的数据源是已知和稳定时,宜采用GAV;而融合的数据源是大规模和临时时,宜采用LAV。

基于本体的方法[23-25]:语义(数据融合的一个重要组件)的普及为基于本体的方法做了铺垫。协调跨多个概念的异构模式中本体的使用已经被语义网研究社区广泛关注。该方法以数据对象为基本元素,利用数据对象和领域本体之间的映射关系来表达数据对象的语义,使用嵌套关系模型来表达数据对象的模式信息,通过把一个网格节点中集成的所有数据对象作为下一个节点的数据对象来实现数据资源由粗到细的融合。

基于导航的方法:也被称为基于链接的方法[26]。它基于这样一个事实:网络上越来越多的数据源要求用户手动浏览一些网页,以获取所需的信息。纯导航融合消除了数据的关系建模,在这个模型中,数据源被定义为网页、它们之间的联系和具体入口点的集合。另外,还包括一些附加信息,如内容、路径约束和强制输入参数。在深网络的信息融合中,这种方法被认为是至关重要的[27],它需要抽取隐藏在 Web查询接口后的数据。然而,维持以一定速度变化的网络资源之间的关系是一项艰巨的任务,在当前网络环境下,这种方法被认为不可行。

联邦数据库方法[28]:开发的前提是回答查询所需的信息直接来自数据源。因此,查询结果发布时,其总是关于数据源的最新的内容。更重要的是,数据库联邦方法更易适应应用程序要求用户能够强加自己的本体到分布式自治信息源的数据上的情形。当数据源是自治的,并需要支持多个本体时,联邦方法是首选。然而,当查询频率远高于底层数据源的变化频率时,这种方法是失败的。

基于数据仓库的方法[29]:该方法的基础是传统的数据仓库技术。来自异构的分布式信息源的数据映射到一个共同的结构并存储在一个集中的位置。为了确保数据仓库中的信息能反映单个数据源的当前内容,有必要定期更新数据仓库。

1.4 信息融合技术

信息融合主要涉及冲突解决、数据合并等技术。数据冲突主要有2种类型:不确定性和矛盾。不确定性是所有用来描述现实世界实体的相同属性的一个非空值和一个或多个空值之间的冲突。不确定性由于缺少信息(例如在一个数据源中的空值或数据源中完全缺失的属性)而引起。矛盾用来描述相同实体的同一属性的两个或两个以上的不同的非空值之间的冲突。矛盾是现实世界实体的相同属性由不同数据源提供了不同的值而引起的。解决数据冲突的策略主要有冲突忽略策略、冲突避免策略、冲突解决策略[3]。数据合并技术主要有连接、并等关系运算符。然而,它们不能很好地处理数据合并。因此,产生了为完成数据融合而特别设计的操作符,例如匹配连接(match join)[30]、完全析取(full disjunction)[31-32]。另外,还有模式匹配和模式映射等相关技术。

1.5 信息融合层次

信息融合是在几个层次上完成对多源信息的处理过程,其中每一层次都表示不同级别的信息抽象。信息融合的结果包括较低层次上的状态和身份估计,以及较高层次上的整个战术态势估计[33]。曹建君[34]将信息融合划分为原始数据融合或像元级融合(pixel based)、目标级或特征级融合(feature based)以及决策级融合(decision leve1)3个层次。Hu Jiaqi[35]把信息融合划分为数据层融合、特征层融合、相似度层融合和决策层融合4个层次。

2 发展趋势

2.1 物理化:信息融合的新趋势

从研究现状看,信息融合的架构主要有虚拟化和物化2种。物理化已成为互联网发展的新趋势[36]。基于数据仓库的信息融合方法根据决策需求抽取来自不同数据源中的相关数据,将其转换成数据仓库中数据的统一格式,并储存在一个集中的位置。大数据环境下,这一信息融合的物理化方法已经逐步成为信息融合的主流方法。

2.2 大数据:信息融合的新常态

目前,中国移动互联网用户数已经超过5亿,流量几乎每年翻番。大数据、物联网等技术和应用从概念上的讨论变成了现实[37]。为了准确获取用户行为习惯,需要从这些大数据中融合与用户行为相关的数据,并加以处理、分析。大数据已成为信息资源融合的新常态。

2.3 全自动化:信息融合的新挑战

现有信息融合的步骤较多,且通常非常复杂,整个融合过程的每一步都需要大量的人工干预。同时,信息融合过程非常脆弱,如果融合对象中的某一个数据源的结构发生变化,则整个融合过程需要重新设计。因此,现有方法效率较低,错误也不可避免。实现人工可控、系统自主的全自动化的信息融合已经成为用户的新期待,也是信息融合领域发展的新挑战。

[1]XIN LUNA DONG,FELI NAUMANN.Data fusion-resolving data conflicts for integration[C]//VLDB 2009.France:[s.n.],2009,1654-1655.

[2]JORGE A.LOPEZ.Data Integration:2013’s Top 3 Trends[EB/OL].[2015-02-12].http://tdwi.org/Articles/2013/01/08/Data-Integration-2013-Top-Trends.aspx?Page=2.

[3]BLEIHOLDER J,NAUMANN F.Data fusion[J].ACM CSUR,2008(1):1-41.

[4]BLEIHOLDER J,SZOTT S,HERSCHEL M.Subsumption and Complementation as Data Fusion Operators[C]//EDBT 2010.Switzerland:[s.n.],2010:513-524.

[5]LENZERINI M.Data integration:a theoretical perspective[C]//PODS 2002.USA:[s.n.],2002:233-246.

[6]XU L,EMBLEY D W.Combining the Best Globa-as-View and Local-as-View for Data Integration[C]//ISTA 2004.[S.L.]:[s.n.],2004:123-135.

[7]BENNETT T A,BAYRAK C.Bridging The Data Integration Gap:From Theory to Implementation[J].ACM SIGSOFT Software Engineering Notes,2011(3):1-8.

[8]MOHANIA M,BHIDE M.New Trends in Information Integration[C]//ICUIMC2008.Korea:[s.n.],2008:74-81.

[9]AMIT P S,JAMES A L.Federated Database Systems for Managing Distributed,Heterogeneous,and Autonomous Databases[J].ACM Computing Surveys,1990(3):183-236.

[10]ALON Y H,RAJARAMAN A,JOANN J O.Data Integration:The Teenage Years[J].VLDB,2006:9-16.

[11]XU L,EMBLEY D W.Combining the Best Globa-as-View and Local-as-View for Data Integration[C]//ISTA 2004.[S.L.]:[s.n.],2004:123-135.

[12]KANGCHAN L,JAE HONG M,KISHIK P,et al.A Design and Implementation of XML-Based Mediation Framework(XMF)for Integration of Internet Information Resources[C]//HICSS 2002.USA:[s.n.],2002:202.

[13]SEONG-JOON Y,KANGCHAN L,KYUCHUL L.An XML-Based Mediation Framework for Seamless Access to Heterogeneous Internet Resources[C]//ICOIN 2003.Korea:[s.n.],2003:396-405.

[14]王宁.电子政务中信息资源整合的建模方法与应用研究[D].大连:大连理工大学,2005.

[15]黄萃.基于门户网站的电子政务信息资源整合机制研究[D].武汉:武汉大学,2005.

[16]ANANTHANARAYANAN R,BALAKRISHNAN S.Unstructured information integration through data-driven similarity discovery[C]//IJCAI 2009.USA:[s.n.],2009:1-6.

[17]马小军,李广建.基于本体的数字资源整合方法与技术[J].情报科学,2010(10):1541-1546.

[18]BRZYKCY G.Data Integration in a System with Agents’Models[C]//KES-AMSTA 2008.Korea:[s.n.],2008:162-171.

[19]KIM H,YING ZHANG,SAMIA OUSSENA,et al.A Case Study on Model Driven Data Integration for Data Centric Software Development[C]//DSMM2009.USA:[s.n.],2009:1-5.

[20]张玉涛,夏立新.基于主题图的电子政务信息资源整合模型研究[J].情报杂志,2009(7):161-165.

[21]罗贤春,文庭孝,张新宇.电子政务信息资源共享与社会化服务研究[M].北京:人民出版社,2012.

[22]LIU L,PU C,LEE Y.An Adaptive Approach to Query Mediation AcrossHeterogeneousInformation Sources[C]//CoopIS 1996.Belgium:[s.n.],1996:144-156.

[23]NOY N F.Semantic Integration:A Survey Of Ontology-Based Approaches[J].SIGMOD Record,2004(4):65-70.

[24]DOERR M,HUNTER J,LAGOZE C.Towards a Core Ontology for Information Integration[J].Journal of Digital Information,2003(1):1-22.

[25]刘波,齐德昱,林伟伟,等.基于本体的语义数据融合方法[J].华南理工大学学报:自然科学版,2009(1):96-101.

[26]FRIEDMAN M,LEVY A Y,MILLSTEIN T D.Navigational Plans For Data Integration[C]//AAAI/IAAI 1999.USA:[s.n.],1999:67-73.

[27]HE B,PATEL M,CHANG C C,et al.Accessing the Deep Web:A Survey[J].Communications of The ACMCACM,2007(5):94-101.

[28]SHETH A P,LARSON J A.Federated Database Systems for Managing Distributed,Heterogeneous,and Autonomous Databases[J].ACM Computing Survey,1990(3):183-236.

[29]FLORESCU D,LEVY A,MENDELZON A.Database techniques for the world-wide web:A survey[J].SIGMOD Record,1998(3):59-74.

[30]YAN L L,ÖZSU M T.Conflict tolerant queries in AURORA[J].IEEE Computer Society,1999(1):279.

[31]COHEN S,FADIDA I,KANZA Y,et al.Full disjunctions:Polynomial-delay iterators in action[C]//VLDB2006.Korea:[s.n.],2006:739-750.

[32]COHEN S,SAGIV Y.An incremental algorithm for computing ranked full disjunctions[C]//PODS 2005.USA:[s.n.],2005:98-107.

[33]化柏林.多源信息融合方法研究[J].多源信息融合方法研究,2013(11):16-19.

[34]曹建君,李景相,蔡喜琴,等.基于信息融合理论的省情信息融合研究[J].遥感技术与应用,2006(4):368-371.

[35]HU Jiaqi.DATA FUSION:A FIRST STEP IN DECISION FORMATICS[D].Troy:Rensselaer Polytechnic Institute,2008.

[36]张亚勤.互联网物理化已经成为新趋势[N].人民日报,2015-01-08(19).

[37]邬贺铨.移动互联网已进入“大智移云”时代[N].人民日报,2015-01-23(20).

猜你喜欢

数据仓库数据源视图
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
Web 大数据系统数据源选择*
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
基于不同网络数据源的期刊评价研究
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践