一种基于XML的异构数据集成共享模式研究
2019-09-10刘丽娜
刘丽娜
【摘 要】目前已经有很多企业和机构研究了异构数据集成共享问题,并取得了一定的效果,很好地缓解了“信息孤岛”带来的问题,但是大多数异构数据集成共享系统的研究方向主要是将不同源的数据信息进行物理上的集中存储与整合,或在逻辑上实现了统一访问共享,并没有对集成共享的异构数据信息进行内容上的整合。数据融合是实现数据信息共享的一种技术手段,以此为出发点,为了更好地提高数据信息使用效率,论文从数据融合的角度出发,研究设计了一种基于XML技术的异构数据集成共享模式,提供了一种异构数据高效融合的方法。
【Abstract】 At present, many enterprises and institutions have studied the problem of heterogeneous data integration and sharing, and achieved some results, which has alleviated the problem of "information island". However, the research direction of most heterogeneous data integration and sharing systems is mainly to store and integrate the data information from different sources in physical way, or to achieve unified access and sharing in a logical way. This does not integrate the content of heterogeneous data information that is integrated and shared. Data fusion is a technical means to realize data information sharing. Starting from this point, in order to better improve the use efficiency of data information, this paper studies and designs a heterogeneous data integration and sharing mode based on XML technology from the perspective of data fusion, and provides a method for the efficient fusion of heterogeneous data.
【關键词】异构数据集成;XML;数据共享
【Keywords】 heterogeneous data integration; XML; data sharing
【中图分类号】TP311.5 【文献标志码】A 【文章编号】1673-1069(2019)06-0191-02
1 异构数据集成共享模式
目前比较流行的集中数据集成共享模式主要有集中式集成共享模式、统一访问式集成共享模式、数据融合集成共享模式。本文主要对数据融合集成共享模式进行了详细研究。
1.1 集中式集成共享模式
集中式集成共享模式是指,使用数据采集工具,定制数据采集任务,自动化导入异构数据源数据信息,或将异构数据源数据打包成数据文件进行手工导入。然后将数据集中存储起来的一种数据集成共享方式。这种集成共享方式的优点在于可以将数据物理集中起来,方便后续进行统计挖掘分析。缺点是难以实现实时更新,对系统硬件环境要求较高,需要较大的数据存储空间,并且需要系统能够提供数据量持续增长对存储空间的需求。
1.2 统一访问式集成共享模式
统一访问式集成共享模式是指,异构数据源将数据访问接口封装成服务,集成共享平台通过访问异构数据查询接口,调用数据信息资源,从而实现异构数据信息逻辑上的集成共享以及统一访问,这种集成共享的模式好处在于可以实时获取数据信息资源,数据信息准确度和时效性很高,减少了对硬件系统的需求。
1.3 数据融合集成共享模式
数据融合集成共享模式是指,在集中式集成共享模式或统一访问式集成共享模式的基础上,在集成异构数据时,根据需求或业务数据源的特点对数据信息进行整合后,再进行集成共享的一种模式,该种模式能够提高数据信息集成共享后的可用性以及提高集成异构信息数据质量。
2 关键技术研究
2.1 XML
XML技术(Extensible Markup Language 可扩展标记语言)是一种由万维网协会创建的自我描述性的语言。创建XML的最为重要的目的是实现数据采用一种合适的文本方式进行传输,XML可以创建其他的语言和描述其他语言采用的数据结构,并且将其构成一个由标记符和属性描述的层次结构,这种自我描述的特性可以使XML具有自我解释的能力,更容易让系统理解和接收,同时由于XML语言具有文本特性,可以方便地进行运行维护和数据交换[1]。
2.2 Web Service
Web Service是一种跨编程语言和跨操作系统平台的远程调用技术。它是一种轻量级的信息处理技术,它使用SOAP(Simple Object Access Protocol)简单对象存取协议在Web上提供的软件服务,以WSDL(Web Services Description Language)文件作为说明文档,并通过UDDI(Universal Description,Discovery and Integration)进行注册。Web Service以HTTP协议为基础,通过XML进行客户端与服务器端的通信[2]。
3 异构数据融合实现方式
本文提出的异构数据集成共享模式是一种基于数据融合的集成共享方法,采用Web Service的面向服务的体系结构设计的系统。这里的面向服务的体系结构的含义是系统构成包括三种角色,即服务提供者、服务请求者以及注册中心。异构数据的融合主要通过按照XML标准进行数据转换来屏蔽底层数据源的异构性,并基于此建立异构数据融合注册中心。通过Web服务代理包装异构数据源,通过数据融合注册交换中心连接分布式的异构数据源,从而提供数据访问服务。
数据融合中心首先建立一個注册服务用来保存各数据源的连接信息、数据模式以及注册服务中心与各数据源之间的映射关系。由于XML具有跨平台性,所以采用XML技术进行数据之间的转换,可打破数据之间的异构性。这里采用基于模板驱动的映射,不需要事先定义好XML文档与其他数据之间的映射关系,而是在XML文档中嵌入带参数的SQL语句,这里的SQL语句可以根据用户显示需要拼接业务逻辑,这些SQL语句在数据交换过程中带入并被执行,SQL语句的执行结果获得到的数据集替换显示到指令所指的位置,从而生成目标XML文档。通过这种模式,将获得到的目标数据集返回到数据集成共享系统前端界面,可以实现从异构数据源融合集成数据的需求。
这种基于XML的异构数据融合集成方法比较适合业务数据量不是特别巨大,但是数据较为广泛地分散在不同的业务系统中,且对数据需求灵活多变的中小企业的信息系统。它不需要建立庞大的数据中心,不需要采购高性能的计算服务器,就可以实现多源业务数据融合集成,在数据集成过程中,不存在对数据的加工过程,很好地保证了数据的质量与可信度,对原有业务系统影响不大,建设开发成本较低,能够很好地提高企业数据集成共享效率。
【参考文献】
【1】胡泽,廖闻剑,彭艳兵.WebService技术研究及应甩[J].硅谷,2009(5):12+52.
【2】周晓清.基于SOA架构的企业应用集成研究与应用[D].成都:成都理工大学,2010.