基于XML的异构数据源集成系统研究
2013-09-12王红军
王红军,冯 娜
(天津职业技术师范大学天津市高速切削与精密加工重点实验室,天津 300222)
基于XML的异构数据源集成系统研究
王红军,冯 娜
(天津职业技术师范大学天津市高速切削与精密加工重点实验室,天津 300222)
为解决企业在实施信息化的过程中,因采用不同的数据管理系统,造成的企业异构数据源问题,提出了基于XML的异构数据源集成方案及其主要框架,并详细阐述了该系统实现的关键技术。
ERP;异构数据;集成;XML
随着计算机技术的发展,一些企业已经在多方面实现了信息化,但都不同程度存在着一定的信息孤岛,企业数据集成也从企业内部集成走向了企业间集成,因此,现在的企业比以往任何时候都更需要将内部数据进行发布和交换,而这必然导致越来越多的企业应用需要访问多种异构数据源,而且这些数据源可能分布在网络上的任何地方。为了满足这种需求,刘辉提出基于PDM系统的CAD集成系统的集成框架[1],解决了PDM与CAD数据同时更新的问题;东南大学研究的Versatile[2]则在虚拟数据集成方面取得了很大的成果。为更好地实现异构数据源的数据集成,有必要构建一种应用于制造业信息化的异构数据集成模型。
1 异构集成系统的建立
该集成方案中,考虑到原有系统的工作稳定性和业务的连续性,保留了原有客户端软件和各自的服务器。在信息部这个中心节点上再增加一台数据库服务器,用于各部门的数据汇总和交换,从而实现整个ERP系统的集成。其集成后网络系统结构如图1所示。
图1 集成网络体系结构图
该系统采用SQL语言,并吸收了传统关系数据库中有效的优化算法,以XML作为中间传送格式和最终输出结果。其主要优势是:(1)采用SQL语言会使用户感到十分方便,同时还可以利用SQL语言在操作关系数据库时的强大功能[3]。(2)该系统借鉴了许多传统数据库中的优化算法,并根据异构数据集成的特点,进行了修改或补充。(3)以XML作为输出结果,可以有效地与其他应用程序进行数据交换[4-5]。
在中间件研究的过程中,着重解决如下主要问题:
a.异构性。
异构性是企业异构数据集成必须面临的首要问题。主要表现在异构数据源和存储地点的异构。异构数据源是指数据的存储方式不同,关系数据库、文本文件就可以认为是异构的,SQL Server和Oracal也可以认为是异构的,因为它们之间很多数据类型是不同的;相同的数据类型的存取方式也可能是不同的,同样是SQL Server数据源,且表示相同的数据,如果表的结构不同,那么也是异构数据源,这种“异构”的概念重在表达存储形式上的不同[6-8]。存储地点的异构是指不同主机、不同操作系统、不同网络间的数据之间的差别,这种异构数据源的集成重在通信。本文主要解决的是异构数据源,也就是数据存储方式不同的异构。
b.性能。
网络的发展对传统数据集成方法提出了更高的要求。一般说来,当前应用必须满足轻量快速部署,即系统可以快速适应数据源改变和低投入。由于异构数据源集成过程中,可能需要通过网络进行传输,这就需要系统尽可能减少数据的传输量,从而提高传输的速度。另外,在对不同数据源集成的过程中,需要采用先进的快速算法,提高集成速度。
c.语义冲突。
信息资源之间存在着语义上的差别。这些语义上的不同可能引起多种矛盾,从简单的名字语义冲突(不同的名字代表相同的概念),到复杂的结构语义冲突(不同的模型表达同样的信息)。语义冲突会带来数据集成结果的冗余,干扰数据处理、发布和交换,所以如何减少语义冲突也是数据集成的一个研究热点。
d.基于Internet的集成。
随着网络技术的发展,所集成的数据源越来越分散,集成中间件不仅要集成一台机器上的数据源,可能还要集成局域网甚至广域网上的数据源。
异构性、性能、语义冲突以及数据源的多样性为异构数据集成中的共性问题。尽管对这些问题进行了分类,但是这些问题是相互联系、相互制约的,不能简单的孤立对待。
2 技术架构
企业对物流和信息流规定了一个统一的数据格式,然后将各部门的输出数据经过程序转换为统一的数据格式,通过网络上传到数据服务器,总部决策系统通过网络从数据服务器获取部门信息并进行分析,决策系统通过网络将数据传给数据服务器,供各部门共享,各部门之间的通信也通过数据服务器进行,并在此基础上进行扩充,从而构成企业的整个数据库系统。该系统是建立在数据库基础上的业务系统,每一个具体的业务对应一个业务基础数据库,通过业务基础数据库,应用程序层及子报表系统能够提取相关的数据,决策系统也可以通过决策信息数据库提取相关的数据,以形成辅助决策。整个数据库系统结构如图2所示。
图2 数据库系统结构
核心数据库只允许应用支撑平台和共享平台的直接接触,以保障数据的操作安全;核心数据库和交换区、应用区分开,以保障数据的存储安全。安全平台为每一个构件提供安全保障,管理平台管理每一个构件,为各级数据中心提供客户端软件。
本架构命名为“一库二区五平台”架构。一库是指数据库系统中的核心数据库,用来存储核心数据,主要包括元数据、文件数据、关系型数据库、非关系型数据库和多媒体数据。二区是指交换区和应用区,分别用来存储交换数据和应用数据。五平台是指共享平台、应用集成平台、应用支撑平台、管理平台、安全平台。
3 功能实现
a.实现跨系统、跨部门、跨企业的数据交换。
数据交换是指完整、安全、准确地将数据从发送方传送到接收方的全过程。数据交换只是数据传输的效果。从技术的角度来看,数据交换就是数据传输。数据交换要保证数据的完整性、安全性和准确性。数据在传输过程中是完整的,不会在传输过程中丢失,不会被窃取和泄密,不会被更改。数据在传输过程中被修改的危险性较大,例如,如果在传输中染上病毒,数据就可能被修改。
首先数据发送方将数据发送到数据中心,数据中心接收到发送方的数据后,首先要确定数据传输协议和数据传输格式。其次,数据中心按照确定的协议和格式进行数据封装、传输。同时,数据交换并不是一个简单的数据传送的过程,数据中心需要对数据进行管理和维护,例如数据的加密,防止数据重发、自动转发、数据的断点续传等,以保证数据传输的安全、完整、准确和高效。最后,数据中心将数据发送给数据的接收方。
数据中心的数据交换主要是实现跨部门、跨企业的数据交换,以及对数据交换过程进行管理。数据交换主要完成以下4个基本功能:提供多种数据交换接口、支持多种数据交换、完成数据传输和管理数据交换整个过程。数据中心支持多种数据交换的方式,从交换的层面上来说,包含数据层交换和应用层交换。数据层交换主要是指数据文件的交换,数据库与数据库之间的交换,以及数据层API格式的交换。应用层交换主要支持API交换格式。数据中心的数据交换还需要适应多种条件下的交换,主要包括定时交换和定量交换。根据交换过程中交换数据的量可分为批量异步交换和少量同步交换。要完成数据传输,首先接收要传输的数据,并支持网络方式或文件导入方式。其次要确定传输协议和数据传输格式,在数据进行传输过程中,数据中心要通过加密等多种方式来保证数据传输的安全。最后,数据以多种方式安全准确地送达数据接收方。数据交换接口主要包含XML文件导入导出接口、API接口、数据访问接口表、库对库交换接口、Socket交换接口等。
b.实现跨系统、跨部门、跨企业的数据共享。
各方把数据提供出来,让其他用户按照一定的规范使用,并对数据的变化进行维护。实现数据共享主要包括:公开数据、指导对共享数据的使用和维护共享数据的变更。数据提供方将需要共享的数据交换到数据共享区,对共享数据进行数据访问授权,并设置数据访问标准,对共享数据的变化进行维护,包括数据比对和数据同步等。
c.支撑数据跨系统、跨部门、跨企业的综合应用。
应用支撑是指数据中心为各种联盟电子商务专题应用系统的建设提供数据和功能方面的支撑,实质是实现数据使用方式的统一。应用支撑的主要功能有:数据组装、数据组装规则管理、数据同步、功能组装、功能组装规则管理。
4 保障数据安全
a.核心数据要在物理上与其他数据隔离存储。
数据中心的核心数据、交换数据、联盟电子商务专题的应用数据等要在物理上分开存储,便于重点保证核心数据的安全。核心数据的访问要进行严格控制,只允许指定的用户、系统和机器访问核心数据库,要彻底杜绝任何系统和用户在未经允许的情况下使用和更改核心数据。核心数据包括数据中心的系统配置文件、资源目录文件、元数据、基础数据库、业务规则数据等。
b.对数据进行授权访问控制。
访问数据中心的用户采用CA身份认证,以保证访问数据的合法性。控制数据来源既要控制数据的提供者又要控制数据去向。数据中心的管理员和主管部门的管理员能够对数据进行读取,方便各主管部门对数据流向的管理。
c.建设资源目录体系,实现对数据的统一管理。
数据中心首先是数据的集中存储器,通过整合各业务部门的数据资源,建立综合和全域的数据模型,为数据的跨部门、跨企业、跨地区共享交换提供数据源泉。数据中心对数据进行集中利用和集中存储,既可保障数据的安全控制,又可方便数据的异地集中备份,充分体现了数据中心的统一管理作用。
建立统一的共享资源目录体系,统一管理数据的属性、来源、去向,并在此基础上进行数据共享、交换、访问权限等管理,在保证数据的完整性和一致性的前提下,提高了数据的使用率和可管理性。通过统一标准和规范,可以整合现有各业务系统的数据,建立统一的应用平台,更好地发挥数据中心的数据枢纽作用,通过数据的共享、交换和应用将各业务系统联系起来,实现各系统间数据的互联、互通,形成一个统一的数据应用平台,从而实现数据的统一应用。建立的统一标准和规范,将为今后各类业务系统、数据中心的规划和建设提供遵循的依据、指导和规范。
5 集成系统实现
以汽车总装厂为例,集成系统运行界面如图3所示。
通过该系统,间接实现了企业各部门、各分公司之间的互相访问,各部门把共享数据放在共享区,通过设定的不同权限,不同部门之间实现了数据的互联、互通,形成一个统一的数据应用平台,从而实现数据的统一应用,并实现了数据的实时更新。
图3 集成系统运行界面
6 结束语
该系统平台所涵盖的内容较广,不仅包括企业管理上的数字化,也包括生产过程的数字化。因此必须通过实践不断研究,不断应用,并根据应用效果进行及时修正和提高。目前该平台已成功实施,为企业现代化发展提供了良好的环境和坚实的基础平台,并在数字化制造领域发挥着重要作用。
[1]刘辉.基于PDM系统的CAD集成技术研究[J].机械工程与自动化,2009(1):28-32.
[2]刘科研,万丽荣,曾庆良.基于XML的信息集成系统的研究与实现[J].计算机应用研究,2005(4):149-154.
[3]周丽娟,张居武,夏维舟.制造业信息化中异构数据的集成研究[J]. 电脑知识与技术,2012,8(28):6659-6661.
[4]王宁,王能斌.异构数据源集成系统查询分解和优化的实现[J].软件学报,2000,2(11):222-228.
[5]邓新莉,张四平,刘珊,等.基于中间件平台的异构数据交换与集成[J].四川兵工学报,2011,32(3):61 -63.
[6]李珊,谭跃生.基于XML异构数据源集成的研究[J].电脑知识与技术,2010,6(13):3305 -3311.
[7]丁勇,赵祖应.基于中间件的异构数据集成方法[J].江西科学,2012,30(1):103 -107.
[8]陈德结,步丰林,方夏虹.异构数据库系统之间的数据交换[D].上海:上海交通大学,2007.
A Study on Heterogeneous Data Integration Based on XML
WANG Hongjun,FENG Na
(Tianjin University of Technology and Education,Tianjin,300222,China)
There are a lot of data in product development process.Because many enterprises use usually different database management systems,this affects the data integration and becomes the heterogeneous data sources.It presents the framework for integration of heterogeneous data,illustrates the key implementing techniques in details.
ERP;Heterogeneous Data;Integration;XML
TH166
A
2095-509X(2013)11-0043-04
10.3969/j.issn.2095-509X.2013.11.011
2013-07-03
王红军(1971—),男,河北灵寿人,天津职业技术师范大学副教授,主要从事现代企业信息化方面的研究工作。