针对面向多源异构数据的数据集成中间件的设计与开发
2019-06-11◆罗颖
◆罗 颖
针对面向多源异构数据的数据集成中间件的设计与开发
◆罗 颖
(广西交通设计集团有限公司 广西 530029)
随着企业竞争的日趋激烈,在企业经营和发展中数据的价值越发凸显。企业高层管理人员在进行最终决策的时候,数据所提供的技术支持成为影响最终决策的关键性因素。为此在分布、自治的环境下,将产业链上多源异构的业务数据进行全面的集成与共享成为数据分析的关键核心问题,也是大部分研究人员的研究方向和前提所在。本文探讨了针对面向多源异构数据的数据集成中间件的设计与开发,以期为相关从业人员的研究提供一定的方向和参考。
多源异构数据;数据集成;设计开发
0 引言
高速发展的现代信息技术使得经济全球化的程度不断加深,未来的发展趋势必然是信息化以及集群化。由此带来了企业间竞争方式的演变,尤其是我国市场经济“互联网+”的提出,企业间全方位的竞争使得大数据的价值得以凸显出来[1]。当前整合“小”数据,将节点从分散、分布的状态,整合成能够支持产业链各环节的“大”数据并提供有效的经营决策分析,是当前相关从业人员最为关心的关键问题。需要相关从业人员提供有效的手段,以解决数据的不完整性与数据的多源异构性这两大问题。本文正是在此背景下,基于分布、自治的环境下,为跨企业、跨部门的数据整合与集成提供核心技术,以面向多源异构数据的数据集成中间件为依托,完成跨平台的数据集成的实现。
1 多源异构数据集成中间件实现的关键需求
设计数据集成中间件的最终目标,是整合访问,进而实现统一平台环境下的多地多源异构数据,以便在产业链的决策中,提供全面的数据支持。在构成多源异构数据集成中间件实现的关键需求中,由于数据模式的描述往往是通过数据进行,因此异构数据是异构模式所导致的必然结果。为此多源异构数据集成中间件实现的关键需求的首要前提是解决模式的集成。首先需要在数据集成过程中对异构模式进行有效的数据源的屏蔽,并且在之后的描述中,对底层异构数据进行统一的公共模式表示。
在多源异构数据集成中间件公共模式中,由对象模式、文本模式、关系模式以及XML 模式共同作用,一起构成。在此公共模式的基础上,研究多源异构数据集成中间件实现的关键需求后,为实现模式集成技术体系,以及解决模式间冲突的消解问题和模式差异的屏蔽问题,实现公共模式集成难度的降低,提出“三类模式+两级映射”的模式。
在研究中将“三类模式+两级映射”描述为异构的局部模式、统一描述的输出模式、全局模式及其之间的映射规则。具体而言对本地模式的分布式异构数据源的描述称之为“局部模式”;对应“局部模式”,将对不同局部模式数据源数据的模式描述称之为“输出模式”;对应“输出模式”,将面向用户的虚拟全局数据集描述称之为“全局模式”。三种模式之间,两两映射,互相对应,具体过程如图1所示。
通过图1可以实现对输出模式间和数据源局部模式之间映射规则的预定义,从而将局部模式关联上具体的数据源结构,通过输出模式对各类异构数据的统一描述,解决了屏蔽模式差异问题。在此基础上,构建局部模式和输出模式的映射关系;构建全局模式和输出模式的映射关系;构建输出模式的公共模式的映射关系。以此三种关系,消解规则描述间的冲突。
2 数据集成中的关键核心
针对产业链分布式协作环境下业务数据的不完整性和多源异构性,在深入研究数据集成技术的基础上,提出一种分布式自主多源异构数据集成解决方案。并对其中的关键技术进行了研究,最后开发相应的跨平台数据集成中间件,以支持产业链上分布式多源异构数据的集成。
不仅如此在用户进行访问的时候,依据全局模式,用户请求被分作数个独立的异构数据源,在操作的时候需要通过映射规则,将全局模式同全局请求进行统一映射,以解除对局部模式的请求分解,并最终通过适配器,进行序列分配的实际执行。
总之,数据集成中的关键核心是针对面向多源异构数据的数据集成中间件的设计由来,以及具体实现,需要针对数据源的子查询命令序列进行全局模式的分解,以保障分解命令的准确无误。
3 优化设计和初步应用
综合上述分析,在进行针对面向多源异构数据的数据集成中间件优化设计的时候,需要具备以下功能:
(1)模式集成功能:由于数据集成者有必要集成异构的数据源,以借此实现对通过模式下的数据进行准确的描述,故而必须对数据的异构模式加以集成。
(2)统一通信功能:在完成对数据的异构模式加以集成后,基于不同软硬件平台,用户在访问的时候操作系统、网络协议各不相同,因此有必要通过统一的方式,对访问的异构数据资源进行高效管理,通过数据资源中心,透明异构数据源的数据,实现数据管理系统中各种分布的统一访问和操作。
(3)数据迁移功能:该功能时非常重要的数据集成环节,是数据集成者为了保证结果的正确性,而采取的按全局模式要求,通过统一通信方式,将数据结果片段迁移,进而获得数据源。
(4)集成管理功能:为了方便管理者通过中间件实现用户管理,必须在中间件中,设置不同的权限以分配给不同的用户,最终实现拒绝非法用户的访问,以及拒绝合法用户的非法访问。
(5)数据源通信适配功能:在数据集成的过程中,数据积分器可以通过匹配的数据源适配器来完成异构数据源的实际操作,以确保不同类型的异构数据源能够被操作。
(6)为了方便软件开发人员在此中间件的基础上开发,有必要保留服务开发接口和数据源适配器,以确保良好的可伸缩性和适应性。
(7)其他服务功能:确保数据安全通过网络传输,同时降低传输过程中的网络需求。
为实现上述七个功能,本文设计了中间件的总体功能,如图2所示。
图1 三类模式+两级映射的集成过程
图2 中间件的主要功能
中间件通过接口分为数据源层、服务层、服务总线层、应用层和层间通信集成四个层,不受各层具体实现方法的影响。只要层间接口不改变,实现方法就可以任意更换,大大增加了软件的可重用性,减少了层间耦合。如果未能成功调度,使用哈希图存储适配器与调度命令之间的对应关系。主要代码如下:
4 结论
综上所述,在针对面向多源异构数据的数据集成中间件的设计与开发中,依据现有数据集成的要求,在综合数据交互特点的基础,为解决行业产业链的数据集成,提出了基于中间件的数据集成思路。为此分析了多源异构数据集成中间件实现的关键需求以及数据集成中的关键核心,进而完成了中间件的功能设计,并对其初步的应用进行了简单的阐述。总之通过本文可以将多源异构数据的数据集成中间件推广并应用到其他分布式多源异构环境的数据集成中去,具有重要的现实意义。
[1]刘婧.基于元数据的多源异构海洋情报数据交互共享研究[J].情报杂志,2016,35(09):168-173.