APP下载

装备制造业服务平台异构数据模型研究与设计①

2015-04-14刁树民李美珊张晓勇金喜波

关键词:数据表数据源异构

刁树民,李美珊,张晓勇,金喜波

(1.佳木斯大学信息学院,黑龙江 佳木斯154007;2.黑龙江省政府信息中心,黑龙江 哈尔滨150030)

0 引 言

在装备制造业高度信息化时代,产业协作链需要聚合协同设计和协作生产企业生产基础数据资源.大多行业盟主企业经过多年的发展,积累了丰富的生产和管理数据,可以通过装备制造业协作服务平台供盟员企业共享.但是由于历史发展不同,企业数据都按自有特征存放,存储形式多样化,大致为自定义的、异构分布数据.因此,各种数据库结构的差异,操作平台的差异、概念和术语的差异等问题,为今天的大数据共享设置了障碍.面对这样的异构数据,信息服务平台就要对来自不同的异构数据源的信息进行处理和集成,存储于一个语义一致的数据库中,使异构数据变成公认的同识数据.本文依据数据处理方法结合实际经验,对分布于异地、跨平台的异构数据源进行集成,按照某种数据转换规则,最后把标准格式数据加载到目标数据库中.

1 异构数据交换功能分析和设计

1.1 异构数据交换功能分析

异构数据交换需要完成数据析取和转换两大功能.首先进行数据析取,主要是确定数据源和采集原始数据两个作用.数据析取的实现设置一个数据接口完成,析取的数据分布于不同的外网、操作平台、数据库和数据文件.然后,通过分析不同的数据源,对各种元数据的分析,为后续的数据转换过程奠定基础.其次,数据转换功能主要解决数据的规则定义和数据格式的转换问题[1].

总之,完成异构数据交换主要需要以下四个步骤:

(1)连接异构数据源

首先确定源数据库,然后进行连接操作;根据用户定义的异构数据类型、数据传递方式和验证信息,获得准确的异构源数据的必要信息.连接后,可以执行析取异地远程数据功能;然后缓存到元数据库中.

(2)设置析取规则

第一步设置过滤条件;依据用户需求定义字段过滤条件表达式,编写字段之间的内在联系,确定最终的过滤条件;然后分析和设定分组;给出分组表达式,把析取的关联字段给予有序分组;最后设计排序规则;分析和编写排序表达式,选择相关字段为升序或降序序列.

(3)数据清洗

此功能是全面对异构元数据执行有效性检查,发现无效记录、重复记录、数据项不全的数据进行清理.在数据清洗与应用行业领域相关性很强,通用性受到局限,注重对重复记录的清除和缺失数据的补充.

(4)转换规则的制定

该功能是将析取的数据信息按照元数据库中标准数据表信息转换到目标数据库,包含一些数据操作:过滤、合并、汇总、转换等.数据加工必须遵循数据的确定性、可靠性和完整性,为后续过程保证正确支持[2].

1.2 异构数据交换系统架构设计

按照上述分析,将异构数据交换系统分为3 个过程:源数据、转换数据、目标数据;重点是转换数据部分(见图1).

图1 异构数据交换系统架构设计示意图

系统架构图中数据转换模块部分把源数据和目标数据隔离,即数据集成功能对图1 中源数据库进行数据析取操作,再由数据转换模块执行数据转换功能,然后把结果数据载入到目标数据库中.在数据转换三步曲中:抽取、转换、加载,均有元数据库的元数据作为重要参数介入转换.用户制定转换要义,转换过程可以从元数据模型得到目标数据库的标准数据构造要素,用户只需在定义界面上确定析取规则、转换规则、装载规则等规则,定义从源数据到目标数据的相关字段映射等内涵关联,之后把系列规则和关系加到元数据管理模型中.通过用户自定义若干规则和关系,与数据库共同交互完成数据交换业务.

1.3 数据处理流程

本系统异构数据集成流程(部分)设计如下见图2:

数据转换过程首先由系统验证远程源数据库;确认后,马上析取源数据库和目标数据库的映射数据表相关字段数据,元数据的关键信息以直观的用户界面执行对应显示;在数据抽取步骤中,确切定义必要的析取规则来确定相关的析取数据特征;如定义投影字段、选择过滤条件、选择分组条件和选择排序条件等;然后,将抽取数据暂存入元数据库中,临时集中等待处理;第三步由系统执行转换过程,此过程用户通过设置程序算法、计算公式和转换函数等相关衍生定义来完成有效的数据映射,涉及相关字段合并与拆分、若干字段的语义集合、内涵关系、处置重复记录、缺省值发现等处理操作;完成以上操作后就能获得规范的、符合的标准数据,也就是获得了需要装载的数据.在标准数据加载过程中,通过系统设计的拖拽的技术建立源数据库和目标数据库之间的转换规则,逐步转换到最终数据库中.

1.4 基于Web Services 数据集成模块

本系统以Web Services 作为基础架构的数据传输技术,负载异构数据的数据集成.图3 描述了本架构的数据集成模块总体功能.本架构整体涵盖了多个分布的异构子模块和相关数据转换模块.远程异构子模块通过Web Services 服务器实现数据转换功能,程序模块隐藏了转换过程全部细节,仅提供接口参数;它能执行数据转换操过程的请求、及时响应操作.由此可见,它是通过Web Services抽取数据,然后向下一步的数据转换过程提供源数据.数据集成模块构架如下图图3:

图2 数据转换流程图

图3 数据集成模块构架示意图

1.5 Web Services 元数据管理模块

元数据含义是符合目标数据特征的中介数据,关系标准数据的构造、内涵、位置、状态和其它属性信息.元数据本身表达了数据的要素,对数据属性进行了合理描述,即可完成对数据的快速定位与高效管理.

元数据管理业务流程如图4 所示;首先通过用户接口模块连接元数据库,用户通过元数据读取模块功能访问元数据库,方便为抽取数据时提供企业数据库的抽取数据.得到数据样本或者客户端异构数据源返回的信息来进一步完善元数据的属性要素,利用元数据配置和写入模块来完成元数据管理.

图4 元数据管理模块示意图

元数据可以对装备制造行业的分布式异构数据实施集中布局.首先元数据库应用成熟的关系数据库工具(Oracle,SQL Server,DB2 等)创建一个数据库,存储目标数据属性信息;然后依据行业用户元数据标准定义并且创建符合要求的数据表;产生的标志性目标数据表就是行业联盟分布式异构数据的元数据信息表(DATA_SOURCE_INFO),涵盖企业分布式异构数据构造的全部标准字段特征要点.系统元数据特征的描述贴近度可以波及行业用户对元数据的认识程度,同时也罗列出对此元数据说明的数据与其他数据本质区别特点[3].

2 异构数据交换系统的实现

2.1 系统开发环境

开发环境配置:Java 语言:JavaSE6.0;开发工具:eclipse 4.1;应用服务器:Tomcat 6.0;开发框架:Struts 2.3 +Spring 3.1 +Hibernate 4.1.

服务器端配置的操作系统:Windows7;数据库:MySQL 6.1;应用服务器:Tomcat 6.0;运行支撑:JDK 6.

客户端配有操作系统:Windows7;IE 浏览器6.0 以上.

2.2 Web Services 的实现

网络平台服务器端或用户客户端处于何种状态,WebServices 都能提供了一个与平台无关的、面向消息的、基于分布式的作用,系统Web 功能定会发挥自定的方式连接远程客户端接口.并以Web技术方式设计的应用程序,足以创建功能更强大的Web 服务,并使用WebServices 应用程序作为整体功能作用.利用其功能特点,本模块使用Web Services 来包装行业群分布式异构数据源;本系统实际利用eclipse 4.1 开发,JavaSE6.0 语言,MySQL 6.1作为元数据库.

2.3 异构数据交换的实现

2.3.1 数据析取功能的实现

数据集成模块是从各个外数据源中析取数据,对这些数据进行规范,完成该功能的函数:(1)合并字段函数public boolMerge():将源数据库中的多个字段的值合并成一个字段的值加载到数据仓库中;(2)字段拆分函数publicboolSplit():把源库数据表中的对应字段属性值分解出若干个字段值加载到目标数据库中;(3)衍生变换函数publicboolCreateTable():依据析取规则将源库数据表中的关键字段及其属性值抽取出来创建新的数据表.

2.3.2 数据转换功能的实现

系统数据集成是对行业企业群数据进行再转换的过程,仅仅依靠系统需求按照定义转换规则面对源库中多个表、多个字段统一执行操作,通过定义的引用来实现转换规则的定制,从而达到用户需求标准数据的状态和规范.

具体工作是由用户设置好投影条件、过滤条件、分组条件和排序条件,数据转换功能实现函数是:public string GenaralQueryMysql(DataTypetheProjeet,DataTypetheFilter,DataType theGroupBy,Data-Typethesort);其中:theProjeet 参数设置了投影的字段,theFilter 参数设置了的过滤条件,theGroupBy 参数设置了分组条件,theSort 参数设置了排序条件.

2.3.3 数据装载功能的实现

在选择了源数据库表字段和目标数据库表字段后,而且设置好了它们之间转换规则之后,源数据就可以转换为目的数据,执行成功数据即可加载到目标数据库中.其装载接口函数的功能即可完成数据装载,该函数Public BoolImportData()功能:实现源数据库数据与目标数据库数据的装入与加载.

3 总 结

通过对异构数据交换技术的研究,加深了对Web Services 体系结构的了解和应用,对异构数据库技术和元数据技术的开发应用及应用过程有了初步的运用.完成了基于Web Services 对SQL Server、Oracle、等数据库的数据析取,基于本系统功能对源库异构数据转换的实施,创建了操作快捷、功能强大、界面清晰的数据集成转换工具.

[1] 杜思峰.数据交换平台中异构数据转换技术的研究[D].西安:西安工业大学,2011.

[2] 洪东忍.基于水厂数据仓库系统的ETL 技术研究[J].云南民族大学学报,2012,(05):365-369.

[3] 钱大君,吴健平,余柏莨,等.基于元数据和web Service 的分布式异构数据共享平台的体系与实现.中国科技论文在线:http://www.paper.edu.cn.

猜你喜欢

数据表数据源异构
试论同课异构之“同”与“异”
湖北省新冠肺炎疫情数据表
基于列控工程数据表建立线路拓扑关系的研究
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
overlay SDN实现异构兼容的关键技术
LTE异构网技术与组网研究
基于真值发现的冲突数据源质量评价算法
图表
在新兴异构SoCs上集成多种系统