浅谈数据集成相关技术
2015-07-02陈飞杨秋红
陈飞+杨秋红
(1.中国电子科技集团公司第四十一研究所 安徽蚌埠 233006;2.装甲兵学院 安徽蚌埠 233000)
摘 要:随着信息化的普及、推广及建设,更多的信息系统投入使用,一方面提高了工作效率、带来了经济社会效益,但另一方面因为信息系统独立、数据源分布异构等原因形成了越来越多的“信息孤岛”现象,为了解决“信息孤岛”问题,数据集成成为一种重要的解决方法。数据集成技术目前已成为社会研究和讨论的热点领域,数据集成的好与坏直接影响信息化建设速度。该文首先阐述了数据集成的产生及作用,其次介绍了一种通用的数据集成模型框架,基于此模型框架从数据质量的角度对ETL(Extraction数据抽取、Transformation数据转换、Loading数据加载)及数据清洗等关键技术进行了研究和介绍,对数据集成的普及和推广有指导意义。
关键词:数据集成 数据仓库 ETL 数据清洗
中图分类号:C931 文献标识码:A 文章编号:1672-3791(2015)03(b)-0030-01
随着信息化技术的飞速发展,从一开始的手工流程电子化到人工流程自动化,再到现在的企业管理信息化,越来越多的独立信息系统造成了“信息孤岛”现象。“信息孤岛”束缚了企业的发展,制约了企业信息化需求,因此数据集成技术应运而生。
数据集成技术是解决“信息孤岛”问题的重要方法。数据集成就是将多个分布的异构数据源,按照一定的规则逻辑或物理地集成到统一的数据集合中,对应用系统提供查询接口,用户可以直接查询利用所需的分布异构数据,而不必去关心底层异构数据的差异。数据集成的好与坏就是看用户能否以最小的代价,高效地利用这些分布异构数据,满足企业需求。
1 数据集成模型
该文以一种通用的数据集成模型为基础进行阐述,该模型展示了从分布异构数据源中抽取、转换、清洗、加载数据和建立数据仓库提供数据支撑整个数据集成过程,如图1所示。
该模型框架中主要包括三个部分:数据源、数据集成、数据利用。
(1)数据源:数据源可以是分布的、异构的数据库,如Access、XML、SQL Server、Oracle等,它们提供各种信息数据资源供集成利用,是数据集成模型的基础。
(2)数据集成:该部分是数据集成模型的核心,通过ETL进行数据集成,通过数据清洗保证数据质量,进而建立数据仓库,为各种应用系统提供数据支撑。
(3)数据利用:数据的价值就是为用户提供利用,该部分就是通过应用系统实现数据集成过程产生的数据的价值。
2 关键技术
如图1所示,数据集成部分是数据集成模型是否可以发挥作用的关键,也是对数据集成质量的重要保证,它包含了数据抽取、数据转换、数据清洗和数据加载等关键技术。下面对这些技术展开重点阐述。
(1)数据抽取。
数据抽取就是将数据仓库所需的数据从分布的异构数据源中抽取出来。由于各个数据源内的数据的结构、标识、及时性、准确性和可靠性等都可能不同,因此针对每个数据源都需要建立数据抽取流程。抽取流程一般包含抽取分析和抽取规则两部分。抽取分析需明确抽取数据内容、数据信息、数据格式等;抽取规则需确定抽取数据的顺序、方式和时间等。
(2)数据转换。
数据转换是ETL中最关键的环节,较为复杂。同一类型业务数据会以不同的存储格式、存储内容在不同的“信息孤岛”中存在,直接抽取的数据在大多数情况下是不能够满足数据仓库的要求,必须对抽取的数据进行数据转换。数据转换的依据是数据集成模型定义的数据源和数据仓库的映射关系,目前采用语义分析和本体领域等技术使得这些映射关系具有智能化和很强的适应性,根据这些映射关系对抽取数据进行合并、拆分及计算等转换,使抽取数据能够满足数据仓库要求。
(3)数据清洗。
数据清洗的目标就是提高集成数据质量,主要是通过检测和消除错误数据和不一致数据两个方面来实现,高质量的数据才能提供优质可信的数据支撑,可见数据清洗是非常必要和必须的。数据清洗的对象是数据实例,目前数据清洗的方法主要有设计数据清洗框架和模型、重复记录的检测消除算法以及利用专家系统、数据挖掘、本体等相关领域技术等。
3 结语
当前信息化建设已经从数据采集发展到数据管理利用的阶段,社会对“信息孤岛”进行数据集成、建立数据仓库提供决策支撑的需求越来越强烈,数据集成已经成为信息化发展的一个必然选择。该文根据当前信息化的发展现状和趋势,介绍了数据集成的必然性和重要性,在数据集成模型的基础上重点阐述了数据集成中ETL和数据清洗等关键技术,对数据集成的普遍应用和推广存在指导意义。
参考文献
[1] 陈玉东,姚青.基于商务智能的流程评估系统中ETL的研究[J].计算机工程与设计,2014,35(8):2752-2756.
[2] 郭志愗,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082.
[3] 周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111.
[4] Jiawei Han,Micheline Kamber,Jian Pei.Data Mining Concepts and Techniques[M].北京:机械工业出版社,2012.