试论数据仓库与大数据融合
2020-06-08刘强
刘强
摘要:各种网络媒体的发展,使得网络中存在海量的数据,如何有效地对这些非结构化数据的应用,成为人们解决的重点问题,针对企业面临的非结构化数据的应用问题,探讨了数据仓库与大数据融合过程中面临的主要问题及解决思路,根据数据仓库建设的理论与技术,充分的利用Hadoop技术对非结构化的数据进行存储、处理、加工与分析,与传统的数据库与BI结合在一起,提出了解决企业级的数据仓库与大数据融合的系统架构,以推送大数据与数据仓库项目的实施与发展。
关键词:大数据;数据仓库;融合
中图分类号:TP399 文献标识码:A
文章编号:1009-3044(2020)10-0007-03
数据库技术的发展,已经在各行各业都得到了广泛的应用,并形成了相应的理论基础、实践与各种类型的数据库产品,在各种业务管理系统中,数据库成为其重要的组成部分,可以将系统中复杂的数据按照信息处理的规律进行保存、使用与管理,而随着数据库系统的广泛应用,如何使用与分析数据库又成了人们在数据处理中面临的新问题,在这种环境下,数据仓库的应用逐渐成为人们管理数据库的重要工具。
1数据仓库与大数据的内涵概述
一般情况下,有的人认为数据仓库就是多种数据库的集合,或者是更大规模的数据库,这种理解是片面的,数据仓库是利用一定的数据处理技术对已有的数据库中的数据进行很抽取、清洗、加工、处理和使用,最终形成有利于企业管理的决策与依据,而不是简单的数据复制或者叠加。在数据仓库中的数据处理过程中,往往会应用到大数据技术,通过采用大数据技术对数据仓库中的数据进行分析,提取具有同类特征的数据,从而达到对有用数据进行利用的目标,提高数据仓库中数据的利用效率。数据仓库与数据库技术是息息相关的,是以数据库技术为核心,在数据处理时,涉及元数据、数据挖掘、AI技术等多种数据领域的综合运用。
大数据是以减少数据冗余、消除数据壁垒的有效技术之一,通过运用数据挖掘与分析、智能处理技术对具有相似性的数据进行融合,使得不同应用系统之间能够以极小的存储方式,对相关的数据进行采集、挖掘与分析,实现跨部门之间的数据对比分析,从而获得有价值的数据信息。大数据对数据的处理主要集中体现在数据分析上,即对大规模的、结构复杂的数据进行处理,实现预测与决策目的。从数据管理的角度出发,数据仓库与大数据具有一定的关联性,但大数据对数据的处理、数据类型、处理速度、准确性、数据量上等都明显的优越于数据仓库。因此,在数据处理未来的发展过程中,大数据与数据仓库的融合成为人们研究的重点问题之一。
2大数据技术架构及应用困局
大数据在各个数据管理系统的应用,提高了人们对数据利用的效率,其根本原因是移动应用以及互联网技术的发展,二者在应用的过程中,会产生大量的数据,包括社交网络、移动设备、智能设备和传感器等新渠道以及新技术使用而产生的海量数据,如何有效的挖掘这些海量数据背后的价值,采用传统的数据库技术很明显不能解决这个问题,以Hadoop为代表的大数据技术能够快速地对海量的非结构化数据进行处理,从而能够提高数据的利用效率。
2.1大数据系统架构
大数据技术需要结合一定的数据分析与处理,它的系统架构主要包括存储、处理、应用、展示以及整合5个部分,在对非结构化数据进行处理时,它可以视数据的复杂程度进行选择与组合,不用的组成部分含有一定的技术要求,它可以依据数据结构化的程度进行组合,形成具有特定功能的处理聚合体,它的结构如图1所示。该架构主要包括数据的行业应用、决策支持、智能抓取、预测建模、并行和分布式处理与存储、流程优化、情感分析、报告及可视化以及分析服务等功能,由于大数据环境下的数据安全也十分重要,在系统架构中还需要具有数据安全与隐私管理的功能。
在数据展示层,主要包括行业应用、决策支持与数据可视化服务,主要功能是将各种数据整合在一起,为企业的管理者提供决策支持服务。应用层主要是通过对数据进行预测与建模功能,实现数据的流程优化,进而能够为数据的整合提供多种数据服务。在数据的处理层,主要是通过网络自动抓取数据,采用分布式并行处理技术调去数据库中的数据,包括ETL或者LTE中的数据。为数据应用层提供基本的数据支持服务。存储主要是将结构化、半结构化、非结构化的数据进行存储,在不同的类型的数据库耦合在一起,为数据处理提供海量数据。
2.2大数据应用面临的困境
大数据系统架构的复杂性,说明大数据不同一个单独的产品或者技术,而是传统的DBMS数据库与非结构化数据库、BI和数据科学等新技术的集合,在具体的使用过程中,大数据的应用还面临着如下的问题。
(1)大数据的应用还在技术层面的研究中。目前大数据的研究还集中在技术层面的研究中,在工程与企业应用中的具体方法还没有完善的解决方案,具体的如何将大数据应用到企业层面或者工程学层面还需要进一步的研究。对于大数据的具体应用还没有完整的体系化的模型,虽然开源的Hadoop是免费的,但是在具体的应用与维护中还存在一定的困难。
(2)大数据技术的优点可能会成为缺点。在大数據的具体应用中,主要以Hadoop框架为基础,虽然该软件比较优秀,但是在处理一些比较“少”的非结构化数据,还不如数据库处理简单,在一些基础数据并不大的企业,运用大数据技术,就会显得不适宜。
(3)大数据的安全性还需要进一步提高。随着大数据技术的不断应用,面临的数据安全问题也成为人们需要重视的问题之一,而Hadoop、MPP数据库、MySQL、流处理以及相应基础设施等,还不能相互作用,特别是如果数据库系统不够完善,就会影响着Hadoop这种开源框架的安全性。因此,提高大数据的安全问题成为未来发展需要重点解决的问题。
(4)市场对大数据的应用与认识还需进一步提升。大数据的应用就与“云”计算一样,一些云技术开发者认为“云”解决了企业的基础数据建设困难、维护困难、资源浪费等情况,认为云技术必将很快被企业接受,但是通过市场的反应来看,云技术并不像人们想象的那样。同样,大数据技术还没有形成便捷、智能化、多元化的系统框架,在未来的应用中,还需要进一步研究与提升。
(5)大数据对决策的影响还需进一步探究。大数据主要是对网络中海量的进行挖掘,发现数据中隐含的价值,在获取数据时,都需要对每一个数据进行处理、加工与分析,但这就产生一个疑问,是否每一个数据都需要进行挖掘分析,获取数据的准确性怎么验证等一系列的问题,这些问题如何验证,是否能够解决实际问题,数据的分析与预测只是一种技术手段,在实际的管理中,也不一定会影响决策。另外,大数据的目的是对数据进行统计与分析,其本身又会产生很大的数据,对这些数据的存储也会产生很高的成本,在具体的投入与应用中需要考虑大数据应用的成本。因此,大数据应用在技术层面上能够提高人们的认识,在具体的应用中还需进一步验证。
3数据仓库发展与大数据技术的融合
3.1新一代数据仓库的体系架构
数据仓库在具体的应用中得到了不断的完善,在商业化的发展也有比较成熟的产品,也有了完整数据仓库架构理论,例如Ralph Kimball提出的数据仓库项目生命周期理论等,在大量的企业与行业中都有成功的应用案例。在大数据技术、理论、框架体系还没有形成时,DBMS数据库处理技术在原有的数据仓库产品的功能上,采用大数级技术需求分析与Hadoop技术进一步融合,加强对列式数据库内数据获取与分析、数据库内分析与控制技术、in-memory、数据压缩等技术的应用于研究,以满足大规模的实时数据处理与分析,提高数据的应用效率,结合数据仓库的未来发展与应用,为解决海量数据挖掘的问题,人们提出了新的数据仓库建构,如图2所示。在下一代数据仓库技术中,不仅将传统的业务数据源结合在一起,还将自媒体数据、社交网络数据、传感器、GIS系统数据等一些非关系型的数据融合在一起,然后利用Hadoop进行处理,是实现数据库中大量数据的处理。
结合企业提供的云平台服务与企业级的数据仓库平台,利用Hadoop系统可以将不同结构的数据进行处理,同时采用实时集成技术、数据压缩技术可以有效地对更大的数据进行管理,同时也能够对数据提供接近真实的实时性分析预测,并利用in-memory数据库内分析技术对大量的、复杂的数据进行处理与应用,也能对不同的事务进行处理与分析,用户可以根据自己的需求进行自动配置,从而能够提高数据处理的效率。它是将传统数据、新数据源作为数据仓库的基础,然后利用DBMS、实时分布式in-memory技术等对数据库系统的中海量数据进行处理分析,生成可视化、结构化的数据报告,为用户提供多元化的支持服务。该数据仓库的架构不是单纯的软件架构,而是将未来企业级的数据仓库结合在一起,形成了软件、硬件相结合的数据继承能力,从而能够为企业级的数据仓库应用提供解决方案与支持服务。
3.2数据仓库与大数据融合的途径
大数据需求的产生背景是在海量数据如何挖掘其隐含、潜在的价值而产生的,与数据仓库的功能类似,如何采用的技术来处理海量数据,提取数据中的游泳价值,从需求的角度分析,大数据与数据仓库的结合,主要是用来处理不同的数据需求,处理不同级别数据量的技术,以获得数据的更大价值。因此,数据仓库与大数据之间的融合,是数据仓库与大数据之间相互促进、相互补充、相互协作的结果。从大数据的应用技术与数据仓库建设结合在一起,对一些非结构化数据的采集、存储、传递、处理与分析十分有效,也能帮助人们发现这些非结构数据背后的潜在价值。例如,将Hadoop技术与数据仓库结合在一起,应用于对数据的采集,ETL、存储、处理,提取有用的数据信息,并开发提供给传统的数据仓库BI工具,达到对海量数据进行处理的功能,其架构如图3所示。
该系统架构是在数据仓库数据处理的基础上,将Hadoop数据平台融合在一起,采用的是并行与分布式采集数据平台,将结构化、半结构化的数据进行收集,运用ETL技术对其进行处理,在BI层对数据进行挖掘处理、可视化分析,从而能够挖掘数据内在的价值。在这个架构中,主要包括源数据层、数据管理层与BI层,在源数据层主要收集数据库中的结构化、半结构化与非结构化的数据,数据处理层主要对这些数据进行处理,采用了并行式处理技术,主要改变了传统数据仓库单节点、顺序数据处理和存储的方式,采用ETL技术处理数据,利用了Ha-doop强大的数据处理能力,对各种结构化、半结构化、非结构化的数据进行处理,并向上提供给BI层工具对其进行分析与处理,得到数据处理的可视化结果,便于用户使用,在这个基础架构之上,充分的利用Hadoop数据平台快速处理数据的功能,可以根据数据处理速度及分析响应能力,对不同的数据进行抽取、清洗、分析、挖掘、加工与处理,逐层进行细化及分解数据,优化组合MPP数据库、内存数据库等,同时充分的运用各类技术,达到对不同数据进行分析与处理的功能,生成相应的数据报告,从而满足BI层分析展示的需要。
另外,还可以在数据仓库的数据管理层利用传统数据仓库技术和Hadoop结合在一起,优化数据处理的方式,二者分工进行处理数据,由传统数据仓库工具对结构化数据进行处理,由Hadoop对更大规模的半结构化、非结构化数据进行预处理,然后将处理后的结构化数据传递给传统的数据仓库进行分析,然后将二者处理后的数据存储在结构化的数据库中,以便于BI层对这些结构化的数据进行分析和展示,这不仅提高了数据处理的效率,还提高数据分析的精确度。
在技术层面上,数据仓库与大数据的融合具有非常大的可行性,在具体的数据理论应用中,非常重要的一点是传统数据仓库在具体应用理论、方法和实施上的成功经验,在一些企业中具有非常成熟的案例,如基于數据驱动的螺旋式开发方法、调研及需求设计、ETL、数据建模、元数据管理等技术应用方面,重点的突出了数据仓库与大数据的融合,为后续的研究提出了理论研究的基础。对大多数数据仓库与大数据应用的企业来说,数据仓库与大数据的融合需要与传统的数据库厂商合作,共同开发基于二者相融合的平台,才是具有可行性的策略,而开发具有高利用价值的数据管理系统,也是企业较为可行性的选择,不仅能降低技术处理的难度,还能降低企业的成本。
4结束语
大数据与数据仓库的融合不仅是为了满足市场的需求,还是对人们对新技术追求的需要,目前,不仅一些高科技企业采用大数据与数据仓库融合的方式来处理数据,传统的数据库厂商也开始与一些技术企业合作,共同开发大数据与数据仓库融合的平台,以解决企业面临的海量数据问题。通过的对当前大数据与数据仓库融合中面临的问题进行分析,提出可行性的解决方式,也是人们首先解决的重点问题,将数据仓库与Hadoop技术融合的平台架构,运用技术,形成新的解决方案,对提高大数据与数据仓库之间的融合具有十分重要的作用。