APP下载

企业该不该用数据湖

2017-04-06

中国信息化周报 2017年8期
关键词:数据类型探索性数据仓库

最近,数据湖已经开始在IT行业涌现。数据湖是与附加数据管理系统相结合的数据存储,而附加数据管理系统提供关于数据的分析,作为数据清理过程的一部分,通常是从其他分析环境剥离的能力。例如,数据仓库的提取、转换和加载预处理消除了告知系统何时到达或插入“操作数据存储”的日志。

在当今的行业中,数据湖似乎至少有两个定义:一个来自存储公司,数据湖是允许元数据存储的磁盘存储基础设施;另一个主要是侧重营销驱动,是混合通常不混合的多个数据存储的一个湖。相关资料显示,其实并没有销售全面数据湖的供应商,而是人们使用Hadoop和本地工具访问数据来将它们拼凑在一起。

企业在实施大规模数据湖前,应该从小规模着手,并将该技术作为对现有分析系统的扩展。

更多时候,数据湖是探索性的。数据湖实施应该允许以特别的和探索的方式扩展现有的分析,当前分析系统不会及时获取高度数据的核心(例如客户事务日志),来通过增长的数据湖判断数据类型。大多数现有的分析不足以真实了解应用程序的行为,数据仓库和Hadoop等数据管理方案失去了重要的数据支撑。

大数据分析系统提供商Pentaho公司首席技术官James Dixon在博客上例举了这样一个例子:数据仓库等系统并不捕获客户购买过程中的每一步,而是事务日志。这样购买过程的设计对于典型的数据架构师似乎是直接的,但在每个步骤中可能有数分钟甚至数小时的滞后。通过发现流程中的滞后,用户可以开始与客户面对的数据湖实现购买等相关交易。分析对企业的整体工作具有探索性和重要性,因为一旦用户有机会更系统全面地分析客户日志时间,还不清楚会有什么样的发现。

数据集市、数据湖和数据仓库之间有什么区别?数据集市是数据仓库的变体。数据仓库存储来自整体较旧的数据,用于报告和分析。多个数据集市大致相当于数据仓库,通常在自身的IT环境中为子公司服务。用户可以由多個数据集市进入数据仓库,或者只是松散耦合的数据集市。集成是实现数据湖的关键,将数据湖与其他企业数据架构(包括数据治理和主要数据管理)完全集成也很重要。了解哪些数据类型对数据仓库或数据集市重要,以及原始数据是否正确和一致,才可以实施数据治理实践,避免分析有缺陷的数据。

数据湖的长期发展。数据湖有潜力毋庸置疑,但除非人们能够更好地了解自己可以长期提供什么,否则这很可能只是一个时尚的陷阱,除非所展现的利益比迄今为止具体显示的更广泛。

Dixon在并入时序和间距时的数据仓库问题的例子,只是当今分析继续依赖简单统计数据,而不考虑什么是“坏”数据并可以告诉人们的一个实例。由于数据湖实施可以发掘分析中的关键“陷阱”,因此它值得任何企业进行探索。然而从长远来看,这需要实验和仔细平衡数据湖和整体信息架构。

猜你喜欢

数据类型探索性数据仓库
心有所“属”,一“探”究竟——立体几何探索性问题的解法梳理
详谈Java中的基本数据类型与引用数据类型
如何理解数据结构中的抽象数据类型
立体几何中探索性问题的“创新”
基于数据仓库的住房城乡建设信息系统整合研究
解决圆锥曲线中存在、探索性问题的途径
基于SeisBase模型的地震勘探成果数据管理系统设计
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践