浅谈大数据及大数据分析
2018-11-01吕跃超
吕跃超
摘要:认识当今的大数据环境、新型分析方法的基本原理和商机、所需的角色,以及垂直行业中具有代表性的大数据分析示例。明确大数据,高级分析的四大业务驱动因素,区分用于业务智能与用于数据科学的方法,描述数据科学家在新型大数据生态系统内的角色。
关键词:大数据;大数据数据结构;数据存储库
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)18-0001-02
人类已经进入了信息时代,大数据将要融入人们的生活,那么什么是大数据?数据何以成为“大”数据?“大数据”是指数据的规模、分布、多样性或时效性要求必须使用新型技术体系结构和分析,以发掘新的业务价值源。
1 大数据的特征
大数据具有多项特征,其中3项较为突出,可作为界定特征:
1)巨大的数据量。
2)数据类型和结构的复杂性,非结构化数据量与日俱增(现存数据中的 80%-90% 为非结构化数据)。
3)生成新数据的速度快。
此外,由于这类数据规模过大或结构层次过于复杂,因此仅采用传统的数据库或方法无法高效地对其进行分析。
新兴的大数据商机和解决方案数不胜数。这里列举其中几个:Netflix 為您的下一次影碟租赁提供建议,通过动态监视桥体内嵌的传感器来检测实时应力和长期腐蚀,零售商通过分析数字视频流来优化产品布局和显示布局及各个商店的促销空间,以上是大数据如何渗透到我们当今生活的一些真实示例。
这些种类的大数据问题需要采用新的工具或技术来进行存储、管理以及实现业务优化。此类数据所需的新体系结构由新工具、流程和规程提供支持,从而帮助组织创建、操作和管理这些极为庞大的数据集以及用于承载这些数据集的存储环境。
2 大数据数据结构
大数据表现为多种形式。从高度结构化的金融数据到文本文件,再到多媒体文件和遗传作图,大数据几乎无所不包。巨大的数据量是大数据一贯的特征。鉴于数据本身的复杂性,由此得出的必然结果是,首选的大数据处理方法是在并行计算环境中使用大规模并行处理(MPP),从而实现同时进行并行接收以及数据加载和分析。大多数大数据在本质上是非结构化或半结构化数据,因此要求采用不同的方法和工具进行处理和分析。
让我们来详细了解一下最显著的特征大数据的结构,如图1所示。
图1显示了不同类型的数据结构,未来 80%-90% 的数据增长将来自非结构化数据类型(半结构化、准结构化和非结构化)。
尽管图1中显示了四种不同的单独数据类型,但事实上,它们有时可能会混杂在一起。例如,您可能有一个用于存储某软件支持呼叫中心的呼叫日志的典型 RDBMS。这种情况下,您可能具有日期/时间戳、机器类型、问题类型、操作系统等典型的结构化数据,这些数据可能由支持服务台人员通过下拉菜单 GUI 完成输入。
此外,您还可能具有非结构化或半结构化数据,例如取自问题的电子邮件票据或技术问题和解决方案的实际电话呼叫描述的自由格式呼叫日志数据。最重要的信息往往隐藏在这些数据中。另一种可能性是可能与结构化数据相关联的实际呼叫的语音记录或音频文稿。直到最近,大多数分析师还无法对此呼叫日志历史记录 RDBMS 中最常见和高度结构化的数据进行分析,因为文本信息的挖掘需要耗费大量劳力,而且难以实现自动运行。
3 大数据四种主要的数据结构类型
人们最熟悉的往往是分析结构化数据,而半结构化数据(在此处显示为 XML)、准结构化数据(显示为点击流字符串)和非结构化数据则带来不同的挑战,并且需要使用不同的方法进行分析。
对每种数据类型,回答下列问题:
1)对这些数据执行哪些类型的分析?
2)谁将分析此类数据?
3)它们分别适合什么类型的数据存储库,或者,存储这类数据以及对其执行编录可能有哪些要求?
4)谁将使用这些数据?
5)谁将管理并拥有这些数据?
4 分析师眼中的数据存储库
人们对电子表格往往爱恨交加。随着电子表格的引入,业务用户能够对采用行和列结构的数据创建简单的逻辑,并针对业务问题创建自己的分析。用户无须进行大量数据库管理员方面的培训即可创建电子表格,这意味着业务用户不必依赖 IT 团队即可快速建立电子表格。电子表格的两项主要好处是:它们可轻松进行共享,并且终端用户对涉及的逻辑拥有控制权。但是,电子表格的激增导致组织不得不面临“多个事实版本”的困境,也就是说,无法确定您所拥有的电子表格是否是包含了最新数据和逻辑的正确版本。而且,一旦用户丢失了笔记本电脑或电子表格出现损坏,这些数据及其逻辑就烟消云散了。许多组织至今仍在面临这一挑战(Excel 依然遍布在全球成百上千万台 PC 上),这也增加了集中管理数据的必要性。
随着数据需求的不断增长,Oracle、Teradata 和 Microsoft(通过 SQL Server)等公司提供了可扩展性更强的数据仓库解决方案。这些技术实现了数据的集中管理,从而提供了安全性、故障切换,以及依靠单一存储库即可让用户获得用于财务报告或其他关键型任务的“官方”数据源等好处。这一结构还能支持创建 OLAP 多维数据集和业务智能分析工具,从而为用户提供快速访问此 RDBMS 内的多维数据,以及查找答案以简化报告需求的能力。一些供应商还打包了更先进的逻辑以及执行更深入的分析方法(例如回归和神经网络等)的功能。
企业数据仓库(EDW)对于报告任务和业务智能(BI)任务而言至关重要,尽管从分析师的角度而言,它们往往会限制数据分析师在执行稳健分析或数据探究时的灵活性。在此模型中,数据由 IT 团队和数据库管理员管理和控制,分析师必须依赖 IT 部门提供访问权并进行数据架构的更改。这种更严格的控制和监督也意味着分析师获取数据(通常必须从多个源获取数据)的周期时间更长。另一项影响是,EDW 规则会限制分析师构建数据集,这将导致组织内出现影子系统,这些影子系统包含用于构建分析数据集的关键数据,并由超级用户在本地进行管理。
分析沙盒可使用数据库内处理实现高性能计算。此方法将与组织内的多个数据源建立关系,并可为分析师节省以单独方式创建这些数据馈送的时间。用于深入分析的数据库内处理可缩短开发和执行新分析模型所需的周转时间,同时降低(尽管无法完全消除)与在本地“影子”文件系统中存储的数据相关的成本。此外,与 EDW 中典型的结构化数据不同,分析沙盒可容纳更多数据种类,例如,网络大规模(Webscale)数据、原始数据和非结构化数据。
参考文献:
[1] EMC. 网络存储培训课件PPT[R]. 美国:EMC公司, 2012.