将在2018年全面袭来的四大数据分析发展趋势
2018-04-12
随着企业转型成为数据驱动型企业,数据技术和战略需要开始实现其价值。你将在未来几个月看到以下四个数据分析发展趋势。
包括社交媒体、移动端和云计算在内,数据分析和相关数据技术已扮演着数字时代颠覆核心业务的角色。随着企业在2017年开始从生成数据的组织转型为数据驱动的组织,数据和分析已成为许多企业的重要工作。2018年,这些技术需要开始实现其价值。以下是将在未来一年推动数据分析战略发展的一些方法、岗位角色和关注点。
数据湖需要证明其商业价值,否则将会消亡
多年来,数据已经在企业中不断快速积累。物联网(IoT)只会随着数据源从网络端迁移到移动端和设备端过程中加速数据的生成。
实时流数据平台供应商—DataTorrent的首席执行官盖伊·乔治瓦特(Guy Churchward)说:“这就迫切需要以一种经济高效的方式来扩展数据管道。”
对于许多企业来说,利用像Apache Hadoop这样的技术为其提供支持,其解决方案就是创建数据湖,即创建整个企业的数据管理平台,用于以本机格式存储企业的所有数据。数据湖将通过提供一个单一的数据存储库来消除信息孤岛,整个组织都可以使用该存储库来进行业务分析、数据挖掘等各种应用。原始的和无人管理的数据湖已被视为一个全方位和万能的大数据集。
但是,虽然数据湖已被证明可以成功存储大量数据,但从数据中获取可指导行动的见解已被证明是困难的。
“数据湖通过‘非活动’和‘批处理’时代的数据为公司提供了非常好的服务,”乔治瓦特说。“早在2015年,人们开始清楚地认识到,这个架构已被过度使用,但它现在已成为实时数据分析的致命弱点。首先要将数据寄存,然后进行分析,这会使公司处于极大的劣势。当要获得洞察力并尽可能快地采取行动时,那些依赖过时事件数据的公司会无法看清事态,无法采取适当的行动和任何可能的即时补救措施,这一点就“足够”证明其具有战略性致命弱点。
Splice Machine公司首席执行官蒙特·兹韦本(Monte Zweben)表示赞同。
兹韦本预测,到2018年,“Hadoop时代的破灭将全面展开,许多公司在数据湖中灭亡。由于对Hadoop计算引擎进行管道录制具有一定的复杂性,使许多企业无法获得投资回报。”
数据目录专业公司--Alation的战略和联盟副总裁肯·黄(Ken Hoang)说,为了在2018年能生存下去,数据湖必须要证明其商业价值。
“在过去几年中经历了实验性部署,数据湖(即新的数据倾倒场)即将走向终点,除非它能证明其自身价值”,肯·黄说道。“数据湖成功的一个标志是拥有一个企业目录,它可进行信息发掘、人工智能和信息管理,从而为业务提供新见解。”
然而,肯·黄并不认为数据湖是完全失败的。他预测数据湖和其他大型数据中心可以通过他所谓的“超级枢纽”找到新的契机,这些“超级枢纽”可通过机器学习提供“环境即服务”。
“过去25年里,部署的大型数据中心(例如数据仓库、主数据管理、数据湖、Salesforce和ERP)导致形成了更多的数据孤岛,这些孤岛难以被读懂、关联或共享。” 肯·黄说道。“枢纽中心能够使各个数据中心的资源相互关联,从而实现环境即服务,这反过来将带来更相关和更有力的预测性洞察力,从而实现更快更好的运营业务成果。”
MapR公司首席应用程序设计师特德·邓宁(Ted Dunning)预测,将会出现类似的转变:随着大数据系统成为存储、访问和运营工作的重心,企业将着眼于构建全局数据结构,从而可以全面访问来自多个来源的数据,并为真正的多租户系统进行计算。
“我们将看到越来越多的企业用数据流进行计算,而不是仅仅利用经处理并存入数据库的数据,”邓宁说。“这些数据流收集了关键业务事件并可反映业务结构,而统一的数据结构将成为构建这些大规模数据流系统的基础。”
邓宁说,这些数据结构将支持在不同环境下进行的多种计算。“一个新趋势是建立一个数据结构,该数据结构可提供(由Kubernetes等公司支持的)多云计算所需的活动数据和非活动数据。”
自助服务数据分析专业公司--Alteryx的首席战略官兰利·艾德(Langley Eide)表示,在数据湖实现其价值的过程中,IT部门不会孤军作战:业务范围(LOB)分析师和首席数字官( CDO)也必须在2018年担负责任。
“大多数分析师并没有利用大量的非结构化资源,例如点击流数据、物联网数据、日志数据等,这些数据在数据湖中已泛滥成灾,这主要是因为这些数据很难处理,”艾德说。“但事实上,如果分析师不去处理这些数据的话,那么他们就并未尽职。人们普遍认为,许多数据湖是表现不佳的资源,人们不知道其中存储着什么内容,如何进行访问,或者如何从这些数据中获取洞察力。这一现实将在2018年发生改变,因为更多的首席数字官和企业希望从他们的数据湖中获得更好的投资回报率。”
艾德预测,2018年我们将会看到分析师用更多诸如数据编目之类的编程方法和技术来替代像Excel和SQL这样“强大”的工具,以从数据中发掘并获取更多价值。
首席数字官将变得日益成熟
由于技术发展促使我们可以更好地从数据中获得洞察力,艾德还预测首席数字官的角色将在2018年变得日益成熟。
“数据基本上就像新的石油资源,而首席数字官开始被认为是解决当今企业最重要问题的关键角色:从数据中获取价值,”艾德说。“通常预算不到1000万美元,首席数字官面临的最大挑战和机遇之一就是通过使公司数据资产更贴近业务用户,从而使备受追捧的自助服务可能成为现实。2018年,那些努力在集中化功能和业务范围内置功能之间寻求平衡的首席数字官最终将陷入更大的预算中。”
艾德认为,那些能够使资源、技能和功能在精英中心和业务范围之间迅速转移的首席数字官,将取得最大的成功。对此,艾德认为,敏捷式平台和方法是关键。
数据管理员角色的崛起?
数据分析创业公司Dremio的首席执行官兼共同创始人Tomer Shiran,他是开源Apache Arrow项目的主要技术人员,预测到企业将看到对一个新岗位角色的需求,即数据管理员。
Shiran说,数据管理员处于数据使用者(那些使用Tableau和Python等工具,并且用数据来解答重要问题的分析师和数据科学家)和数据工程师(是那些将数据在使用各种脚本语言的系统间移动和转换的人员,其中这些脚本语言包括Spark、Hive和MapReduce)之间。为了取得成功,数据管理员必须了解数据的含义以及掌握应用于数据中的一些技术。
“数据管理员需要清楚整个组织内需要执行的数据分析类型,清楚哪些数据集非常适用于这项工作,以及清楚如何将数据从原始状态转换为数据使用者执行这项工作所需的形态和形式,”Shiran说。“数据管理员应使用像自助服务数据平台这样的系统来加快数据使用者访问基本数据集的端到端流程,而无需制作无数的数据副本。”
数据治理战略将成为所有高管的重要课题
欧盟的“通用数据保护条例”(GDPR)将于2018年5月25日生效,它像阴霾一样笼罩在数据分析领域,然而并非所有企业都为此做好了准备。
“通用数据保护条例”将直接适用于所有欧盟成员国,它彻底改变了企业处理个人数据的方式,企业必须征得欧盟公民的同意才能收集和处理其相关数据,美富律师事务所(Morrison&Foerster)全球隐私及数据安全工作组的律师解释道,其中包括:全球隐私工作组联合主席Miriam Wugmeister、欧洲隐私专家Lokke Moerel和全球风险与危机管理集团主席(美国司法部国家安全司前助理总检察长)约翰·卡林。
“那些依赖于获得相关人同意才能进行所有业务处理的公司将不能以这种方式继续下去,而是需要具备其他法律依据(即必要的合同和合法权益),”他们解释说。“公司将需要实施一套全新的制度来进行通知并获得同意。”
尽管“通用数据保护条例”处罚金额可能会很高--行政处罚金额可高达2000万欧元或全年总营业额的4%(以金额较高者为准),但许多企业(特别是美国企业)尚未对此有充分的准备。
“当千年虫问题来临时,每个人都在为他们可能会或可能不会面临的问题进行准备,”Hortonworks公司的首席技术官斯科特·格瑙 (Scott Gnau)说道。“今天,似乎没有多少人为2018年5月即将实施的‘通用数据保护条例’做好准备。为什么会这样呢?我们目前正处于这样一个阶段,每个组织都不仅要处理‘接下来的工作’,而且他们还要努力维持目前的工作和处理现在要解决的问题。许多组织可能都依赖首席安全官来制定规则、制度和指标等,以帮助他们的全球系统集成商找出最佳的行动方案。但这项工作让一个人来承担,这种期望是不现实的。”
格瑙说,为了正确执行“通用数据保护条例”,这就要求高管们要对此充分了解,做好准备并与组织内各个方面进行沟通。组织需要对其数据资产的整体治理工作进行更好地处理。但是大规模的数据泄漏问题,例如2017年发生的Equifax公司泄漏事件,这意味着他们要努力进行平衡,既要为员工提供服务,可以自助访问数据,同时还要保护这些数据免受潜在威胁。
因此,格瑙预测数据治理将成为2018年所有组织的重点工作。
“一个关键的目标应该是建立一种机制,它可以平衡数据、访问、自助服务分析和监管民主化,”格瑙说。“我们以安全的方式构建数据,这将会对每个人产生影响,包括美国和海外的客户、媒体、合作伙伴等等。”
多云数据管理专家Veritas Technologies公司的解决方案营销总监Zachary Bosin预测,美国某家公司将成为第一个依据“通用数据保护条例”受到处罚的企业。
“尽管截止日期日益临近,但Veritas公司在全球范围调查的公司中,只有31%的公司认为他们符合“通用数据保护条例”标准,”Bosin说。“对违规行为的处罚是非常严重的,而且这一规定将影响到任何与欧盟公民打交道的公司。”