2018年数据分析的六大趋势
2018-04-24ThorOlavsrud沈建苗
Thor Olavsrud 沈建苗
数据分析和相关的数据技术与社交媒体、移动和云计算一道已成为数字时代的几大颠覆者。随着许多公司从2017年开始从数据生成型企业转向数据驱动型企业,数据和分析已成为许多企业的重心。2018年,这些技术需要开始实现价值。
数据湖需要证明商业价值,否则就完蛋
多年来数据在企业界迅速积累。随着数据源从互联网转移到移动端和机器,物联网会进一步加快生成数据的速度。
实时流数据平台提供商DataTorrent的首席执行官Guy Churchward说:“这迫切需要以一种经济高效的方式来扩展数据管道。”
对于许多企业来说,由Apache Hadoop之类的技术作为支撑,解决方案就是创建数据湖――面向整个企业的数据管理平台,用于以原生格式存储企业的所有数据。数据湖有望消除信息孤岛,因为它提供了单一数据存储库,整个企业可以将该存储库用于从业务分析到数据挖掘的各个方面。很多厂商号称原始、无人管理的数据湖是无所不包的大数据万灵药。
虽然数据湖已被证明存储海量数据很有效,可是從这些数据中获取可付诸行动的洞察力却很难。
Churchward说:“数据湖让许多公司顺利地度过了数据‘静态和‘批处理时代。然而早在2015年,这种架构被过度使用的弊端开始显露出来,现在数据湖成了实时数据分析的致命弱点。先放置数据再分析数据,这立刻使公司处于极大的劣势。获取洞察力,并尽快采取行动,然而依赖过时事件数据的公司无法看清情况、应采取的行动以及任何可能的即时补救措施。在这个方面,“足够好”从战略上来说很致命。
Splice Machine的首席执行官Monte Zweben赞同这个观点。Zweben预测,2018年,“Hadoop迎来全面幻灭的时代,许多公司丧生于数据湖。这是因为把基于Hadoop的计算引擎搭起来很复杂,无法获得投资回报。”
数据目录专业公司Alation的战略和联盟副总裁Ken Hoang表示,想在2018年生存下去,数据湖就得开始证明其商业价值。
Hoang说:“在过去几年,数据湖(新的数据倾倒场)已经历了试验性部署,除非它证明能实现价值,否则会开始关闭。成功数据湖的特征是拥有这样一种企业目录,可以将信息发掘、人工智能和信息管理结合起来,为企业提供新的洞察力。”
然而,Hoang并不认为数据湖完全失败。他预测,数据湖及其他大型数据枢纽会通过他所谓的“超级枢纽”(super hub)找到新的生机,“超级枢纽”可以通过机器学习提供“环境即服务”(context-as-a-service)。
Hoang说:“过去25年部署的大型数据枢纽(比如数据仓库、主数据管理、数据湖、Salesforce和ERP)导致了更多的数据孤岛,而这些孤岛之间无法轻易理解、关联或共享。枢纽中的枢纽能够跨这些枢纽关联资产,因而实现环境即服务,这反过来会带来更相关、更精准的预测性洞察力,从而更迅速地获得更显著的运营业务成效。”
MapR的首席应用架构师Ted Dunning预测会出现类似的转变:由于大数据系统成为存储、访问和运营等方面的重心,企业会考虑构建一种全局数据结构,以便全面访问来自多个数据源的数据和面向真正多租户的系统的计算资源。
Dunning说:“我们会看到越来越多的企业将计算当成数据流,而不是当成处理完后存入到数据库中的数据。这些数据流获取关键的业务事件,体现业务结构。统一的数据结构将成为构建这种大规模数据流系统的基础。”
自助服务数据分析专业公司Alteryx的首席战略官Langley Eide表示,并非只有IT部门担负起责任让数据湖实现价值,业务部门的分析员和首席数字官(CDO)也要在2018年担负起责任。
Eide说:“大多数分析员并没有充分利用涌入数据湖的大量非结构化资源,比如点击流数据、物联网数据和日志数据等,主要是由于这些数据很难利用起来。而事实上,如果分析员不去处理这些数据,就没有尽到责任。人们普遍认为,许多数据湖是不良资产――人们不知道有什么数据、如何访问数据,或者如何从数据获取洞察力。更多的CDO和企业希望从数据湖获得更高的投资回报,这个现状在2018年会发生变化。”
Eide预测,2018年我们会看到分析员们将Excel和SQL之类的“蛮力”工具换成更注重编程的方法和技术,比如数据编目,从数据中发掘并获取更多的价值。
CDO将成熟起来
由于新的趋势是从数据中获得更好的洞察力,Edie还预测CDO的角色在2018年会成熟起来。
“数据实质上是新的石油,CDO开始被认为是解决当今企业最重要的问题:从数据中获取价值的关键角色。由于预算通常不到1000万美元,CDO面临的最大挑战和机遇之一就是,让企业的数据资产更贴近业务用户,从而使大加宣传的自助服务机会成为现实。2018年,努力在集中式功能与嵌入在业务部门的功能之间取得平衡的CDO最终将获得更多的预算。”
Eide认为,让资源、技能和功能能够在卓越中心和业务部门之间迅速转移的CDO将会取得最大的成功。为此,敏捷的平台和方法是关键。
数据管理员崛起?
数据分析初创公司Dremio的首席执行官兼联合创始人Tomer Shiran是Apache Arrow开源项目发展背后的一大推手,他预测企业会需要一种新的角色:数据管理员(data curator)。
Shiran表示,数据管理员介于数据使用者和数据工程师之间。数据使用者是指使用Tableau和Python等工具,用数据来解答重要问题的分析师和数据科学家,而数据工程师是指使用脚本语言、Spark、Hive和MapReduce在系统之间移动和转换数据的人员。要想获得成功,数据管理员不但要了解运用于数据的技术,还要了解数据的含义。
Shiran说:“数据管理员负责了解整个企业内不同的群体需要执行的数据分析类型,了解哪些数据集非常适合于这项工作,并了解需要哪些步骤将数据由原始状态转换为数据使用者执行的工作所需的形态和形式。数据管理员使用自助服务数据平台之类的系统,加快让数据使用者便于访问必要数据集的端到端过程,无需制作无数的数据副本。”
数据治理战略将成为所有高管的重要课题
欧盟的《通用数据保护条例》(GDPR)将于2018年5月25日生效,它如阴霾一般笼罩在数据分析领域的上空,可是并非所有企业做好了准备。
美富律师事务所(Morrison & Foerster)全球隐私和数据安全部门的多位律师解释,GDPR将直接适用于欧盟所有成员国,它彻底改变了公司征得同意后才能收集和处理欧盟公民数据的方式。这些律师包括:全球隐私业务部联合主任Miriam Wugmeister、欧洲隐私专家Lokke Moerel以及全球风险和危机管理业务部主任John Carlin(美国司法部国家安全司前总检察长助理)。
他们解释:“那些有赖于征得同意才能开展所有处理工作的公司再也无法这么做,需要具备其他的法律依据(即必要的合同条文和合法权益)。公司要实施一套全新的生态系统来进行通知并征得同意。”
虽然GDPR处罚金额可能很高――行政罚金可能高达2000万欧元或全球年营业额的4%(以金额高者为准),但许多企业、尤其是美国企业并没有做好准备。
Hortonworks的首席技术官Scott Gnau说:“千年虫问题来临时,每个人都在为是否真正碰到不好说的问题做准备。今天,似乎很少有人为2018年5月即将实施的GDPR做准备。为何如此?我们目前处于这样一个阶段,每个企业不仅要处理‘接下来的工作,还要努力处理需要解决的问题。许多企业可能依赖首席安全官来确定规则、系统和参数等,帮助全球系统集成商找出最佳的行动方案。但要让一个人来完成这项工作是不现实的。”
Gnau表示,正确贯彻GDPR需要企业高管充分了解,做好准备,并与本企业的各部门进行沟通。企业需要在数据资产的整体治理方面有更大的把握。但是重大数据泄密(比如2017年曝光的Equifax数据泄密)意味着,它们会努力在让员工自助访问数据与保护同样这些数据免受潜在的威胁之间求得平衡。
因此,Gnau预测数据治理将成为2018年所有企业关注的重点。“一个关键的目标应该是,开发出一套兼顾数据民主化、访问、自助分析和监管的系统。将来我们为数据安全地设计架构的方式将影响到每个人:美国和海外的客户、媒体和合作伙伴等。”
多云數据管理专业公司Veritas Technologies的解决方案营销主管Zachary Bosin预测,美国公司会是最先依据GDPR受到处罚的企业之一。
Bosin说:“尽管截止日期马上就到,但Veritas在全球调查的公司中只有31%认为自己符合GDPR。对违规行为的处罚非常严厉,该法规将影响到与欧盟公民打交道的任何一家公司。”
元数据管理继续盛行
当然,摆在面前的不仅仅是GDPR。数据日益泛滥,全球各国政府因而在制定新的法规。在企业内部,团队访问数据的现象比以前普遍得多。这一切使得数据治理以及数据质量、数据整合和元数据管理显得更为重要。
分析软件提供商Infogix的产品管理高级副总裁Emily Washington说:“除了人工智能和物联网等早期的趋势外,现在多了元数据管理和确保数据隐私以符合GDPR等法规,但2018年一个令人意外的趋势将是数据管理技术的融合。企业在日益评估简化整体技术架构的方式,因为它们想成功地利用大数据和分析技术来打造更好的客户体验,实现业务目标,获得竞争优势,并最终成为市场领导者。”
Williams表示,获取有意义的洞察力并提高运营效率需要灵活、整合的工具,好让用户迅速获取、准备、分析和治理数据。尤其是,元数据管理对于满足企业数据环境中的数据治理、法规遵从和数据管理需求将至关重要。
预测分析有助于改善数据质量
随着数据项目进入到生产环境,数据质量日益受到关注。随着物联网进一步打开数据闸门,尤为如此。Infogix表示,2018年企业会借助机器学习算法,改善数据质量异常检测。通过利用历史模式来预测未来的数据质量结果,企业可以动态检测原本被忽略的异常情况,或者只有通过手动干预才能在后期阶段发现的异常情况。
Washington说:“由于更多的数据通过物联网等技术而生成,管理和利用数据变得越来越难。集成的自助工具提供了全面的企业数据视图,以便得出及时而有意义的结论。进入到2018年,企业的数据资产做到完全透明对于成功的数据分析项目将至关重要,以便满足数据治理和隐私要求、用数据资产来赚钱等等。”