基于技术成熟度曲线的大数据分析
2016-09-03王志玲燕光谱
王志玲 燕光谱 蓝 洁
基于技术成熟度曲线的大数据分析
王志玲 燕光谱 蓝 洁
本文引入技术成熟度曲线的概念,在分析Gartner公司发布的2014年新兴技术成熟度曲线基础上,深入解读其在2012~2014年发布的大数据技术成熟度曲线的特点与变化,分析大数据近年来的总体发展趋势和热点技术,为大数据研究提供一种新的工具、方法和视角。
技术成熟度曲线概述
技术成熟度曲线(Hype Cycle),又称炒作周期曲线,是指新技术、新概念在媒体上的曝光度(即可见度)随时间的变化曲线,描述了一项技术从诞生到成熟的过程,是评估技术发展周期的一种预测模型。1995年以来,全球权威IT研究与顾问咨询公司高德纳(Gartner)每年发布新兴技术成熟度曲线报告,分析预测与推论各种新科技的成熟演变速度及要达到成熟所需的时间,利用一致性评价确定技术在成熟度曲线中的位置。如图1所示,技术成熟度曲线横坐标代表技术所处的阶段,包括技术触发期、期望膨胀期、泡沫谷底期、稳步复苏期和生产高峰期等5个阶段(见表1),纵坐标表示技术可见度,曲线上的技术运用不同符号标注预期成熟时间,分为少于2年、2~5年、5~10年、多于10年、成熟期前放弃。
2014年新兴技术成熟度曲线
图1 技术成熟度曲线示意图
表1 技术成熟度曲线的5个阶段
2014年,Gartner公司从市场成熟度、商业利益与未来方向等角度,评估了119个领域的2000多项技术,得到45项新兴技术的成熟度曲线,如图2所示。从图中可以看出,在触发期和膨胀期的技术比较密集,但是大部分技术在5~10年才能达到生产高峰,包括物联网、可穿戴技术、加密货币、个人助手、联网家庭、智能机器人、自动驾驶车辆等;而处于谷底期之后的技术,大多在5年内成熟,如语音识别、云计算、内容分析、企业级3D打印等,详见表2。
表2 2014年新兴技术的技术成熟阶段分布
图2 2014年新兴技术的技术成熟度曲线 资料来源:Gartner (2014年8月)
2014年新兴技术成熟度曲线报告以数字化企业的发展蓝图为主题,总结出发展成为数字化企业的6个阶段:即模拟、网络、电子商务、数字化营销、数字化商业和自动化。由于新兴技术成熟度曲线把焦点放在新近崛起的技术上,因此技术多集中在后三个阶段。
(1)数字化营销(第四阶段):此阶段强调多方力量的结合(如移动、社交、云),聚焦于以新的、更先进的方式抵达消费者,寻找愿意参与营销活动以强化社交联系或取得产品及服务的消费者,此类消费者对品牌的影响力更胜以往,且偏好以移动设备和社交网络为媒介。技术成熟度曲线中此阶段的相关技术包括:软件定义一切、立体与全息显示、神经商业、数据科学、规范分析、复杂事件处理、大数据、内存中数据库管理系统、内容分析、混合云计算、游戏化、增强现实、云计算、NFC、虚拟实境、手势控制、内存中分析、活动流及语音识别。
(2)数字化商业(第五阶段):这个阶段焦点转移到人员、企业与事物的融合上。物联网以及现实与虚拟世界的模糊化成为这个阶段的强烈概念。数字化后的实物资产,在业务价值链中的重要性等同于已经数字化的各种实体,3D打印使得实物数字化更进一步,并有可能在供应链与制造层面引发颠覆性变革。将与人相关的各种属性(如健康生命体征)数字化也是这个阶段的特色之一,连货币(被认为早已数字化)都可以转型(如比特币等加密货币)。相关技术包括:生物声学传感、数字安全、智能工作场所、联网家庭、3D生物打印系统、情感计算、语音翻译、物联网、加密货币、可穿戴用户界面、消费级3D打印、机器对机器通信服务、移动健康监测、企业级3D打印、3D扫描仪及消费级车联网。
(3)自动化(第六阶段):该阶段的企业将有能力提供各种类人或替代人类的技术,例如以自动驾驶交通工具来运载人员或物品,或使用认知系统撰写文案或回答顾客问题。相关技术包括:虚拟个人助手、人类机能增进、脑机接口、量子计算、智能机器人、生物芯片、智能顾问、自动驾驶车辆及自然语言问答。
大数据技术成熟度曲线及发展趋势
Gartner公司认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。可见,大数据指的是无法使用传统流程或工具处理分析的信息,具有日益增长的数据量(Volume)、高增长速度(Velocity)、多样性(Variety)特点。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。
图3 2011-2014年大数据技术在技术成熟度曲线上的位置
图4 2012年大数据技术的技术成熟度曲线资料来源:Gartner (2012年8月)
图5 2013年大数据技术的技术成熟度曲线资料来源:Gartner(2013年8月)
大数据发展趋势
2011年, 大 数 据(“big data” and Extreme Information)的概念在首次进入Gartner技术成熟度曲线,经历了2012年的期望膨胀期,2013年达到期望膨胀顶峰,2014年进入泡沫谷底期,如图3。Gartner公司在《2014年技术成熟度曲线特别报告》中指出:“虽然对大数据的兴趣依然不减,但它已经离开高峰期,因为该市场已经安定下来,有了一整套合理的方法,新的技术和实践被添加进现有方案。”但Gartner认为,大数据还有5到10年才会达到稳定期。近几年企业级市场围绕大数据的炒作不断加温,很多企业也的确面临数据量激增的现实困境,但大数据绝非仅仅是数据量大的挑战,大数据的核心问题还是取决于数据挖掘背后所能产生的价值,在经历了一段热潮之后,大数据的概念转向低谷期,开始实实在在的为企业解决问题,大数据相关技术的演进在未来一段时间内仍将展现出强大的生命力。
大数据成熟度曲线
2012年大数据技术成熟度曲线
2012年大数据的技术成熟度曲线共列出了47项技术,如图4所示。其中,大数据革命技术之一MapReduce出现在成熟度曲线的低谷区,预期将在2~5年内达到生产高峰期。MapReduce是由Google提出的一种并行分布式编程模型,利用该模型可以通过简单的分布式并行运算有效处理海量数据,不断地从中挖掘出有价值的信息,成为大数据发展的重要支撑技术。按技术在大数据中的用途不同,可以分为三类:大数据的使能技术(Entries that describe enabling technologies for big data)、典型应用(Entries that describe typical use cases for big data)、信息类型和来源(Entries that describe new information types, sources and roles),相关技术详见表3。
表3 2012年大数据相关技术分类
2013年大数据技术成熟度曲线
2013年大数据的技术成熟度曲线共列出了40项技术,如图5所示。新进入成熟度曲线的技术有:量化自我(Quantified Self)、图形数据库(Graph Database)、基于电子商务的大数据分析(Big Data for Electronic Commerce)、意向联结的客户系统、表式数据库管理服务(Table-Style Database Management Services)、信息语义服务(Information Semantic Services)、Hadoop SQL界面(Hadoop SQL Interfaces)、文件存储数据库管理系统(Document Store Database Management Systems)、关键值数据库管理系统(Key-Value DatabaseManagement Systems)、车载信息服务(Vehicle Information Service)和Hadoop发布工具(Hadoop Distributions)。
2013年,MapReduce技术没有出现在技术成熟度曲线,而Hadoop技术成为大数据关注热点,成熟度曲线上出现了两项与Hadoop相关的技术,即Hadoop SQL界面和Hadoop发布工具。Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
2014年大数据技术成熟度曲线
表4 2014年大数据技术成熟度曲线(资料来源:Gartner 2014年8月)
2014年大数据的技术成熟度曲线共列出了47项技术,详见表4。新进入成熟度曲线的技术有:语境经纪人(Context Brokers)、虚拟个人助手(Virtual Personal Assistants)、个人分析(Personal Analytics)、数据即服务(Data as a Service)、数据湖(Data Lakes)、公开数据(Open Data)、移动设备管理和社交数据(MDM and Social Data)、规范分析(Prescriptive Analytics)、基于客户智能的 大 数 据 分 析(Big Data Analytics for Customer Intelligence)、 智 能 顾 问(Smart Advisors)、Big Data Analytics for Fraud and Security、企业信息架构(Enterprise Information Architecture)、自然语言问答(Natural-Language Question Answering)、可穿戴用户界面(Wearable User Interfaces)、关联数据(Linked Data)、数据集成/虚拟化(Data Federation/Virtualization)。
可见,2014年新进入的技术涉及信息类型和来源、典型应用的技术较多,在信息类型和来源方面增加了数据湖(Data Lakes)、公开数据(Open Data)、移动设备管理和社交数据(MDM and Social Data)、关联数据(Linked Data)等,在典型应用方面增加了基于客户智能的大数据分析(Big Data Analytics for Customer Intelligence)、为防止欺诈和保护安全的大数据分析(Big Data Analytics for Fraud and Security)等。
结语
综上所述,大数据经过4年的发展正由过热期转向低谷期,内涵逐渐清晰,市场趋向稳定,在未来5~10年将达到生产高峰期。综合近三年大数据技术成熟度曲线,可以勾勒出大数据的整体轮廓,即大数据技术依托社交内容、开放式监控SCADA、语义Web、测绘地理信息系统可视化和分析、活动流、开放政府数据、公开数据、关联数据等信息数据,综合利用物联网、数据挖掘、视频搜索、动态数据屏蔽、内容分析、逻辑数据仓库、noSQL数据库管理系统、混合云计算、复杂事件处理、基于云的网格计算、云协作服务、云并行处理、内存中数据网络、MapReduce、Hadoop、内存中分析、文本分析、数据集成、语音识别、预见性分析等技术工具,实现信息评价、预测建模、声明分析、内容增值服务、社交网络分析、高级欺诈技术的检测与分析、社交信息分析、IT服务分析工具、远程信息处理、Web体验分析、供应链分析、社交媒体数据监控、网络分析等应用。
王志玲 燕光谱 蓝 洁
青岛市科学技术信息研究所
10.3969/j.issn.1001-8972.2016.10.019