企业大数据分析生态系统的构建
2014-05-16李艳玲
李艳玲
(东北财经大学 管理科学与工程学院,辽宁大连 116025;大连东软信息学院 信息技术与商务管理系,辽宁 大连 116023)
一、大数据相关概念
随着社会化媒体的逐渐成熟,宽带技术的迅速提升,移动互联网的日益普及,云计算、物联网的应用也更加丰富,各种传感器如手机、台式电脑、笔记本、平板电脑、智能电视、导航定位等终端遍及各个角落,每个人都是数据的创造者、传播者和分享者,如浏览网页、发布微博、搜索关键词、上传文件、发送邮件、交友、购物的每一个行为都被实时记录下来,正是由于这些数据的大量瞬间积累,数据量和信息量激增,发展态势迅猛,数据单位由G、T到P、E、Z、Y演变,据IDC在《数字宇宙膨胀:到2020年全球信息增长预测》所做的数据统计,2006年全球制造复制出的数字信息量共计16.1万,大约是历史上图书信息总量的3 000倍;2010年达到98.8万PB,过去三年间产生的数据量超过以往总和。2011年,全球创建和复制的数据总量达1.8ZB,照此速度的话,到2020年,数字宇宙将超出预期达到40 ZB。
在这样一个数字爆炸的时代,每时每刻都即时产生大量数据,这些数据与传统数据相比,呈现新的特征,美国麦肯锡全球研究院(MGI)发表一篇名为“Big data:The next frontier for innovation,competition and productivity”(大数据:未来创新、竞争、生产力的指向标)的研究报告,“Big Data”(大数据)这个关键词便开始流行起来。
据IDC描述,大数据(Big Data)是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。包括所建立的数据库等结构化信息,也包括文本、图片、视频等非结构化信息,难以用一般技术来管理的大量数据的集合,业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
一是数据体量巨大(Volume)。数据量之大,是前所未有的,数据量呈几何级数增加,用现有的技术,无法有效管理和分析。
二是数据类型繁多(Variety)。数据类型花样繁多,除了传统的业务数据、文本等结构化数据以外,多种类型的非结构化数据与日俱增,如网络日志、音频、视频、图片、地理位置信息等,这些类型的数据需要更科学高效的技术来进行处理。
三是价值密度低(Value)。价值密度低是指数据总量比较大,比如一部1小时的视频,真正有用的数据或者是有价值的数据可能只有一二秒,价值密度的高低与数据量大小成相反比例,那么如何对大数据量通过机器算法迅速地完成价值数据“提纯”,是目前大数据技术处理的一个难题。
四是处理速度快(Velocity)。这是大数据与传统数据的最显著特征,数据产生和更新的速度非常快,每时每秒都在即时增加,对大数据的处理效率的要求,是大数据处理技术的重大挑战。
二、大数据分析技术
(一)大数据分析技术的机遇与挑战
1.快速捕获即时数据,创造高速价值
大数据最大的特点是数据的产生速度非常快,每时每秒可以产生很多的数据。例如,每分钟facebook上的视频就可以多产生390万部,大数据的产生速度是不可想象的。据调查,53%的高管表示大部分关键信息无法及时获得,获取信息的速度越快,采取行动的速度也就越快,快速行动创造的价值越高,数据的使用和分析效率真高,企业为实现卓越的运营,需要快速捕获高速运行中的大数据,更加迅速地计算分析数据,将数据转为信息,信息转为洞察,实时推进业务措施,立即采取行动,从而提升企业竞争力。在这里还有一点,当企业捕获的数据越来越多,需要分析的数据量越多,需要对数据进行评判,这个数据的重要性是怎样的,有的时候需要评判这个数据的价值是多少。通过更智能的方法,对数据加以筛选,对数据进行实时的判断,提炼出有价值的数据,最终将高速数据转化为高速价值,体验即时数据以及数据处理给我们带来的便捷,进而实现实时大数据的美好前景,如图1所示:
图1 大数据业务价值与响应时间关系
2.如何对异构数据的处理
当今企业在发展中积累的新信息来源越来越广泛,企业应用不再是唯一的信息来源,数据来源还可以来自传感器,有的是来自网络线上交易,有的是来自消费者行为,有的是来自智能手机或者是移动设备,这些设备变得日益智能化和互联,智能设备将从2013年的13亿部增长至2020年的125亿部,非结构化数据将超出传统数据多个数量级。总体来说数据来源可以分为人为生成、互联网/云生成、机器生成这几种类型,这些不同源头的数据的格式也不一样,我们必须用有效的方式高速捕获、组织和分析。
对于那些已经规模较大,系统环境高度异构的企业而言,数据越来越发挥其重要资产的作用,如何在架构整合方面有所举措,从全局的角度促进数据整合,将不同来源、不同类型的数据整合到一起同,对数据搜集、管理、分析与挖掘等领域都对技术与系统提出了更高的要求,使得数据能够为企业所用。以前,数据都是分散在各个业务系统,在大数据时代,企业需要考虑如何打破系统的边界,把不同来源的数据整合在一起,企业不仅关注外部数据源对企业的价值,也需要关注消费者的情绪如何、对企业的评价如何,互联网、微博等就是很好的信息获取渠道,怎样把结构化、半结构化、非结构化数据整合,怎样把微信、微博等非结构化数据植入商务分析,将虚拟数据和业务数据结合起来,这些外部数据源对企业也具有十分重要的意义。如何整合架构,将异构数据整合到一个系统,并在此基础上,实现业务系统和分析系统的一体化,加速并分析大数据,满足企业的实时业务需求和分析需求,是目前亟待解决的技术难题。
(二)大数据分析和处理技术的发展
正因为大数据所呈现的新的特点(4V),大数据的意义并不仅仅在于“容量之大”,其更大的意义在于通过对海量数据进行整合和分析,发现新知识,创造新价值。传统的数据分析方法和工具已不适应大数据的管理,大数据不同于普通的数据仓库、数据挖掘和商业智能分析,如没有恰当的大数据分析工具,大数据将无法发挥其价值。大数据多样、高速、海量的特点从各个领域推动着行业的技术创新,给数据的抓取、存储和分析带来了新的挑战,工具、开源以及框架设施对于大数据行业来说非常重要,开源包括软件和硬件的开源。
当前,较为成熟的技术是通过采用分布式计算模式实现,如当前IT业的巨头(如谷歌等)MapReduce的云计算模型以及Hadoop的开源方案。Hadoop已经成为新的主流范式,而十几年前用的软件开发范式已经不适用了。之前几年的软件开发范式只适合处理结构化的数据,面对非结构化的数据,Hadoop是主流。Hadoop有一个有效的框架,可以处理非结构的数据,尤其是处理分布式数据。
其中,Hadoop是一种分布式系统的平台,通过它可以很轻松地搭建一个高效、高质量的分布系统,有着高容错性的特点,并且设计用来部署在低廉的硬件上。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。MapReduce是Hadoop的核心组件之一,可以通过MapReduce很容易在Hadoop平台上进行分布式的计算编程。
三、大数据处理生态系统构建
随着大数据和分析在企业应用的深入,面临的问题和挑战也越来越多,主要有如下方面:第一,对大数据和分析平台的企业级应用的可靠性、稳定性、安全性要求会越来越高;第二,大多数企业级用户都面对着极为复杂的行业应用场景,不同类型和来源的数据需要统一地被利用,在系统较多的企业中,如何对数据进行集成管理是很大的问题,特别是新的大数据方案如何与传统的数据仓库无缝集成;第三,大多数企业级客户还处于对大数据和分析的探索初期,对于新问题的初判和解决经验不足。
对于企业来说,随着系统的复杂性上升,最为迫切也是最为重要的问题是,如何将不同来源、不同结构的数据通过系统整合到一个平台。在这个平台上,全面涵盖大数据和分析的各个应用,采用统一架构,集成到一个系统。在这个系统上,建立全面覆盖各种复杂行业应用场景的企业级大数据和分析应用解决方案,如静态批量大数据处理、实时大数据业务处理、数据仓库整合和数据集市构建等,对于这些大量异构数据系统,整合的标准是一个非常关键的问题。同时企业又在不断发展,未来要部署包括电商、移动商务、社交网络等新的应用,都需要在这个统一的平台上展开。以上所有的应用,构成了一个大数据的生态系统。这个生态系统应具备以下特点,如图2所示:
图2 大数据生态系统特点
(一)高度整合的实时数据平台
对于现代企业来说,随着业务应用范围的广泛深入、企业积累的数据类型越来越多,包括结构化和非结构化数据,交易数据与非交易数据,数据量呈几何级次激增,甚至达到Z、Y级,如何高效地捕获和分析这些大数据,是企业广泛关注的事情,企业亟需一个平台,可以捕获和管理大数据的所有维度,整合数据孤岛,将不同来源、不同类型的数据库,通过整合的开发环境,在技术架构基础上,通过单一系统实现大数据并行计算列式平台管理把ERP的业务数据、半结构化、非结构化的数据整合到一个系统,直接在整个数据平台建模、计算、分析、预测,再借助BI进行图形化展示。所有可使用数据的人,实时获得分析结果,如财务数据,你只需用自然语言输入查询条件,系统提供实时解决方案,像花瓣一样呈现。
在这样的平台,能够快速、高效地捕获并整合海量多元化的任意数据,实现快速分析处理海量信息,实时进行商业决策,实现业务系统和分析系统的一体化,能够同时满足企业的实时业务需求和分析需求,不但降低了企业对服务器等硬件的需求,还减少了数据从业务系统到分析系统过程中所需的数据抽取、清洗等操作,大大提高了效率。
(二)基于云的生态系统构建
2012年是中国的大数据元年,云计算概念的争论渐渐平息,而大数据的热潮随之到来。随着大数据的到来,大家对云计算的“中国梦”开始有了更清晰的认识,云计算如何落地为雨,成为2013年中国云计算的主旋律。
对于大部分企业而言,“云计算之旅”都将是一场速度与耐力的较量,关键是部署的灵活性。如何在整个价值链中获得出色竞争优势,快速分析数据,发现并响应业务网络中的各种变化,借助广泛的托管功能选择,从高度安全的环境和云技术的经济优势中获益,是每个企业所要达到的理想效果。
大数据时代,云计算所发挥的主要作用是为大数据提供按需服务,主要体现在云存储、云计算、私用云、公有云的服务方面,将云共享的思想应用于企业,主要有有几种主要方式,其中一种就是嵌入式企业原有平台的OEM方式,包括移动平台、商务分析平台和数据库平台等。另一种方式是托管私有云服务的方式,那就是构建一个充满活力的生态系统,为企业提供选择上的自由,既可以选择在企业本地来搭建这个平台,也可以享受在云端来实现这个服务,实现从本地向云端的迁移。充分利用与企业原有的ERP核心系统的无缝集成,又能够与企业其他来源、其他类型的数据、其他系统如BI、ETL和备份工具的集成,实现更广泛的用户支持、数据寻源以及对现有投资的再利用,以达到协同、共同参与、分享的目的,有效实现数据分析处理中“温数据”到“热数据”的瞬间响应,从而帮助其客户获取实时、精准的数据分析,把握瞬息万变的市场动态,获取商机。
所构建的生态系统不仅仅是数据库,而是创新的基于云框架的计算平台,具有出色的云灵活性,支持自动配置计算资源,简化日常管理,将突破传统的游戏规则,它从数据到决策覆盖了整个企业的业务流程。这样一个生态系统,应基于开放式标准,提供安全可靠、易于使用的开发和运行环境。它所具备的能力主要有:加速在线交易处理,同时可以作为数据仓库进行海量数据分析;既能够加速传统的关系型数据,又能连接外部的Hadoop做非结构化数据处理,它将是一个“全能”平台,将企业日常的数据需求全部集中在一个生态系统中,企业可以根据自己的需求,个性化地选择,比如,可以任意选择各种类型的业务应用和数据处理,做交易用传统的关系型数据库,运行报表应用企业的数据仓库(EDW),处理大数据用NoSQL或者Hadoop,在这样一个大而全的生态平台,可以实现简化的IT架构,即想即得,企业将高效地应用诸多大数据技术手段,诸如分布式计算、并行处理、实时计算、高级分析与决策、数据可视化,进而实时获取答案,帮助企业快速获取洞察力,助力企业转型与发展,重塑无限可能。如图3所示:
图3 大数据生态系统
四、结语
面对与日俱增的大量复杂的数据,企业面临前所未有的挑战和机遇,如何利用这些数据流的巨大潜力,发现大数据所蕴涵的巨大价值,是每个企业迫切解决的关键问题。在大数据时代,分析和处理技术不断地发展变化,如果哪家企业能够在这新的技术更新浪潮中,掌握有效地分析和利用大数据的利器,真正驾驭数字宇宙,将直接转化为企业的竞争优势,促进企业变革和升级。
[1]城田真琴.大数据的冲击[M].朱四明,译.北京:人民邮电出版社,2013:45-50.
[2]涂子沛.The Big Data Revolution[M].桂林:广西师范大学出版社,2012:22-30.
[3]维克托·尔耶·舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2013:30-34.
[4]王珊.架构大数据:挑战、现状与展望[J].计算机学报,2011,10(2):51-54.
[5]邓国清.大数据时代的精益财务分析[J].中国会计报,2013,4(5):23-25.
[6]邹大斌.大数据分析驱动制造业转型[J].计算机世界,2011,10(6):45-50.
[7]黄性清,柳清.ERP商务智能系统的设计方案[J].中国管理信息化,2011,11(5):54-60.
[8]汤铭.挖掘制造业大数据价值[J].计算机世界,2012,5(7):23-30.
[9]覃雄派,王会举,杜小勇,等.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.
[10]周傲英.数据密集型计算—数据管理技术面临的挑战[J].中国计算机学会通讯,2009,5(7):50-53.
[11]冯芷艳,郭迅华,曾大军,等.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013,1(2):36-40.
[12]王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考[J].中国电子科学研究院学报,2013,2(1):40-44.
[13]罗恩韬,胡志刚,林华.一种大数据时代海量数据抽取的开发模型研究[J].计算机应用研究,2013,6(2):30-34.
[14]张桂刚,李超,张勇,等.一种基于海量信息处理的云存储模型研究[J].计算机研究与发展,2012,49(S1):32-36.
【责任编辑 詹 丽】