基于云计算的大数据处理与分析综述
2017-01-21武永成
武永成
摘 要:随着社交媒体、物联网和多媒体技术发展,人类可以获得的数据呈爆炸式增长。由于数据太大,数据的处理和转移变得十分困难。云计算能按需分配计算资源,是一种很好的大数据解决方案。提出了一种基于云计算平台方法,以较小的代价对大数据进行分析和知识发现。
关键词:大数据;云计算;数据挖据;分布式计算
DOIDOI:10.11907/rjdk.162111
中图分类号:TP301
文献标识码:A文章编号:1672-7800(2016)012-0161-03
0 引言
过去40年,数据主要用于记录商业活动和进行科学处理。未来40年,数据将用来辅助商业决定和加速科学发现。新的社交方式产生,人们获得的数据呈爆炸式增长,人类进入大数据时代。麦肯锡[1]指出大数据是一种很大的数据集,这种数据集的大小超出了传统的数据库软件捕获、存储、管理和分析能力。大数据的出现推动了大数据技术的发展。国际数据公司(IDC)[2]对大数据技术的定义是:新一代的技术和体系结构,用来处理容量大、种类多的数据,通过高速捕获、发现和分析数据,获得有价值的信息。大数据知识发现如图1所示。
O'Reilly 国际出版公司[3]认为,大数据是超出了传统数据库系统处理能力的数据。为了从大数据中挖掘出有价值的信息,必须采取一种与传统数据处理方式不同的方法。《大数据发展白皮书》讨论了如何将不完整的、复杂的和非结构化的数据转化为可操作的数据。这意味着要借助高级计算工具(如机器学习),才能发现在大数据中隐藏的规律和关联关系。
大数据极大推动了云计算和物联网的发展。印度学者认为,大数据将大大促进印度生产率的提高,因为它不仅影响软件行业,还将影响公共服务行业,如健康、行政和教育等各行业。据麦肯锡全球研究院估计,全球产生的数据每年以40%的速率递增,到2020年,数据量将是2009年的44倍。这些数据来自于传感器收集到的天气数据、社交媒体上的各种帖子、数字照片和视频、商业交易记录、移动电话的GPS信息等。大多数这样的数据处于一种无序状态。
大数据超出了传统数据存储与分析系统的容量和能力,必须寻找新的解决方案。综合利用高性能计算技术、高级数据库技术、无线数据技术、移动互联技术,为大数据提供了一些有益的解决方案。企业进行大数据分析,期望从中发现隐含的商业价值,以便更好地提高产品和服务质量。数据存储技术的发展使得数据存储费用大大降低,云计算使得巨大的计算能力变得更容易获得,数据管理技术也更加灵活多样,如 NoSQL、NewSQL、Hadoop、图形数据库等,这些都为大数据分析提供了充分的技术支持。
最近一份研究表明,非结构化数据已占世界数据量的80%,但实际情况是许多公司依然只利用那些存储在关系数据库中20%的结构化数据来进行数据挖掘和决策支持。
1 大数据
大数据最重要的价值在于发现其中隐含的可以重复利用的商业模式。
1.1 大数据分类
大数据通常分为以下3类:
(1)结构化数据:这种数据一般存放在企业或各种机构的数据库、数据仓库中。
(2)非结构化数据:这种数据一般是从基于Internet的应用中抽取出来的数据,是没有经过处理的原始数据,没有统一的数据格式。
(3)半结构化数据:这种数据通常出现在结构化数据和非结构化数据相遇场合,如社交媒体数据、位置数据等。
1.2 大数据主要特征
大数据具4V特性:数据体量大(volume)、数据的多样性(variety)、数据的速度(velocity)和数据的真实性(veracity),如图2所示。
(1)体量:从各种来源收集的数据体量巨大,并且持续增长。
(2)速度:指数据转移的速度。对于时间敏感的数据处理,如发现诈骗,大数据必须及时导入到相应的企业和机构,以便最大化地发现其中的规律。
(3) 多样性:大数据包括各种结构化、非结构化和半结构化数据,如文本、传感器数据、音频、视频、点击流和日志数据等。
(4)真实性:1/3的商业领导不相信他们用于决策的数据。数据的种类和来源增加,使得数据的真实性受到怀疑。
2 大数据应用领域
将传统的企业内部数据和外部收集的大数据相结合进行分析和挖掘,能得出对企业更有价值的商业信息。
2.1 顾客大数据分析
顾客分析是大数据应用十分流行的领域。顾客分析的数据一部分来自外部的社交媒体,如博客、推特、微信等,另一部分来自企业内部业务数据,如顾客和产品数据。通过对这些数据进行分析和处理,能知道企业的潜在顾客,对公司及产品有怎样的评论和期待,藉此调整商业行为,对产品进行修改。例如:通过对最近发行的产品反馈数据进行处理和挖掘,能了解顾客反映,发现产品缺点,及时对市场进行调整,从而使企业更具竞争力。
2.2 传感大数据分析
在制造类企业中,传感器、遥测器和条形码在生产过程中广泛应用。通过对这些遥测数据进行分析,能识别出有用的使用模式,从而提高生产效率。例如:通过条形码,能跟踪生产过程和顾客订货,从中挖掘出相关信息。卫生保健公司通过对病人的一些关键指标进行监控和测量,能减少访问,提高病人健康水平。与外部社交数据不同,来自传感器的大数据公司可直接管理。
2.3 风险管理大数据分析
将个人的外部数据与公司内部的诈骗侦查算法相结合,能侦查出信用风险或非法使用顾客账户情况,快速处理相关信息。大数据分析在金融领域应用,可根据股票和其它金融产品外在的实时价格,通过内部购买算法,作出一个更准确的购买或抛售决定。
3 基于云计算的大数据分析
获得有价值的数据信息费用很高,它需要很大的投资,以便产生高质量的数据集。有75%的世界500强企业采用基于云计算的大数据解决方案。国际数据公司IDC预测,80%的新增商业企业大数据APP都将基于云计算平台[4]。
早期的基于云计算平台的大数据,如亚马逊公司和Rackspace公司,采用Hadoop集群,提供一种高可扩展性和灵活性的基础设计即服务IaaS(Infrastructure-as-a-service)。这些云计算公司以一种便宜的方式提供云计算资源,供企业进行大数据的存储和备份。
软件即服务SaaS(Software-as-a-Service)提供嵌入式分析引擎,对存储在云平台的大数据进行分析。分析结果以一种图形界面形式提供给终端用户。这种方式的前提条件是能对存储在云平台的数据源进行查询和整合。
云计算极大支持和促进了大数据的发展。但是,在大数据中心和云平台之间进行数据转移时,网络带宽和数据整合是主要瓶颈。
许多工具和平台能为大数据分析提供云基础设施,如MapReduce,这个编程模型用来提高云计算平台上巨大的批处理作业性能。MapReduce和它的开源版本Hadoop被用在各种作业类型上。Hadoop集群能被多个用户共享,这样的好处是:公平,能增加对资源的利用。例如,亚马逊的AMS(Amazon Web Services)通过网络,既提供按存储容量购买云存储(元/GB-月),也提供按时间购买云计算(元/CPU-小时)。
基于云计算的大数据分析优势有:
(1)减少费用。在投资和操作方面,云计算都能节省费用。企业不用单独建立一个计算中心,只需在云平台按需购买所需服务,这样可大大节省费用。云平台的所有维护工作都由云服务提供商完成,节省了平台使用费。
(2)灵活性。云计算的基本原则是云服务不仅可以自动提供,还可以自动取消,这样就大大提高了企业效率。
(3)专注核心业务。企业通过购买云服务,透明地使用云平台,平台的运行、维护和升级都由云服务提供商完成,企业只需关注自己的核心操作和核心目标。
(4)可持续性。传统的企业数据中心由于设计和资产利用问题,从环境和经济角度来说都不具有可持续性。云计算比传统的企业数据中心消耗更少的能源和其它资源,经济性更好。
4 大数据面临的挑战
4.1 安全和隐私
大数据中可能包含许多敏感数据和信息。对大数据进行访问和分析可能导致非授权访问和使用问题。个人隐私保护是由于数据信息流动的低效性。人们在许多地方被摄像头监视,如ATM柜员机前、便利店内、机场安检处、城市道路交叉处。一旦这些数据源通过网络连接,并通过高级的计算技术对这些数据进行分析和关联,很多个人隐私将被发现,由此导致十分严重的数据滥用和隐私侵犯问题。由于云计算平台能按需提供计算时间,一些不怀好意的用户就可用比较低廉的价格,发起僵尸网络攻击(botnet),或者破译密码。因此,在发展大数据技术的同时必须采取措施,防止滥用该技术[5]。
4.2 技术推广
当前,大数据技术应用主要集中在一些互联网企业,如搜索引擎公司(如百度云)、网上零售公司(如阿里云)和社交媒体公司(如腾讯云),其次是大学和机构。虽然很多机构和组织收集了大量数据,但只有一小部分能完全为大数据所利用。
4.3 机器学习和其它数据分析技术
作为一个独立的科学学科,机器学习还处在早期发展阶段。当数据元素超过几百万时,许多机器学习算法不能适应,这些算法对现实世界中数据的统计噪声处理也不尽人意。要进一步研究和开发新的机器学习算法,使它们能处理TB级的现实世界数据集。所有大数据计算应用领域,核心目标是能自动或半自动处理和分析超大规模数据。
5 结语
过去10年,大数据计算可能是计算科学领域最大的创新。它对数据的收集、组织和处理潜能已被人们认可。云计算框架,通过按需付费提供服务,很好地解决了大数据处理的相关问题。根据实际需求,提供给企业的云服务能快速扩大或缩小,极大地减少了企业投资,方便了企业使用。
参考文献:
[1] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-169.
[2] 马东梅.基于大数据时代的机遇与挑战[J].科技展望,2015(16):21-22.
[3] 孙海军.基于云计算的大数据处理技术[J].信息安全与技术,2014(11):61-63.
[4] 刘润龙.云计算及关键技术研究[J].数字化用户,2013(6):15-16.
[5] 赵保华.大数据面临的问题和挑战[J].智能计算机与应用,2016(7):111-112.
(责任编辑:杜能钢)