APP下载

Haboop在企业中的应用现状分析

2013-07-21王少亚河北大学管理学院

商场现代化 2013年18期
关键词:开源集群节点

■王少亚 河北大学管理学院

一、Hadoop概述

Hadoop作为最受欢迎的一种大数据技术,是一个分布式系统的基础架构,主要由HDFS、MapReduce组成,是一个能够便捷的开发和运行处理大数据的软件平台。HDFS采用Master/Slave架构,由一个NameNode节点和一组DataNode节点组成。MapReduce在HDFS的支持下实现分布式数据处理,也是一种总从的构架。

二、Hadoop在企业的应用优势

1.应用经济效益突出

Hadoop的应用成本低,一方面由于其开源,研发和采购成本远远低于商业软件。另一方面,Hadoop为普通的硬件设备而设计,可以基于异构的廉价硬件来搭建机群,硬件投入成本低。此外,hadoop还可提高数据价值,有利于企业精益管理。例如沃尔玛通过Hadoop分析顾客搜寻商品的行为,在Facebook、Twitter等社交网站上对商品的讨论,从而竞争对手提前一步发现顾客需求,智能规划下一季商品的促销策略。

2.高效处理大数据

对海量数据深度分析并迅速发现趋势是Hadoop的另一巨大优势。Hadoop可以在几分钟内处理TB级的数据,在几小时内可以处理完PB级的数据。Facebook利用hadoop每30分钟分析一次105T以上的字节。另外,传统关系型数据库技术对于绝大多数非结构化数据无能为力。Hadoop可以对海量的结构化和非结构化数据进行批处理,充分发掘和利用数据背后的商业价值,使企业做出更好的决策。

3.应用易拓展

在大数据时代,传统分析环境规模呈指数增长,纵向扩展系统,即扩展单个节点的能力,在技术和成本上都让人难以承受。最经济的解决办法是横向扩展系统,即通过增加计算节点连接成集群,并且改写软件,使之在集群上并行执行。Hadoop拓展性能非常优秀,可以通过增加更多节点来按需扩展系统,雅虎的集群在2010年已经从2000个节点增加到4000个节点。

三、企业应用Hadoop的局限性

1.不适用于复杂和实时处理

Hadoop主要针对离线的、大规模、批量的数据处理,并不是一个实时的在线系统,无法用于实时性要求很强的系统中,如银行系统。Hadoop也不直接支持复杂的n步n分支数据处理流程操作,因此也不适用于电子商务等交易性系统。

2.开发维护代价高

Hadoop进入维护和开发阶段,成本就会急剧上升。首先Hadoop构建平台复杂,需要高价雇佣相关从业人员。再者,Hadoop的应用软件相对较少,许多数据分析功能需要用户自行开发,导致使用成本增加。培养开发和运用Hadoop的技术人才也很昂贵。淘宝在2008年建立了hadoop的“云梯”集群,历经五年,耗费了大量人力、物力、财力。

3.缺乏专门人才

越来越多的企业开始大规模部署Hadoop,但能够创建和维护这些部署的IT专业人员在数量上并没有跟上Hadoop发展的步伐,这是企业面临的主要挑战之一。nosqlweekly网站做了一份统计调查,它对SimplyHired.com和Indeed.com两个招聘网站的招聘数据进行了分析得出,Hadoop的对人才的需求增长最快。JP摩根大通公司总经理玩笑声称,他们会提供比eBay高出10%的优厚待遇雇用合格的专业人士。

四、应用Hadoop的改进方案

1.持续开源

Hadoop的开发难度很大,源代码仅仅只是困难的一小部分,还需要有非常强大的工程师团队,有正确的发布和治理基础架构的能力。目前几乎没有哪家公司能拥有所有这些必须的资源。持续开源可以降低hadoop的进入成本、增强互操作性、实现资源共享。Yahoo表示,他们已经提供了70%的源码,剩下的30%他们希望可以从别的公司、团体、个人得到。

2.加强合作

Hadoop涉及的领域广泛,开发难度大,需要多方力量合作开发。国外企业在合作领域表现积极,采用收购兼并、合作开发多种方式进行建设,如Microsoft与Hortonworks以及甲骨文公司与Cloudera公司等已经达成合作协议。相比之下,国内的企业间合作就逊色很多,他们采取“各自为战”、“平地起楼”的建设方式,从基础层面分头进行大数据存储或处理的开发,阻碍了hadoop在国内的快速应用。企业间加强合作,势在必行。

3.培养人才

Hadoop对人才的需求迫切,企业要强化工作人员的大数据意识,培养相应的专业技能,使他们熟悉掌握Hadoop的方法和技术,成为合格的大数据人才。另外,从源头上解决人才缺乏问题是最根本的解决办法。高校是人才主要的输出渠道,因此应适应大数据需求,加强大数据分析方面的教学。

[1]覃雄派,王会举,王珊等.大数据分析--RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45

[2]吴金红等.大数据:企业竞争情报的机遇挑战及对策研究[J].情报杂志,2013,32(1):5-9

[3]王珊,王会举等.架构大数据_挑战_现状与展望[J].计算机学报,2011,34(10):1742-1752

[4]辛大欣,刘飞.Hadoop集群性能优化技术研究[J].电脑知识与技术,2011,7(22):5484-5486

猜你喜欢

开源集群节点
CM节点控制在船舶上的应用
Analysis of the characteristics of electronic equipment usage distance for common users
基于AutoCAD的门窗节点图快速构建
海上小型无人机集群的反制装备需求与应对之策研究
五毛钱能买多少头牛
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
大家说:开源、人工智能及创新
开源中国开源世界高峰论坛圆桌会议纵论开源与互联网+创新2.0