探讨Hadoop的企业云存储技术

2016-04-11方小龙

电脑知识与技术 2016年4期

方小龙

摘要：Hadoop作为一个开源分布式计算平台，具有高容错性和伸缩性等特点，允许用户将Hadoop放置在PC上，利用集群的计算和存储能力，对海量的信息进行处理。该文结合企业不断增长的业务数据，而现有业务数据处理能力不足的现状，构建Hadoop分布式数据处理平台，为企业的发展提供良好的技术支撑。

关键词：Hadoop；企业；云存储；技术

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2016）04-0079-01

随着企业的不断发展，业务量的增长，一些业务数据也出现了爆炸性的增长，并且对数据访问的速度和宽带提出了更高的要求。企业现有的数据处理系统拓展能力差，数据的访问效率低下，因此难以满足企业逐渐增长的业务数据的存储需求。因此为了满足企业的发展要求，基于Hadoop技术为企业构建一种高效、低成本的存储平台，帮助企业在发展中满足业务数据的存储需求。

1 Hadoop概况和基本构架

Hadoop是一种开源分布式的计算机平台，利用HDFS和MapReduce作为系统的支撑中心，在运行的过程中给用户提供最底层的透明的、细化的分布式结构框架。HDFS在用户使用的过程中发挥着高容错性和伸缩性的特点，并且能够将Hadoop在不同的硬件上使用，组建成不同的构架用于云存储。MapReduce是一种分布式变成模型，用户在使用过程中对底层的系统的细节和构架不清楚，因此在程序的开发中便于正确的使用，可以利用Hadoop对计算机中的资源进行统一的整理，在搭建平台的过程中给平台提供分布式的构架。例如在2008年Yahoo应用了Hadoop，并且运用的规模庞大，在上万个节点上实现对Hadoop网页上的信息进行处理，在运行过程中给用户提供了很多便利的服务。

Hadoop包括很多项目的集合，其中HDFS和MapReduce为核心的内容，但Hadoop其中的一些项目也是不可或缺的，并且为Hadoop提供了许多互补性的服务。Hadoop的两个解决方案分别是Pig和Hive，开发的编程人员在设计时更加的便捷。Pig可以对数据进行加载，数据的格式可以进行转换，结果可以最终存储下来，从而达到优化MapReduce的目的。Hive在Hadoop中作为最重要的部分，也扮演着数据库的角色，可以在HDFS中添加一些数据，并且使用相同的SQL查询数据。Hadoop的监控系统为Chukwa，是集群的监控系统。HBase是在Hadoop中面向列的分布式存储系统，支持最大的系数表，并列存储提供数据环境。MapReduce在大型的数据集中得到运行的保障，并且在超大型数据集中运行顺畅。HDFS的运行环境主要运用于千万级的大型分布系统中。Zookeeper对应用程序的服务系统起着调节的作用，并且维护系统的功能和服务体系。Avro是一个数据序列化系统，主要应用于大批数据集中。

2 Hadoop的核心技术以及设计

本文的海量数据存储仿真平台是基于 Hadoop 设计的，该平台主要是模拟HDFS集群运行状态，在这个平台中主要包括了文件访问模型、HDFS集群、客户端以及结果分析等。HDFS的架构主要包含三种角色： NameNode、DataNode、Client。其中 NameNode是仿真平台的管理核心，能够对所有的元数据进行管理，对FileIO 的文件操作请求进行处理。FileIO是用来实现文件操作产生机制模拟的类，主要控制每个系统心跳周期产生的文件数量、范围等。因此对于FileIO的设计必须使用 add_file（）、delete_file（）、read_file（）等方法。

DataNode主要负责对各类文件进行储存，对节点的状态进行记录和统计，从而为各种算法和决策提供有效的依据。

3 应用实例

目前互联网上网站数据信息主要是在 Apache 服务器上，而 Apache 的服务器能够将服务器的所有请求进行处理，并生成一个日志文件，该日志文件中有访问者的 IP 地址。访问点的时间、被访问的文件路径等，这些数据给网站的运营者提供了的可靠的参考依据，也能够根据日志文件的内容分析网站的运营状况。

本文通过分析一个日均点击量为十几万的大型线上广告公司论坛网站服务器上的日志文件，并将该日志文件作为研究的基础数据，构造文件的访问模型。按照节点数量进行规模扩大复制操作，使得文件的访问与现实的情况相符合。本文通过将运行时间划分为24等份，并由此来决定每个时间段内客户的点击数量，并结合系数初始设定的周期读取数量来查看该网站客户的访问情况。

通过*.policy 文件读取，按照规定的格式在其中设置了几个阀值Threshold_FMP、Threshold_FRP、Threshold_SCP，表示文件数据迁移的情况。经过系统运行结果显示，文件没有发生任何迁移的现象，且所有节点作为热机。然后应用节能策略运行查看结果，发现文件迁移的数量以及热机和冷机数量的变化。运行节点在冷热转换的过程中，能够明显看到冷机和热机的数量变化，从而根据这些情况将每个节点的耗能计算出来，并得到节点状态的相应变化情况。平台在运行的过程中产生的操作记录中主要包含着文件的创建、读取的操作记录、文件的信息以及访问的时间等情况。

通过以上平台输出的数据，可以发现节点状态的转变情况以及节点开机的次数以及能量的变化。这些情况对策略分析和算法具有十分有利的帮助，能够实现对 Hadoop 集群的研究，优化各种策略。

4结束语

通过对现代企业业务数据日益增长的趋势进行分析，在Hadoop分布式处理平台上进行数据处理，并且详细分析Hadoop的技术核心，最后通过实例来说明Hadoop对数据处理的过程，展示了Hadoop在企业信息存储中的便利和高效，为奇特的发展提供了更优质的服务。

参考文献：

[1] 孙福权，张达伟，程勖，等. 基于Hadoop企业私有云存储平台的构建[J]. 辽宁工程技术大学学报：自然科学版， 2011， 30（6）： 913-916.

[2] 马莉，李树刚，肖鹏，等. 云计算环境下煤矿应急管理海量数据存储技术[J]. 西安科技大学学报， 2014， 34（5）： 596-601.

[3] 余庆檄. 基于Hadoop的企业云存储技术探索[J]. 计算机光盘软件与应用， 2013（4）： 166-167.

[4] 孙知信，黄涵霞. 基于云计算的数据存储技术研究[J]. 南京邮电大学学报：自然科学版， 2014， 34（4）： 13-19.

[5] 刘琨，董龙江. 云数据存储与管理[J]. 计算机系统应用， 2011， 20（6）： 232-237.