APP下载

使用VMware Esxi和Hadoop进行大数据平台的搭建研究

2017-06-06冯健文

电脑知识与技术 2017年9期
关键词:大数据平台研究

冯健文

摘要:对于VMware Esxi与Hadoop进行大数据平台的搭建,该文主要考虑到实验室的成本以及对于监控集群的方便性的操作,并最大程度的利用机器的性能。同时还要结合Linux系统本身的机制以及文件同步系统来对平台进行快速地搭建,最后进行集群的测试,验证平台的可操作性以及使用性。

关键词:VMware Esxi;Hadoop;大数据平台;研究

互联网与物联网等新技术的快速发展,人们对于数据已经进入了一个爆炸的状态,数据量的增长已经呈现出指数性的增长。因此来说,如何对如此庞大的数据量进行计算成了人们需要面对的一个问题。使用传统的计算模式显然是无法实现的,当前市面上使用比较广泛的一些关系型数据库也不能实现对这些海量数据的存储。此时就需要人们研究一种新的实施方案,来对这些海量的数据进行存储于管理。而Hadoop公司已经实现了谷歌公司的GFS,使用它可以很方便的来处理这些问题。通常情况下,人们都是在分布式的集群上搭建大数据应用平台而Hadoop则需要更多的配置文件,如果在分布式集群上进行搭建就需要不断的对配置进行修改,显然是非常繁琐的,对于这个问题,本文提出了使用VMware Esxi与Hadoop进行结合的办法,希望能对这个问题实现完美的解决方案。

1.VMware Esxf与Hadoop

VMware Esxi是可以在服务器的硬件上建立的一个虚拟机系统,在进行建立的时候并通常是用宿主的操作系统进行支持的,因此它就拥有了更高的稳定性,却也不会损耗机器的重要性能VMware Esxi能够建立多个虚拟机系统的,每一个独立的虚拟机都可以有自己独立的操作系统与应用程序,在对Esxi系统进行安装之后,就可以登录进行操作,此时就可以创建一些虚拟机或者是陕照了。

Hadoop属于Apache公司,是Apache开发的一个比较开源的分布式的系统架构,主要的作用是可以提供接口与数据服务给应用程序,具有稳定性高与性能可靠的优势。Hadoop的组成主要有两部分,一是HDFS,即Hadoop Distributed file System,二是Hadoop MapReduce。这两部分中的HDFS属于Hadoop的分布式文件系统,主要使用的架构方式是主从方式,通常是包括一个控制节点以及多个数据节点。其中控制节点负责对文件系统的命名空间进行管理,主要是对所有的文件所在的数据节点的信息进行记录。而数据节点的主要任务则是对数据进行存储。MapReduce则是整个HadoopDE计算引擎,当然也是分布式的有了它就可以对数据进行并行的处理,主要的实现思想用中国的一句话将就是分而治之,根据名字来对处理的阶段进行区分主要分为两个阶段,一个是map阶段,一个是reduce阶段,map阶段的主要工作概括起来就是一个分字,就是把输入来的诸多并行任务分成更多的map,l'edttce的工作的内容则是将map的阶段性的工作成果进行一个汇总。

2.搭建平台

1)需要的硬件以及其他准备工作。对这套大数据平台的搭建所需要的硬件条件需要有联想服务器若干与至少一台的IBM的服务器,而且要求IBM的服务器的性能是非常过关的,因为需要当做主节点,其余的联想服务器都需要单独的构造出两个从节点,并使之能够运行DataNode。这么多的服务器需要进行统一的管理,需要给每台服务器预先安装VMware Esxi系统,其他的诸如静态IP、用户名密码都需要一并设置好,做好这些工作之后,就可以使用远程客户端进行登录操作了。

可以使用光盘安装VMware,本文所介绍的是5.1版本的Esxi系统,需要注意的是在对系统进行安装成功并对服务器进行重启操作之后,如果没有启动盘或者是其他必要的设备,这就要对系统进行再次安装,这时可以在安装系统之时加上for-matwithnbr。对系统安装成功之后还需要必要的设置,主要有主机名、静态IP以及登录账户名与密码,将这些必须的参数配置完毕之后,就能够使用远程客户端访问了,除此之外也可以在客户端上安装vSphere Client的机器上,这样可以使管理员的工作更加方便。

2)创建虚拟机与安装Linttx系统。首先需要在IBM的服务器上创建一个单独的虚拟机,而其余的服务器上则需要创建两个,相信对创建虚拟机都是比较熟悉的,创建完成之后就可以根据本地的镜像文件安装Linux了,而一个镜像文件是能够支持多个虚拟机的,也就是说可以同时安装多个虚拟机,这样做可以很大程度的提升安装的速度,也就能省下很大部分的安装时间。本文介绍的大数据平台用到的Linux系统是6.5版本的,在安装的时候需要注意的是,不能忽略了对系统主机名与静态IP以及启动时时间的同步等问题。

3)Hadoop的安装。本套大数据平台使用的是2.2.0版本的,相关的操作步骤如下。因为在之前的Linux系统进行配置的时候已经对静态TP、主机名以及NTP进行了配置,因此在对Hadoop进行配置的时候只需要配置相关的文件就可以了,在Hadoop2.2.0中需要配置的文件是/etc/hosts。对这个文件进行配置完毕之后需要安装JAVA以及设置SSH的登录,本平台使用的Java版本是1.7.011,在进行安装的时候可以使用命令安装(rpm-ivh jdk-linux-x64.rpm),安装成功之后还不能忘了在/efc/profile这个配置文件中配置必要的环境变量。

安装好jdk之后还需要对ssh的无密码登錄进行设置,无密码登录就是要在主节点上生成一个密钥对,可以分成公钥与私钥两种类型,使用的时候要把公钥复制到Slave中,这样还要求在集群中创建一个ssh的文件,同时还需要把权限修改为600。之后就可以生成无密码的密钥对,使用的命令为ssh-key-gen-trsa-p。生成成功之后就可以将公钥追加到授权的key中,然后再将其发送到其他的节点中。最后还要在/etc/ssh/ssh_config文件中进行一些参数的设置,比如说启用对RSA的认证,命令为RSAAuthentication yes#;还有启用对公钥私钥配对认证的方式,命令为Pubkey Authentic ation yes#;还不能忘了公钥文件的路径,命令为AuthorizedKeysFile#

接下来就是配置Hadoop中的文件,对文件进行配置之前需要先下载Hadoop的源码,还需要进行編译,将编译成64位的Hadoop存放到use/hadoop中,与此同时还要在这个里创建三个文件,分别是/dfs/name,dfs/data与tmp。下一步就是对Hadoop的配置文件进行配置了,主要的配置文件有七个,有一些是默认没有的,这些文件可以通过复制相关的template来获取到。

最后还需要部署rsync,将修改好的Hadoop的配置文件复制到集群的所有节点。这时就会出现一个问题,就是在以后的开发中,随着业务的不断扩展,需要对这些文件进行一些修改,那样的话就需要对所有的节点内的文件进行修改,这样无疑会加大工作量,为了改善这种弊端,本平台所采取的办法是将rsync与crontab进行结合,这样就能够实现文件的同步,在对文件进行首次同步的时候就可以实现文件的复制,而以后的所有传输的内容就只有改动以后的内容了,此时在对内容进行传输的过程中就能够对文件采取压缩与解压缩的办法,这样可以提高效率。此外,使用rsync还有一个优势,就是可以保证源文件的权限以及时间的属性。

4)测试平台。第一步启动集群,需要对nomenode进行格式化,使用命令为hdfs nanenode-forntat,第二部就是启动hdfe与yarn了,可以使用命令start-dfs.sh与start-yanLsh来进行操作。在对集群进行启动成功之后就可以来执行wordcoura的程序了,第一步创建一个input的文件目录,使用命令:hdfs dfs-mkdir-p/test/input。下一步创建两个tst文件,使用命令:echo hello>file1.txt与echo hello world>file2.txt.文件创建好之后上传到hdfs文件系统,使用命令:hdfs dfs-put.file*.txt/test/input/。最后使用命令执行程序:

Hadoop jar/use/hadoop/share/hadoop/mapreduce/hadoop-ma-preduce-examples-2.Z&iar wordcount/test/input/test/out。执行完命令之后就可以查看结果了,使用命令:hdfs dfs-cat/input/oat/part-r-00000。如果出现结果为hell02与worldl,说明平台运行成功了。

3.结束语

根据平台对测试的结果可以看出,平台是可以正常运行的,也是可以在平台上进行应用的开发的,这足以说明,该方式是可行的。本文所介绍的大数据平台最主要考虑是对成本的节约,以及对集群监控的最方便地使用,以及对机器性能的最大利用,这样才可能搭建起最完善的大数据平台,然而在对平台进行搭建时,还是需要注意以下几点的,首先就是对机器性能的充分利用,而在对Linux进行选择的时候不能忘记对几个重要参数的配置,这样才能更好地发挥Hadoop的作用。最后还要保障rsync等集群的配置文件,需要保持与节点的抑制,做到这些才可以更方便地对集群进行管理。

猜你喜欢

大数据平台研究
FMS与YBT相关性的实证研究
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究