基于Hadoop的海量数据存储平台设计与开发
2018-03-30段军红张小东史庆华
段军红 张小东 史庆华
互联网信息技术的大面积普及,要求互联网应承担着爆炸式的信息增长模式,特别是在对海量数据进行繁杂处理期间,部分无序信息的智能化分析及就显得尤为重要,通过智能化分析能了解到网络海量数据信息的高度异构性特点,在多项海量数据信息异构结构使用中,提出新的云计算数据存储管理模式。根据对其研究,能初步获悉,系统开设的海量数据管理任务分析能让整个管理的效率更高、安全性更好、维护性更强。
【关键词】海量数据 平台设计 开发
由于数据信息开始从GB、TB持续到PB的量级爆炸式模式进行增长,所以数据的整体变化具有多样性,特别是地理上分散性极好,能更好的对数据进行海量的管理,从而提出更好的管理方式。为能让海量数据的信息存储状况达到最优状态,就要实现海量数据的无序繁杂处理模式,故此使用Hadoop云平台海量数据存储模式就显得十分必要。
1 Hadoop框架简介
Hadoop是系统性的开源组织结构,能对数据进行海量的分布式处理作为系统性框架组织结构,它是以开源软件的形式存在的,具有可靠性、伸缩性和高效性等特点。由于Hadoop是一种应用程序,能提供更多的可透明接口,所以Hadop的运行多集中在计算机集群上,能在大量的运行中使用廉价的集群运行,由于运行的成本偏低,所以能根据当前的所需适度的对Hadoop集群服务进行添加或者删除。我们知道Hadoop是为了分布式的数据存储提供更多的数据方式,所以能对数据进行海量的信息存储。当前Hadoop的组建可以如图所示,在使用Hadoop框架进行系统研发的同时,要把HDFS分布式文件系统存储在节点文件上面。MapReduce编程系统能对数据进行系统化的海量分析和运算,HBase是面向集群开设的分布式数据存储系统,能根据具体情况随时随地的进行大规模的数据集群操作。
2 海量存储平台的设计
2.1 平台设计的目标与原则
根据现有的Hadoop的特点,能了解到数据存储平台设计的主要特点之一是设计速度快,数据能进行海量的处理。系统设计原则如下:
2.1.1 容易扩展
系统的扩展能根据现有的节点数量,保障存储的可扩展性。
2.1.2 节约成本
使用低廉的PC服务器进行数据云存储平台的系统性搭建,节约平台的部分投资成本。
2.1.3 快速高效的原则
当前受到Hadoop云平台的特性影响,能对海量的数据信息进行系统性的分发操作,均使用Map/Reduce进行计算,就能在不同的节点上开展本地计算,让电信数据的存储分析效率达到最高的状态。
2.1.4 易于进行管理
数据信息存储管理期间,系统的应用用户能根据用户使用状况对应提供多个异构数据库管理模式,在使用接口访问的方式时能让多个通讯设备具有良好的架构实施条件。
2.2 海量数据存储的整体架构形式
系统能根据用户的具体需要,使用云计算的方式对计算机进行平台处理,然后将经过处理的所有原始数据均匀的分配到每个集群计算机节点之上,并对数据进行分布式的存储计算处理,让开发系统满足数据的高效处理要求。存储架构设计期间,使用HDFS存储数据信息,由于该数据信息模式能提供多种API接口和系统操作指令,便于数据进行加载存储。所有待处理的源数据都要经过分解处理以后,在将MapReduce分解成不同的小数据集,完成后再次进行数据处理,最终能将所有的数据处理结果直接存储到Hbade的分布数据库内。
2.3 Hadoop平台系统结构
Hadoop的平台系统化结构,多是采用分层结构化模式开设的。分布式的平台结构包括交互层、业务应用层、数据挖掘层等分布式的计算机层面。当前分层计算机主要包含的项目有HDFS、MapReduce、系统模块等。处理海量信息的前提是要通过存储处理的方式像HDFS提供大量规模画的数据存储模式,通过存储空间的内容重塑,直接对数据进行系统化的预处理和输出计算结果的操作。MapReduce的扩展性较好,能直接进行底层的架构设计活动,故此能在Hadoop计算集群系统的节点上进行ETL模块的数据挖掘模式,可以让用户使用MapReduce的透明调用顶层数据接口开展海量的数据化处理操作。
3 结束语
目前海量的数据存储系统中,效率分析偏低,很难满足使用者和管理者的切实需要。本文主要概述Hadoop的HIDFS和MapReduce的关键性技术分析,在以Hadoop为前提的情况下开展动态的可扩展性海量数据存储系统。使用这种存储方式能让数据的存储更高效,也能通过新的设计方法和技术路线满足数据处理的可行性,让数据系统的安全性能得到切实保障。
参考文献
[1]程蓓,孙胜春,李忠猛,耿洪健,周维.基于Hadoop技术的数字化校园海量数据存储系统研究与设计[J].实验技术与管理,2015(06):14-15.
[2]王宏伟,高岩渊,崔录库,文鹏兵.大数据技术在卡口系统联网方面的应用——基于Hadoop的卡口系统云计算联网平台改造设计与开发[J].中国交通信息产业,2016(11):12-13.
[3]刘玉梅,宋铁琛.基于Hadoop的海量交通數据混合存储查询系统设计与实现[J].广西大学学报(自然科学版),2014(01):12-13.
[4]符永钰,于小文,于元元,胡豪.基于Hadoop云存储高速公路远程视频监控系统的研究与设计[J].电力系统保护与控制,2016(16):12-13.
[5]戚金嫒.微博舆情的Hadoop存储和管理平台设计与实现[J].吉林大学,2015(08):12-13.