基于Hadoop的海量数据处理平台的架构与研究

2019-08-29关金金未培庄彦

科技视界 2019年20期

关金金　未培　庄彦

【摘要】大數据时代的来临，成就了海量数据的衍生，但如何快速聚类高价值数据，深度挖掘电商行业客户和服务数据，搭建海量数据服务着陆平台，监测行业数据舆情，提升公共服务水平，拓宽数据资源应用市场是“互联网+”行业转型的关键。借助Hadoop分布式存储与计算平台，以高效、可靠、可伸缩的方式维护数据精确度、缓解数据冷启动问题，增强数据多样化推荐。

【关键词】Hadoop平台;海量数据;服务处理平台;HDFS架构

中图分类号： TP391 文献标识码： A 文章编号： 2095-2457（2019）20-0099-002

DOI：10.19694/j.cnki.issn2095-2457.2019.20.046

0 概述

多元化的数据来源，井喷式的数据增长，庞冗杂的数据规模正预示着大数据时代的来临，摆脱了传统数据库储存、管理和分析的约束，大数据正朝着深度学习、数据关联、数据过滤，分布式计算、推荐算法等体现其时效价值性的方向发展。面对海量数据，如何快速挖掘，过滤分析、决策处理成为各大“互联网+”公司转型的关键，而基于Hadoop分布式存储与计算机平台的诞生正是为改善企业数据资源的高效运用，提升品牌价值市场竞争力而服务[1]。

1 Hadoop集群的伪分布环境的架构

Hadoop分布式存储与分布式计算环境，是基于JAVA语言开发的，需要部署在计算机集群中，因此可以首先在载有CentOS系统的master虚拟机器中，借助xshell和xftp工具完成主-虚两机JAVA语言编程环境安装。接着完成CentOS克隆，构建三台Hadoop基础集群计算机，三台VM机之间实现SSH免密码登录，在master机器上修改Hadoop组件后，将Hadoop安装目录拷贝到两个salve node节点上，修改$Hadoop Home/etc/hadoop目录下的配置文件core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml内容，完成配置，直至三个节点均安装语言编程环境[1-2]。

2 海量数据分析

以电商网站为例，供应商通过将企业商品和开放网络彼此关联为客户提供了商用数据服务，运用智能算法深度挖掘Web站点内容和结构，构建模型，运用平台推荐系统，聚类高价值信息，规范关联数据格式，形成个性化数据订阅，提供精准服务，拓宽销售渠道，提升平台价值和品牌效应。海量数据来源广泛，包括电商平台交易数据，互联网关联数据，传感器数据等，数据类型包括非结构化数据，结构化数据，异化半结构数据，但处理流程基本一致，主要有 “数据采集-数据分析-数据过滤-数据标准化-数据应用”五个步骤，具体如图1。

面向Hadoop平台能够快速获取丰富的信息资源，但不可避免的会遇到“信息过载”和“信息失效”问题，及时过滤冗余数据，筛选出对用户有用的数据，提供个性化和类似群体的信息推荐，识别潜在隐藏用户，产生良好的推荐策略，引导用户访问和消费，提升电商平台公共服务能力，完善网站精准数据评估[3-4]。图2给出了海量数据服务着陆平台的架设。

3 基于Hadoop平台的海量数据处理关键技术

Hadoop两大大数据核心技术，其一MapReduce分布式存储框架遵循主-从结构，主-从节点中的数据一般属于同一个命名空间（namespace）即文件系统的目录结构。主节点是用户操作的入口，负责接收操作的各种请求信息，维护命名空间;而从节点主要负责存储数据。其二HDFS分布式计算框架，存储在其中的文件会被分割成若干块（Block），然后这些块会复制到多个计算机节点中，计算框架内部之间的通信基于TCP/IP协议，Hdfs文件在各存储节点间读和写的流程如下图3[5]。

HDFS中的NameNode节点读取从客户端Client发送过来的路径，将文件的元数据信息返回给请求客户，Client端之后会根据这些信息找到对应的DataNode获取Block块并在本地端整合数据还原文件内容。

而客户端Client向HDFS写数据时，在获得和NameNode节点通信确认ACK信息后，接收文件Block的DataNode信息，按序将Block传递给对应的DataNode，DataNode-1和DataNode-2之间传递Block副本。

4 小结

海量数据信息量庞、冗、杂，为快速获取关键数据、避免在分布式存储和计算过程中出现数据稀疏、数据倾斜和数据失真，考虑通过加入正则表达式匹配防止数据堆栈溢出，清洗出有价值数据，挖掘数据关联，引入推荐系统，跨域提供精准决策，丰富客户需求，提升电商行业的数据资源竞争力，从而拓宽行业服务平台。

【参考文献】

[1]张趁香.基于Hadoop平台的海量数据分析和处理[J].数据库与信息管理.2019，01：95-97.

[2]申晋祥，鲍美英.基于Hadoop、平台的优化协同过滤推荐算法研究[J].软件.2018，39（12）：1-5.

[3]孙辉，马跃，杨海波.一种相似度改进的用户聚类系统过滤算法[J].小型微型计算机系统，2014，35（9）：1967-1970.

[4]王文贤，陈兴蜀，王海舟，等.一种基于Solr的HBase海量数据二级索引方案[J].信息网络安全.2017（8）：39-44.

[5]宋阳.高校大数据存储方案探索[J].中小企业管理与科技.2018（11）：82-83.

科技视界

2019年20期

基于Hadoop的海量数据处理平台的架构与研究

杂志排行

科技视界的其它文章