APP下载

基于Hadoop的大数据处理策略研究

2015-06-01蔡劲松

关键词:日志数据处理站点

蔡劲松

(安徽新闻出版职业技术学院计算机中心,合肥 230601)

基于Hadoop的大数据处理策略研究

蔡劲松

(安徽新闻出版职业技术学院计算机中心,合肥 230601)

大数据为数据挖掘提供了丰富的数据源,从中挖掘出的信息更加具有商业价值.以Hadoop的大数据处理为核心,通过查找相关文献资料,实证分析了大数据处理的策略,从而为未来大数据处理路径提出更好的指导.

Hadoop;大数据;处理;策略

我们处在一个数据爆炸的时代,随着云计算技术的流行,互联网技术的发展,传统产业的自动化和信息化提升以及人类正在被数字化的生活,大数据已经逐渐将我们包围.数据的不断增长在给人们带来巨大价值的同时,也给人们带来了巨大的挑战.大数据处理已经成为很多大型企业所关注的焦点.

1 大数据处理研究现状

大数据处理虽然刚刚兴起,但数据在企业中一直处于核心地位,传统的数据产品,如数据库、报表系统等,在企业中部署运行多年,为企业的经营决策贡献巨大.

Hadoop、NoSQL这样的开源大数据解决方案能够节省资源、提高系统利用率,是性价比极高的选择.调查显示19.82%的企业用户正在使用开源大数据处理技术,22.97%的企业用户计划于1年内部署,9.91%计划于2年内部署,没有相关计划和不确定的人群占到47.29%.由此看出,Hadoop等开源大数据处理技术相当热门,已经有至少52.71%的企业用户已经或计划部署相关解决方案.

Hadoop由5大构造模块构成,分别为:NameNode(名字节点)、Secondary NameNode(次名字节点)、DataNode(数据节点)、TaskTracker(任务跟踪)、JobTracker(作业跟踪).每个模块具备不同的功能,共同完成分布式数据处理任务.

1)NameNode

Hadoop体系中的NameNode是最重要的守护进程之一.其位于HDFS的顶端,监控并指导体系底层I/O作业.当Hadoop接收到新的执行任务时,首先在NameNode的监管下将任务文件进行分割并分发到各个数据计算节点进行存储,并实施监控这些节点及整个HDFS的运行状态.

2)SecondaryNameNode

SecondaryNameNode更像是NameNode的备份,它不像NameNode一样实时的对HDFS监控并记录其变化,但是它会在设定的时间间隔内与NameNode进行通信,并对HDFS的存储情况进行备份.通常情况下,NameNode会独立的占用一台服务器,不会参与具体数据的计算.

3)DataNode

DataNode是Hadoop集群的计算节点,每个Slave节点上都会有一个DataNode守护进程驻留.Hadoop集群会包含一个NameNode及大量的DataNode.用户初次写入HDFS的文件会被分成许多块储存在不同的DataNode上,并做冗余备份,以防发生数据丢失情况影响整个集群的计算.当用户再次操作HDFS内的文件时,NameNode会对此作出相应,调用储存有相应数据块的DataNode进行操作.

4)JobTracker

与NameNode用于监管HDFS上的存储文件类似,JobTracker守护进程的作用是来监控所有的MapReduce计算任务(task).当Hadoop接收到一个新的计算任务时,首先由JobTracker将任务分成不同的task,并判断HDFS里面的哪个文件块需要处理,然后根据结论为不同的task分配相应的DataNode进行计算作业.驻留在Master节点的JobTracker会实时监控task的运行,一旦其运行失败会重启这个task执行未完成的任务.

5)TaskTracker

TaskTracker与负责存储数据的DataNode相结合,共同实现Hadoop的作业.JobTracker作为MapReduce的核心管理节点,TaskTracker类似于DataNode负责独立执行具体的task.

2 Hadoop大数据处理模型

Hadoop大数据是服务器软件所记录的用户访问网站系统的行为数据,其中包括了用户的IP地址、访问时间等多种用户访问信息,如何将这些原始杂乱的日志数据转化为适合进行数据挖掘与模式发现的标准会话文件,是Hadoop大数据处理所要做的主要工作(如图1所示).

图1 传统Hadoop大数据处理模型

2.1 数据清洗模型

标准的数据清洗包括以下主要内容:

1)格式清洗

针对服务器日志文件的挖掘主要以文本挖掘为主,文本以外的如:音频、视频、图片等多媒体文件相对文本挖掘的意义不大,所以需要清洗掉后缀名为.avi、.mp3、.jpg、.gif等多媒体文件日志记录.用户在访问服务器系统过程中产生的脚本文件如JS文件等也不足以反应出用户的关联行为,故需要将JS等脚本文件清洗掉.

2)URL清洗

在某些情况下进行的服务器请求会产生一些无关的URL记录,所以需要对这些无关URL进行清洗.URL清洗的主要方法是预先建立URL表格,只要不在表格内的URL内容都需要进行清洗.

3)通信方式清洗

一般情况下,用户对服务器的请求方式有GET、POST、HEAD三种情况.但是真正能反映出用户请求行为的只有GET请求,故需要对其他两种通信方式的请求进行清洗,只保留GET请求.

4)状态清洗

不是每一次的客户请求都是成功的请求,如果遇到网络不畅通或服务器故障造成的请求状态为不成功则该条日志内容也需要清洗掉.

经过以上四步清洗之后的日志数据规模已经大为减小,其输出内容可以进行下一步操作.

2.2 会话识别模型

会话识别指的是通过算法来识别用户从初次进入站点到离开站点的访问行为.一般情况下Web服务器日志文件时间跨度都较长,所以这段时间内用户可能不止一次的访问该站点,会话识别就是要把用户在不同时间内的两次访问区分开来,并将一次访问的所有页面规约为一次会话情况.

会话识别常用一个二元数组进行表示,<Uid,RS>,该数组中,Uid表示访问发起用户,RS表示了该用户在一段时间内访问服务器站点所有页面的集合.

传统经典会话识别算法不能够根据不同的网页内容、不同的用户习惯、不同地区网络状况等进行有效的识别.预先设定阈值时间的方法忽略了网页与用户的差异,从而导致会话识别混乱,例如读书类的网站,因为每个页面涉及的文字内容有长有短,用户在内容包含1万字的页面上停留的时间将远大于在1千字网页上停留的时间,故生硬不变的时间阈值不能满足会话识别的需要.

图2 路径识别模型

2.3 路径识别模型

路径识别是在会话识别输出结果基础之上进行的操作(如图2所示),是数据预处理的最后一步.

3 数据清洗模型改进与优化

3.1 模型改进思想

传统数据清洗模型中对于搜索机器人访问行为的清洗主要是基于以下三种方法进行:

1)基于搜索引擎名称清洗

主流搜索引擎如google、百度、腾讯搜搜等,在进行机器人扫描时,会在用户代理中留下其特定关键字,通过关键字筛选即可去除这些搜索引擎对站点的访问行为.

2)请求方法清洗

搜索机器人对站点的搜索行为一般情况下会使用HEAD作为请求方法,这样在请求方法过滤中只保留GET方法的行为已经可以屏蔽掉此种类型的搜索机器人访问行为.

3)文件清洗

主流互联网搜索引擎都遵循一个约定俗成的规定,每次机器人搜索都实现请求Robots协议.Robots协议是以robots.txt文本的形式存在,站点通过该协议告诉搜索机器人哪些页面可以访问,哪些禁止访问.只要过滤掉所有请求robots.txt文件的访问行为即可基本清洗掉大多数遵守规则的机器人访问行为.但是并不是经过以上三次过滤后即可清洗掉所有机器人访问数据,为应对以上难题,本文提出了一种二次过滤模型,过滤掉由搜索机器人产生的访问记录.

如图3所示,区别于传统数据清洗阶段的清洗,二次过滤模型作用于会话识别阶段与路径识别阶段,协同数据清洗,一起完成对网络搜索机器人访问记录的清洗.

图3 基于二次过滤的Hadoop预处理模型

3.2 一次过滤

一次过滤原理是针对搜索机器人的时间特性,因为搜索机器人运作与各大搜索引擎的大型服务器或集群式服务器之上,所以其对站点的访问具有访问速度快的特点.一般情况下,自然人用户需要几分钟甚至几十分钟才能够完成一个页面的访问,搜索机器人仅需要几秒钟即可完成访问.

3.3 二次过滤

二次过滤又可以称之为路径过滤,是基于路径访问序列的过滤行为,其针对的是搜索机器人的访问路径特性.正常的自然人对一个站点的访问只会访问其关心的网页,其并不会对所有网页进行访问,而网络搜索机器人会对整个站点进行搜索.

经过二次过滤之后,能够几乎百分之百的完成对网络搜索机器人的清洗工作,使得预处理之后的数据更加干净,对于提高后续挖掘算法的效率与准确度具有重大的意义.

4 结语

本文主要介绍基于Hadoop的大数据策略处理研究.首先简要介绍了Hadoop云平台构架结构;之后对现有Hadoop大数据处理模型进行分析;并在原模型基础上提出二次过滤动态阈值模型,并对其进行详细阐述.

[1] 张鹏.IBM在华践行“蓝云6+1”计划[J].通信世界,2009,20(16):23-24.

[2] 张亚勤.与云共舞——微软云计算的新进展[J].中国计算机用户,2009,2(14):12-13.

[3] 岑文初.分布式计算开源框架Hadoop入门实践[EB/OL].http://blog.csdn.net/cenwenchu79/archive/2008/08/29/ 2847529.aspx,2008.

[4] 刘越.云计算综述与移动云计算的研究[J].信息通信技术,2010,2(8):15-17.

[5] 司品超,董超群,吴力,等.云计算:概念、现状及关键技术[J].高性能云计算年会,2008,1(2):31-32.

[6] 框胜徽,李勃.云计算体系结构及应用实例分析[J].计算机与数字工程,2010,3(6):61-63.

[7] 王鹏.走进云计算[M].北京:人民邮电出版社,2009.

[责任编辑王新奇]

Hadoop-Based M ass Data Processing Strategy

CAIJing-song

(Computer Center,Anhui Vocational College of Press and Publishing,Hefei230601,China)

Mass data provide a rich source for data-mining.The excavated information can be of commercial value.Based on related references,we have provided an empirical analysis ofmass data processing strategy and insightful observations for futuremass data processing.

Hadoop;mass data;processing;strategy

TP391

A

1008-5564(2015)02-0061-04

2015-01-21

蔡劲松(1979—),男,安徽无为人,安徽新闻出版职业技术学院计算机中心讲师,硕士,主要从事计算机应用基础、数据库程序设计与开发的教学与研究.

猜你喜欢

日志数据处理站点
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
一名老党员的工作日志
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
扶贫日志
基于Web站点的SQL注入分析与防范
雅皮的心情日志
游学日志
积极开展远程教育示范站点评比活动
首届欧洲自行车共享站点协商会召开
怕被人认出