基于Hadoop大数据技术的学生网络行为的研究
2020-11-18袁伟华
袁伟华
(广东行政职业学院,广东 广州 510800)
1 引言
随着网络技术的快速发展,互联网已经成为获取信息的重要渠道。目前所有高校、学生都可以通过校园网络查询信息或进行网购商品之类的网络行为,同时学生的这种网络行为,会在校园网中产生相应的网络日志信息,而这些网络日志信息中包含着一些有价值的信息,我们可以使用Hadoop大数据技术从这些信息中分析出学生的日常生活规律以及真实需求,并反馈给学校领导层,以便对学生管理做出正确的决策。所以,如何充分利用校园网络平台挖掘出有价值的信息来推动教学的改革,已成为高校的重要课题。
2 建立校园网络学生行为分析系统的目的
为了促进高校信息化建设的健康发展,防止和遏制不良信息在校园网络蔓延,我们必须利用校园网络监控系统,以发掘学生的网络行为倾向和心理动态。因为高校的学生在思想上尚不成熟,自律能力以及识别能力较弱,心理承受能力也较差,所以有必要加强对大学生网络行为分析研究。通过采集校园网络的日志信息,可以发现和发掘大学生上网的日常规律以及上网的真实需求,同时对异常网络行为进行识别,并且采取相应措施引导大学生健康上网,为校园网络设置一道天然的屏障,以净化网络信息,让校园网络真正成为大学生职业素质成长的平台,从而提高学生的整体综合素质。
3 系统架构设计
为了达到数据分析的目的,本系统主要采用了Hadoop的HDFS(分布式文件系统)、MapReduce(并行计算框架)、Hive(数据仓库)三个组件,同时采用zookeeper作为集群中的协调工具,使用Flume 作为数据采集工具,整个系统分为数据存储模块、数据分析模块、日志采集模块以及结果输出模块,图1所示是整个系统的整体架构图。
(1)数据存储模块:在这一模块中,由HDFS 完成对数据的分布式存储,MapReduce 完成并行计算任务,可以由Hive提交MapReduce计算任务,任务完成后,结果发送给Hive。
(2)数据分析模块:数据分析模块和数据存储处理模块是在一个Hadoop 集群系统中部署完成的。在实际应用中,Hive 部署在Hadoop 集群系统中的NameNode 节点上。在数据分析模块中,Hive 将校园网的日志数据映射成数据库表,并提供类SQL 的查询功能,可以将SQL 语句转化为MapReduce 任务进行运行,同时可以接收用户发出的查询请求,提供给用户相应的服务,并向结果输出模块返回查询结果。
(3)日志采集模块:在该模块中,可以使用Flume 采集数据,Flume是具有分布式、高可靠、高可用性等特点的日志收集系统,Flume 支持在日志系统中制定各类数据发送,同时Flume 也提供对数据进行简单处理,其设计原理也是基于数据流。使用Flume,网络日志信息从各种网站服务器中收集起来,先要进行数据清洗,再按照Hive表的结构将采集数据输送到对应的地址中,可以达到数据实时存储的目的。
(4)结果输出模块:用户向Hive提交查询请求,这些查询请求传递到Hive数据分析模块中,经过Hive的编译和解析,将生成的MapReduce任务交给数据存储模块,经过处理后再通过数据分析模块返回给结果输出模块,并以网页、图表、表格等多种形式显示。
4 利用系统分析学生网络行为
为了分析学生网络行为,我们在平台上利用某高校网络日志文件进行测试,在我们的实验环境中,Hadoop/Hive 集群是由7台配置相同的服务器组成。在集群中的所有服务器上都运行centos 7操作系统,并安装配置Hadoop 2.8.4。在这7 台服务器中,主要使用Hadoop 和zookeeper 搭建了大数据集群,其中有2个NameNode节点运行在2台机器上,2个ResourceManager 节点也 运行在2 台机 器上 ,3 个DataNode 和NodeManager 节点同时运行在3 台机器上,构成一个高可用的Hadoop 集群,并安装配置Hive-0.7.0 以及Flume 数据采集工具。
在实验中,我们采用实际高校网络日志作为输入,从学生宿舍流量、5 日内搜索次数、网购次数、发帖次数以及浏览次数等几个方面进行分析,分析结果通过HTML5展现,如图2、3所示。
本次实验,我们采用实际高校网络日志作为输入,得到了每栋学生宿舍流量以及五日内学生搜索次数、网购次数、发帖次数和浏览次数,从输出的数据中,我们可以看出第一栋宿舍流量明显居多以及5日内发帖次数增加,那么我们可以继续跟踪学生的上网网址和内容,了解学生的具体需求,摸清学生的心理状况,为教学计划做出调整,为教学改革提供正确决策。
5 结束语
随着科技的发展,大数据技术已广泛运用在各行各业,对于高校而言,如何运用大数据技术进行教学改革,运用大数据技术分析学生的日常网络行为,以及如何引导学生合理运用网络资源,已经成为目前学校研究的重要课题。使用好大数据有利于顺应现代科技发展潮流,有利于挖掘出学生隐藏于日常生活的学习规律,并把握好他们的思想动向,从而有利于掌控学生的真实需求,所以高校需要借助大数据技术这一契机实现自身教学工作的改革,从而推动高校教学工作与时代发展相适应。