APP下载

基于数据挖掘的高校学生网络行为分析与管理研究

2020-04-21姜彬峰

无线互联科技 2020年5期
关键词:数据挖掘

姜彬峰

摘   要:随着移动互联网和高校校园网的日趋完善,大学生已成为网络社会最主要的社会群体之一。网络已成为大学生校园生活和日常生活不可缺少的重要工具之一,对高校学生网络行为进行分析、管理和引导具有重要的作用和深远的意义。文章重点对网络访问数据预处理、网络访问数据清洗、网页分类等核心环节进行了阐述,并构建了网络行为分析与管理系统,为高校网络部门优化校园网络服务、保障网络安全提供了参考。

关键词:网络行为分析;网络行为管理;数据挖掘

随着网络的迅速普及,近年来我国网民数量不断增长,2019年8月中国互联网络信息中心(CNNIC)发布了第44次《中国互联网络发展状况统计报告》,截至2019年6月,我国网民规模达8.54亿,互联网普及率达61.2%,手机网民规模达8.47亿,网民使用手机上网的比例达99.1%,2019年上半年,我国网民的人均每周上网时长为27.9 h[1]。随着移动互联和高校校园网的日趋完善,大学生已成为网络社会最主要的社会群体之一。由于具有较高的文化层次以及较强的新生事物接受能力,大学生掌握了很高的计算机和网络技术,也因此主导着计算机网络文化的潮流,网络使用普及率、上网时间等都明显高于其他群体。网络已成为大学生校园生活和日常生活不可缺少的环节之一,对高校学生网络行为进行分析、管理和引导具有重要的作用和深远的意义。

1    高校学生网络行为分析与管理现状

学生网络行为分析与管理是指通过提取和监控网络流量,采集网络用户信息,包括用户ID信息、所在区域、相关浏览数据和流量数据,建立分析数据库,识别学生访问网站、网络系统、数据库、论坛等访问行为,及时关注和掌握学生网络行为状态,引导学生行为。同时,通过关注网上异常行为,提高专有网络的安全性。

高校学生网络行为数据挖掘主要包括数据采集、数据处理、数据分析等步骤,数据采集是从高校各个专门网络、APP、教学管理系统、图书借阅系统、数据库等教育环境中获取学生访问和使用数据,并进行存储;数据处理首先采用数据清理、数据变换等方法将采集的数据转换成适合于数据挖掘的数据格式,然后运用人工智能、统计分析、机器学习等方法,从大量数据中挖掘和发现相关隐含信息;数据分析是指构建相应的评价指标对数据挖掘结果进行评价,为相关行为管理提供依据。

2008年,美国、荷兰等国家便先后成立了国际教育数据挖掘工作组,并召開了首届教育数据挖掘国际学术会议。近年来,关于教育数据挖掘的研究不断增多。2014年,电子科技大学成立教育大数据研究所;2015年,中国统计信息服务中心成立中国教育大数据研究院。吴青等[2]基于J48决策树对高校学生网络学习行为进行了研究,构建了相关学习模型。为了实现网络学习的过程监管,施佺等[3]使用关联规则和聚类分析方法对学生的网络学习行为数据进行了研究,并构建了数据挖掘模型。薛黎明等[4]将聚类算法用于用户行为分析,以上网时长为指标值,使用K-均值聚类与Kohonen神经网络聚类方法对上网记录进行聚类分析,获得了较好的效果。马煜[5]利用数据挖掘技术分析了校园网用户的行为特点,为网络部门优化校园网络服务、保障网络安全提供了参考。周航[6]基于大数据通过可视化校园网络的用户行为数据,了解用户的网络行为,并为相关管理部门提供优化依据。

2    高校学生网络行为分析与管理技术

本文借助某高校学生的网络访问记录,通过网络爬虫、网页分类、关键词聚类、网络行为可视化等手段,对采集的数据进行处理,研究学生的兴趣模型,采用关联规则对学生浏览的网页进行分析与分类,从而揭示学生在此过程中所体现的网络行为。

2.1  网络访问数据预处理

学生网络访问日志主要来源于某高校信息化办公室数据中心的服务器数据,包括学生的基本信息以及访问数据,例如网址、下载文件、访问数据库、端口请求等。据此构建了数据基本字段,格式如图1所示。

其中,NUM表示记录编号,USER_ID表示访问学生的ID号,USER_CRC表示学生的学号,TIME1表示访问开始时间,TIME2表示访问结束时间,URL表示访问链接,TYPE表示链接分类类别,TER表示访问设备类型。

2.2  网络访问数据清洗

为了去除访问数据中的异常数据、弹窗、无效链接和其他无用数据,在进行数据挖掘之前,首先要对采集到的数据进行清洗,保障数据的质量和有效性。本文中需要过滤的无效或者无用数据包括访问的图片、下载的压缩包、弹出的窗口、广告等噪声信息,这些信息会影响后续的网络数据建模,因此必须提前进行处理,针对常用的数据异常类型,处理方式如下:

(1)缺失值类异常数据,如果缺失率较低,且数据重要程度不高,可根据数据分布情况进行填充,例如均值、中位数等;如果缺失率较高,且数据重要程度不高,可以直接删除;如果缺失率较高,且数据重要程度较高,本文采用热平台插补法进行处理,即在非缺失数据集中,找到与缺失值类似的匹配数据,利用非缺失数据集中的数据对缺失数据进行填补[7]。

(2)异常值类异常数据,是指明显偏离正常范围的数值,可通过箱线图或者统计分析进行区分,通过数据的统计特性,去寻找不合理的值。本文采用基于正态分布的离群点检测方法进行判断,在准则下,异常值是测定值中与平均值偏差超过3倍标准差的值,对于正态分布而言,属于极小概率事件。对于不服从正态分布的数据,本文采用超过原理平均值3倍的方式来判断。

(3)重复值类异常数据,首先将所有数据按照一定的规则进行排序,然后通过比较相邻数据集的相关性来判断是否属于异常数据,可用duplicated函数实现此过程。

(4)噪音类异常数据,是检测数据的随机误差或者方差,不同于离群点数据。对于噪音,可采用回归法进行处理,即用一个函数拟合来光滑数据,只要找到适合数据的拟合函数,就能消除噪音对数据的影响。

2.3  网页分类

根据学生访问习惯,本文将学生访问网页分为新闻、艺术、影音、邮箱、游戏、宠物、购物、科技、论坛、美食、汽车、体育、文学、教育、考试、交通、旅游等,同时用相应的訓练样本对其进行训练。分类流程如图2所示。

3    高校学生网络行为分析与管理系统构建

从实际需求出发,设计了高校学生网络行为分析与管理系统,系统根据学生访问日志,通过对网页进行分类,借助Echarts对结果进行可视化展示,主要实现了数据上传、数据读取、网页分类、结果可视化等功能。其系统功能结构如图3所示。

4    结语

本文在深入分析高校学生网络行为分析与管理研究现状的基础上,对网络行为分析与管理技术进行了阐述,包括网络访问数据预处理、网络访问数据清洗、网页分类等核心环节,并根据实际需要构建了网络行为分析与管理系统,提出了系列解决方案,为高校网络部门优化校园网络服务、保障网络安全提供了参考。

[参考文献]

[1]中国互联网信息中心.第44次《中国互联网络发展状况统计报告》[EB/OL].(2019-08-30)[2020-03-10].http://www.cac.gov.cn/2019-08/30/c_1124938750.htm.

[2]吴青,罗儒国.基于网络学习行为的学习风格挖掘[J].现代远距离教育,2014(1):54-62.

[3]施佺,钱源,孙玲.基于教育数据挖掘的网络学习过程监管研究[J].现代教育技术,2016(6):87-93.

[4]薛黎明,栾维新.聚类算法在高校网络用户行为分析中的应用[J].现代电子技术,2016(7):29-32.

[5]马煜.基于数据挖掘对校园网用户网络行为的分析[J].科技创新与应用,2016(34):79.

[6]周航.基于大数据的高校网络用户行为的数据可视化设计分析[J].中国包装,2019(7):33-35.

[7]翟学新.高校学生网络行为与兴趣关联分析[D].绵阳:西南科技大学,2018.

Research on network behavior analysis and management in university

campus based on data mining

Jiang Binfeng

(Information Office, Jilin Railway Technology College, Jilin 132200, China)

Abstract:With the development of mobile internet and campus network, the college students have become one of the most important social groups in the network society. Network has become an indispensable part of college students campus life and daily life. It has an important role and profound significance to analyze, manage and guide college students network behavior. This paper focuses on the core links of network access data preprocessing, network access data cleaning, web page classification and so on, and constructs a network behavior analysis and management system, which provides a reference for the network department of colleges and universities to optimize campus network services and ensure network security.

Key words:network behavior analysis; network behavior management; data mining

猜你喜欢

数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议