APP下载

基于大数据的高校学生网络行为监测系统的设计

2020-05-21傲起杨晓

电脑知识与技术 2020年9期
关键词:风险管控大数据

傲起 杨晓

摘要:校园网的发展对学生的学习与生活带来了极大的便利,但同时也影响着学生的思想和行为,给高校学生管理工作带来了新的挑战。该文基于校园网流量分析,设计了一套学生网络行为监测系统,可通过分析学生网络行为监测学生的网络游戏沉迷情况,通过分析学生网络浏览内容监测学生的话题关注情况,为学生的思想教育和行为引导提供可靠、有效的科学依据。

关键词:网络行为分析;流量分析;网络游戏沉迷;风险管控;大数据

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2020)09-0027-02

开放科学(资源服务)标识码(OSID):

1 背景

近年来,网络极大的便利了學生的日常学习与生活,包括资料查找、聊天、点餐、购物、视频、游戏等。然而网络上的信息良莠不齐,由于学生群体思想活跃、单纯明辨是非能力差、自控力欠缺,在网络带来便利的同时,也带来了一系列问题和风险,严重影响了学生的健康成长,如网贷、沉迷游戏、传播不良言论等[1]。传统的管理措施主要依赖学校的管理制度和学生的自我约束,缺乏网络控制、网络行为分析能力和管控措施。为此,本文提出了一种基于校园网络流量数据的学生行为监测系统的设计方案,能够实时掌握学生的网络游戏沉迷情况和学生关注黄赌毒情况,为学校提供有效科学的网络管控措施。

2 网络行为监测系统

本系统对网络言论与行为识别、判定及管控,架构设计如图1所示,由数据采集层、数据处理层和分析推理层组成,主要实现学生网络沉迷的管控、涉黄赌毒的风险用户发现和用户关注主题分析。

2.1 数据采集

数据采集捕获校园流量数据包,对流量数据包进行识别,对于网页浏览数据包进一步通过爬虫爬取对应页面。主要设计思路如下:

1)流量数据包捕获:在校园出口路由器上设置流量镜像,基金项目:内蒙古自治区高等学校科学研究项目:智慧校园之学生上网行为的分析与研究(项目编号:NJZY18315)将数据转发到数据采集服务器,在该服务器上使用基于DP-DKc2]的数据包采集软件捕获数据并将数据按照pcap文件格式进行存储。

2)流量识别:采用基于深度包检测技术对流量进行识别3],获取以下信息:流量应用类型,访问IP地址、应用层协议、访问端口、访问网址、访问时间、源IP地址、源Mac地址等,将信息存储到数据库。

3)网页爬虫:对于应用层协议为HTTP的数据包并且非搜索引擎的网址,使用网页爬虫下载对应网页文档存储到本地服务器。

2.2 数据处理

数据处理对流量数据和网页文档进行数据预处理和特征提取,为分析推理层提供算法所需数据。主要设计思路如下:

1)流量数据包的预处理和特征提取

流量数据预处理:本系统主要涉及的流量类型为网页流量和游戏类流量,对于视频和音频类数据不进行处理,因此在预处理阶段将该类数据包过滤掉。

流量数据特征提取:对流量数据进行统计汇总,获取每个学生的周上网总时长、上网频率、每次上网时间段和平均在线时长等。对搜索引擎类数据包,对请求进行解析,获取请求关键字。

2)网页文档的预处理和特征提取

网页文档的预处理:从网页中去除HTML标签提取文本内容。对处理后的文本进行文本分词,文本分词是网页关键词提取的基础,可采用Jieba分词工具或者中科院分词系统。最后从分词之后的文本中去除停用词。

网页文档关键词提取:关键词提取方法有TF-IDF算法、TextRank算法和基于LDA[4.5]主题模型的关键词提取方法,其中前两者无法从文本中提取隐含的主题信息,因此本文采用LDA算法。通过对LDA模型的训练可获取每个网页文档的关键词分布。

2.3 网络游戏沉迷管控

随着互联网的发展,很多大学生沉浸于游戏,严重影响了正常的学业。通过网络游戏沉迷分析帮助学校发现沉迷游戏的学生,便于进行有针对性辅导和教育。主要设计思路如下:

1)特征选取:学生的网络游戏迷主要体现在上网时长方面[6],因此取以下四个特征作为度量标准。

2)网络游戏沉迷度量化模型:层次分析法[7]堤:一种定性与定量相结合的决策分析方法,这里应用该方法对网络游戏沉迷度进行量化研究,其模型结构如图2所示。

为了得到学生的游戏成谜度,需要设定准则层的评分规则,即如何通过学生的网络行为对六个度量指标进行数值评价。这里采用统计方法,由学生在群体中的排名决定每个指标的量化值,各特征指标的量化值范围0 - 100,排名越靠前数值越高,表示沉迷程度越深,如某一学生的总上网时长排在第五名,那么他的总时长量化值为95。

准则层到目标层的定量化,即网络游戏成谜度,将由所有特征指标的量化值加权求和表示。特征指标的权重使用一致矩阵法,首先对特征指标两两相比较确定判定矩阵中每个元素值,然后对矩阵进行一致性验证,若通过则经特征向量归一化获得每个指标的权重值,若不通过重新调整判定矩阵。

2.4 风险管控

网络中存在很多不健康的、有危害性的内容,如涉黄、涉赌、涉毒、暴恐等,通过分析学生上网浏览的内容,发现浏览此类内容的学生,从而可对学生有针对性地做思想教育和行为引导。主要设计思路如下:

1)建立知识库:针对涉黄、涉赌、涉毒建立相关关键词知识库、违规网站域名库和事件关键词库(如恶性事件、民族分裂事件等)。

2)判定网页性质:如网页域名在违规域名库,则直接判定为风险网页。否则使用关键词多模式匹配方法[8]检测网页中是否包含已预设的敏感关键词,若}H现频率高于某一阈值标记该网页为风险网页,如涉赌网页。

3)发现风险用户:统计每个用户的风险网页浏览次数和利用搜索引擎搜索敏感词汇次数,根据上述两个指标对用户进行排名,发现高风险学生,如关注赌博的学生。

2.5 用户关注分析

学生管理者能夠与学生进行有效沟通的前提是对学生的兴趣爱好、所关注的事与物要有一定的了解。用户关注分析通过对学生的浏览内容发现学生所关注的主题,具有相似兴趣爱好的学生群体。主要设计思路如下:

1)热门主题发现:根据网页关键词分布,统计每个关键词的关注热度。

2)相似兴趣学生群体发现:根据网页关键词分布,计算每个用户的关注主题分布,使用余弦相似度[9]衡量用户兴趣相似度,基于K-means聚类[10]算法发现具有相似主题兴趣的用户群体。

3 结束语

本文对高校学生网络行为监测系统提出了一种设计思路,主要从网络行为和网络内容两个角度设计了三种监测与分析模块,能够有效帮助高校实时掌握学生动态,从而对学生有针对性地进行思想教育和行为引导。

参考文献:

[1]李立,彭聪留.基于大学生的网络行为态势感知和管理方案探讨[J].网络安全技术与应用,2019(9): 80-83.

[2]任吴哲,年梅,基于DPDK的高速数据包捕获方法[J].计算机系统应用,2018,27(6): 240-243.

[3]孟博,何旭东,王德军,等.网络协议流量识别方法研究[Jl.郑州大学学报:理学版,2019,51(4): 68-74.

[4]杨传春,张冰雪,李仁德,等.基于LDA模型的网络刊物主题发现与聚类[Jl.上海理工大学学报,2019,41(3): 273-280, 306.

[5]李梦杰,刘建国,郭强,等.基于文本挖掘的互联网教育课程主题发现与聚类研究[J].上海理工大学学报,2018,40(3):259-266.

(6]刘晨光,王彦英.大学生上网时长与网络成瘾的相关性调查 [Jl.内蒙古科技与经济,2015(4): 16-17.

[7]林海卓,王继龙,张颐哲,等.高校网络沉迷与防沉迷系统的研究与实现[J].通信学报,2014(z1): 170-177.

[8]夏念,嵩天.短规则有效的快速多模式匹配算法[J].计算机工程与应用,2017,53(7): 1-8.

[9]武永亮,赵书良,李长镜,等,基于TF-IDF和余弦相似度的文本分类方法[J].中文信息学报,2017,31(5): 138-145.

[10]杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23): 7-14,63.

【通联编辑:谢媛媛】

作者简介:傲起(1983-),女(蒙古族),内蒙古鄂尔多斯人,讲师,硕士,主要研究方向为上网行为分析、舆情分析、情感分类、深度学习;杨晓(1989-),女(蒙古族),内蒙古鄂尔多斯人,初级,学士。

猜你喜欢

风险管控大数据
浅谈集中监控开关实传试验的“三步控制法”
大数据环境下基于移动客户端的传统媒体转型思路