基于校园网的用户上网行为数据分析及应用
2020-10-27赵丹赵文广
赵丹 赵文广
一、引言
近年来信息技术的高速发展引发了数据规模的爆炸式增长,国家对此高度重视,教育部在近年来的《教育信息化工作要点》中也屡屡提到大数据应用。基于此的研究越來越多。为顺应时代发展,本文尝试采集校园网用户上网行为大数据,对其进行分析,量化其行为规律。此类研究主要有:分析校园网用户行为,用来合理分配带宽。分析上网时长、上网内容与学习成绩之间的关系。存在的问题主要有:数据量较小,整理筛选后的样本用户不足万人,分析维度单一。本文亮点在于:数据量大,采集了十几万人的上网行为数据;采用多维度分类法进行了较为细致的分析,总结出了校园网用户行为的某些规律。
笔者采集了基于校园网的用户上网行为大数据,并对其进行清洗、筛选,多维度分类统计与分析,总结出了各类校园网用户的行为规律。以便相关部门依托这些数据、规律整合流程,更好的形成创新性的服务体验,同时也能通过数据化的管理实现个性化服务的精准推送。
二、系统构建
系统包括:数据采集、数据存储、数据分析。采集的数据包括:上下线时间、时长、流量、IP等。
(一)系统总体介绍
以某校为例,校园网包括有线网与无线网。其中有线网交换机近千台,无线网AP几千个,基本覆盖所有教学、办公、宿舍等区域。所有用户必须登录计费系统认证之后才能访问外网。基于校园网的用户上网行为数据分析系统拓扑结构如图1所示。认证网关位于防火墙和核心交换机之间,用于采集上网行为数据。
系统结构框图如图2所示,包括数据采集、数据存储、数据分析三大模块。数据采集模块负责采集用户上网行为数据。通过数据定义规则对数据进行预处理后,将非结构化数据存入日志服务器,结构化数据存储于数据库。数据存储模块负责存储数据,并对计费数据库数据、用户访问日志进行进一步清理、筛选,将结果存入数据库数据分析相关表中。数据分析模块负责对数据进行各种分析。
(二)数据采集
1.数据采集原则
高校大数据的主要特点有:数据分散、数据类型多,数据量不算特别大,但是数据价值非常高。故在数据采集时要做到大而全、细而及时。
大:充分考虑数据规模的增长,做好大数据积累。
全:采取多种方法全量采集。
细:多维度、全面采集。
及时:及时采集数据,提高时效性。
2.数据采集方案
高校数据主要有两类:结构化数据和非结构化数据。针对此,采取不同的数据采集方案。
日志服务器负责采集非结构化数据,例如:用户IP、目标IP、MAC、下行流量、登录时间、下线时间、使用设备、NASIP等。通过认证网关的内核来采集,并采用了双认证网关和负载均衡技术。
数据库负责采集存储结构化数据,例如用户ID、上网开始时间、结束时间、使用流量等。主要从原始数据中抽取出来。例如:日志服务器采集了用户每一次认证的数据,数据库抽取部分数据存储。然后通过触发器、脚本等将其进行筛选、整合,形成业务数据。
(三)数据存储
日志服务器按照每天一个文件夹来存储非结构化数据,每天增量约40G。结构化数据由Oracle大型数据库存储。以表1为例,是在用户单次消费的基础上算出的月消费情况。存储数据有:用户ID、时长、流量、费用等。一条记录存储一个用户在某段时间(一个月)内使用的上网流量、时长、网费。数据分析时需与用户表进行联合查询。此表每月约10万条数据。
(四)数据分析
数据分析模块用于实现对用户的流量、时长、网费等行为数据进行多维度的分析。
采用按不同消费月份统计用户的行为,例如流量、时长、网费等;从类别、性别等不同维度分类统计比较用户的行为;分时段统计用户在线人数。
通过对这些数据的分析,生成统计表和统计图。
三、系统初步应用
本系统依托于校园计费系统,注册用户数为十七万余人,个人允许在线设备上限为3,系统最大同时在线终端数为24662。系统采集了历年来的用户上网数据,其中存储于oracle数据库的数据已超20G,存储于日志服务器的数据以日均40G的速率增长。
(一)用户样本集选取
系统用户分为本科生、研究生、其他学生、教职工、访客、专线用户。用户离校后帐号保留,其活跃度有时效性。初步选定时间范围为某学年,目标为该学年初即9月的活跃用户(流量>0G),共32125人。
从图3可看出占比最大的三类用户为:本科生、研究生和教职工。访客与其的显著区别是每月无赠送流量,也纳入样本集。最终选取本科生、研究生、教职工和访客四大类用户共30732人这个样本集在某学年度的上网数据进行分析。
(二)不同类别用户每月人均使用情况分析
将样本集用户在某学年内每月的流量(单位:GB)、网费(单位:元)、时长(单位:小时)进行统计与分析,依次得出如图4、图5、图6所示的比对图。
从图4可看出每月人均使用流量为:本科生>研究生>教职工>访客。因本科生、研究生生活学习都在校内,在网时间长。教职工仅在校内工作,在网时间较短。访客在网时间更短,故使用流量最少。
从图5可看出每月人均网费消费为:本科生>研究生>访客>教职工。其趋势与每月人均使用流量大体相同,但不成比例。因每月赠送本科生、研究生10G流量,教职工15G,访客无。且收费费率呈阶梯式。
从图4、图5可看出本科生每月人均流量、网费消费最多。因本科生自由时间最多,研究生需上课、科研、外出实习等。访客无赠送流量,网费也不容小觑。教职工每月人均网费消费最少。
从图4、图5、图6可看出1、2、7、8月用户人均使用流量、网费、时长明显少于其他月份。因寒假一个月跨越了1、2月,暑假为7、8两个月。进一步分析减少比例,减少比例=(正常月份平均值-假期平均值)/正常月份平均值。假设f(i) 表示第i个月用户流量,则假期流量减少比例计算如式(1)所示:
以此类推,计算出不同类别用户假期用量减少比例如表2所示。寒假用量减少很大,其中本科生网费减少了61.4%,非常贴合我国人民春节归家的习性。而暑假教职工网费、访客流量网费时长均有所增加,可看出暑假仍有不少教职工在校内坚守岗位。
统计各类用户在学年度内平均使用流量与平均使用时长的比率(简称:流量时长比)如表3所示。可看出本科生的流量时长比最大。说明本科生更爱访问消耗校外流量多的网址。其他用户用网更理性。
(三)不同性别用户每月人均使用情况分析
按照男、女不同性别统计样本集中的本科生和研究生在某学年内每月的人均网费流量、时长,如图7、图8所示。从图7可看出,男生每月网费约为女生的2倍,流量约为女生的1.3倍。从图8可看出,男女生上网时长基本持平。说明男生访问的网站更耗校外流量。而女生较节约,使用校外资源明显少于男生。
(四)不同时段用户在线人数
以9月为例,每天不同时段用户在线人数分布如图9所示。1时表示0-1点,2时表示1-2点,以此类推。不同线条表示不同的天,对应不同天不同时段的在线人数。可看出在线人数峰值时段分别为:12-13时,17-18时。在线人数最少的两个时段分别为:3-4时,5-6时。据此可避开上网高峰选择在线人数较少的时段调整网络、升级系统等。
(五)分析結果小结
用户对网络的使用量受其年级、性别、时间等多方面影响。具体表现为:
1.人均使用流量本科生最多,访客最少;
2.人均网费消费本科生最多,教职工最少;
3.寒暑假用户流量、网费、时长比平常少。其中本科生寒假网费减少最多,访客暑假网费反而增加;
4.不同类别用户流量时长比有所差异,本科生的流量时长比最大;
5.男生每月人均网费约为女生的2倍,流量约为女生的1.3倍,两者上网时长基本持平;
6.12-13时,17-18时校园网在线人数最多,3-4时,5-6时在线人数最少。
四、结语
基于校园网对用户的上网行为数据进行分析,可总结出很多有意思的规律。管理部门可据此为师生提供便捷、高效、精准的个性化引导和服务,为学校开展精细化、智能化师生服务提供理论依据和解决方案,进而影响智慧校园决策。
本文是笔者所在高校基于校园网用户上网行为数据分析及应用的初步尝试,后续将引入专业大数据分析工具找出更深层次的规律。作者单位:中国人民大学信息技术中心