APP下载

基于数据挖掘的校园流量监测系统设计

2020-12-07周康乐

现代电子技术 2020年21期
关键词:数据采集数据分析校园网

摘  要: 针对校园网网络覆盖面不广、执行功能相对单一、安全隐患较大的问题,提出以数据挖掘为基础,以K?means算法作为主要分析算法的校园流量监测系统。校园流量监测系统在原有的校园网管理系统上做了更為完善的改进与优化,能够随时随地监测校园网流量的异常与否,同时对校园网系统的数据信息进行收集,以分析其数据信息趋势并做出决策。通过实验对比可知,以数据挖掘为基础依据的校园流量监测系统比以往校园网系统更具多样性,系统稳定性更高,应用范围更加广泛,通过校园网系统对校园网络进行管理具有更好的执行能力。

关键词: 监测系统设计; 流量监测; 数据挖掘; 数据采集; 数据分析; 校园网

中图分类号: TN99?34                          文献标识码: A                           文章编号: 1004?373X(2020)21?0059?05

Design of campus traffic monitoring system based on data mining

ZHOU Kangle

(Nanchang Institute of Technology, Nanchang 330044, China)

Abstract: In view that the coverage of campus network is not wide, the executive function is relatively single and the security risks are large, a data mining based campus traffic monitoring system which takes K?means algorithm as the main analysis algorithm is proposed. The campus traffic monitoring system is improved and perfected on the basis of the original campus network management system, so it can monitor the campus network traffic at anytime and anywhere. At the same time, the data information of the campus network system is collected to analyze the trend of data information and make decisions. In comparison with the previous campus network system, the campus traffic monitoring system based on data mining has more diversity, higher system stability and wider application range. Moreover, the campus network system has better executive ability in the management of the campus network.

Keywords: monitoring system design; traffic monitoring; data mining; data acquisition; data analysis; campus network

0  引  言

在时代的发展进程当中,高校校园网的建设与发展已经成为高校建设的关键组成部分[1]。校园网对于高校办公、教学以及科研方面的应用程度也越来越广泛。面对复杂多变、危险与安全并存的网络现状环境,校园网在实际应用的过程当中遇到的威胁与资源保护问题越来越严峻[2]。校园网在其自身网络限制与防护上往往存在薄弱环节,极易受到网络上如恶意站点、木马程序等各种各样的恶意攻击。此类网络恶意攻击的出现,既使得高校校园网面临不可预知的安全威胁,也让其因网络流量异常等问题而运行缓慢卡顿。对网络数据流量进行详细的分析并理清其内部关系,能够帮助校园网管理人员更好地对校园网络进行管理[3]。通常来说,校园网设计应用较少,规模相对不大,在实际管理上具备比其他网络架构更明显的优势。但是随着网络的发展和网络环境不断的复杂化,校园网络的规模和设计应用数量在逐年增长,同时,各类网络病毒和恶意攻击的形式也在不断发生变化[4]。校园网络管理应当保证其具备对应的可控性、可用性以及稳定牢固的安全水平,是亟需解决的问题。通过数据挖掘技术,对校园网流量进行进一步的流量监测和异常流量的预警以及分析,能够帮助高校更好的运行和维护校园网络。

1  数据挖掘技术

1.1  数据挖掘的定义及其分类

1.1.1  数据挖掘的定义

随着信息技术的不断发展与成熟,互联网数据库当中的数据成倍增加。 面对日益庞杂的数据库信息,人们需要找寻一种合适的数据索引以及分析工具,在数以万计的数据库信息当中进行有效信息的提取,并且能够从所提取信息当中分析对应的发展趋势[5]。这时就用到了数据挖掘技术。数据挖掘技术起源于20世纪80年代,发展期间几经波折,但是随着信息技术的发展和专家学者的研究与开发,数据挖掘技术发展至今已经相对成熟,被广泛应用到生产生活的各个方面。

1.1.2  数据挖掘的分类

数据挖掘技术旨在从大量、不规则的大型数据库当中挖掘有效的、人类所需要的数据信息[6]。同时,依据这些信息做出进一步的分析和关联,帮助人们发现其隐藏规则,做出更好的工作規划和工作准备。以数据挖掘技术所对应的知识类型为基础依据,可以将其大致划分为以下几类,即总结规则、时序规则、趋势分析、关联规则、分类规则以及聚类规则等;以其技术的不同为基础依据,可以分为规则归纳、决策树、可视化技术以及人工神经网络等各种方法[7];以其不同的知识表达为基础依据,可以分为高层次挖掘、原始层次挖掘以及多层次挖掘等。

1.2  数据挖掘过程

数据挖掘过程是从大量、庞杂的数据库当中进行筛选和甄别的过程。数据库当中的数据庞大繁复,直接进行数据挖掘往往难以达到预期效果。在数据挖掘的实际应用过程中,往往需要通过以下步骤逐步进行,以获得最佳效果[8]。

1) 进行相应的数据准备。数据准备阶段需要以下三个细分步骤依次执行:

① 进行相应的数据选择,依据在实际应用当中的不同需求,进行相应的目标数据集群选择,缩小数据筛选范围。

② 对数据做出筛选与净化,依据实际情况通过对应策略对数据噪声进行消除,以此减免数据库当中的数据信息可能发生的冗余。同时,对数据信息进行合理的推断和预算,保证信息完整,避免其不完整性。

③ 对数据进行一定的变换和压缩,依据实际的数据处理任务,将数据信息进行对应的分组,并且进行离散与连续数据之间的相互转换,同时对数据进行相应的压缩。

2) 进行数据挖掘的方法以及算法的相关选择,选择的基本原则是方法与算法能够与数据处理相互匹配,同时尽可能的使处理结果最优。

3) 对数据挖掘的信息分析、评价与表达。在通过数据挖掘技术对海量的信息数据进行甄别与筛选之后,数据结果应当能够通过直观明了的可视化图表形式进行表达。

数据挖掘的完整流程图如图1所示。

1.3  数据挖掘与流量监测的关系

在学校规模不断扩张,互联网应用程度越来越广泛的过程当中,校园网的数据流量越来越多。与此同时带来的问题是各种异常网络行为的出现,种种数据流量的异常情况随之产生[9]。在大量数据流量信息当中,应当通过相应的分析手段,对其中异常的数据流量情况进行甄别,并通过分析其异常数据情况,得到异常数据流量的隐藏特征,同时针对特征做出对应的措施。在此过程当中,数据挖掘技术的应用十分重要。通过数据挖掘技术能够实现异常数据流量的筛选,并且能分析出其中的抽象规则[10]。数据挖掘技术为异常数据流量的分析提供了极大便利,帮助网络管理员在庞杂的数据当中快速找到其不同特征并得以利用。

2  校园流量监测系统设计

2.1  监测系统整体框架

校园网流量的监测系统,主要是通过技术手段对校园网络当中的数据流量做出对应的监测,并根据监测数据进行数据流量正常与否的判断。校园网的流量监控系统从结构上看主要包括两部分的内容:一部分功能的实现位置为服务器端口,主要执行的功能为对相应正常的网络流量做出分析与处理;另一部分功能的实现位置为客户端口,可以对校园网出现异常的数据流量进行分析[11]。在业务的具体计算、处理以及分析上,主要通过浏览器/服务器模式进行对应的操作。这一方法能够使开发难度尽可能降到最低,并减少对硬件的依赖,在处理上更为简洁。其具体流程图如图2所示。

2.2  监测系统各模块功能设计

2.2.1  数据收集模块

数据收集功能主要实现校园网使用的对应数据流量信息的相关收集工作,收集数据将作为进行校园网流量正常与否判断的主要依据[12]。在数据收集功能当中,其收集数据的方式主要是对经由交换机端口的各类数据包进行收集。首先需要获取客户端的IP地址,在获取IP地址之后,对各类交换机当中的网络端口进行相应配置信息的收集以及统计,在此过程当中,同时能够掌握网速以及相应的网络端口状态。

2.2.2  获取知识模块

获取知识的功能是指通过一定的数据挖掘算法对所收集的数据组成的数据集合进行特征挖掘,同时对这些数据结构进行分析。然后将学习的结果在对应的日志文件当中进行储存,便于进行以后的学习工作。鉴于校园网的运行是不间断的,为了学习工作能够跟随最新的数据流量情况,需要及时对系统日志进行更新。实际处理过程当中,需要对收集数据进行相应的预处理工作,保证数据格式相对规范,能够顺利进行知识获取工作。数据挖掘流程图如图3所示。

2.2.3  流量分组监测模块

对流量进行分类监测的功能通过对应的算法实现。首先应当建立对应的分析及预测模型,其次对数据库所收集到的网络数据进行对应的分类。在具体执行上,首先在各网络节点当中输入对应的参数值,然后以分类个数为基础依据对整体网络数据做出对应的数据处理,从而得到不同的聚类数组。在聚类数组当中计算各节点到中心节点的距离,并储存对应的中心点坐标数据,进行相似度计算。

2.2.4  网络分析模块

网络分析模块主要执行的功能是对所筛选和甄别出的异常流量数据进行分析,以便后期更进一步地对网络流量异常与否进行辨别,这样网络管理员就能够在工作时具备更高的工作效率。网络分析模块的流程图如图4所示。

3  流量监测系统的实现

3.1  用户登录实现

在校园网的流量监测系统当中,主要分为两类常见的系统使用者:一类是普通的校园网用户;一类是网络管理员。无论是哪类用户,使用流量监测系统的前提是通过合法的身份进行系统登录。在登录程序启动之后,用户会打开对应的登录界面,将自己的登录账号以及密码等登录信息输入登录界面对应的位置进行登录。信息输入之后,系统会对其登录信息进行后台验证。后台验证的目的主要有两个:一是验证用户输入的登录信息是否合法;二是检验用户登录的信息是否满足格式要求。当后台验证成功之后,允许用户登录,同时依据用户登录账号对应的身份凭证,为用户匹配不同的操作权限,进入与其身份相匹配的操作界面。具体的用户登录功能实现的流程图如图5所示。

3.2  预警信息管理查询

用户在其对应的操作界面当中能够通过预警查询管理功能实现对应的预警信息的浏览。预警信息管理查询的功能主要是对各类预警信息的检索功能。用户在对应的预警信息管理界面能够对想要查询的具体时间段、对应的预警信息检索类型进行选择,然后通过查询得到对应的查询结果。同时,用户也可以选择性地将有效的查询结果导出为对应的查询报告。通常预警信息管理查询功能仅供管理员用户使用。预警信息管理查询的流程图如图6所示。

3.3  网络流量查询

网络流量的查询主要是对网络流量异常与否的查询。在确定网络流量异常时,其对应的异常流量情况又可以分为两种,一种是未知网络异常流量,另一种是已知网络异常流量。已知网络流量异常的情况主要通过相对应的数据表完成;未知网络流量异常的查询主要是对当前的网络情况进行监测分析,进行相应的异常数据信息的筛选。具体的网络流量监测流程如图7所示。

3.4  网络日志查询

网络日志的查询通常是对操作记录或者异常预警的查询。系统在运行过程中,相应的系统操作在相应的日志文件当中进行相应的记录。网络管理员需要进行信息调用时,可以通过网络日志查询功能对相应的信息进行查询。通过网络日志查询,网络管理员可以对网络异常信息以及各种用户操作记录进行查询,并在需要时发出预警。

3.5  数据采集

校园流量监测系统的数据采集主要对在数据库当中储存的网络流量数据进行采集。数据采集是对交换机中通过的数据包以及校园网路由器的监测[13]。在计算机采集到相应的数据包时,对其提取首位以及次位字符。通过所提取字符确定网络设备对应的版本号。在版本号确定之后对对应的数据包做出处理,并进行相应的数据信息储存。同时,校园网监测系统处理的数据包类型应当是多样化的。

3.6  数据分析

对所收集到的流量数据信息进行分析的方法为聚类分析方法。在具体的分析过程当中,主要通过出现过的流量异常数据以及收集到的流量数据信息进行分析推理,判定现有收集流量数据是否异常。实际分析过程当中,通过K?means聚类算法进行分析,主要的分析步骤如下:

1) 设置常数[m],在流量数据样本当中选择随机的[m]个样本分为[m]个初始分类簇。

2) 计算其他样本到[m]个聚类簇聚类中心的相似度,依据其相似度的不同进行不同的数据样本归类。

3) 在各聚类簇中加入新的流量数据时,进行聚类中心的迭代更新,保证聚类簇中心正确。

4) 通过评价函数,判断聚类簇满足要求与否,当满足要求时,结束算法,若不满足要求,则回到步骤2)。

设计中K?means算法的具体流程图如图8所示。

4  测试结果及分析

4.1  测试方法

在具体的系统测试当中,主要通过静态测试以及动态测试两种方法进行相应的程序测试。在静态测试方法中,应用程序不需要运行,而是通过对程序当中的代码进行分析,评估程序当中对应的错误信息,进而检验其代码结构上是否存在不合理的嵌套或者是循环语句,以及其代码编写是否存在语法错误。在进行动态测试时需要运行程序,在程序运行过程当中,输入对应的执行语句并检测是否能够输出预期结果,从而确定流量是否发生异常。动态测试的方法进行进一步的分类可以分为白盒测试以及黑盒测试。白盒测试即在了解计算机系统功能的基础上所进行的测试;黑盒测试则并不考虑程序内部是何结构,主要是针对程序的功能接口进行对应的测试。

4.2  测试结果及分析

在掌握对应的测试方法之后,针对不同功能模块对流量监测系统进行测试。测试之前,需要进行相应的特征数据准备。准备好对应的特征数据之后,在对应的功能模块当中测试对应的输出结果,检验测试结果是否与预期结果一致,测试结果如表1所示。

在表1当中,用户登录以及管理员登录的账号为7位数字,密码为8位字母与数字的组合,经验证测试通过,能够有效判别账号正确与否以及账号类型。同时在预警信息查询的过程当中,能够结合算法和数据挖掘技术进行网络流量是否异常的查询工作。

5  结  语

良好的校园网流量监测系统能够帮助网络管理员实现更好的网络管理与维护,同时能够有效维护校园网络的生态健康。本文设计以数据挖掘技术为基础,结合K?means算法,实现了对校园网络数据流量的监测以及对流量异常的甄别与筛选。经过实践验证,该设计系统切实可行。

参考文献

[1] 赵东卓.网络流量监测与分析技术的研究[D].长春:长春工业大学,2015:5?38.

[2] 王旭.网络数据流量监测技术的应用与特征[J].硅谷,2015(4):138.

[3] 潘虎.网络流量监测技术研究[J].电子世界,2016(4):181.

[4] 刘海涛.恒虚警下异常网络流量序列监测技术仿真分析[J].计算机仿真,2016,33(8):244?247.

[5] 舒忠梅,徐晓东,屈琼斐.基于数据挖掘的学生投入模型与学习分析[J].远程教育杂志,2015(1):39?47.

[6] 胡资聪.基于windows内核的进程网络流量监测与控制系统的设计与实现[D].武汉:华中科技大学,2015:2?3.

[7] 顾炜江.网络流量监测中在线数据融合方法设计[J].科学技术与工程,2016,16(13):239?243.

[8] 刘远超,彭兆军.融合帧差循环控制的网络流量监测模型仿真[J].软件导刊,2016,15(5):179?181.

[9] 王启明,赵凯,时合生.基于改进型决策树算法的网络流量监测研究[J].微型电脑应用,2015,31(8):31?33.

[10] AUSSEM A, MURTAGH F. Combining neural network forecasts on wavelet transformed time series [J]. Connection science, 1997, 9(1): 113?122.

[11] AGARWAL D, GONZALEZ J M, JIN Guojun, et al. An infrastructure for passive network monitoring of application data streams [C]// Proceedings of the 2003 Passive and Active Monitoring Workshop. Berkeley, California: Ernest Orlando Lawrence Berkeley National Laboratory, 2003: 1?8.

[12] VAN GESTEL T, SUYKENS J A K, BAESTAENS D E, et al. Financial time series prediction using least squares support vector machines within the evidence framework [J]. IEEE transactions on neural networks, 2001, 12(4): 809?821.

[13] KIM K H, YOUN H S, KANG Y C. Short?term load forecas?ting for special days in anomalous load conditions using neural networks and fuzzy inference method [J]. IEEE transactions on power systems, 2000, 15(2): 559?565.

作者简介:周康乐(1979—),男,江西进贤人,硕士,讲师,实验师,主要研究方向为计算机网络。

猜你喜欢

数据采集数据分析校园网
数字化校园网建设及运行的几点思考
试论最大匹配算法在校园网信息提取中的应用
NAT技术在校园网中的应用
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于开源系统的综合业务数据采集系统的开发研究
VPN在校园网中的集成应用