APP下载

基于数据挖掘技术的网络信息过滤系统设计

2018-08-21刘玉娥

现代电子技术 2018年16期
关键词:查准率数据采集数据挖掘

刘玉娥

摘 要: 对网络信息进行过滤,在提高网络安全性能方面具有重要意义。传统网络信息过滤系统一直存在信息过滤不完整、效率差的问题,故提出并设计基于数据挖掘技术的网络信息过滤系统。网络信息过滤系统硬件主要由数据采集模块、数据处理模块、数据分析模块、控制界面模块和过滤及反馈模块组成,在过滤及反馈模块引入数据挖掘技术,对各个重要数据进行分析,并给出部分软件代码,实现网络信息过滤系统的优化。实验结果表明,以调和平均值为指标,对改进设计系统进行验证,其查全率及查准率的调和平均值较高,具有一定的优势。

关键词: 网络信息过滤; 数据挖掘; 网络安全; 数据采集; 调和平均值; 查准率

中图分类号: TN711?34; TP391 文献标识码: A 文章编号: 1004?373X(2018)16?0051?04

Abstract: Network information filtering is of great significance in improving network security performance. As the traditional network information filtering system has the long?existing problem of incomplete and inefficient information filtering, a network information filtering system based on the data mining technology is proposed and designed. The hardware of the network information filtering system is mainly composed of the data acquisition module, data processing module, block data analysis module, control interface module, and filtering and feedback module. In the filtering and feedback module, the data mining technology is introduced to analyze various important data and present part of software codes, so as to realize the optimization of the network information filtering system. The experimental results show that, with the harmonic mean value as the index, the improved design system is verified to have a relatively high harmonic mean value of the recall ratio and precision ratio, which has a certain advantages.

Keywords: network information filtering; data mining; network security; data acquisition; harmonic mean value; precision ratio

0 引 言

近年來,随着计算机网络和Internet的迅速发展,网络信息的增加,人们急需借助一些工具,对网络信息进行筛选。由于网络自身的两面性,用户能够从网络上得到丰富的、最新的知识,在学习和休息进程里充实自己、提高自己的知识含量;同时,有些不法分子利用网络的复制性、传播和查阅一些有明显意识形态倾向的信息,这些信息的存在严重影响人们工作及学习的现象,也对社会造成了极大的危害。怎样过滤掉与自己所需内容无关的信息,高效精确地得到所需的信息并遭受非法信息的干扰,变成了此领域急需解决的重点问题。可以依据用户信息需求,采用信息过滤技术从大规模动态网络信息流里自动选择出满足用户需求的信息、去除无用的网络信息,达到对网络信息有效过滤的目的。对此,提出并设计了基于数据挖掘技术的网络信息过滤系统。

1 网络信息过滤系统整体模块设计

1.1 网络信息过滤整体模块分析

为了达到准确过滤网络信息的目的,各过滤系统均有自己的实现方法,但他们均有相同的分析模块,而本文设计的过滤系统重点由5个基础模块构成:

1) 数据收集模块。重点是收集网络信息数据和协议还原的处理。用户在启动过滤系统以后,系统会将计算机的数据包拦截下去,然后以协议为依据对其进行还原,并储存到运用层中,最后将其上交给数据解析模块。

2) 数据解析模块。重点是对关键词进行过滤,对图像进行分类。将数据采集模块传输过来的网络信息数据,以关键词为主旨进行过滤,对图像进行分类,确认是否满足网络信息安全传输的策略,并将解析结果进行返回;采用网络数据挖掘技术,从网络中得到信息,并将其传输到数据处理模块进行处理,形成有关网络信息特征的描述。

3) 数据处理模块。该模块以数据解析模块为依据,解析网络信息数据的结果,分析已有数据然后以已经预定的安全传输策略为依据,做出相应的响应动作。

4) 控制界面模块。主要为过滤系统以及用户的交互工作服务。为用户提供使用控制软件的界面,在控制界面中,用户能够对过滤系统进行控制,选取是否过滤,然后设置系统的配置,从中获取历史记录,编辑并对控制列表进行访问,设置关键词以及训练图像分类系统等功能。

5) 过滤和反馈模块。把经过网络信息解析处理形成的数据及生成的用户模板文件相似性进行对比,以确认能不能把处理结果传输给用户;依据用户兴趣的转变及结果的评估,对用户模板文件实时更新,过滤无用信息,并将过滤进程形成的具备显著区别的文档增加到训练库,适时更新模板文件,使其一直处于过滤掉无用信息的状态。

网络信息过滤系统如图1所示。

在网络信息的过滤中,当网络信息数据包进入计算机后,到达应用程序前过滤系统能够拦截无用的信息,并且能够采集其中的数据。采集数据以后,根据协议能够还原到应用层中,将数据提交给数据解析模块进行解析,然后将解析结果传输给数据处理模块。数据处理模块能够从解析的结果中来对数据包是否进行过滤做出判断,并能够根据设置的参数来判断该数据包是否需要记录和报警。最后,界面控制模块能够控制整个网络信息过滤系统,编辑、访问、控制其配置、历史查看记录,关键词以及训练图像的分类。由上述描述可知,网络信息过滤需要解决获取和表示信息、计算信息相似度、构建用户模板等问题,因此,本文采用数据挖掘方法,对网络信息进行采集和获取。

1.2 数据挖掘分析

在设计网络信息过滤系统时,采用数据挖掘方法对网络信息数据进行采集、解析、预处理和挖掘。

网络信息数据采集是通过搜索网络信息的各关键数据,监测网络信息数据流,选取混杂模式的网卡工作模式,接收目标地址信息,能直接对网络底层进行访问,路过系统的正常工作处理机制,采集流经网络信息节点的全部数据包。

数据解析:对采集到的原始网络数据协议进行解析,从数据包中得到所需信息。

数据预处理:从网络中采集的网络信息数据包依据采集时间顺序进行排列,在同一时间内,构建多个连接方式,根据时间排列顺序,不同连接的数据包就会相互影响,所以把各个连接的全部数据包整理为一条连接信息,对连接信息进行解析。经解析后,数据特征属性存在差别,会对网络信息的过滤结果形成干扰,将全部数据特征统一映射到空间向量中,对数据设定特征进行预处理,实现数据挖掘。

數据挖掘过程如图2所示。

2 软件设计

网络信息过滤系统中过滤模块主要对网络信息进行三级过滤,即对于地址、关键字和内容三部分的过滤。在过滤过程中采用基于段落的匹配方式,其流程如图3所示。

部分源代码如下所示:

#include"cap.h"

#include //globle data

ADAPT_INFO AdaptInfo[16];

int AdapterNum;

Function L=apriori(data,minsup)

[m,n]=size(data);

A=eye(n,n)

B=(sum(data));

Publio statio double distance(double[] P1,double[] P2)

{

double dotprcduct=0,0;

double lengthSquaredp1=0,0;

double lengthSquaredp2=0,0;

for (int 1=0;i

{

lengthSquaredp1 +=p1[1]*p1[1];

lengthSquaredp2 +=p2[1]*p2[1];

Dotprcduct+=p1[1]*p2[1];

{

Double denoninator = Math.sqrt(lengthSquaredp1)*Math.sqrt(lengthSquaredp2);

If (denominator

{

Debominator = dotProduct

}

If (denominator == 0 && dotProduat == 0)

{

Return 0;

}

Return 1.0 = dotProduet / denominator;

}

CapStopCapture();

CapUninitialize();

3 实验结果分析

3.1 实验参数设置

根据前面所设计的基于数据挖掘技术的网络信息过滤系统。软件环境为:操作系统Windows 2010;代码语言为C++;编译系统为VC 6.0;数据库为SQLevrer 2010。硬件平台:主机服务器1台PC计算机,内存2 GB,硬盘容量500 GB,处理器i4 2.4 GHz;PC计算机,控制台主机服务器1台,处理器i4 2.4 GHz,内存2 GB,硬盘容量500 GB;网络交换器及局域网络,Ethemet 100M/1 000M交换机;交换机将控制台主机服务器和主机服务器互联组成100M内部局域网络。

3.2 实验结果分析

在实际应用中,用户往往只对其中部分内容感兴趣,对此,实验中将用户喜欢的设置为准确分类信息,把不喜欢的设置为误分信息,并根据其分类情况进行混合评估,计算公式为:

实验收集5 000份关于网络的信息,构成样本库,其中3 500份为合法信息,1 500份为非法信息。在测试过程中,可随时加入训练样本数量,并定期由管理员对检测结果进行分析。将1 500份非法信息平均分成5份,每份300个,把合法信息3 500份随机抽出1 500份,平均分为5份,将这10份网络信息按照非法信息和合法信息交叉融合的方式合起来,另外再加上为开放测试所用的一份网络信息300个合法和300个非法信息组成的网络信息,这样的规则组合就有6份,每次从中抽出2份进行样本训练,边测试边记录结果,得到结果如表1所示。

4 结 论

针对传统网络信息过滤系统一直存在信息过滤不完整、效率差的问题,提出并设计了基于数据挖掘技术的网络信息过滤系统。网络信息过滤系统硬件主要由数据采集模块、数据处理模块、数据分析模块、控制界面模块及过滤和反馈模块组成。在过滤和反馈模块中引入数据挖掘技术,对各个重要数据进行分析,并给出部分软件代码,实现网络信息过滤系统的优化。实验结果表明,以调和平均值为指标,对改进设计系统进行验证,其查全率及查准率的调和平均值较高,具有一定的优势。

参考文献

[1] 张沛朋,魏楠.基于数据挖掘技术的个性化移动推荐系统设计研究[J].西安文理学院学报(自然科学版),2017,20(2):41?45.ZHANG Peiming, WEI Nan. Research on design of personalized mobile recommendation system based on data mining technology [J]. Journal of Xian University (Natural science edition), 2017, 20(2): 41?45.

[2] 于丽.基于数据挖掘技术的计算机网络病毒防御技术探索[J].现代电子技术,2016,39(21):120?122.

YU Li. Exploration of data mining technology based virus defense technology for computer network [J]. Modern electronics technique, 2016, 39(21): 120?122.

[3] 郭兰杰,梁吉业,赵兴旺.融合社交网络信息的协同过滤推荐算法[J].模式识别与人工智能,2016,29(3):281?288.

GUO Lanjie, LIANG Jiye, ZHAO Xingwang. Collaborative filtering recommendation algorithm incorporating social network information [J]. Pattern recognition and artificial intelligence, 2016, 29(3): 281?288.

[4] 洪万帆,苏淑靖.基于无线传感器网络的数据采集系统设计[J].电子器件,2016,39(1):180?185.

HONG Wanfan, SU Shujing. Design of data acquisition system based on wireless sensor network [J]. Chinese journal of electron devices, 2016, 39(1): 180?185.

[5] 伍华丽,任心怡.基于模糊约束的数据库特定数据挖掘算法[J].计算机仿真,2016,33(10):240?243.

WU Huali, REN Xinyi. Specific data mining algorithm based on fuzzy constraint database [J]. Computer simulation, 2016, 33(10): 240?243.

[6] 薛朋强,努尔布力,吾守尔·斯拉木.基于网络文本信息的敏感信息过滤算法[J].计算机工程与设计,2016,37(9):2447?2452.

XUE Pengqiang, NURBOL, ISLAM Wuxur. Sensitive information filtering algorithm based on text information network [J]. Computer engineering and design, 2016, 37(9): 2447?2452.

[7] 周立军,张杰,吕海燕.基于数据挖掘技术的网络入侵检测技术研究[J].现代电子技术,2016,39(6):10?13.

ZHOU Lijun, ZHANG Jie, L? Haiyan. Research on network intrusion detection technology based on data mining technology [J]. Modern electronics technique, 2016, 39(6): 10?13.

[8] 刘其成,冯利光.一种基于MapReduce的微博信息推荐并行算法[J].小型微型计算机系统,2017,38(7):1518?1522.

LIU Qicheng, FENG Liguang. Parallel microblog information recommendation algorithm based on MapReduce [J]. Journal of Chinese computer systems, 2017, 38(7): 1518?1522.

[9] 李云玮,马蕾.基于SVM的物联网大数据有效信息过滤挖掘[J].控制工程,2016,23(10):1533?1537.

LI Yunwei, MA Lei. Big data effective information filtering mining of Internet of Things based on SVM [J]. Control engineering of China, 2016, 23(10): 1533?1537.

[10] 王靖,王兴伟,赵悦.基于变精度粗糙集决策树垃圾邮件过滤[J].系统仿真学报,2016,28(3):705?710.

WANG Jing, WANG Xingwei, ZHAO Yue. Spam filtering based on variable precision rough set decision tree [J]. Journal of system simulation, 2016, 28(3): 705?710.

[11] 袁国鑫,于洪.一种基于邮件头信息的三支决策邮件过滤方法[J].计算机科学,2017,44(9):74?77.

YUAN Guoxin, YU Hong. Method of three?way decision spam filtering based on head information of e?mail [J]. Computer science, 2017, 44(9): 74?77.

猜你喜欢

查准率数据采集数据挖掘
探讨人工智能与数据挖掘发展趋势
中国最具影响力的综合搜索引擎比较研究
基于并行计算的大数据挖掘在电网中的应用
基于深度特征分析的双线性图像相似度匹配算法
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
基于开源系统的综合业务数据采集系统的开发研究
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究