基于Web数据挖掘的网络信息安全防范分析
2013-10-16李楠
李 楠
(福州软件职业技术学院计算机系 福建福州 350003)
近年来随着网络的普及,网络不仅成为人们日常生活中必不可少的一部分,也在企业的一些业务中扮演着重要的角色。电子商务就是由网络经济发展而来的,在国内国外都取得了飞速的发展,也使网络的安全问题越发重要。
1 Web数据挖掘技术在网络防范信息安全中的价值
数据挖掘指的是分析网络中相对不完整或者较为模糊的一些数据,从中发掘一些具有潜在价值的信息和知识,包括人们事先不知道的信息,基本处理过程如图1所示。
基于Web数据挖掘的网络信息安全防范模型:作为网络信息技术安全防范的综合分析工具,主要体现在3个方面 (如图2所示)[1]:①过滤器。其作用是先抽取数据库中的一些有关数据,然后用二义性的方法进行分析比对,使这些信息保持一致性。②挖掘综合器。这是一个挖掘驱动的引擎装置。其作用是根据挖掘的要求,挖掘系统在算法库中选择适当的方法进行挖掘。③方法选择专家系统及知识库。这些是Web数据挖掘的重要组成部分,数据挖掘系统根据用户的具体要求来选择最有效的挖掘算法,随着技术的发展Web知识库也通过不断更新的内容和规则来提高系统的智能型。
图2 基于Web数据挖掘的网络信息安全防范模型
2 Web数据挖掘技术机理
认识并了解Web技术,明确挖掘数据库的挖掘目标,确定信息的安全主体并建立适合的挖掘模型,首先明确Web技术的挖掘目标,确定信息安全的相关主题,然后再给挖掘目标建立适合的挖掘模型。而挖掘目标的确定过程主要分成三部分:①通过对用户相关的数据和信息资源来获得有价值的信息知识[2];②根据挖掘技术拿这些信息知识和假设进行比对,看假设是否成立,然后收集有用的数据源,根据网络安全防范规则通过抓包程序来获取网络上的数据包,之后将数据传输到处理机[2];③根据挖掘目的将原始数据进行数据格式的转换,转换成Web数据挖掘的格式,最后将这些数据保存到数据仓库中去,等待下一步的进行。
2.1 用户登录信息
用户在Web页面上所填写的注册信息和登录信息等,这些信息都要交给服务器。在挖掘过程要将用户的访问日记和用户登录信息进行整合,这样会提高挖掘信息的准确度。因为,服务器可以拿用户的日志信息和登录信息进行比对,通过分析可以清楚地了解用户行为,可以采取必要的防范措施来杜绝隐患,特别是针对用户的基本信息方面,更要加强防范。
2.2 代理服务器[3]
网站的服务器记录的是所有用户登陆同一网站的所有记录,但代理服务器却不同,它记录了是所有用户登陆所有网站的记录。代理服务器是个缓存服务器,它在Web服务器和客户浏览器之间起缓存功能,是一个中间服务器。它记录了所有用户登陆所有网站的大量记录并保存起来。
3 Web数据挖掘技术方法
Web数据挖掘在网络信息安全方面的基本方法,先挖掘出用户上网时的不正常的信息数据,在进行分析,分出正常信息、可疑信息和危险信息,让网络信息具有合理性和有效性。在该模型中主要有以下4种挖掘方法:
3.1 关联规律
关联规律是描述数据和数据之间的相互关系,细致的说就是当一个事物出现某个数据时,就会引出另一个数据,两个数据之间会有一些隐藏的必然联系。当数据库中累积大量的安全数据时可以分析数据中一些事件之间的关系。例如,当管理员欲分析哪些是用户的非正常访问时,只需将正常访问的数据和非正常访问的数据进行对比,就可以准确做出判断。
3.2 分类分析
分类分析是指把个体按照之前设定好的类型进行划分。分类的目的主要通过机械学习以及统计方法等对数据库进行模型的分类,之后把数据库中的数据划分到给定的类别中去,最后对数据库中的数据分类。如果手机用户在进行大量访问时,入侵检测系统会对入侵数据进行审计分类,分析出那些事正常数据,那些是不正常数据,这样通过分离器能够有效的分离新数据的类别。
3.3 聚类分析
这个方法是通过分解数据集,把特征相同的数据划分为一组,其他组中的数据会有很大的区别。这种方法可以明显的看出数据组是密集还是稀疏,可以看出整体的模式分布和每个数据之间的属性关系。通过聚类分析可以将具有相似浏览模式的用户集中到一起[3],这样有助于在Web数据挖掘中执行网络信息安全的防范措施。
3.4 异类分析
这个方法也叫孤立点分析法,平时所说的孤立点指有些数据不能划分为一般模式里,是与正常数据明显不同的一类数据。孤立点分析可以分两个步骤,先是发现,后是分析,孤立点发现指的是通常会发现一些具有一定价值的事先不知道的知识;孤立点分析则指的是可以发现一些更具有价值的信息数据。通过调查发现,在网络安全防范领域,孤立点的研究前景和研究空间很大。如,从入侵上看,把比正常行为数据数量少很多的数据 (也就是孤立点)假想为入侵数据。把孤立点行为当做入侵行为,则可以把这种检测孤立点技术当作防范网络安全手段,这有利于完善网络安全防范系统。
4 Web数据挖掘防范模型应用
4.1 安全审计
安全审计工作就是有针对性的系统的对网络上所产生的一些和安全有关的数据记录进行分析及统计的过程。安全审计是对涉及安全的事件进行分析和记录的过程,它所针对的安全事件有:用户操作系统、用户网络活动、系统应用和服务、网络行为等。Web技术可以帮助网络安全的审计工作。主要的原理是通过在正常的数据来挖掘正常的网络通信模式,之后将这些通信模式与一些攻击规则库联系起来进行相关的分析,检测系统通过对其分析后会检测出一些潜在的漏洞等,发现程序是否存在安全问题,之后采取适当的措施来解决。通过Web数据挖掘中的一些技术与安全审计系统进行结合,可以进而对HF防火墙、IDS入侵系统等进行信息的保护,能够及时的检测网络的安全状态,为工作人员及时的提供数据资料和系统的当前运行状态。
4.2 入侵检测
通过对用户的一些行为信息进行采集和分析,如果发现用户的异常行为或者是有异常的信息侵入时,马上向管理者发出提示信息,这种方法在目前网络安全防范中起了重要作用。目前在反入侵检测系统中主要使用的是检测特征的方法,此方法是专家预先对数据的特征进行设定,让这个系统形成一定的模式来检测入侵数据[3]。在应用中有一定的优势,能够及时的发现入侵信息,但是不能够及时的去更新入侵信息,这样对于一些新出现的入侵信息就不能识别,在运行过程中会经常出现错误报警和漏报警的现象。此外,随着网络在人们生活中的普及,网络数据也在不断的增大,这样在审计记录中就会出现大量的无关信息。这些信息会降低检测速度或者导致数据过载等。Web数据挖掘系统主要是根据数据的关联规则、类别和列序模式等进行,通过数据的规律进行智能化分析,这样能够很好的在系统中建立入侵检测的规则和异常监测的模型,通过这种程序能够最大限度的降低在处理审计数据时对先验知识的要求,与入侵的程序和数据能够及时准确的发现,这样在很大程度上减少了系统的误检率。
5 Web数据挖掘网络防范模型注意事项
Web技术应用中所建立网络信息防范的过程中应注意:
5.1 发挥工作者的主体作用
检测系统不是万能的,工作人员在工作中,不能一切都靠检测系统,工作者本身也要努里提高自己的技术水平,加强业务学习,提高网络防范能力和工作效率,认识到网络防范工作的重要性,发挥工作者的主体作用,让挖掘结果更准确,更有价值。
5.2 保护用户的隐私
工作者在进行数据采集或者挖掘的过程中,一般都不会通知用户的,采集的数据中可能涉及到用户的基本信息,这关系到用户的个人隐私。因此在运行的过程中要充分的考虑到用户的个人隐私问题,这在操作中涉及了两个方面:①修改或整理涉及用户隐私的基本信息,如身份证号码、姓名等;②如果在挖掘的过程中发现用户的隐私信息必须采取一定的措施进行排斥。
[1]谭春辉,王俊.基于Web数据挖掘技术的企业网站客户忠诚度提升模型研究 [J].图书情报工作,2009,53(14):138.
[2]谭春辉,汪全莉.个性化信息服务与Web数据挖掘技术的契合 [J].情报杂志,2007,26(8):82.
[3]柴文光,周宁.网络信息安全防范与Web数据挖掘技术的整合研究 [J].情报理论与实践,2009,46(3):97.