web日志数据挖掘在服务器安全方面的应用探讨
2017-11-03罗维
罗维
摘 要:随着科学技术的快速发展,各种网络犯罪行为时有发生,为个人和国家带来了严重的损失,因此加强计算机网络及服务器安全,确保信息的完整性和保密性至关重要。服务器在计算机操作系统中发挥着重要的作用,其安全涵盖物理安全、病毒防护、网络安全、数据库安全、操作系统安全等,这就需要认真研究服务器的安全保护措施,利用web日志来了解系统面临的潜在威胁,以免系统数据受到破坏或修改。本文就对web日志数据挖掘在服务器安全方面的应用进行分析和探究。
关键词:web日志数据挖掘 服务器安全 应用
中图分类号:TP393.05 文献标识码:A 文章编号:1674-098X(2017)08(c)-0155-02
随着计算机网络技术的快速发展,信息数据呈爆炸式增长,而这些信息数据具有非结构化、动态性、异质性等特征,蕴含着极其丰富的图像图形、本文、视音频等信息资源,多存在于服务器上,尤其是用户记录信息以及链接结构信息[1]。目前管理人员如何筛选和查找所需的有用信息数据,已经成为一大难题,这也在很大程度上推动了单类型、单文本的数据挖掘朝着web日志数据挖掘的方向发展,为服务器的安全提供了强有力的技术保障。
1 web日志数据挖掘概述
对于web日志挖掘而言,其主要是在用户存取模式的基础上,对有用的价值加以获取,深度挖掘web上的相关数据及日志数据,这样可以及时发现用户访问web页面。当然web数据有其他的类型,基本都是网上的原始数据,而we b日志挖掘并不是原始数据,借助用户和网络之间的互动来获取第二手数据,包括用户提问式、浏览器访问记录、代理服务器日志记录、用户个人简历、网络服务器访问记录、注册信息等。分析这些数据的规律,详细识别电子商务的潜在客户,或者是在扩展有向树模型来识别用户的浏览序列模式,以便web日志挖掘工作的顺利实施。同时以用户访问web记录为依据,挖掘用户的兴趣关联规则后将其存放在相关的数据库中,从而对用户行为进行合理预测,以便用户获取相关的web页面,促进页面获取速度的加快[2]。总之,web服务是互联网提供最丰富、最多的服务,因而Web服务器往往会遭受很多的攻击,这就要求管理人员采取切实可行的措施来防止服务器遭受入侵和攻击,其中最为常用且直接有效的方式就是及时查看web服务器的日志记录。对于大型网络而言,其访问数据以及日志记录数目较大,只有采取切实可行的措施,合理运用数据挖掘技术,才能合理把握日志、准确抓住重点或找到入侵线索。
2 web日志数据挖掘在服务器安全方面的应用
黑客攻击web站点时,都会事先对web站点可进行攻击或存在的漏洞进行了解,高效运用漏洞扫描软件,一旦发现漏洞则进行攻击;然而部分能在web日志中找到的漏洞,一旦出现下列的情况,则会出现一些攻击行为:①大量访问被拒绝;②没有找到多次出现的请求资源;③存在特定的资源请求字符串。一般情况下,管理人员对web日志进行分析时,如果发现“..%c1%”和“+.htr”等特定资源申请字符串,即认定客户正在发起攻击。从web日志分析可知,了解黑客攻击服务器的特点后,认真分析web日志数据,对系统可能存在的威胁进行准确把握,并采取切实可行的加固系统方式,以免系统数据被破坏。
web日志数据挖掘在服务器安全方面的应用具体表现为如下几方面:第一,模式识别和分析。针对模式识别,其主要是以各种算法为基础,对处理后的数据进行深度挖掘,然后生成模式,具体表现为:①网页编码:在网络结构的基础上编码相关主题页面,将特定的数字设置在每个页面上,然后以网站现有的网页数为依据进行编号。②会话抽取:对所有的会话进行求取后,构成用户会话集。③页面相似度分析:借助余弦相似度的方式,合理计算页面间的相关性[3]。④用户聚类:运用等聚类方法,如RCPC、CARD等,对网站用户会话进行聚类处理访问。为了确认模型的性能,应该以访问量较大的网站为依托,模拟其网站服务器的日志。
第二,数据预处理。数据预处理主要是在日志文件转换为数据库文件后进行,旨在转化web日志,使其更好地进行数据挖掘,确保数据的精准性,而这一过程涉及识别用户会话、识别用户、数据清理、识别片段这四个阶段。①识别用户会话。对于用户会话而言,其是指用户对服务器的有效访问,利用连续请求页面的方式,在网站中获得访问行为,以用户会话为基础掌握黑客入侵时的相关操作,保障web服务器数据的安全性。
②识别用户。web日志记录的用户情况分为:同一时间内,同一用户的IP对web服务器进行访问;或者是同一时间内,不同用户利用相对简单的代理访问web服务器[4]。从服务器安全的层面而言,前一种情况时重点分析的对象,以日志中的IP为依据进行分类,以时间顺序为依托,对同一个IP的访问进行排序,有效判断一定时间内各IP访问服务器的情况;若该IP在同一时间访问服务器,则判断IP和系统中所保存的常用代理服务器,但其不是代理服务器时,则要有效识别该IP的日志数据。
③数据清理。其主要指的是以需求为基础对日志文件进行处理,涉及合并一些记录或删除不必要的数据等。用户对某个网页进行请求时,可以自动下载与该网页相关的音频、图片等信息,然后记录在日志文件中;由于数据挖掘是以用户访问模式为目的,这些信息的可用性不高,所以删除日志中的文件后缀,如jpeg、jpg、gif等的记录,从而检验是否有黑客入侵。黑客入侵在日志中多在HTTP状态出错,所以清理数据的过程中,对正常访问的数据加以去除;但有些黑客可能借助正常的访问加以入侵,这时需要保留正常的访问数据。
④格式化。数据集完成会话标识后,需要格式化会话数据,使其变成习相应数据挖掘算法的数据模型,即数据转化[5]。而日志记录涉及HTTP状态、请求资源、访问方式、客户端IP、时间、日期等,但通过格式化这些日志记录,系统可以产生全新的表,即“已经清洗的web日志记录”,并且该表包括代理、引用页面、访问页面、时間、IP地址、编号等。例如:“7、210.38.171.*、05/Nov/2003:09:46:398000、B.htn1、A4、htn1.Mozilla/4.0(Win+98)”。经过上述的预处理,服务器日志变成与相关挖速决挖掘算法的数据模型相符。
3 结语
Web日志作为一个巨大的数据量,通过人工的方式进行分析几乎不可能,只有采用数据挖掘的技术手段,从安全性的角度分析web日志,才能确保web服务器的数据安全。当前信息技术的研究重点就是web数据挖掘技术,这也是现代科技相互融合的趋势,该技术在互联网的快速发展下将会实现理论与技术的发展,如多媒体数据、图像图形数据、结构和半结构文本数据的高效挖掘算法;web知识库的动态更新及维护等等,进一步推动数据挖掘技术与数据库技术的发展。
参考文献
[1] 邓诗琪,刘晓明,武旭东,等.Web服务器攻击日志分析研究[J].信息网络安全,2016(6):56-61.
[2] 应毅,任凯,曹阳.基于改进的MapReduce模型的Web挖掘[J].科学技术与工程,2013(5):1205-1209.
[3] 赵洁,温润,周峰,等.基于Web用户日志的电子商务领域竞争对手分析——以11家电子商务网站为例[J].信息资源管理学报,2013(4):53-62,71.
[4] 周爱武,肖云,封军.Web日志挖掘数据预处理优化[J].计算机技术与发展,2011(1):42-45.
[5] 李晓昕,谢维奇.基于Web日志挖掘的网上学习行为研究[J].计算机技术与发展,2011(12):73-76.endprint