数据挖掘技术在计算机网络病毒防御系统开发中的应用
2020-11-25范海峰
范海峰
(91412 部队 广东省湛江市 524001)
当今社会已经进入了信息化时代,而在互联网信息技术高速发展的过程中,计算机网络已经被广泛应用于社会的各个领域当中,同时使民众日常工作以及生活的模式发生了较大的改变。如今各行各业都离不开计算机网络的支持,人们对其加以利用时,网络安全问题始终会影响用户的实际体验以及个人隐私安全,因此,社会对计算机网络病毒防御系统的构建越来越关注。事实证明,在此防御系统中应用数据挖掘技术,可以使网络安全得到大幅提升,因此有关人员需要对其予以高度重视。
1 计算机网络病毒主要特征
1.1 借助系统漏洞快速传播
当前,网络病毒技术越来越高端,其传播模式趋于多元化。而最为常见的病毒传播方式即用户在应用计算机时,病毒从各种系统漏洞中被传入计算机,这些病毒能够自动识别有漏洞的计算机,随后入侵并且对计算机部分甚至所有程序进行控制。与此同时,病毒还能够针对性地扫描文件夹以及系统文件,继而持续复制病毒,加大病毒入侵计算机网络的规模[1]。
1.2 病毒多样性的特点
开发和构成网络病毒方式并不复杂,非法人员仅需借助若干程序指令便能创造出大规模网络病毒。与此同时,现今社会上存在许多水平较高的编程人员,其能够自行编写简单病毒程序。除此之外,网络病毒在计算机网络当中能够快速繁殖,同时拥有多样化的类型,这便使网络安全风险系数被大幅度增加。
1.3 病毒的针对性特点
以往的计算机网络病毒较为单一,这是由于其存在的目的仅仅为干扰程序员对各种程序的编写;然而由于当前网络病毒具备多样化的特点,因此,不同病毒具有相应的针对性,同时,病毒自身功能也越来越多。另外,伴随互联网信息技术的高速发展,病毒开发与设计人员能够赋予病毒具有针对性的目的和功能,是指带有目的地入侵和攻击用户计算机。
2 网络病毒常见传播途径
2.1 主动扫描
此方式主要是借助互联网对远程计算机存在的漏洞进行扫描,随后按照扫描的结果取得目标计算机的部分控制权限。与此同时,一些病毒会在计算机中对可写的文件夹进行搜索,并且在文件夹中复制大量病毒,从而严重影响用户对计算机的把控。
2.2 邮件模式
不法分子传播计算机网络病毒时最常运用的手段即电子邮件,而邮件在网络中传送的时候,极易导致网络中大部分邮件被感染病毒。因此,网络当中病毒邮件的传播范围越来越广,速度也越来越快,这会导致计算机无法顺利执行信息交换命令。
3 数据挖掘技术原理与构成
3.1 技术原理概述
KDD 技术(即数据挖掘技术)主要指帮助用户从海量信息数据当中借助相应算法对其中位置但价值较高的知识、信息进行搜索的一类技术。此项技术会涉及到众多专业知识,其中包含了模糊识别、计算机技术、机器学习、统计学以及检索情报等。对数据进行挖掘时,关键步骤包括了准备数据、探寻数据的规律以及将数据的规律展现出来。系统在对数据挖掘加以确定之后,有关的引擎便会及时起动,对需挖掘信息数据进行检索,将数据规律挖掘出来。对于数据挖掘工作而言,其关键点为预处理数据,主要工作有链接数据表、数据净化、整合变量以及转换格式等。有关人员不能应当明确,数据预处理工作的顺利落实能够为分析数据工作夯实基础[2]。
3.2 技术的主要构成模块
3.2.1 数据源
此模块重点便在于截获网络向计算机发送的数据包。该模块内部主要包含网络当中不同的初始数据包,这些数据包当中通常都具有与特定数据库存在关联性的数据结构。当模块截获数据包后,会将其转交到预处理的模块,随后执行相应指令。
3.2.2 预处理
此模块为数据挖掘技术最为基础的工作模块,其会预处理数据信息,以便为后续分析数据的工作夯实基础。经由预处理数据,可以全面提升数据信息的实际挖掘效果,同时缩短挖掘的时间,这样便可使挖掘数据的整体效率得到有效提高。
3.2.3 规则库
该模块主要会全面储存挖掘数据过程时形成的有关规则集以及那些已经分析完成且被全方位检测的蠕虫病毒相应连接特点。所存储规则集能够将病毒具体特点与连接数据反映出来,继而对病毒数据特点加以分析,合理收集有关的特点。
3.2.4 数据挖掘
此模块的重要任务即借助有关的计算方式分析事件库。一般事件库内部数据信息被此模块挖掘和分析后,分析结果会被传送到决策模块加以处理。
3.2.5 决策
决策模块的工作重点为总结数据挖掘的有关结果,同时使之匹配规则库内部的有关规则,倘若结果与相应规则相匹配,则说明所截获数据包内部存在蠕虫病毒;倘若二者并不相符,预防模块将发出相应的警报信息,说明此时存在未知蠕虫病毒,另外模块也会将此病毒规则记录到规则库内。
4 预防计算机网络病毒过程中数据挖掘技术的应用可行性
在一般状况下,计算机网络病毒会优先将主机感染,随后传播和扩散病毒,而在病毒的传播阶段,其会侵入到用户计算机操作系统当中,并且对用户在互联网当中的各类信息进行扫描、窃取甚至破坏。而这部分异常指令能够有效支持数据挖掘技术的应用,借助此项技术能够对网络内部数据进行抓取,同时按照分析数据的最终结果来诊断引发网络当中异常问题的主要原因,进而引导用户采用最合适的方案来防护网络安全,在第一时间避免病毒威胁计算机系统。若想使数据挖掘技术得以被有效落实,有关人员应该对网络病毒传播、感染方式展开深入分析。比如,在用户计算机感染了蠕虫病毒的时候,应当优先扫描主机,并且在相应防御系统当中建立相应突破口,基于数据挖掘技术来建立更有效的病毒防御体系,并且对前文提及的主要构成模块加以有效运用。总体而言,当网络当中形成了数据源,预处理模块便会对其加以处理,将网络中传播的病毒记录下来,提升防御系统病毒识别力以及免疫力,当今后相似的病毒侵入系统时,系统便会在第一时间发出警报,并且借助防御系统来保护主机[3]。
5 数据挖掘技术在计算机网络病毒防御系统开发中的主要应用思路
当用户的计算机被网络病毒入侵时,其内部系统往往会被病毒破坏,当核心操作系统被入侵的时候,计算机系统内部全部信息都会被破坏。数据挖据技术能够在各种网络病毒入侵的同时截获病毒重要信息,同时对网络运行相应数据展开分析,并且合理处理分析完成的数据,这便可以避免系统文件被病毒破坏,为用户的计算机网络安全提供可靠保障。所以,有关人员需要致力于进一步开发应用数据挖掘技术。
5.1 系统开发中规则库的应用
系统内部规则库模块主要是借助计算机进一步挖掘当前网络数据信息,利用各种特征来分析判断数据的实质内容,并且在获悉数据主要规律之后深度分析后期数据。该模块的有效应用,能够将关于病毒程序的重要信息数据规律及其内容充分记录下来,以便指导后期数据挖掘工作的开展。在防御系统中应用规则库模块,能够以最快的速度将最新病毒识别出来,并且及时匹配相应破解措施;除此之外,这种应用还有助于系统分类数据内容,同时使数据库模块信息被逐步完善,将数据支持完全提供给防御系统。
5.2 数据收集的应用
先进的数据挖掘技术,其核心基础即计算机技术,互联网时代下社会对网络技术的应用越发频繁,其能够帮助人们对网络信息以及资源展开全面收集。数据挖掘技术中囊括了信息数据的收集和处理以及筛选与归类等功能,该技术在普及网络技术的过程中被逐步运用到社会各个领域当中。在计算机网络病毒的防御系统当中应用数据挖掘技术,能使系统借助数据信息收集技术来收集病毒传播方式以及构成数据。在通常情况下,病毒在入侵计算机的时候,一般都会呈现出代码形式,这是因为病毒在破坏计算机的内部系统时,往往需要借助某些计算机程序。因此,防御系统借助数据挖掘技术能够在海量信息数据当中精准且快速地将与病毒有关程序代码等搜寻出来,随后对其展开分析。由于病毒的程序和计算机的软件程序具备一部分共性,制作时其功能、模块较多,而数据挖掘技术能够分模块收集病毒数据,并且在收集数据时可以从网络中抓取大量数据,最终实现按照不同模块合理分类和整理病毒信息。
5.3 数据处理的应用
在计算机网络病毒防御系统当中应用数据处理技术,可以使系统借助此技术合理筛选并分析海量数据,并且以带入关键信息的方式将和病毒有一定关联性的代码筛选出来,随后分类整理这部分结果,并且结合处理技术转换所收集信息数据的格式。在一般状况下,网络病毒不会以文字、数字方式攻击计算机,另外代码形式也要经过一定转换方可以常规方式被呈现出来,但是通常只有将病毒代码转换为计算机能够识别的形式后才可以破解病毒的类型。数据挖据技术中的数据处理技术主要任务便是转换病毒的代码形式。处理病毒的形式时,需要处理的内容主要有数据源的信息、源IP 的位置以及数据源的位置等,并且经由更深入的挖掘来定位病毒IP 的主要目标,进而实现对传播病毒路径的有效封锁。除此之外,处理技术还能终端信息处理所收集信息数据,并且将数据转化成可识别的形势。此项技术还能使分析数据以及破解病毒存在形式的时间被合理缩短,使数据挖掘的整体效率、准确性有所提升[4]。
5.4 不同分析方式的应用
(1)序列分析:此分析方式为统计分析方式,重点在于实时处理数据信息。进行序列分析的时候,系统需要根据随机数据序列当中特有规律展开全面分析,同时找出事件库内已存在病毒数据的序列进行比对。
(2)关联规则:此项规则即数据内部一般都存在可以被关联的知识数据,当数据库内部分变量在各自取值上存在规律,便说明这部分数据互相间存在关联性。在数据挖掘技术中最重要的关联关系包括时序关联、简单关联与因果关联,分析、查找数据信息当中存在的关联性,便是确定数据库内部各种关联网,并且挖掘并明确各项数据间存在的关联性,继而将对应的关联规则挖掘出来,最终对病毒进行确认。
(3)异类分析:此分析方式即全面分析数据库内部明显存在不同的有关数据信息,其分析的重点便在于深入分析与常规方式间偏离较大的有关数据。具体的分析流程为优先发现孤立点,随后深入分析此孤立点。需要注意的是,在发现孤立点的过程中,一般都会得到相悖于常理的结果,因此在对孤立点进行深入分析的时候,通常都会发现具有更高价值的有关信息数据,这对病毒的甄别具有重要作用。
(4)分类分析:运用此类分析方法的时候,应该优先设定若干不同类别,随后根据实际类别对不同的个体进行归类处理,并且借助相应的统计方法以及机器学习法等建立对应的模型,同时借助对应的特定类别映射数据库内部的有关数据,随后遵循分类规则合理分类其余数据。
(5)聚类分析:防御系统利用此分析方法,能够有效分解数据挖掘过程中截获的数据包,同时根据不同类型来划分数据组别,而在各组别内部,各项数据普遍具备若干类似特征,而不同组别也都具有不同的特征点。防御系统在聚类分析数据后,能够快速将数据当前分布的疏密情况识别出来,并且将全区分布方式体现出来,呈现出数据属性间的本质关系,这能够使病毒识别效率有效提升。
6 结论
总体而言,在数据挖据技术被逐步应用于计算机病毒防御系统的过程中,此项技术已经成为系统最为关键的技术之一。将数据库、信息收集与处理等技术应用于防御系统当中,同时结合多种分析方式,能够有效防御计算机网络病毒,从而在保证用户个人隐私安全的基础上营造更加良好的网络环境。