对基于数据挖掘和机器学习方法的网络异常检测技术的相关分析
2019-12-02卢明星
卢明星
(河南护理职业学院,河南安阳,455000)
0 前言
近几年,计算机网络呈现了迅猛的发展势头,随着其在社会民众日常生活中的普及,使得网络安全事件的发生率逐渐激增。为了形成网络资源安全性的保障,持续对网络安全防护技术进行改进,加强对入侵信息的检测,有助于产生对计算机的保护作用,对提升网络系统的安全性大有裨益。基于此,加强对基于数据挖掘和机器学习方法的网络异常检测技术的分析,具有十分重要的现实意义。
1 入侵检测技术
■1.1 定义
入侵检测技术是指依照一定的安全策略,通过软、硬件,对网络、系统的运行状况进行监视,尽可能发现各种攻击企图、攻击行为或者攻击结果,以保证网络系统资源的机密性、完整性和可用性。有学者将计算机系统类比于一幢大楼,防火墙则是一幢大楼的门锁,入侵检测系统则为这幢大楼里的监视系统。一旦小偷采取非法的形式进入大楼,或者内部人员有越界行为,只有实时监视系统才能发现情况并发出警告。入侵检测技术能够实现对入侵行为的及时识别,有助于实现对计算机的良好保护,通过报告计算机网络的异常状况,实现对违反安全策略行为的检测,能够形成计算机网络系统的屏障。
若未经授权的信息对计算机进行非法攻击时,入侵检测技术能够实现对其有效检测和隔离,通过对外部系统的恶意攻击进行识别和监视,并发出警报,使管理员采取相应的管控措施,能够建立科学而智能的安全防范体系,提升网络监管的方便性。入侵检测技术能够实现对计算机系统的分析和监管,对计算机网络的配置情况进行审计,实现对计算机系统漏洞的发掘和处理,对计算机数据的完整性进行评估,借助于对未知攻击的识别和分析,构建完善的安全防范策略,并针对具体的攻击措施,实施相对应的解决办法,对系统性能稳定性的提升大有裨益。
例如,某研究人员充分发挥入侵检测技术的价值,设计了科学的入侵检测系统,在系统监控室中间一个超过10米宽的屏幕上,用可视化的形式演示着对网络安全监测的结果。比如在“成都市网络安全态势感知平台”这个页面上,有城市安全指数、区域指数、已发现漏洞、受威胁资产等内容,并能够结合态势感知平台负责对安全事件进行监控。
再如,在某医院的网络系统运行过程中,加入了入侵检测技术,实现了对防火墙功能的合理补充,有助于辅助系统对付网络攻击,扩展系统管理员的安全管理能力(包括安全审计、监视、进攻识别和响应),有效提升了提高信息安全基础结构的完整性。同时,它从计算机网络系统中的若干关键点收集信息,并分析这些信息,检查网络中是否有违反安全策略的行为和遭到袭击的迹象。调查数据显示,自2016年底引入该技术以来,共计诊断出非法入侵8962次,有效维护了网络的安全性。
■1.2 检测方法
(1)专家系统
在最初的入侵检测过程中,专家系统是一种常用方法,主要负责对误用入侵进行检测。专家系统在对专家入侵检测的经验进行细致总结的基础上,建立了全面的知识库,构建了以知识库为基础的系统,通过发挥知识库的价值,摸清入侵行为的发生规律,并借助于专家对入侵行为的分析,将其发生规律进行整合和提取,将其录入入侵行为特征库,一旦发生入侵行为,只需在特征库中提取相关数据,即可实现对入侵行为属性的科学判别。
专家系统的优势在于:①特征库能够实时扩充;②能够实现对入侵行为的科学判别。尽管专家系统的知识库能够随时更新,但入侵行为信息的收集仍缺乏全面性,一旦计算机系统遭遇协同攻击,则计算机系统无法实现对外部攻击行为的有效识别。
(2)状态转换
在误用入侵的检测过程中,常常会应用到状态转换技术,借助于高层状态转换图,能够实现对入侵行为和外部攻击意图的有效识别,在采用状态转换技术分析入侵行为的过程中,需要将计算机系统由安全状态转换为入侵状态,实现对入侵对象动作的识别,将其录入入侵特征库,借助于系统数据,实现对入侵行为的检测。状态转换技术具有直观性的优势,虽然能够实现对已知入侵行为的迅速检测,但针对未知入侵方式,则无法进行精准识别。
(3)统计分析
基于统计分析方法的入侵检测技术认为,针对计算机网络的所有入侵行为,都存在一定的规律性,能够借助于对入侵数据的统计和分析,摸清入侵行为发生的定律。通过对入侵数据与系统数据存在的偏差进行分析,能够实现对异常入侵行为的认定,并借助于计算机内部变量的赋值,形成安全状态下的操作规律,在对当前用户行为进行分析的基础上,将外部入侵产生的数据值与正常数据值进行对比,若正常数据值与阙值的偏离程度较为明显,则可将其判定为入侵行为。
(4)神经网络
近几年,神经网络算法在入侵检测过程中得到了广泛应用,对比于常规检测方法,神经网络算法能够实现对入侵数据的非参量化统计,有助于借助对历史数据进行处理和分析,提取入侵行为的主要特征,对网络数据进行有机整合,结合入侵行为和历史行为的偏离度与相似度,形成判断异常入侵行为的良好基础。
2 数据挖掘技术
■2.1 定义
数据挖掘技术的涉及的范围较广,与统计学、机器学习和模式识别等领域知识均存在不同程度的交叉。数据挖掘是指依据一定的规则,从大数据库中对大量随机、隐含的数据进行整理和查看,获取想要的信息。现阶段,数据挖掘已经成为人工智能领域学者的主要研究对象,若能够运用科学方法,从原始数据中提取有用的知识,则能够实时挖掘出外侵行为数据,对入侵防控方案制定的科学性大有裨益。数据挖掘技术主要包括信息收集、数据集成、数据规约、数据清理和数据变换几个方面的内容。
其中,信息收集是指结合的数据分析对象的特征信息,采用科学的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的[1]。数据集成是指把不同来源、格式、特点性质的数据在逻辑上进行统一和集中,为企业提供全面的数据共享。数据规约指的是执行多数的数据挖掘算法即使在少量数据上也需要很长的时间,而做商业运营数据挖掘时往往数据量非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。数据清理是指在数据库中的数据有一些是不完整的、含噪声的且是不一致的,需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。数据变换借助于平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式,对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步[2]。
例如,有研究人员通过对网络异常检测技术的充分运用,构建了算法框架,并提出了包含稀疏和平滑约束的MIL排序损失来训练模型,使用MIL的思路构建训练集合,使用C3D+FC 的网络来获取异常评分,最后采用提出的MIL排序损失来训练模型。通过这种方式,实现了对网络异常的科学检测。
再如,某物流网站借助于智选物流平台的优势,通过对数据挖掘技术进行充分运用,建立了联通各个第三方快递公司的信息系统,实现了对物流链的实时监控。通过收集丰富的快递数据,获取快递网点反馈,及时发现异常快递,当包裹出现异常时,快递公司会主动反馈异常信息,卖家能够在线和网点沟通处理异常件。通过这种方式,有效解决了因网络异常所导致的快件延误和丢失等问题,为用户满意度的提升奠定了良好基础。
■2.2 方法
(1)关联规则分析法
现阶段,随着信息网络发展步伐的逐渐加快,对数据存储工作也形成了挑战,对关联规则的应用需求逐渐增加。关联规则能够借助于对数据之间相关性的分析,发现对象之间存在的规律,若规律符合入侵数据的分布规律,则可判定为网络异常现象。在运用关联规则对入侵行为进行判断的过程中,通常从以下两个方面进行:首先,应将繁项集的定义作为参考依据,寻找符合最小支持度的项目集合,并结合强规则的具体条件,实现对强则的构建。关联算法的规则具有多样性的特点,主要分为树频集算法和Apriori算法等[3]。
(2)分类预测分析法
在以往的网络异常数据分析的过程中,通常包含分类和预测两种主要形式,分类分析主要是指通过建立重要数据的相关模型,完成网络异常分析工作,预测分析法则能够通过构建数据预测模型的方式,实现对未来入侵行为的发展趋势的预测。分类分析法通常需要明确离散值的大小,预测分析法则需要将连续值函数模型作为保障。在采用分类分析法对网络异常行为进行分析的过程中,首先要结合数据集,划分成不同的数据库单元,完成模型的构建,并建立训练数据集。然后,需要将各个数据库元组作为训练的样本,建立在一定规则的基础上,为网络异常行为判定提供参考依据。借助于对学习模型的分类规则,实现对位置数据元组的分类。预测分析法通常用于评估无标号样本,其分类算法主要包含判定树、遗传算法和贝叶斯算法等。
(3)聚类分析法
聚类分析法主要指的是将不同数据对象之间的相似性作为分组依据,将数据对象划分为不同的类和簇。一般情况下,同类数据的相似度高于不同类相似对象。聚类分析法主要以划分方法、划分层次。划分密度、网格和模型作为分类依据,属于数据挖掘的新型技术,且取得了良好的应用成果。聚类分析法是统计分析法的变换和延伸,在网络异常行为检测方面具有较高的应用价值。
(4)序列模式分析法
序列模式分析法主要指的是对网络异常数据之间的关系进行分析,明确其中的相关性,在不同数据之间发现其共有属性的相关性,实现对系统日志规则的挖掘,并建立相应的序列。序列模式分析法主要包含Apriori算法和序列生长技术两种类型,其序列大多以最高模式存在,能够充分满足最小支持度的要求,若能够加大对序列模式分析法的应用力度,则能够提升对网络异常信息检测的精准性。
3 结论
综上所述,应网络异常检测过程中,应加大对入侵检测技术和数据挖掘技术的应用力度,实现对外部攻击数据信息的精准识别,进而采取相对应的防控策略,确保计算机网络始终处于安全运行状态。