APP下载

机器学习算法在网络入侵检测中的应用综述

2019-01-07刘阚蓉裴梦迪张家熹

赤峰学院学报·自然科学版 2018年12期
关键词:攻击者分类器机器

刘阚蓉,李 丹,裴梦迪,张家熹

(安徽工业大学 电气与信息工程学院,安徽 马鞍山 243002)

1 引言

近年来互联网技术的快速发展和大规模使用,使得互联网成为最有效的工具和最重要的信息源.易受攻击的网络安全已经成为一个重要的问题,网络安全(Network security)成为当代人们关注的主要问题之一.因此设计一个保护各种数据的网络安全系统以及迫在眉睫.入侵检测系统 (IDS,Intrusion detection system)正是一个适应于该需求的重大发明,网络管理者利用入侵检测系统来抵御恶意攻击,因此该系统已成为安全管理的重要组成部分.网络入侵检测系统能检测出对网络的任何企图和滥用的攻击,并能在大量恶意攻击爆发的情况下,保持网络正常性能的运行.

机器学习(ML,Machine Learning)广泛流行于运用于各个检测和识别领域中,在模式识别、图像划分、计算机视觉和网络入侵检测[1]等领域中有着大量的应用.其基本类型分为三种:监督学习、非监督学习和强化学习[2].作为未来智能化社会的基本技术,机器学习的理论研究和算法设计正在加速发展,其最终目标即是获得更加有效的性能、更低的算法复杂度、可靠的预测能力和精确地分类[3].由于代码的开源性、入侵的复杂变化多样性,机器学习其技术本身的安全性问题受到诸多限制,譬如对于一个面部识别系统[4]来说,一些攻击者可通过伪装来破坏其中关键敏感数据以达到入侵的目的,更有甚者,一些攻击者攻击自动驾驶系统和语音控制系统使得汽车无法识别信号灯并无法理解语音含义.因此对传统机器学习算法进行改进显得迫切需要,许多研究者在入侵领域里做出了许多工作,提出了许多有效防御技术算法、模型和系统.为表明时效性,本文选取近五年来机器学习在网络安全中几个改进的新算法加以综述.

2 机器学习及其改进算法的应用

2.1 机器学习的防卫技术

在面对复杂的网络攻击问题时,传统的机器学习安全性能评估机制已经不适用于应对这些网络威胁.在现有的环境来看,大多数评估技术主要是量化评估各种机器学习的学习性能而非单独的安全性能评估,因而对其算法安全性能没有得到相应的重视.更进一步来说:防御机制的设计者可通过对分类器安全性能的缺陷来引入对抗假设,之后该设计者提出一个防御分类器的免受攻击的对抗措施,与传统被动式防御不同,该策略主动引入假象攻击策略并以积极应对,由此来看存在两种防御机制:被动防御(Reactive defense)与主动防御(Proactive defense).其阐述如图1所示:

图1 两种防御机制

在被动防御机制中,常见的攻击者通过分析目标分类器以确认攻击策略并设计出和应用它,分类器设计者可通过分析新增的样本和攻击结果,以适应其攻击策略达到防卫的目的.

2.2 改进机器学习算法在网络入侵中的应用综述

2.1.1 支持向量机改进

传统的支持向量机 (SVMs,Support Vector Machines)算法广泛应用于如垃圾邮件检测、面部识别和温度预测[5]等问题的分类和预测中.该算法是利用已知标签的训练样本来进行预测或检测的监督学习算法.与其他机器学习算法类似,传统的SVMs也易受到利用系统来进行攻击的入侵者,需要利用多个传感器来进行集中式数据收集、通信和存储.而其应用的关键点在于需要对大规模问题进行大量计算,因此使得支持向量机的在线信息融合和处理能力有所欠缺[6].之后提出的分布式支持向量机(DSVM,Distributed Support Vector Machines)算法是将拥有多节点和智能体通过网络独立处理数据和通信训练信息能力聚集起来的SVMs.该体系结构可通过每个节点并行地学习自己的数据,并将学习结果从一个节点转到另一个节点以最终达到全局性能来解决大规模机器学习问题.此外,DSVM算法不需要一个融合中心来存储所有的数据,每个节点都执行其本地计算不必与其他节点共享数据内容[7].因此与传统的SVMs算法相比,有效地降低了内存开销和数据通信的开销.尽管DSVM算法提高了效率,但是分散式训练系统比集中式训练系统更容易受到攻击,DSVM多一增加的攻击面可使网络中的每个节点都可以受到攻击.攻击者不仅可以选择几个节点来破坏他们的个体学习过程,也可发送错误信息影响其他节点导致最终影响整个DSVM网络.

为了解决以上问题,文献[8]提出了将博弈论与DSVM算法结合的网络入侵检测方法[9].由于某个攻击者可以使用诸如操控数据样本和改变测试数据这样的攻击,在文献中作者假设攻击者仅可采用修改训练数据标签的攻击方式.而对攻击者更进一步的认知则是体现在如下三个方面:

(1)攻击者的目标:其目的为了摧毁DSVM学习者的训练过程并使其分类错误增加;

(2)攻击者的知识储备:假设攻击者有完备的知识理论储备即满足Kerckhoffs准则;

(3)攻击者的能力水平:攻击者可通过手动删除数据以达到修改训练数据的目的.

2.2.2 决策树和k邻近算法混合检测

将多种机器学习算法结合以提高检测效应的方法备受如今研究者的关注.文献[10]提出了一种混合算法,将二进制分类器和k-NN算法结合起来以检测网络入侵.本算法的检测步骤分为两步:在步骤1中,将网络安全问题视为二进制分类问题.而当类别数过多时(即大于2时),此时则是多类别分类问题.事实上,网络入侵检测问题是一个多类别分类问题.在该算法中,应用多个独立的BCs来进行检测,通过将网络入侵检测问题转变成二进制问题,以减少由于入侵检测数据集不均衡造成的负面影响.一个BC用于检测一类,以此解决少数代表性类别的分类问题.并采用决策树C4.5无参数算法去学习BCs.如图2所示为该检测的流程框架:

图2 混合算法检测流程

2.2.3 集成策略的应用

之前所说的一系列传统的机器学习算法(包括对其的改进)均有自己的适应范围,譬如一些适合处理线性可分的问题,一些适合处理线性不可分问题.而随着网络在政府、商业和日常生活中有着广泛的应用,仅仅是单一的某种机器学习算法在网络安全领域不一定适用.对于一个复杂的系统,将机器学习的诸多算法有效结合起来的策略——集成方法被广泛运用.对于不同的问题,集成学习方法有着不同的算法,在分类问题中,投票数越多的类最终定为划分类;而在回归问题里,则是将最大的均值作为最终结果.常见的分类算法有Bagging算法和Boosting算法等.文献[11]提出的multi-perspective机器学习(MPML:multi-perspective machine learning)算法就是通过对数据集中创建有区别的特征子集来进行集成学习.MPML的目的是通过将特征与称之为perspectives的已定义的群分类,以提高检测速率.其中每个perspective都是种类子集的具体特征,其自我特征在归类时也是互相关联的.因此MPML方法的问题关键在于:寻找一个策略利用每个perspective之间相互的关联以达到最优可能结果.考虑到某个有着x个类别的测试T,那么测试T的特征可通过类别x的子集表达,并去perspectives中寻找影响力最大的特征.

3 未来与展望

现如今,机器学习作为大数据、云计算和人工智能的核心算法,以此各种各样的网络安全威胁和相应的对抗机器学习策略受到广泛的关注.机器学习在网络威胁中的应用和防御策略将面临以下几个问题:(1)新的基于机器学习的网络威胁将不断出现;(2)对现有机器学习算法面临网络安全威胁时进行可靠的安全性能评估;(3)机器学习算法中数据隐私问题;(4)安全的深度学习成为机器学习安全的关键点;(5)学习算法的优化、性能和损耗成为关注的重点.由此来看,面对网络威胁,机器学习算法的逐步改进会更加优化网络环境以面对各种未知的攻击.

猜你喜欢

攻击者分类器机器
机器狗
机器狗
机动能力受限的目标-攻击-防御定性微分对策
未来机器城
正面迎接批判
基于实例的强分类器快速集成方法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
有限次重复博弈下的网络攻击行为研究
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别