基于迁移学习的入侵检测技术研究

2019-06-11杜国真

网络安全技术与应用 2019年6期

◆杜国真

基于迁移学习的入侵检测技术研究

◆杜国真

（河南护理职业学院河南 455000）

随着计算机和网络技术的快速发展，网络的安全逐渐被各国重视，本文在深入了解国内外信息安全方面现有研究的基础上，针对入侵检测技术存在的源数据样本采集困难、数据模型建立时间长以及检测率不平衡等问题，提出了一种基于迁移学习的入侵检测技术，通过实验分析得到预期的检测效果。

网络安全；入侵检测；迁移学习；网络异常检测.

1 入侵检测技术的研究意义

随着计算机和网络技术的飞速发展，网络安全已经逐渐被各个国家所重视，随着我国网络安全战略的提出，网络空间的安全问题被提升到前所未有的高度。网络安全技术起初提出时主要是基于防火墙技术通过限制访问列表等策略来实现的，防火墙技术顾名思义主要是通过软件与硬件相结合设立外网与内网之间的一道安全防范措施。防火墙技术是需要根据自身网络的特点定义一些安全策略，但是这种偏向主观的设置安全策略的方式，在遇到定义模糊或者漏项时，这些将会导致系统出现漏洞的危机现象，这些漏洞将有可能导致系统被入侵和攻击。其次，防火墙技术主要是对进出内部网络的服务和访问进行审计与控制，这种方式在面临网络或者计算机收到恶意代码的入侵和攻击时，这种处理方式带来的效果将是有限度的。

综上所述，入侵检测技术很好地解决了上述问题，而且一经提出便成为网络安全领域的研究热点之一，入侵检测技术主要是对内部网络进行实时监控，然后将内部网络的活动记录下来，如果发现异常现象便会采取相应措施。而且从20世纪80年代提出以来，一直是网络安全领域研究的热点之一。

2 入侵检测技术的分类

入侵检测是指收集并记录用户以及系统的活动信息，然后按照预定的算法对收集到的系统信息进行分析计算，将分析结果与系统正常时的行为数据进行对比分析，参照一定的标准判断当前系统是否收到可疑文件，是否发生异常现象。主要包括攻击预估、相应拦截和检测。入侵检测系统的评价主要有以下几个方面：有效性，入侵检测技术的有效性是指系统受到入侵攻击行为时能够正确地做出响应，并且保证对攻击行为的误报率要保持一定的低比例；实用性，主要是指当系统遇到攻击行为时能够正确做出判断，并对入侵行为能够进行适时处理；适应性，主要是指当入侵检测系统在设定并部署应用之后能根据网络和计算机系统的实时行为记录对攻击行为进行相应的处理。

按照不同的分类方式，入侵检测系统可以有以下几种分类：

2.1 根据系统当前的状态与之前动态的正常行为进行对比，可以分为异常检测技术和误用检测技术。

（1）异常检测技术：这种检测技术是当前研究入侵检测技术的主流之一，最初的Denning模型便是基于这种检测技术建立的检测模型。其建立过程大致为：首先将该系统模型部署在一个正常的计算机系统中，根据当前正常的计算机信息，通过分析计算逐步建立正常的行为模式，然后将正常模式对计算机对系统进行分析推理判断。入侵检测系统在采集收集数据时，通过检测网络和计算机操作日志对数据进行前期处理。

（2）误用检测模型：主要是通过统计学原理而建立的模型。该模型首先通过对网络和计算机系统正常模式下工作的数据进行收集分析，逐步建立正常模式下的计算机系统信息数据库，当系统出现与之前数据库信息相悖时，便定义为入侵行为。其主要缺点有：误报率与正常行为的特征数据库建立维度有关；正常行为特征库的正常值难以确定；判断入侵行为的阈值界定难度大，这些都容易导致误报率高。随着误报率的提高，入侵检测系统也会渐渐失去检测能力。

2.2 按照受保护的对象不同可以分为三种：基于网络的入侵检测系统、基于主机的入侵检测系统，还有两种方式同时使用的入侵检测系统。

2.2.1基于主机的入侵检测系统

根据计算机操作系统中如应用程序的服务器事件、系统调用以及内核记录等日志文件，然后将这些数据信息与计算机内部攻击的数据库进行对比分析，这种方式通常情况下只会保护计算机系统不受侵害。其结构如图1。

图1 结构示意图

优点主要有：（1）更好地利用计算机系统本身的数据信息，通过这种利用本机系统建立数据库的方式使得收集到的信息更加精确，更加具有针对性；（2）能够对特洛伊木马以及其他破坏软件的完整性进行检测；（3）这种方式可以应用在需要对数据进行加密和被交换的网络环境；（4）可以检测到管理员实施的非正常操作。不足之处在于：系统本身容易受到攻击，管理难度大；因为系统需要收集的信息量大，因此需要很大的存储空间；因为是基于主机的检测系统，在执行检测的过程中会占用主机更多的CPU和内存等资源，使得主机的其他数据处理能力下降；对来自网络的多点攻击很难做到完整判别。

2.2.2基于网络的入侵检测系统

与基于主机的入侵检测系统不同的是，该系统模式主要是对来自网络的数据信息进行收集和处理。数据的收集主要是通过计算机本身的网卡进行实时收集并分析的，标识攻击行为的属性通常有：通过网卡的最大值、表达式、模式、频率以及低级事件的相关性，在整个网段及系统受到攻击时，NIDS便会发出预警并采取相应的阻止行为。该系统的优点有：成本较低；能够实现对整个网络系统的实时监控和保护，大规模的网络检测较适用；主要缺点在于：分类器的训练时间太久，因为需要收集大量的数据才能分析建成，而且训练数据也是动态变化的，与现有的或者以往的数据存在很多不同。

3 迁移学习理论

在不同领域之间的知识迁移称为迁移学习。而对于机器学习是指在处理不同任务能够实现不同域或者不同任务之间的学习。迁移学习大致可以分为以下几类：

3.1 归纳型迁移学习

这种迁移学习方式要求目标任务和源任务不同，但是不考虑目标域与源域是否相同。

3.2 直推型迁移学习

与归纳型迁移学习方式不同的是，这种学习方式要求源任务必须与目标任务完全一致，但是要求源域与目标域不相同。因此根据两个域之间的不同情况，可以分为以下两种：

（1）目标域与源域概率密度函数相同，但是两者的分布位置不同；

（2）目标域与源域边缘在特征空间和分布位置上相同，但是两者的概率密度函数不同。

4 基于迁移学习的入侵检测系统模型

4.1 一般过程

根据数据流的处理以及检测反应可以将入侵检测模型的组成划分为：收集计算机系统数据模块、数据预处理模块、特征学习模块和分析检测模块。其一般过程为对网络和计算机系统数据进行收集，并存放于数据库中，该过程可以划分为清洗冗余数据、数据规范化、数据归一处理等；产生的数据通过概率计算等方式进行特征提取和学习，主要是为后期入侵检测做准备，然后系统根据预先得到的数据样本特征进行判断系统是否受到入侵攻击。