基于迁移学习的网络入侵检测

2021-07-17奚雨新

消费电子 2021年6期

奚雨新

【关键词】入侵检测技术;网络入侵检测模型;迁移学习

一、引言

如今，我们已经进入了“互联网+”社会，互联网广泛应用在跨境电商、金融交易、在线学习、移动医疗、生活服务等领域，让人们的生活更加便捷。与此同時，它也带来了黑客的袭击、信息泄露等网络安全问题。而网络入侵技术则是网络技术不断发展的成果，它能够弥补传统的网络安全技术的不足，协助网络用户检测网络内各种安全漏洞，对网络设备及流量进行监视和分析，并在发现入侵时发出警报。目前如何提高检测技术的有效性、实用性、适应性、可扩展性是网络安全方面研究的关键[1]。

二、入侵检测系统的分类

（一）按数据来源不同分类

1、基于主机的入侵检测系统

系统检查的数据主要依据计算机操作系统日志文件，包括安全日志、应用程序日志等。它不需要网络数据的参与，只需要通过计算机内部入侵数据库判断这些日志文件是否异常。它的优点是检测速度比较快，能够准确地检测到计算机系统所发生的事件，不受被加密的网络数据所影响。但它的缺点是该检测系统占用的空间大，检测时占用计算机资源，CPU被占用后无法进行其他的分析，因此无法检测网络中的多点入侵。

2、基于网络的入侵检测系统

系统对网络的流量数据进行检测，实时监控网络的数据包并建立对数据包的实时分析，通常采用模式匹配、频率等判断网络是否处于异常。该系统一般设置在网关或防火墙之后。它的优点是适用于大规模网络的入侵检测，占用的资源少，成本低。它的缺点是难以训练出一个较好的检测数据模型，对数据库及时更新所需成本很大。

3、分布式的入侵检测系统

针对以上两种检测系统的不足，分布式检测系统使以上两种系统协调工作，既能检测主机运行所产生的数据，又能对网络中的数据包进行检测，这样不仅做到了对主机的保护，也实现了对不断变化的网络进行监控，确保计算机系统的安全。

（二）按照检测技术的分类

检测技术一直处于发展的状态，新技术不断地产生。网络入侵检测方法根据当前网络状态和正常状态下的网络行为对比可以划分为以下两种：

1、误用的网络入侵检测方法：该方法主要依据系统已有的特征库来检测不正常行为，该方法首先通过对网络被入侵模式下工作的数据进行收集，形成入侵情况下的数据库。将需要检测的对象为目标指令与形成的数据库进行对比，成功则判断为入侵，反之则正常。由于直接匹配对比异常的行为模式，误报率很低，但是该方法无法检测到新的入侵行为，所以该策略的漏报率较高。现如今网络经常出现一些新的入侵行为，同时一些入侵行为也会发生变异，误用的网络入侵检测已经处于淘汰状态。

2、异常的网络入侵检测方法：该方法是基于入侵的行为进行检测，建立正常工作时的行为模式，然后利用正常时的模式与计算机行为进行比较，属于正常工作模式范围内的行为被允许，反之阻止。由于是该方法可以检测到新的入侵行为，因此漏报率很低。但正常工作时的数据有很多可能没有得到训练，这就出现了非攻击行为不在正常工作模式范围内的情况，所以这种方法的误报率较高。我们如何利用算法来降低异常入侵检测方法的误报率，是我们研究的关键。

但是该方法需要部署配置文件，在其过程需要训练和测试数据。训练数据的目的是形成网络正常时候的配置文件，在测试数据的过程是用新的入侵数据来测试配置文件，观察其结果，判断是否有效。

三、迁移学习的理论方法

（一）概念

迁移学习是指利用数据、任务或者模型的相似性，将在原领域学习的知识，应用到新的领域的一种学习过程[2]。

生活中，我们人类经常会使用迁移学习的思想，比如，我们学会了C语言的语法，可以应用于C++语言的学习中。再比如，我们学会了骑自行车的技能，可以将该技能应用于学骑电动车上。其实就是利用相关领域知识完成目标领域的任务，也就是我们生活中所说的“举一反三”。但是机器就没有举一反三的能力。比如，阿尔法围棋（AlphaGo）在19×19的围棋棋盘能够战胜人类，而换一种棋盘和场景它就不一定可以战胜人类了。

在如今数据时代，做什么都需要大量的数据，很多领域由于行业性质、用户隐私、商业利益，会造成小数据和数据孤岛。我们之前是无能为力的，现在可以用迁移学习将已有的大数据模型迁移到小数据模型上来解决问题，只要这个大数据模型和我们要解决的问题有一定的相似性。

（二）迁移学习与传统机器学习的区别

机器学习应用的场景越来越多，但要想有更好的应用效果，需要足够的数据标签。我们知道足够的数据标签需要经过大量的训练和测试，在大多数情况下，我们是无法实现的。传统的机器学习在每个任务中都需要利用大量训练的数据来创建模型，少量的训练数据是无法建立可靠的模型。而迁移学习作为机器学习的一个重要分支，它可以利用与我们需要的数据相似且已有标注的数据建立模型，并不要求训练和测试的数据分布相同，它还可以将在大量标注数据上训练好的模型进行调节适应，重用到新的任务中。

（三）迁移学习基本方法

迁移学习不是一种算法，而是一种解决问题的思想。我们设定源域为，目标域为，通过迁移学习思想应用知识帮助目标域的学习。按学习方法分类分为以下四种：

1、基于样本的迁移学习方法：通过对和的样本概率分析，根据的数据分布情况，来对有标记数据的权重进行增减，增加与相似的数据权重，降低与差别大的数据权重。通过对目标领域有用的实例不断加权，最后和的概率分布越来越相似。

2、基于模型的迁移学习方法：找到和数据模型中共享的参数，构造一个参数共享模型。

3、基于关系的迁移学习方法：这种方法挖掘和利用和样本之间的关系进行类比迁移，在和之间建立相应的映射。

4、基于特征的迁移学习方法：我们找一个方法将和的特征统一到一个空间中，减少它们之间的差距。

四、基于迁移学习的网络入侵检测

（一）网络入侵检测工作过程

它的过程一般包括数据收集、数据预处理、数据分析检测和根据安全策略做出响应[3]，其中数据收集包括计算机软硬件工作状态、网络数据流、系统日志信息等。数据预处理则是对收集到的数据属性特征进行精简分类。之后，我们使用误用或异常入侵检测的方法对数据分析检测。事件响应是经过分析后让管理员或用户知道系统存在的安全问题。

（二）基于迁移学习的网络入侵检测模型

在实际检测模型中，如果想要应对新的入侵情况，那么需要重新训练模型，训练一个新的模型复杂度高且需要时间久。这时候考虑到数据具有相关性，可以在数据预处理后将迁移学习方法用于检测技术中，利用已有的训练数据构成新模型的训练数据，也可以对已有的模型进行调整来适应新的入侵，既实现了使用大量数据不断更新模型，又实现了对模型的重用，加快了网络入侵检测技术的速度，同时也提高了入侵检测的适应性。

五、结论

总的来说，要重视和落实互联网安全工作，尽可能避免互联网安全事故的发生。因为一旦发生安全事件，其影响是不可逆转的。各类网络入侵手段层出不穷，这也使得网络安全问题成为当下研究的热点问题。本文结合了网络入侵检测模型和迁移学习方法，将迁移学习用于网络入侵检测模型，能够很好地完善入侵检测的技术，具有积极的研究价值。