APP下载

基于LSTM的DGA域名检测算法研究与应用

2021-09-14查伟金

电脑知识与技术 2021年22期
关键词:网络空间安全深度学习

查伟金

摘要:随着互联网技术的快速发展,网络服务于各类行业,域名数量与日俱增的同时恶意域名的检测也变得愈来愈困难且更加重要。恶意服务常利用域名生成算法(DGA)逃避域名检测,DGA域名常见于一些僵尸网络和APT攻击中,针对DGA域名可以轻易地绕过传统防火墙和入侵检测设备、现有方法检测速度慢、实用性不强等问题,采用深度学习技术,基于LSTM设计了DGA域名检测方法,从海量域名样本中分辨出异常域名,借助机器代替人力完成这样重复性的工作。经实验结果证明,该方法检测准确率高达99.1%以上,是有效可行的。同时结合流量探针构建实时监测系统,实时准确地监测流量中的DGA域名,提高网络空间安全性。

关键词:域名生成算法;僵尸网络;深度学习;LSTM;网络空间安全

Abstract: With the rapid development of Internet technology, the network had served various industries, While the number of domain names is increasing day by day, the detection of malicious domain names has become more and more difficult and more important. Domain Generate Algorithm (DGA) was used by malicious services to evade domain detection. DGA was common in some botnets and APT attacks, aiming at the problem of DGA domain can easily bypass traditional firewalls and intrusion detection devices, slow detection speed and poor real-time performance in existing detection methods. a DGA domain detection algorithm based on Long Short-Term Memory (LSTM) model was designed by using deep learning, which candistinguish abnormal domain names from a large number of domain name samples, and use machines to replace humans to complete such repetitive tasks. The experimental results prove that the detection accuracy of this method is as high as 99.1%, which is effective and feasible. Meanwhile, a Real-time Monitoring System for DGA Domain based on LSTM was proposed in combination with flow probe to monitor network traffic in real time and improve cyberspace protection capabilities.

Key words: domain generation algorithm; botnet; deep learning; LSTM; cyberspace security

1引言

目前,网络安全问题日益突出。网络攻击、网络恐怖主义等安全事件时有发生。随着公共云、私有云和大型局域网在企业、军队和学校的广泛使用,用户在互联网上的各种操作和行为每天都会产生大量的信息,不法分子也一直想通过网络攻击等手段获取机密信息和情报。

恶意软件经常使用DGA域名来提高其与C&C服务器通信的可靠性,从而避免常规的黑名单检测。从大量域名样本中识别异常域名的任务应该由机器来完成,而不是由人工来完成。传统的DGA域检测方法通常有很大的缺点。黑名单过滤方法[1]虽然准确率高,但需要手工补充黑名单之外的DGA域名,难以解决DGA域名快速增长带来的问题。机器学习检测方法[2-7]需要通过技术人员的实验构造特征值,并设计检测算法,实现对未知DGA域名的检测,但是也存在一些问题,如手工特征提取工作量大,无法准确提取出所需的全部特征,检测速度慢,检测精度低等。

近几年深度学习[8]在自然语言处理有很好的表现,比传统的机器学习更有优势。它能自动提取特征,并通过训练大量样本获得较高的精度。经典的循环神经网络(RNN)能很好地保留语言处理中的上下文信息。但是,随着训练过程中时间和输入数据的增加,RNN对语句中上下文信息的感知能力就会下降,导致梯度的消失或爆炸。而在RNN基础上改进的LSTM[9-11]可以解决上述问题,并在DGA域名检测中取得良好的结果。基于此并结合流量探测器,设计了基于LSTM的DGA域名实时监测系统。为保证该算法的良好检测性能,本文选择360和Alexa分别提供的DGA域名和合法域名进行合理的建模和评估,以获得最优的检测算法。

2基于LSTM的DGA域名检测算法

基于LSTM的DGA域名检测算法包括域名向量化、上下文信息提取、分类输出等三个步骤。

2.1 域名向量化

在输入一个域名作为模型之前,有必要对域名进行向量化。常用的向量化方法有bag of words(BoW)、One hot和n-gram(n元語法)。由于域名字符串中没有语法和词序元素,我们选择Bow模型从统计数据集中的所有字符生成一个字符字典,并以键值对('a':2)的形式存储。

猜你喜欢

网络空间安全深度学习
基于开源软件的计算机系统安全课程教学与实践
新常态下网络空间安全的几点思考
信息安全、网络安全、网络空间安全初探
有体验的学习才是有意义的学习
中、美、英三国网络空间安全人才机制培养比较研究
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
安全通论