基于深度学习的DoS攻击信息检测算法研究
2023-09-20李骏杰
李骏杰
(西安智维尼教育科技有限公司 陕西 西安 710000)
0 引言
通过物联网技术,许多设备可以实现与互联网互联,这一技术正在不断地改变全球文化、职业和人们的生活,由于物联网的广泛使用和设备的粗犷式发展,针对物联网的数据攻击也日渐增多,根据研究人员的预测,到2025年,拒绝服务(denial of service,DoS)攻击总数将会达到2 000万次[1]。目前,连接到物联网的设备数量已经超过500亿,并且数量还在不断增长中,然而在多个设备被连接成大型系统的情况下,其安全漏洞巨大,如强制性设备组成的物联网网络时常会出现连接丢失的情况。为创建安全可靠的物联网网络,必须改进现有的安全方案来保护远程系统数据,因此必须保证应用程序控制、网络保护、访问控制、身份验证、加密以及其他安全因素和措施的正常运作,以获得物联网的最佳数据安全框架结构[2]。
由于僵尸网络的存在,越来越多的物联网设备会被滥用于分布式拒绝服务(distributed denial of service,DDoS)攻击,如不断发展的Mirai框架代码变种Persirai thingbot感染了许多IP摄像头,并被恶意行为者滥用于此类攻击,因此,物联网生态系统需要一个改进的保护组件以适应现有架构,即使对现有设置进行改进之后,仍然存在许多攻击模式能够绕过各种预设保护风险[3]。为保障无法检测到的攻击领域,攻击者会将加强型DDoS攻击伪装成网络的IP地址,物联网框架的漏洞导致了被Mirai和其他有害的、不可预知的攻击所攻击。因此,研究人员需要对物联网框架进行建模,针对各种情况和漏洞采取不同的策略,这样才能帮助开发适用于物联网数据安全的可实施策略。
1 物联网数据安全策略
通过物联网协调真实世界和虚拟互联网,使得环境与人类之间建立了协同作用,因此物联网设备通常使用各种操作设置。然而在物理和网络状态下,物联网系统活动必须积极满足详尽的安全要求,在物联网框架中测试安全要求是至关重要的,而测试规模应涵盖大规模攻击检测,所以必须对网络安全进行全面评审,通过研究人员对Mirai代码的几个变体、MicroMort模型进行计算,以及对使用案例、经济支配影响的分析可知,MicroMort模型将产生物联网数据风险,同时对社会、经济和技术效益等都会造成不可估量的负面效应。基于此研究人员在考虑这些主要安全属性的情况下,为物联网网络安全提出了开创性的实施策略。
在物联网框架中,网络安全的基本属性之一是保密性,物联网设备可以保存或移动敏感数据,因此必须保护这些数据以防止非法入侵者揭示。军事、商业、个人、患者隐私和与健康检查相关的数据必须进行验证,以防止非法用户泄露,因为它们都是需要加密处理的[4]。对于由物联网设备生成的数据,需要合法实体进行唯一修改,这些数据对于远程通信至关重要且通常会被传输,在这种情况下,完整性和信任度起着至关重要的作用,有助于克服不可靠的远程通信,同时在通信期间提供修改,并强制进行仪器检查以确保数据安全。物联网框架必须对恶意修改进行监控,对数据源进行保护,这是由数据源可能会传输结构化查询语言植入事件而导致的,因此可以通过数据完整性参数进行验证。
在执行多个过程之前,完成网络中元素的表征和认证是至关重要的。然而,不同的物联网框架需要不同的验证要求,为了在物联网框架中提供强大的保护,需要强有力的确认,而不是提高适应性。在建立认证设计时,面临着取舍的重要挑战,其中,物联网授权设备及其安全性和保密性之间的取舍是一个显著的例子,通过授权,向客户提供物理设备和其他特权,并由客户共同使用计算设备收集管理数据、人员和系统,例如需要有关仓库货物的数据检查人员,对数据应该是可访问的,根据管理授权,所有授权用户都可以获得物联网框架中的数据,这证明了物联网框架的排列方式执行策略是成功的,而主动干扰、拒绝服务和其他几种威胁会导致物联网设备和框架使得用户无法使用,所以物联网安全策略应以保证客户对物联网设备的持续可用性为主要执行目标。
2 物联网安全威胁
物联网安全威胁可分为现实和虚拟两类,其中虚拟威胁包括主动和被动两种。被动网络威胁是一种潜在的风险,在这种风险中,系统通信源以一种独特的方式被监视,在监听网络时,攻击性用户可以从所有者以及设备中收集数据。而主动威胁导致的攻击,会导致拒绝协助、通信管制、设计修改以及物联网通信路线结构更改等情况的发生,在攻击期间,变化、干扰和干预被归为攻击的分支类属,各种拒绝服务攻击将对物联网产生较大的负面影响,并且在远程通信升级中,数据传输容量将重新排列,服务提供商的资源也会遭到不可预估的侵害[5]。当多个IP用于推动某些攻击时,会大幅消耗网络带宽及系统资源, 使用户无法得到正常服务,这些威胁对物理设备的危害甚至与设备损坏所造成的影响相当。由于借助物联网框架,摄像头、传感器和大多数设备对象都是开放性的,使得它们极易被入侵充当拒绝服务攻击的源头,因此具有非常大的安全隐患。此外,战争、洪水、地震和其他灾害也会造成物联网数据的意外损害。
网络中的任何设备都面临保密性、完整性和可用性的攻击。DoS攻击是专门针对网络资源对其合法利益相关者可用性的攻击,低速拒绝服务(low-rate denial of service,LDoS)攻击是DoS攻击的一种变体,是一种隐蔽的攻击模式,其本质是为了逃避网络中DoS攻击检测器的搜索和监测,从而进行隐蔽性攻击而达到破坏网络的最终目的,LDoS攻击的数据速率类似于网络中合法设备生成的良性网络流量,这使得它们很难被DoS攻击检测器检测到破坏痕迹,因此对于开放性较大的物联网而言,LDoS攻击具备先天优势,由于物联网设备通常以非常低的数据速率传输数据,所以LDoS攻击可能在这种低速网络流量情况下存在很长时间,这对物联网设备造成的破坏是不可估量的。
3 数据安全算法研究
本文提出了一种灵活的架构,即采用卷积神经网络(convolution neural networks,CNN)和随机森林(random forests,RF)算法结合的方式进行数据训练和数据测试,其中检测和缓解过程与网络分离,为了验证算法,实验使用开源数据集,该数据集是在僵尸网络和正常流量相结合的环境下开发的。由于开源数据集文件格式不统一,所以数据来源有多种格式,例如逗号分隔值.csv和原始的.pcap扩展文件格式,通常保存数据包的Wireshark程序使用pcap文件,该文件用于检查网络的数据特征,为了更快速和有效地打标签,文件会根据攻击的子类别和类别进行分类。本实验使用华为ibook14s笔记本电脑,Win10专业版64位系统,处理器为Intel i7 11870,运行内存16 GB,实验中使用NumPy框架和Panda框架进行特征选择和数据清洗,使用Keras和scikit-learn框架进行数据分析[6-7]。本文提出的算法如下图1所示,其中图1(a)为训练流程图,图1(b)为测试流程图,为了验证算法的有效性,本文对CNN进行数据集特征值提取,在框架中选择适用性结构进行数据分析,并采用交错矩阵对算法计算数据进行4阶数据分割,正交处理后剔除偏移量较大的数据,并再次进行卷积处理,由此验证算法在标准数据集中的可行性和准确性。
图1 算法流程示意图
由图1可知,训练算法流程如图1(a)所示,选取标准级数据库,将训练数据输入到算法解析计算储备库中,预处理进行分类,对同类属数据或规定分隔条件数据按照特征一致性进行分类或标号,对同类属特征进行降维计算,即合并有效特征因子减少特征向量,增加特征标注属性,完成数据预处理步骤,即对数据进行核查和清洗,甄别有效训练数据和特征缺失补偿数据,通过判定决策对训练数据进行检验,正常则直接加入训练库,不正常则进行深度学习,采用适合算法进行学习建模,并对数据相同因子进行评估,如符合评估结构则更新学习建模后的数据库,如不符合评估结构则剔除数据,完成一次有效的数据甄别录入和深度学习判定的数据训练流程。测试算法流程如图1(b)所示,在进行数据检验步骤前的操作过程类似于训练算法流程,只是对不正常数据进行攻击类型检测,对数据的攻击作用和产生的模型效应进行测试,判定数据是否具备攻击特性,即存在超过阈值的特征因子,且特征因子数量大于1,同时对同类属攻击特性进行模型判定和评估,测试攻击效应和攻击路径,从而测试算法的适用性和检测能力。
(1)CNN:CNN的任务是减少人工神经网络使用的信息属性数量,CNN具有多个隐藏层、输出层和输入层,可以通过三个稀疏交互、参数共享和等变表示的方法来减少信息因素。减少层之间的关联将增加CNN的可扩展性,并改进训练时间的难度。
(2)多层感知机:这是一种神经网络,采用前馈系统和多层感知机,具有许多神经和神经元,这些神经元与权重神经元相连,每个神经元都存在一个块,可以计算和处理激活值,表示从一个块到另一个块的每个前身的值以及输入到输出。
(3)支持向量机(support vector machines,SVM):该机制用于回归和分类。在后一种类型中,与其他方法相比,展示了更加数学上清晰成熟的概念。此外,SVM用于以非线性或线性的方式处理回归和分类问题。
(4)随机森林:这种算法被用于分类广泛的数据信息,使用多个决策树算法和合并树,在训练上对样本数据进行分类,分类的最终输出被选择为最选定的类。由于本文是对攻击进行检测及攻击类型识别,因此本文使用精度和准确率对实验结果进行定量评估,其定义如表1所示。
表1 混淆矩阵列
TP表示真实标签为正、预测标签为正的个数,FP表示真实标签为负、预测标签为正的个数,FN表示真实标签为正、预测标签为负的个数,TN表示真实标签为负、预测标签为负的个数,NUM表示测试数据集的总数,则可得精度和准确度计算如公式(1)所示:
(1)
根据多类数据集分类记录值可知,在CNN算法验证中可以使用接受者操作特征(receiver operating characteristic ,ROC)曲线获取的测量数据进行典型模型阈值设定,ROC曲线特性涉及真阳率参数和假阳率参数,真阳率指检测出的真阳性样本数和总真阳样本数的商值,而假阳率指检测出的假阳性样本数和总真阴样本数的商值,本文主要对ROC曲线与坐标轴围成面积(area under curve,AUC)的模型进行验证和测试,CNN算法测试中接收工作特征曲线如图2所示。
图2 CNN算法测试中接受者操作特征曲线示意图
图2中,横坐标为假阳率,纵坐标为真阳率,蓝色曲线为全局混淆矩阵中微平均曲线,红色曲线为全局混淆矩阵中宏平均曲线,橘色曲线为全局混淆矩阵中0级曲线,紫色曲线为全局混淆矩阵中1级曲线,绿色曲线为全局混淆矩阵中2级曲线,因此,可以从CNN算法验证中得出随着假阳率的增加,真阳率也在增加,模型的精度也得到了提高。
4 结语
本文针对目前物联网应用技术的发展,对物联网数据安全和数据传输过程中的攻击问题进行了分析和研究,首先对物联网应用设备在数据传输中应对数据攻击和管理服务攻击情况进行了阐述,其次对物联网数据安全现状和目前有效的安全策略、面临威胁进行了针对性介绍,说明了LDoS攻击的特殊性,可隐蔽性的进行数据攻击而跳过安全检测,最后提出了先进行数据预处理,再进行全局混淆交错矩阵进行4阶数据筛选后的模型化CNN算法框架,通过算法在标准数据集按照流程进行训练和测试的表现可知,本文提出的改进CNN算法在防止数据攻击时具备一定的检测精度和准确性,同时为多算法融合进行数据攻击检测提供了理论参考价值。