基于浅层次规则模型的网络威胁分析技术研究
2024-10-09王志鹏
关键词:浅层次规则;规则模型;网络威胁;元数据
中图分类号:TP393.08;TP311.13 文献标识码:A
0 引言
随着网络技术的飞速发展,网络安全问题日益成为全球关注的焦点。网络威胁主要包括恶意软件、钓鱼攻击、拒绝服务攻击等,对个人隐私、企业运营乃至国家安全构成了严重威胁。为了有效应对这些威胁,网络威胁分析技术应运而生,成为网络安全领域的关键技术之一。
在传统网络安全防御中,网络管理者花费了大量的资源购买防火墙、入侵检测系统和防病毒软件等网络安全工具,以保障网络的安全。将网络安全工具的告警日志、网络设备的系统日志作为网络安全数据,按照特定条件生成关联规则,构建网络安全事件分析模型[1]。但由于这些工具或设备产生的告警数据本身存在一定的误报情况,这降低了关联分析模型二次挖掘结论的可信度。
网络威胁的多样性和复杂性要求采用更为精细和灵活的分析方法。浅层次规则模型作为一种基于经验规则的分析方法,以其实现简单、响应快速的特点,在网络威胁分析中发挥重要作用。然而,面对不断演变的网络攻击手段,如何进一步提高浅层次规则模型的检测能力和准确性,成为当前研究的重要课题。
本文旨在探讨基于浅层次规则模型的网络威胁分析技术,通过构建和优化规则集,提高对未知和已知威胁的识别能力。此外,本文还探索了如何将浅层次规则模型与其他分析技术相结合,以实现更全面的网络安全防护。该技术可以为网络威胁分析提供一种有效的技术手段,增强网络安全防护能力,为相关领域的研究和实践提供参考和指导。
1 基于浅层次规则模型的网络威胁分析技术
浅层次规则模型是一种基于经验规则的分析方法,它在网络威胁分析、入侵检测和其他网络安全领域中得到广泛应用。浅层次规则模型依赖于一系列预定义的规则,识别网络流量或行为并进行分类,由于规则简单明确,该模型通常易于实现和部署。该模型可以快速评估网络行为是否违反了既定规则,实现对潜在威胁的快速响应,并且可以根据特定环境或需求制定规则,以适应不同的安全策略,而规则的制定通常依赖于安全专家的经验和知识。
对于已知的攻击模式和行为,通过收集大量的网络攻击事件的数据包,研究攻击过程中网络流量变化的趋势和通联关系,并且利用数据库强大的关联查询能力设计结构化查询语言(structured querylanguage,SQL)语句的规则模型。浅层次规则模型可以有效检测威胁,尽管其主要基于人工制定的规则,但它也可以与机器学习技术结合,以提高检测的准确性和适应性。由于其简单、快速的特点,浅层次规则模型可以适用于实时网络威胁分析。
1.1 建模数据处理
以旁路方式实时采集网络流量,利用数据平面开发套件(data plane development kit,DPDK)技术对网络中传输的各种协议和数据包进行解码分析,生成元数据日志。数据清洗过滤是指数据的正筛输出、反筛丢弃,以及利用任意规则的与或非逻辑组合过滤,甄选上层网络安全威胁分析所需的元数据。网络传输文件还原是指对超文本传输协议(hypertext transfer protocol,HTTP)、邮件、证书进行还原,从而获取传输的文件。通过数据去重、规约化处理、错误数据丢弃等处理方式,对数据进行预处理和清洗,并将数据存储在高性能的列式数据库管理系统ClickHouse 上。元数据是网络威胁分析中最优质和最具性价比的数据,马赟等[2] 利用正常情况下对网络流量的理想曲线描述,并且使用统计学方法创建大规模网络流量数学模型,基于网络流量元数据实现异常流量检测。
ClickHouse 是一个高性能的列式数据库管理系统,由俄罗斯的Yandex 公司开发,被设计用于在线分析处理场景,其能够快速处理大量的数据查询,特别是在数据仓库和大数据分析领域表现出色。国内360 公司的360 态势感知与安全运营平台也内置了元数据专家分析组件,用户直接在搜索框里输入相关命令即可实现对海量日志的搜索、关联、分析和可视化。
1.2 浅层次规则建模
通过搭建一些常见的攻击模拟环境, 如WebShell(一种代码执行环境)利用、命令与控制(command and control,C&C)、木马后门等环境,在采集攻击模拟的网络流量并提取元数据后,将解析后的元数据导入分析平台进行分析。基于Docker(一个开源平台)搭建了漏洞环境,其包含大部分通用漏洞,也在外网搭建了部分常见的黑客工具,如Empire、Cobalt Strike 等常规工具,整理、收集机器学习训练的攻击流量,同时也可以通过网络安全实战、互联网渠道等获取真实网络安全事件流量。
首先,需要通过正态分布数学模型,描述自然界中许多随机变量的分布情况。在网络流量异常检测中,正态分布可以确定一个正常的流量水平,并识别出与其相比较为异常的流量。
将内网服务器间的源目标IP 会话记录作为统计对象,将交互数据量作为对象属性,时间时序性分为时间分桶(小时、分钟、天)和时段分类(日间、夜间)并且作为维度定位,分析数据主要通过传输控制协议(transmission control protocol,TCP)会话中的序列号与确认号(synchronize and acknowledge,SYN-ACK)来同步和确认元数据日志。
在实验过程中,24 h 内,每小时统计一次服务器A 和服务器B(x)总体网络流量,其中x 为总数据量,代表单位小时内IP 会话产生的总数据量。根据服务器A 和服务器B(x)每个单位小时IP 会话产生的总数据量,求出正态分布的标准差σ。利用特定形式的误差函数,求出正态分布的累积分布函数F(x)的数值,F(x)计算公式:
将模型在实际网络流量中进行验证,当F(x) <0.99 时,表示流量正常;当F(x)≥ 0.99 时,表示可能出现了因网络威胁事件导致网络流量陡增等情况。
其次,从网络信息安全保护的角度出发,科学分析网络流量元数据背景下网络流量分流平台的构建过程与元数据的处理过程[3]。浅层次规则模型可以降低依赖于建立大量复杂规则的检测方式产生的误报率,因此其可以用于构建如扫描、爆破、WebShell 利用、C&C、木马心跳等分析检测模型。同时, 还可以针对域名服务系统(domain namesystem,DNS)、HTTP 等应用建立分析模型,如统计域名请求频率、域名访问时间。在此过程中,需要资深的安全分析工程师对浅层次规则模型进行人工干预和修正,以提高模型的检出率和准确性,浅层次规则模型示例如表1 所示。
2 模型效果验证
基于互联网公开获取的攻击样例,这些样例包含网络攻击事件的详细过程描述、截图、数据包等。本文对样例的攻击过程和分析过程进行威胁建模和人工干预修正,形成检测分析规则,元数据原始流量示意图如图1 所示。
步骤1:协议流量激增。通过聚合每日协议流量,对整体流量进行斜率对比,发现激增情况。如当日SSH 协议产生1 MB,次日SSH 协议产生11.7MB,斜率比值为11.7,存在激增可疑情况。
步骤2:定位可疑IP 地址。通过协议进行IP地址流量的聚合,再利用SSH 协议定位可疑IP 地址,修改模型中的起止时间,以境外会话时间大于6 h、境内会话时间大于8 h 的网络流量作为分析对象,进一步判断疑似长会话连接导致的流量激增。模型的部分关键代码如下:
group by client_ip,client_country_id,server_ip,server_country_id,server_port
having total_payload_bytes <= 5*1024*1024*1024 and client_payload_bytes/total_payload_
bytes>0.5
and (client_country_id not in [0,48] or server_country_id not in [0,48]) and maxDurTime >= 6*360
将通过互联网公开获取到的攻击数据包进行效果验证比对,数据包包含分布式拒绝服务攻击、数据库爆破、邮件服务器窃取、内网主机控制和Struts 2漏洞利用攻击等5 种攻击类型,利用数据包分析工具提取网络元数据,通过浅层次规则模型进行网络威胁分析。同时利用开源的网络入侵检测系统Snort 和Suricata 进行威胁检测分析,基于回放数据包,网络入侵检测系统可以对威胁进行快速检测,记录检测分析结果。模型效果验证对比如表2所示,相较于入侵检测系统Snort 和Suricata,本模型在网络攻击和威胁行为的检测上具有明显优势。
3 结论与展望
本文成功构建并验证了一种基于浅层次规则模型的网络威胁分析技术。通过深入分析网络流量元数据,开发了一种能够有效识别和响应网络威胁的模型。该模型利用半监督学习算法对正常流量模式进行建模,并通过实际网络环境测试,证明其在检测未知网络威胁方面的高效性。研究表明,本文开发的模型以网络流量元数据为数据基础,分析内网或互联网边界网络流量的网络攻击和窃取威胁事件时,相较于网络入侵检测系统Snort 和Suricata,本模型表现出高检出率、低误报率和较强适应性等特点。
浅层次规则模型仍有进一步改进和扩展的空间。一是浅层次规则模型依赖于经验丰富的网络安全分析师编写规则模型、调优模型,限制了模型对于网络威胁事件检测类型的覆盖度;二是浅层次规则模型由于需要对海量数据进行回溯分析,性能消耗较大。因此,提高模型的自动化水平,实现实时威胁检测和响应,是未来研究的方向。本文为网络安全领域提供了新的视角和解决方案,但网络安全是一个不断发展的领域,需要持续的技术创新和方法优化。