基于大数据技术的网络异常行为监测技术研究

2022-01-01袁晓平

科技创新与生产力 2021年10期

袁晓平

（郑州工业应用技术学院，河南新郑 451100）

网络技术不断发展，对应的网络攻击技术也发展迅速，网络黑客会采用越来越隐蔽的攻击手段绕过检测，通过越来越复杂的攻击行为达到既定的攻击目的，并且黑客的潜伏周期越来越长。普通的网络入侵检测技术主要基于入侵行为模式特征进行检测，这就意味着其只能检测出已有的入侵行为模式，但是却无法准确检测出新的入侵方式，一旦有了新的入侵行为，就需要安全专家重新分析、提取新的入侵方式模型特征，再在系统中生成新的检测规则。这种方法在复杂多变的网络攻击环境中很显然已经不适用。

1 网络异常行为分析监测系统关键技术分析

基于大数据技术的网络异常行为分析监测系统的关键技术包括以下3个方面。

1.1 大规模监控采集技术

网络异常行为分析主要以数据的监控、收集、分析为基础，数据监控、收集、分析的规模越大，网络异常行为监测的准确性就越高，因此大规模监控采集技术非常重要。实际应用过程中，监控采集技术要先进行主动上报工作，收集、监控各项信息数据时，以本地代理Agent上报为主要形式，辅助形式采用远程探针Probe采集形式，主动上报为信息收集与监控的优先级内容，不断深入发展采集颗粒度，实时采集本地数据，以此为基础进行数据分析，将一些复杂的安全认证环节减少至最少。工作过程中网络异常行为监测系统设置为开机自启动模式，无需人工监测。大规模监控采集技术还能够实现汇聚压力分摊效果，监控系统服务端的数据处理压力很大，分布式汇聚技术可以按照需求在服务端与Agent，Probe之间适当增加汇聚代理，以提高数据预处理的效率，尤其是在一些复杂的网络安全环境中，分布式采集汇聚技术的优势能够更充分地发挥出来[1]。

1.2 大数据存储技术

在海量数据检索及分析过程中，可应用Elasticsearch技术开展检索工作，在页面交互查询过程中会形成告警结果数据，应用Elasticsearch分析这些数据十分高效。Hadoop分布式文件系统可有效存储大规模数据集，因此在网络异常行为监测系统中会将全面收集到的原始数据、预处理结果数据放入分布式文件系统（Hadoop Distributed File System，HDFS）中，并将Spark技术的作用充分发挥出来。Spark是一种专门针对大规模数据分析的快速通用计算引擎，能够深入地挖掘历史数据。此外，大数据技术中的My SQL为关系数据库，可以存储海量的报告数据、统计结果数据、系统管理类数据等；Redis也是重要的存储系统，多应用于关联性较强的信息分析处理，其能够实时分析数据，找到互相关联的信息[2]。

1.3 实时流事件处理技术

网络异常行为分析监测系统中，实时流事件处理技术具有重要的地位，其主要收集、分析实时数据以及信息流，这些都是后续数据分析的信息基础。将实时流事件处理技术与既定的检测规则、信息数据进行细致对比，可以准确地发现某些信息、数据的不合常理之处，为后续的网络异常行为判断提供依据。Spark Steaming是一种重要的流式处理系统，其具备较高的容错率及高通量，能够合理对接多种数据源，因此在实时数据处理方面有着明显的优势。

2 基于大数据技术的网络异常行为监测系统设计

2.1 系统架构

随着网络技术的不断发展，网络中数据的体量越来越大，网络信息数据的经济价值、社会价值、研究价值也越来越高，越来越多的不法分子通过非法途径获取网络信息，以达到自己的非法目的。针对网络信息的异常行为也越来越多，因此需要网络管理人员精确地追溯攻击路径，通过构建强大的异常行为监测系统保障网络信息的安全性。本研究提出的网络异常行为监测系统架构包括数据采集层、数据处理层、数据存储层、分析计算层等，其中数据采集层的主要作用是采集网络中的数据源，再将记录的网络行为日志发送至kafka；数据处理层的主要作用是分析、处理采集到的网络行为日志，通过kafka消息服务信息对采集层、处理层及存储层之间的数据进行解耦合；存储于kafka上的数据日志、解析日志在被数据存储层读取后存储于分布式数据库中；分析计算层的主要作用是通过分析数据来源得出相关分析报告，完成数据实现[3]。数据采集层、处理层、存储层、分析计算层各层之间均通过标准接口及数据连接，减少了各层之间数据组件的问题及对其他结构的影响。

2.2 网络异常行为采集设计

本系统中所有网络异常行为感知采用的是分布式结构来完成，在分布式系统上集成HBase提高数据传输的效率。应用专业的采集服务引擎采集数据，将大量的历史数据、实时数据存储于系统后台，可以采用列模式存储来提高数据的存储效率。由于系统所采集到的数据具有较高的冗余性，数据之间缺乏必要的关联性，因此本系统应用聚类算法对数据之间的内在联系进行分析，系统接收到海量数据后先通过数据维数约减算法将这些数据预处理为标准数据，分析得出数据之间的相关性，然后提取数据之间的显性特征，分析出数据中的隐性特征和数据之间的内在关联，不断提高海量数据的应用价值。Hive技术采用数据挖掘算法实现价值数据的离线关联分析，并将数据可视化地呈现给用户，完成对价值数据的深入挖掘。在数据实时关联分析阶段应用数据的规则关联与日志聚合技术可以大大提高数据的安全性。异常行为采集模块又包括安全风险及指标、风险评估与处置、告警管理3个子模块。其中安全风险及指标主要对数据信息整个生命周期中的异常行为进行识别、鉴定，是识别各种风险行为的基础。风险评估则是根据风险量化模型对采集到的数据进行风险评估，根据评估结果等级对风险行为进行排序，优化处理风险评估等级最高的异常行为。风险控制主要是对网络攻击行为进行具体分析，根据异常行为的发生原理采取应对措施，以提高网络异常行为风险处理的效率。

2.3 网络异常行为精确感知

网络异常行为精确感知模块设计会应用到大数据框架技术、智能感知技术、交互式可视化技术、异常行为量化评估模型等。网络异常行为的主要风险因素包括威胁、设备、安全防护措施等，分析网络异常行为时需准确识别此类要素，并分析各要素之间的关系。具体的网络异常行为及其影响包括：蓄意破坏设备或信息，会导致信息数据不完整或数据泄漏；非法人员在未授权的情况下非法读取数据信息，甚至出现篡改数据信息、传播病毒代码、留下木马后门等严重非法行为；工作人员自身的失误也会造成数据信息有误，影响到网络信息的安全。网络系统运行过程中任一阶段都可能会出现异常行为，分析异常行为发生的概率，确定网络攻击行为的权重，再根据攻击行为的危害后果定义风险指标，结合风险库、数据属性、风险评估对象对风险行为进行定义、识别、分析，采用风险量化模型计算网络异常行为的风险值，根据网络异常行为的风险等级、行为特点计算模拟安全控制措施的有效性。制定并执行风险动态管理机制，提高网络安全管理执行效率[4]。

2.4 网络异常行为分析模块设计

网络非法攻击行为已经由传统简单粗暴的非目标值变换为精准攻击、精细化的分布式拒绝服务（Distributed Denial of Service，DDoS）攻击，特别是危害巨大的高级持续性威胁（Advanced Persistent Threat，APT）攻击。因此网络异常行为监测系统在识别网络异常行为后，要完成网络异常行为的精确感知并进行异常行为分析。网络异常行为分析模块可以获取各种复杂环境下的告警信息、异常行为安全分析、控制行为等，分析数据前要先了解数据结构的组成及功能作用，并提高数据信息的标准化、多样化，以提高数据挖掘的效率及异常行为建模的精确性，获得更加精确的内在价值数据。系统的数据可视化功能可以将数据信息价值多样化地呈现出来[5]。本系统中网络异常行为防护规则包括：首先，系统已经判定为恶意IP地址的要绝对禁止其访问系统，从根源上隔离非法用户，保证信息数据的安全性；其次，系统识别到恶意域名后直接拒绝其访问请求，一般情况下一些恶意IP地址会被防火墙阻挡在外，但是也会有些IP地址是防火墙无法识别的，系统在识别到这些恶意IP地址的访问请求时会直接拒绝，并将其访问记录存储于数据库中，将其域名定义为“不可解析”；再次，网络异常行为中的恶意文件主要是钓鱼代码、病毒，其主要目的是非法用户实现对系统的远程控制或启动木马程序，异常行为监测系统可以识别这类恶意文件，直接拒绝读取文件，以起到保护系统数据安全的作用；最后，控制邮件发布者的访问控制权限[6]。一直以来恶意邮件都是使系统受到攻击的重要途径，一般情况下，系统会通过检查邮件后缀识别其合法性，直接控制邮件发布者的访问控制权限，保护数据安全。而影响防护规则有效性的因素也比较复杂，比如攻击行为发生的位置、防护系统的具体部署方案等，通常情况下防护规则可遵循就近处理的原则部署于最靠近攻击行为的部位，以更好地阻止攻击行为。

3 基于大数据的网络异常行为检测系统应用

系统运行过程中，首先会建立异常行为监测门户，该门户中包括各种异常行为的搜索、信息展示设计等，通过交互界面将所有的异常行为展示出来，尤其是重点展示攻击行为、攻击手段、攻击对象等，还可以重点搜索漏洞、邮箱、已知黑客代码、IP地址等外部行为，攻取攻击行为的相关信息后向系统发送告警信息。然后，系统会采集网络异常行为信息，主要是获取原始网络日志，比如网络攻击异常行为、安全通告漏洞、各类补丁信息、采集接口信息等，除此之外还包括攻击目标本身的信息数据[7]。完成网络异常行为信息采集后，系统会对异常行为进行分析，禁止网络内部设备与危险IP地址进行数据交换。最后，将监测到的异常行为信息存储于安全异常行为库中，信息包括已造成威胁的异常IP、网址、链接等，一旦这些信息试图访问系统，系统就会启动防火墙隔断、禁止运行、删除危险文件、清除注册表等防护措施，保证系统数据的安全性。