基于大数据技术的网络安全态势感知研究
2023-01-06卞春花
卞春花
(南京机电职业技术学院,江苏 南京 211306)
1 网络安全态势感知的内涵
网络安全态势感知是从互联网环境中获取、理解各种变化所包含的安全因素信息,通过安全因素信息推断和预测网络环境的发展趋势。大数据时代,互联网环境已经形成相当大的规模,大量数据处于持续的流动及变化中,黑客也会从大数据中寻找安全漏洞进行恶意入侵,而大数据安全管理技术可以做到“听其声、辨其形”。在这种情况下,网络安全态势感知就成为抵御新型安全威胁的重要技术,可以帮助网络安全管理人员更清晰地了解到实时的网络安全状态,及时采取针对性的防护措施,提高网络环境的安全性。态势感知技术从系统软件硬件信息、服务进程、配置信息、数据信息以及安全日志信息中分析网络安全状况,并准确预判网络安全状况的变化,不仅能够根据网络安全设备的告警信息及其他信息进行实时的关联归并、数据融合,将网络实际的运行情况实时反映出来,而且能够对历史数据进行离线分析,从而发现数据中潜在的可能威胁[1]。
具体技术应用过程中,首先要提取网络安全要素,收集各相关元素的状态、属性、动态信息等,如Web服务日志、防火墙日志、安全情报等,所收集的信息数据覆盖网络环境中的每个节点、网络元素、监视数据及连接渠道。为保证数据信息的完整性,网络安全态势感知除了监控环境数据外,还要对动态数据、静态数据进行监控,并对这些信息进行集成[2]。其次,评估网络安全态势。评估网络安全态势就是分析某个时段时黑客攻击行为对网络造成的威胁程度。黑客的攻击一般分成多个阶段逐步深入系统,利用系统漏洞对系统产生持续的、渐进式的攻击,随着攻击阶段不断深入,网络系统所受到的各类威胁越来越大,系统的安全性受到直接影响。网络安全态势评估可以根据攻击信息源的不同分为2种:一种是搜集实际的攻击信息,通过大数据技术分析其中潜在的各类安全威胁;另一种不仅会对系统受到的潜在威胁做出评估,而且会对攻击后续的发展态势、影响程度做出预测分析。最后,进行网络安全态势的预测。网络安全态势预测是根据检测得到的报告信息利用安全事件预警技术对未来的攻击行为做出准确预测,为用户提供高效的响应速度及实时、动态、主动的安全屏障[3]。
2 大数据安全面临的问题
大数据技术发展十分迅速,虽然促进了信息技术的进步,但是信息安全保障技术稍显滞后。大数据环境中,数据源不再局限于传统的类型,还包括交易数据、联机数据、系统采集原始数据、用户在系统应用过程中报告的主动数据以及各类新闻媒体、社会媒体交互过程中产生的各类数据。数据信息具有复杂性,导致大数据技术的应用环境面临着以下几个问题。
一是系统复杂性导致脆弱性增加,不断增加的系统应用及不断扩展的系统服务使得系统间的互连越来越复杂,无形中也增加了遭受非法攻击的风险。二是虚拟化的环境模糊了安全边界[4]。大数据、云计算等技术的核心以虚拟化为主,而虚拟化又导致安全边界模糊,一旦一个系统被非法入侵者攻破,就有可能导致更多的虚拟机被入侵,引发灾难性后果。三是数据共享过程中存在安全隐患。大数据的信息共享需要通过跨部门、跨系统甚至跨机构进行数据融合与交换,这个过程导致数据管理难度增加,数据泄露的概率也变大。四是隐私信息的分散存储与收集增加了保护隐私数据的难度,提高了个人隐私信息泄露的风险。五是用户群体对信息安全的敏感性及知识水平存在较大差异,一些缺乏基本信息安全知识、信息安全意识不强的用户就会成为非法入侵者的突破口,直接影响到整个系统的安全性。六是传感器等采集设备很大可能成为大数据安全的短板,在大数据系统中,传感层的主要作用就是采集、上传终端设备的运行数据,如果这些信息采集设备未得到有效的物理保护,也会导致大数据系统遭受非法攻击。
3 基于大数据技术的网络安全态势感知平台分析
在大规模的网络环境中,基于大数据技术的网络安全态势感知平台对各类感知数据源进行数据分析与挖掘。其中,感知数据源包括用户终端、网络链路、应用系统及数据流量等,通过智能算法与安全模型将这些混乱无序、毫无关联的数据转换为可视化信息,通过各安全要素的理解及显示准确发现威胁,并做出精准预警与态势感知。
3.1 技术整体架构
网络安全态势感知平台构建过程中,需要应用大数据技术对整个防御链条各个环节中的各类数据进行采集、分析、处理,包括各类终端、边界、系统服务与应用等环节。其中,与网络安全相关的各类威胁信息是收集与处理的重点对象,这些信息收集完成后再统计存储于安全数据库中[5]。利用大数据安全模型、分析算法及安全规划等方法,将数据库中海量的安全数据挖掘出来,对安全事件的发生与发展、潜在的威胁因素及发展趋势等做出分析、预判,最终生成网络威胁情报;以网络威胁情报为依据,实时监测网络安全威胁报警、重要的安全系统等,并做出网络风险预警,感知网络安全态势。
整个网络安全态势感平台技术架构主要包括3个层面:一是网络安全威胁数据汇聚与存储层,主要用于收集、存储各类网络安全威胁信息数据;二是大数据分析层,主要针对收集到的各类威胁情报进行分析处理;三是态势感知与预警业务应用层,主要生成各类预警业务报告、感知网络安全态势等。基于大数据技术的网络安全态势感知平台架构如图1所示。
图1 网络安全态势感知平台整体技术架构
3.2 网络安全威胁数据汇聚与存储层
各类数据由数据汇聚层与存储层负责采集与存储,大数据数据库存储采集到的原始数据并形成网络安全威胁信息数据库。具体网络攻击追踪过程包括多个环节,首先系统会对网络攻击的身份进行认证,授权应用访问,检测终端的操作行为及网络流量特征,其次发现恶意代码后发出风险报警,最后再进行安全审计[6]。由此可见,系统一旦受到网络攻击,所有环节均会有信息记录,因此态势感知数据源要尽量覆盖整个攻击操作链条的每个环节及要素。应用大数据存储与管理技术对分布式文件系统进行整合,如关系数据库、数据库集群等,存储海量感知数据源,并进行集中管理,以满足结构化数据、非结构化数据及半结构化数据的存储需求。
3.3 面向威胁情报的大数据分析层
将安全数据转化为威胁情报的主要方法就是数据挖掘分析,而数据挖掘分析则包括数据预处理、模型设计、数据分析等3个环节。
3.3.1 数据预处理
数据预处理即将格式复杂、类型多样的原始数据转换成与系统数据规则相匹配的数据,这个过程即也可称为数据清洗。通过数据处理,原始数据就会转换成为更适用于网络安全态势感知平台的基础安全数据,将这些基础安全数据按照已知特征合并在一起,形成数据族,其中的数据都有着相同的属性。最后再对数据按照时序关系、交互特征、网际互连协议(Internet Protocol,IP)关系等关联起来,形成基础的数据关系网络图谱[7,8]。
3.3.2 模型设计
大数据模型设计的主要目的是将其所收集到的看似毫无关系的安全数据利用特定的计算与分析规则转化成可视化的信息。在网络安全态势感知平台中应用大数据技术构建的信息模型包括3种,即数值统计模型、算法挖掘模型与攻击树推理模型。大数据所面对的工作对象是海量的、混乱无序的安全数据,这些信息会体现出某些特定的统计特征,系统能够通过分析统计特征发现与之对应的网络攻击。算法挖掘模型是分析海量数据中潜在的安全风险。攻击树推理模型是在海量信息数据中将原子级攻击识别并标记出来。在具体工作中分析这些步骤、原子攻击的先后关系等因素,可以将实际的网络攻击行为抽象为攻击链。由于攻击链中包括多个原子级攻击动作、多个基本攻击行为,这些动作、行为按照先后关系、时序关系及因果关系组成,攻击起点、攻击手法及攻击流程不同,所产生的攻击结构也有所不同,根据攻击树模型确定每个攻击行为在整个攻击链中的大致位置[9]。
3.3.3 数据分析
数据分析的主要作用就是分析数据的流向、行为、脉络及层次,以算法程序层面的数据、实时模型设计及离线数据为主要依据,能够更好地发现海量数据中可能会对网络安全产生威胁的安全风险因素。一般情况下,数据分析包括在线实时挖掘分析与离线挖掘分析2个环节。在线实时挖掘就是基于Spark框架即时分析实时数据,先收集整个安全区域内各防护设备及安全系统的节点数据,利用数据仓库技术(Extract Transform Load,ETL)预处理多源异构原始数据,将处理过的数据存储于Hive数据库,通过命令接口的解析将其翻译成Spark实时计算框架上的RDD操作,再获取数据库里的表信息,从中取出相关文件、数据进行计算。离线挖掘分析的主要数据是数据库中的历史数据,对数据库中历史数据循环、反复的挖掘实现深加工及累加利用。离线分析模型还需要维护一个来自离线分析的结果与实时分析反馈结果的已知安全事件仓库。
4 结 论
综上所述,大数据技术的飞速发展形成新的网络安全形势,即海量的数据不仅数量大,而且类型多,必然会带来诸如数据分布式存储、数据标准化处理等一系列问题,其中数据源安全问题也是一个重要挑战。态势感知的部署有利于统一管理机构内部的网络安全,实时掌握网络运行的安全状况,并进一步优化网络安全策略。虽然现在各类信息化技术的发展日新月异,如大数据技术、人工智能技术、机器学习技术以及云计算技术的应用也越来越普及,基于这种信息环境中,网络安全态势感知也取得了可喜的成绩,但是目前网络安全态势感知技术、理论的研究才刚刚起步,后续需要广大研究者针对网络安全态势感知做更深入的研究,以进一步提高感知的精确度,优化安全事件的响应方式等,以提高网络安全态势感知的实用性、有效性。