APP下载

网络安全挂图作战实践

2024-02-27胡威张海霞夏昂魏家辉连一峰

数据与计算发展前沿 2024年1期
关键词:网络空间威胁图谱

胡威,张海霞,夏昂,魏家辉,连一峰

1.国家电网有限公司信息通信分公司,北京 100761

2.中国科学院软件研究所,可信计算与信息保障实验室,北京 100190

引 言

当前,随着网络空间、物理空间与社会空间的逐步融合发展,人民生活和社会生产的方方面面显现出多空间交叉、多领域融合的发展趋势。与此同时,网络攻击手段日益复杂多样,网络威胁攻击的跨空间特性愈加明显,攻击组织开始利用跨网、跨域、跨空间的手段实施渗透破坏,以突破传统防护措施,达到其不可告人的网络攻击目的。例如,通过非法进入单位网络的物理区域,将网络攻击设备直接连入内部网络,以避开用于内外网隔离的防火墙等访问控制设备。电力、能源、交通、金融等关键信息基础设施一旦遭到攻击破坏,将极大影响相关行业和国民经济的正常运行,危及国家安全。

可以说,网络安全问题已经突破了网络空间的时空限制,在威胁方式、攻击手法、影响范围和灾难性后果等方面,都已经扩展到了物理空间和社会空间,成为跨领域、跨空间的综合威胁因素[1]。在传统领域,地图作为描绘地理空间的重要载体,自古以来就是指挥作战不可或缺的工具;如今在网络空间,也迫切需要能够全面展示各类信息的网络空间地图,建立起网络空间与地理空间的关联,实现网络空间的“挂图作战”[2]。

本文第1 节介绍网络安全挂图作战的核心理念和作用;第2节提出总体技术架构;第3节对要素抽取层、图谱设计层、智能认知层中支撑挂图作战的典型关键技术进行阐述;第4节是作战应用;最后对全文进行总结。

1 网络安全挂图作战

网络安全“挂图作战”是基于地理学、网络空间安全、计算机科学与技术等理论技术体系,梳理网络信息系统、关键资产与网络地理空间、网络安全保护业务之间的关系,构建面向网络安全保护业务应用的网络空间地图,强化网络安全行为认知与分析,全面支撑网络安全威胁的实时监测、态势感知、监测预警、分析研判、应急处置与演习演练工作的技术框架体系,也是一种数字时代业务工作的目标理念,覆盖威胁攻击数据集成转换、分类治理、融合分析、挖掘认知、挂图呈现、业务应用各个环节的方法手段、模型组件,可辅助网络安全监管机构、关键信息基础设施运营部门全面、精准、快速地开展网络安全保护、保卫和保障工作。

网络安全挂图作战的作用和价值主要表现在以下方面:

(1)掌握保护目标与资产底数:摸清以关键信息基础设施及其资产、重要信息系统及其资产为重点的保护目标底数,包括网络状况、物理环境、信息资产,实现网络逻辑部署、物理要素实体、社会空间主体之间的关联映射;

(2)促进网络安全威胁攻击数据治理:通过图层、要素、关系,进一步梳理网络安全数据资源,推动网络威胁与攻击信息的条理化,引入地理学、网络安全地理图谱、网络安全知识图谱关键技术,实现网络空间安全威胁攻击数据治理;

(3)提升重要行业部门关键信息基础设施纵深防御/主动防御效能:形成人-地-网紧密结合的网络空间地理图谱、网络空间知识图谱,基于行为分析模型、攻击预警模型、智能认知、智慧决策模型,利用图谱搜索、智能推理和可视化分析技术,输出高价值安全防护信息;

(4)构建网络安全综合防控体系:实现网络空间安全相关联的要素上图、关系上图、行为上图、分析上图和全业务链上图,配合业务工作流程,推动安全防护工作的实战化、体系化和常态化。

2 技术架构

网络安全挂图作战的核心目标是实现网络安全要素上图,网络安全要素包括主体要素、业务要素、资产要素和行为要素。其中,主体要素是指网络安全的相关主体,例如网络用户、攻击方、防护方、监管方等;业务要素是指网络安全保护工作涉及的具体业务内容,例如安全监测、态势感知、安全预警、威胁情报、演习演练等;资产要素是指涉及网络安全保护工作的各类软硬件资产,例如服务器、路由器、数据库、移动终端、防火墙、操作系统、Web 应用、邮件服务等;行为要素是指主体或主体通过资产实施的行为,包括访问行为、异常操作、攻击活动、探测活动、隔离阻断行为等。

根据上述要素内容,如图1 所示,将网络安全挂图作战技术架构划分为3个层次:要素抽取层负责采集和抽取网络安全的各类要素;图谱设计层负责从地理环境、网络环境、行为主体和业务环境4 个维度构建形成支撑挂图作战的多维度知识图谱;智能认知层在知识图谱基础上,综合利用知识推理、分析挖掘和可视化技术,实现网络安全智能化认知及可视化表达。

图1 网络安全挂图作战技术架构Fig.1 Technical Framework of Cyberspace Security map warfare

要素抽取输出网络安全挂图作战图谱所需的网络安全相关要素、要素属性、要素间关系,这些是图谱设计所依赖主要元素,要素和要素之间的逻辑关系是图谱的逻辑组成,不同的要素构成图谱的不同图层,不同图层要素在其他图层会形成要素的一个跨图层映射,或者称之为要素在某个图层的属性切面。图谱设计层需要依赖要素抽取的要素,结合网络挂图作战的实际需求进行4个维度要素、要素轮廓、要素间关系的设计,4个维度的要素间互相作用将以图层化的形式反映网络安全行为的发生、发展和变化机理。科学合理的图谱框架设计,结合要素抽取支撑下的图谱各维度要素实例化,将网络时空数据抽象为一个可动态叠加与转换的网络行为全景视图,是网络安全行为的智能认知得以依赖的知识表示形式。网络安全挂图作战技术框架各层内容具体包括:

2.1 要素抽取层

要素抽取层是实现网络安全挂图作战的基础,需要从各类网络安全相关数据(例如网络流量、系统日志、数据库日志、应用访问记录、威胁情报、文本资料等)中采集、过滤、提取、汇聚要素信息。要素抽取层主要包含以下内容:

(1)实体/关系采集抽取:面向主体要素,负责从各类数据中采集提取出与用户、攻击方、防护方相关的信息;

(2)行为监测:面向行为要素,负责基于已知特征、异常判定规则、行为建模输出的行为特征向量、行为要素属性等进行监测主体或资产的网络行为,例如网站访问、数据库操作、异常网络流量、恶意攻击等;

(3)行为建模:同样面向行为要素,负责基于行为监测结果对网络和系统中特定类型的主体行为进行建模,例如用户对Web服务器的正常访问模式,并为行为监测提供监测所需知识;

(4)资产测绘:面向资产要素,负责通过主动或被动的方式采集网络资产的各类信息,包括资产的类型、访问地址、软硬件版本、承载应用情况、漏洞隐患、物理位置等;

(5)业务要素抽取:面向业务要素,可以采用手工填报、数据报送、问卷、查阅、测试等方式。

2.2 图谱设计层

图谱设计层主要针对多源数据的集成分析任务,围绕网络环境、地理环境、行为主体、业务环境4个维度,对知识图谱涉及的各维度实体和要素进行设计,使得在统一的时空表达框架下,将地理空间和网络空间融合关联,并综合分析网络安全事件的状态和发展趋势,具体包括[3]:

(1)地理环境要素:包括网络安全相关的地区、物理位置、基础地理信息、建筑信息、设备设施信息以及行业专有地理信息;

(2)网络环境要素:包括机房环境、网络拓扑、网络资源(如IP、域名、公众号)、网络场所、交易平台和虚拟社区等要素信息;

(3)行为主体要素:包括行为主体人员的真实身份、虚拟身份、所属组织机构、行业单位、用户角色、权限等要素信息;

(4)业务环境要素:包括围绕网络安全目标所需开展的业务工作,如安全事件通报处置、威胁情报、态势感知、调查分析、攻击溯源、安全巡检等。

2.3 智能认知层

智能认知层需要在网络安全知识图谱的基础上,对图谱要素及其关系进行深层次的挖掘、推理,发现要素间的隐藏关系和发展规律,对图谱信息进行去重、验证和补全,对要素对应的网络实体进行精准画像,并依据推理结果实现网络安全事件或状况的预测预警。智能认知层既能够直观、互动式地展示网络安全宏观态势和微观要素,又能够对网络安全的实体、要素、规律、趋势进行全面深入的理解和认知。需要实现以下算法模型作为支撑:

(1)人工智能算法:利用传统机器学习、深度学习、强化学习算法,针对网络实体的分布化特性,引入分布式学习策略,在保护基础设施及终端数据隐私的前提下,实现跨域、跨空间的智能化协同学习;

(2)认知模型与推理算法:建立融合地理图谱的网络空间行为认知模型,定义行为认知覆盖的实体、属性及关系,围绕网络安全攻防实战为主线,实现图谱关系的隐蔽推理和复杂推理,为目标行为预测和意图分析提供支撑;

(3)目标画像算法:针对网络空间实体及其关联的实体、属性及关系,对重点目标进行画像,例如刻画APT组织的背景、意图、主要成员、攻击手法、攻击工具、历史攻击轨迹、攻击规律与行为动态。

3 关键技术

开展网络安全挂图作战工作,需要围绕技术架构中描述的要素抽取层、图谱设计层和智能认知层,采用一系列关键技术作为支撑,具体包括:

3.1 实体/关系抽取技术

当前网络安全攻击已由传统的漏洞扫描并利用单一漏洞实施渗透的方式,转变为利用零日漏洞、水坑攻击、鱼叉攻击、网络流量劫持、社会工程等多种攻击手段和技术相结合的方式,且隐藏手段也由单纯的网络代理转变为VPN(Virtual Private Network,虚拟专用网)、Tor(The Onion Router,洋葱头)等多种隐藏手段结合的方式。新型攻击手段方法的层出不穷和网络威胁态势的快速演变,导致传统单点防护的弊端越来越明显,无法及时准确地应对新出现的网络安全威胁。

网络安全威胁情报共享从一定程度上缓解了攻防不对称的态势,典型的如abuse.ch 针对僵尸网络Zeus 进行追踪,并将新发现的命令和控制(C&C)服务器作为结构化网络安全威胁情报进行共享,从而对全球僵尸网络Zeus 的防御起到了重要作用。结构化网络安全威胁情报的信息准确、规范性强,但由于缺少大量的网络安全威胁背景信息,不易与其他威胁情报数据关联分析,而具有丰富背景信息的威胁情报多以非结构化报告的形式呈现,将这些非结构化网络安全威胁情报报告转化为可机读的结构化网络安全威胁情报,传统上依赖于安全专家人工完成,耗时耗力。因此,研究人员开始研究如何对非结构化的威胁情报进行自动化的实体/关系抽取,将其转换为可机读的结构化信息,以实现威胁信息的自动关联分析[4-5]。

国内外研究机构在这方面开展了大量工作,并取得了一系列技术成果,典型的如RelExt方法[6],采用深度学习算法进行关系抽取以完善网络安全知识图谱。由于常用的机器学习算法需要配备高质量的已标注训练数据,这对于网络安全实战场景而言通常难以实现。因此,研究人员提出各种思路,降低实体/关系抽取对于已标注训练数据的依赖性,例如,引入迁移学习[7]算法进行网络安全命名实体抽取方法,以期抽取非结构化威胁情报中的关键要素将其转化为结构化信息,该方法将自然语言处理领域的Bert 模型[8]引入至网络安全领域,用以生成非结构化网络安全威胁情报内词汇的词向量,在仅具备少量网络安全命名实体标注数据集中训练条件随机场,基于Bert生成的对应词向量,学习网络安全命名实体相关词汇与其他词汇之间的转换和依存关系,最后利用训练完成的模型从非结构化威胁情报中抽取网络安全命名实体[9]。

3.2 资产测绘技术

资产是网络安全工作的核心对象,既可以是网络安全保护目标,也可以是实施网络攻防对抗的工具或资源。资产测绘技术可以全面、精准地掌控网络资产状况,发现资产漏洞隐患,明确资产拓扑和信任关系,掌握资产与行为主体间的关联关系。围绕网络安全挂图作战需求,资产测绘技术需要实现以下能力:

(1)主动与被动相结合的资产信息采集:通过主动扫描和被动流量监听等方式,进行资产探测、拓扑测量、资产定位等数据采集工作,掌握网络和信息系统的重要对象、节点属性、存活状态、基础服务、脆弱性等深度信息。

(2)多层次拓扑发现:基于拓扑探测得到的基础数据和被动采集得到的资产数据,分析智能化通信组网、第三方边界组网等典型架构,通过数据融合生成相应的路由器级[10-11]、PoP(Point of Presence,接入点)级[12-13]和AS(Autonomous System,自治系统)级拓扑结构,实现拓扑网络空间化。基于构建的多层次网络拓扑结构,对重点目标网络进行节点属性和链路属性的深度分析,获取目标网络物理和逻辑链路属性,并识别网络拓扑关键节点和关键路径,对网络空间拓扑的结构特征进行分析。

(3)基于特征的时空属性标注:基于网络安全大数据,利用空间计算、数据补全、深度学习等技术,从多维度挖掘网络资产时空特征,从资产IP、行政地域、归属单位、物理环境、责任人、风险溯源等维度对网络资源进行时空属性标注,构建网络空间与物理空间关系图谱,为网络资源与地理空间的映射提供基础。

(4)跨空间融合分析:基于知识图谱、关联分析、聚类等多手段相结合的方法,从数据中挖掘高价值信息,分别从网络拓扑、资产属性、目标画像3 个层次开展分析,并建立资产特征库,构建网络资产图谱,形成对目标空间的深刻理解和认识。

3.3 行为监测与建模技术

行为监测与建模技术是掌握和刻画网络主体行为,分析网络安全目标动向和综合态势的基础。传统的入侵检测、动态沙箱、系统审计、用户行为分析等均可归属于这一类。当前,随着新型机器学习算法的不断涌现和改进,利用智能化的机器学习算法对网络行为进行动态建模,使得行为监测系统逐渐具备了针对未知攻击行为的检测能力。

传统的机器学习算法主要是集中式学习[14-15],把训练数据和检测数据都集中到主服务器,使其所掌握的数据知识面更广。然而,网络安全数据的来源广泛,其所处的物理位置、网络区域、系统层次、安全级别均有所不同,即便在传输数据的过程中使用了密码技术,依旧面临着被破解的可能性,存在一定的数据安全隐患。因此,集中式学习在应用于当前网络安全实战场景时面临技术挑战。

为了解决集中式学习存在的数据隐私问题,以及分布式现场学习存在的数据孤岛问题,机器学习的发展历程进入了联邦学习阶段。在合法合规的基础上,参与各方处在一个联邦机制之下,共同协作训练模型。训练完成的模型在各个参与者的区域仅为本地的目标进行服务,在各方共建模型时不会暴露底层节点的隐私信息,因此能够保障数据隐私。通过“提取-分类-抽象”,引入联邦学习的技术思路,对网络空间海量要素进行实体和虚拟两种状态特征的研究,构建基于网络空间要素本体、网络威胁攻击事理的多维度交叠、层次化渐进的网络空间要素表达模型,实现对正常通信行为的建模,涵盖网络通信的路由信息、IP 信息、服务指纹信息、地理位置信息、管理归属信息、网络拓扑、行为主体、行为参数等要素信息,同时结合实战场景不断验证、修正,以支撑多维度、多粒度的网络安全挂图作战需求。

3.4 智能挖掘推理技术

挖掘推理是引入智能化的挖掘算法和知识推理模型,实现对网络安全主体及其行为动向的理解、洞察和预测预警[16]。当前,在本文技术框架下采用的主流技术包括:

(1)基于行为机理的逻辑推理:如时间推理、空间推理、案例推理、本体推理等,其优点是推理出的知识置信度高,对于在网络空间中发生的已知类型的目标行为与安全威胁事件,能够做到精准定位、快速发现,存在的问题是规则不易获得、不全面,可计算性比较差,对未知的网络空间动向情况无能为力。

(2)分布式图谱表示推理:首先通过表示模型学习知识图谱中的事实元组,得到知识图谱的低维向量表示;然后,将推理预测转化为基于表示模型的向量操作,此类方法能够获得知识图谱更好的向量表示,对于海量的网络空间目标的流量日志所构建的知识图谱[17-18],能够做到计算方便快捷,计算效率高,然而由于在建模时通常只考虑满足知识图谱事实元组的约束,未考虑更深入的组合语义信息,且可能存在级联误差,从而导致了推理能力受限。

(3)神经网络学习与推理:利用神经网络强大的学习能力[19-20],建模知识图谱事实元组,对知识库中实体、属性、关系和文本信息的利用率更高,推理效果更好,有很好的推理能力和泛化能力,然而与其他方法相比较,其复杂度更高,可解释性更弱。

(4)图神经网络推理认知:图神经网络推理模型在挖掘图的未知关系方面具有较强的表现力,针对未知的潜在关系,通过引入图神经网络推理机制,以充分挖掘构建的网络安全知识图谱,发现未知网络空间目标或未知的用户行为关联关系[21],从而有效拓展和丰富知识图谱的内容。

3.5 可视化表达技术

采用可视化技术描述网络空间资源及其物质载体,分析、构建、绘制和显示网络安全知识及其相互联系,动态构建与生成网络空间地理图谱,为地理空间和网络空间的数据表达、组织、管理以及利用提供更为有效的方式,是网络安全挂图作战需要重点解决的技术问题。具体包括:

(1)可视化表达语法:围绕网络空间要素、关系、行为,利用开放表达语法,综合考虑数据类别、语义、字段、内容、表达条件、表达形式、表达关联性等因素,实现网络空间数据可视化的规范性;

(2)可视化表达模型:建立网络空间本体及关系的图层可视化表达构件,形成本体、关系的可视化表达模型和网络空间事理表达模型;

(3)网络攻防可视化交互:面向网络资产测绘、监测发现、通报预警、事件处置等实战场景,采用多类视图相结合的方式,将网络攻防实战过程中关注的保护目标、操作行为、攻击组织、网络资源在网络空间地理图谱中进行映射,构建面向网络攻防实战的动态可交互模型,全面展现网络攻防过程的跨空间信息。

4 网络安全挂图作战应用

依据网络安全挂图作战技术框架,在相关技术[22]支撑下,本文在电力行业某部门依托其网络安全态势感知平台进行了网络安全挂图作战的实践和应用,实现了该部门所运营目标系统、目标系统资产、专项网络安全事件的挂图作战。

4.1 挂图作战实践流程

基于本文前面所述网络安全挂图作战技术框架开展实践的流程如图2所示。首先,接入网络安全态势感知平台、网络安全运营中心、资产测绘工具等网络时空大数据,并将多源异构数据、原始监测数据、基础知识数据、业务数据进行分类集成,在此基础上进行主题数据和资源数据的生产加工。接着,根据网络安全行为和行为构成元素之间的互作用机理进行网络安全图谱本体、要素轮廓的设计,研制数据映射和要素提取组件,结合高速并行处理手段将海量数据以实体、实体属性、实体关系的方式,转换为地理环境、网络环境、虚拟环境、业务主体维度的要素,每个要素对应一个图层;转换为要素关系,包括图层间维度内关系、维度间关系,并在此基础上构造关系映射和图层转换逻辑。接着,通过上述提取组件、转换逻辑循环、动态生成构造输出面向网络安全行为认知的图谱,以直观知识表示的形式进行存储,并借鉴地图图层叠加与点、线、面切换进行图谱化的分级呈现,以此支持图谱分析和可视应用。

图2 电力行业网络安全挂图作战实践流程Fig.2 Practice flow of cyberspace security map warfare in power industry

在实践中,本文对后门控制事件进行了认知方法、模型的研制,包括远程控制行为基本信息、远程控制行为特征的行为整体画像,涉及恶意软件特征、数据表特征、攻击方IP 特征的远程控制行为特征刻画。从网络空间图谱要素角度出发,形成了包括地理环境图层、网络环境图层、虚拟主体图层的图层要素画像;从不同视角出发,进一步细化了包括攻击方视角、受害方视角、监管方视角的三方视角画像;此外,基于网络空间地理图谱,对远程控制行为进行认知推理,包括受影响目标挖掘、远程控制行为的隐含关系推理、基于远程控制关联实体聚类的隐含关系推理,以此支撑行为要素上图。

4.2 应用效果总结

通过挂图作战实践流程,我们构建了后台图谱,并输出如图3所示电力行业某部门在网络资产、监测预警、事件处置直观挂图图形,借助网络空间的多级下钻可为业务用户提供概览视图、分级视图、画像视图相结合、可动态切换的数据和业务图形,部分提供了业务操作锚点,支撑业务人员开展业务工作。

图3 电力行业网络安全挂图作战应用效果Fig.3 Application effect of cyberspace security map warfare in power industry

在电力行业某部门的挂图作战显示:(1)基于网络资产测绘的资产画像在动态掌握部门资产底数方面,与传统方式相比优势明显,以挂图为导向的资产画像较为容易发现资产掌控问题;(2)海量网络安全时空数据借助图谱框架可比传统的信息展现方式更有利于发现威胁攻击数据缺项、重复、不足以支持网络安全运营等问题,直接验证数据治理成效;(3)从底层数据出发面向业务实战的图谱构建,为某部门网络资产、监测预警、事件处置分别提供了直观表达视图,在底层监测手段有保障、行为模型不断优化的情况下,大大提升网络安全技术手段对相关业务工作的支撑作用;(4)对后门控制事件的监测分析协助电力行业某部门发现了前期未发现的各类隐患、问题,对防范网络安全风险起到了支撑作用,然因行为认知需要有针对性研制和长期优化,未覆盖更多的事件和行为类型,对纵深防御能力的支撑有待后续进一步验证。

5 结 语

本文针对重要行业开展网络安全挂图作战能力建设的需求,围绕网络安全实战场景,提出了挂图作战的整体技术架构,从要素抽取层、图谱设计层、智能认知层3个层次对挂图作战的技术体系进行了梳理,并针对实体/关系抽取技术、资产测绘技术、行为监测与建模技术、智能挖掘推理技术、可视化表达技术进行了阐述,作为构建面向网络安全保护业务应用的网络空间地图,全面支撑网络安全威胁的实时监测、态势感知、监测预警、分析研判、应急处置工作,实现网络安全“挂图作战”的参考依据。下一步,鉴于网络挂图作战需要人工智能、大数据处理、可视化分析、可视化交互等众多手段的支持,将在网络安全挂图作战领域进行行为建模、智能认知、智慧可视技术方法、模型的进一步研究与探索。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢

网络空间威胁图谱
绘一张成长图谱
共建诚实守信网络空间
人类的威胁
网络空间并非“乌托邦”
受到威胁的生命
面对孩子的“威胁”,我们要会说“不”
补肾强身片UPLC指纹图谱
网络空间安全人才培养探讨
主动对接你思维的知识图谱
Why Does Sleeping in Just Make Us More Tired?