APP下载

AISecOps智能安全运营技术体系框架

2021-07-23张润滋刘文懋

数据与计算发展前沿 2021年3期
关键词:情报威胁

张润滋,刘文懋

1.绿盟科技集团股份有限公司,北京 100089

2.清华大学,自动化系,北京 100084

引 言

随着数据的积累,算力的提升,人工智能技术的演进,技术平台的自动化、智能化水平,已经逐渐成为网络安全攻防双方角力的重点。学术界和工业界纷纷尝试基于人工智能技术的安全分析方法,包括深度学习、机器学习、知识图谱等人工智能技术,已经逐渐应用到恶意软件检测、网络入侵检测、金融欺诈检测、用户行为分析等安全业务和应用中。不过,几轮炒作和试错下来,火热的期盼逐渐归于平静,安全技术的发展归于辛苦的爬坡过程。

面对攻击面的持续拓展,高级威胁的迭代升级,安全运营(Security Operations,SecOps)能够面向人、技术、流程的集成与融合,有效提升安全防御资源的全局性、协同性,并已成为安全能力落地,发挥防御体系有效性,支撑实战对抗的最直接、最关键环节之一。

可以预见,随着安全大数据的采集与智能分析技术的成熟,基于人工智能的安全运营技术方案(AI-driven Security operations, AISecOps)将大幅提升威胁检测、风险评估、自动化响应等关键运营环节的处理效率,大幅减少相关过程对专家经验的过度依赖,有效降低企业、组织乃至国家级关键信息基础设施、数据资产的整体安全风险。与此同时,智能安全运营技术能力的发展仍然在起步加速阶段,在体系架构、评估方法、数据融合、技术方向等多个层面,缺乏系统性的归纳与梳理。本文旨在对AISecOps智能安全运营技术的关键概念、成熟度、架构、技术等维度进行一个全面的总结与介绍,期望为读者带来全新的技术思考,并促进AISecOps技术生态的构建,助力网络安全运营产业的技术升级。

图1 安全运营技术发展趋势Fig.1 Development trends of security operation technology

1 安全运营发展背景与趋势

回顾安全产业的发展历程,从计算机安全,到信息安全,到网络空间安全,再到数字安全,安全产业概念演进的背后,是网络信息化引领时代技术发展的核心趋势。然而,随着网络空间攻击面不断扩大,恶意攻击者持续规模化、组织化,在攻击技术的自动化、智能化、武器化,多种因素的作用下,使得传统“高筑墙,广积粮”——在网络边界堆砌防护设备的被动防御思路逐渐失效。面对日趋白热化、持续化的网络攻防对抗环境,安全防御的思路开始不再局限于构建安全边界,逐渐形成更为成熟、更为完备的滑动标尺防护视角。边界防御的左移,是系统化的安全内生机制;右移是情报智能驱动的主动防御。零信任、威胁诱捕、威胁狩猎、安全开发、安全运营等支撑安全内生、主动防御的技术方案成为安全业界的共识。值得注意的是,无论是安全左移追求安全机制内生,还是安全右移促进主动安全防御,安全运营愈发成为安全能力内外兼修的必由之路。

安全运营(Security Operations, SecOps)的关键在于,通过流程覆盖、技术保障及服务化,为企业及组织提供资产和脆弱性识别与管理、威胁事件检测与响应等安全能力,以充分管控安全风险[1]。

安全运营中的概念核心就是管理风险,而风险的度量是动态的、持续的、相对的。正是由于安全运营风险驱动的特性,对风险的认知的演进,决定了安全运营技术发展的方向。整体来看,安全运营技术和产业经历了单点攻防、边界防御、安全运营中心的发展历程,并最终向运营智能化的方向持续演进。

(1)单点攻防

伴随着互联网时代的到来,针对个人电脑的恶意软件率先爆发。网络世界的威胁趋势逐渐呈现在大众面前。此时恶意软件正是最大的安全风险,大量的攻防专家开始投入到反病毒软件的研发当中。安全运营的概念还未成型,专家即服务是典型的安全能力交付方式。

(2)边界防御

利益驱动之下,攻击与威胁逐渐组织化、产业化;与此同时,大规模互联网服务与IT系统软件的迅速演进,使得软件漏洞引发的安全脆弱性问题浮出水面。为此,抗DDoS攻击、入侵检测系统、远程漏洞扫描系统应运而生,快速构建起网络防御边界。并随着攻防研究的深入,威胁场景的快速迭代,此时的安全运营从萌芽到成长,渗透测试、风险评估团队的配套逐渐成型,设备和维护即服务成为主流。

(3)安全运营中心

高级持续性威胁(Advanced Persistent Threat,APT)和相关事件的出现,给边界化防御的思路带来巨大的冲击。此外,多层次的安全政策、规范的制定,逐渐形成体系化的合规性要求。在多种因素的驱动下,常态化、协同化、纵深化和智能化的防御思路成为业界共识。此时,安全运营理念和架构逐渐成型,安全运营中心(Security Operations Center,SOC)遍地开花,以中心化的方式管理威胁、脆弱性、资产等风险相关的流程和数据,并辅以行为分析、蜜网诱捕、威胁狩猎、情报融合等高级安全技术,来提升安全运营的效率。运营即服务,正成为当前网络空间防护的关键趋势。持续自适应风险与信任评估(Continuous Adaptive Risk and Trust Assessment,CARTA)等面向运营管理的架构与理念,也正是在这个背景下得以普及。

(4)运营智能化

安全运营团队,是支撑安全运营中心化运作的核心。安全运营的萌芽、发展与成熟,映射出的是背后人与人对抗的认知与技术升级。然而,随着网络空间对抗关联流程链路的增长、数据规模爆炸、技术复杂度提升,人力资源与风险识别管控的目标要求之间,逐渐形成巨大的需求剪刀差。此时,提升安全运营技术的自动化、智能化水平,已成为网络安全风险治理与防控的必备条件。智能赋能运营,是数字化时代运营即服务的基础保障。

安全运营智能化趋势已成为必然。流量分析、行为分析、样本分析、威胁关联、自动化响应等技术越来越多地采用了机器学习、图计算、强化学习等算法与模型。

表1概述了国际上智能安全运营相关技术产品。可以看到,相关技术厂商利用智能算法与模型,在威胁检测、告警分诊、事件调查等维度进行了探索与实践。尽管如此,现阶段安全智能的发展水平,仍难以满足安全运营对威胁发现实时性与准确性、事件自动化溯源、风险决策自动化等多方面的要求。[2]距离可用、成熟的智能安全运营服务,还有很长的路要走。

表1 国际智能安全运营技术产品举例Table 1 International technical product examples of AI-driven security operations

2 智能安全运营技术的挑战

网络空间攻防对抗中的信息不平衡性,使得安全运营团队需要大规模地采集多维度的数据进行分析。然而,处理海量数据给安全运营团队带来了前所未有的挑战,如数据依赖爆炸、事件告警疲劳、威胁大海捞针等难题。如图2所示,本文将安全运营中大数据带来的关键技术挑战,简要概括如下几点。

图2 智能安全运营技术的多个关键挑战Fig.2 Key challenges for AISecOps technologies

(1)异构多源数据欠缺规范约束。数据采集系统所收集的数据完整度,包括基础的字段完整性,信息流的刻画完整性,信息归属的完整性等等,在大规模数据并发接入和存储受限的场景中,难以有效地、规范化地保证。与此同时,数据分析中的训练数据集往往经过多轮次的清洗、过滤和标记。而实际部署环境下,理想的数据分布假设难以适应复杂动态的网络环境与攻击技战术变化。缺乏规范约束一方面造成数据规模的膨胀,另一方面提升了数据统一建模的复杂度。

(2)统计数据匮乏语义内涵。统计驱动的机器学习方法习得的数据模式,不总是能够匹配安全经验与直觉,难以对齐安全业务的关注焦点。举个例子,异常检测是安全智能技术中的重要组成之一。然而,异常识别的维度可源于多种类型的数据统计维度,例如密度、距离、关联性等等。这些统计维度的离散点召回方法,如果缺乏可以量化的安全语义与规则,会产生大规模的安全事件误报。

(3)模型黑盒缺乏可解释性。相对于传统规则驱动的检测方法,决策边界的动态性给模型驱动的方法更强的数据拟合能力和泛化能力。很多高复杂度、高容量的模型,能够端到端的给出预测结果。然而,无论预测结果是恶意的流量或样本,或是高风险的告警,这些黑盒模型都无法同时给出合理的佐证与上下文,这种不可解释性给安全运营中的威胁调查与验证带来了更高的门槛。

(4)采集数据隐私泄露隐忧。数据利用与数据隐私保护之间的对抗与平衡,始终是安全技术升级的驱动力之一。随着安全防御过程中收集的数据广泛性和深度的提升,被采集端的数据所有者对采集系统的抵触心理愈发明显。数据从明文到加密,甚至拒绝“出境”,这些都限制了数据驱动技术方案的落地。

3 AISecOps智能安全运营技术体系

3.1 AISecOps核心内涵

AISecOps技术是以安全运营目标为导向,以人、流程、技术与数据的融合为基础,面向预防、检测、响应、预测、恢复等网络安全风险管控、攻防对抗的关键环节,构建数据驱动的、具有高自动化水平的可信任安全智能技术栈,实现安全智能范畴下的感知、认知、决策、行动能力,辅助甚至代替人在动态环境下完成各类安全运营服务[3]。

图3 AISecOps核心技术能力拆解Fig.3 Components for AISecOps technologies

相比于安全智能(AI Security, AISec)技术,AISecOps更强调面向安全运营的核心指标与评估方法;相比于智能运维(AI Operations, AIOps)技术[4],AISecOps更强调攻防对抗的动态性;相比于安全运营(Security Operations, SecOps),AISecOps更强调数据驱动与智能驱动的方法赋能。AISecOps智能安全运营是在核心运营指标的导向下,系统、深入地融合智能化技术方案,以适应安全运营不同阶段、不同任务场景的应用需求,以提升运营全流程的自动化水平。

3.2 AISecOps指标体系

针对安全运营技术、流程、人员交互的核心环节,需要自顶向下的构建智能技术赋能安全运营的合理评估体系[3]。如图4所示,该指标体系是从企业或组织的顶层愿景出发,到安全运营的核心技术指标,再构建数据和分析层次的技术评价指标。相对于传统智能安全应用中仅仅关注机器学习等技术的细粒度评估方法,从运营的可交互、可量化、可运维等需求出发,该指标层次化体系,能够更有效地服务于安全运营的核心目标,辅助提升对风险的认知水平,降低运营人员与机器智能之间的交互门槛。

图4 AISecOps指标体系Fig.4 AISecOps metric framework

3.3 AISecOps数据分类

当前,大规模多维度网络安全数据的接入,为通过数据分析、发现、处置网络威胁带来了全新机会。但考虑到可用的存储、计算资源有限,对安全数据源的甄选和统一处理就显得尤为重要。不同于DIKW的数据分层模型[5]和CyGraph的安全/任务知识栈结构[6],从网络攻防的对抗本质出发,以给定的网络空间为战场,以保护资产(包括实体资产和虚拟资产)并打击威胁主体为目的,智能化的威胁分析应该收集并构建以下维度的关键数据图。

图5 AISecOps核心数据图Fig.5 Core data graphs for AISecOps

(1)环境数据图。如资产、资产脆弱性、文件信息、用户信息、IT系统架构信息等。

(2)行为数据图。如网络侧检测告警、终端侧检测告警、文件分析日志、应用日志、蜜罐日志、沙箱日志等。

(3)情报数据图。各类内外部威胁情报。

(4)知识数据图。各类知识库(如ATT&CK[7]、CAPEC[8]、CWE[9])等。

各类安全关联数据(包括但不限于以上四个类别)已在很多大数据分析场景中所采用,但仍然没有成熟、统一的体系描述这些数据的分类和使用模式。将这里列举的四类数据,从网络威胁事件分析实践出发,通过图结构组织起来,实现每个类别图内关联和不同类别图间关联,以满足网络空间对抗的基本战术需求,包括对环境的掌握、对威胁主体行动的理解、对外部情报的融合以及储备基本知识。四图分立,又通过指定类型的实体进行关联,以保证不同类型图数据表达能力的同时,实现全局的连接能力。

3.4 AISecOps技术框架

图6阐述了AISecOps的技术框架,从左至右分别包含典型智能框架的感知、认知、决策和行动阶段[10]。在每个阶段中,列举了关键的安全运营技术子任务。

图6 AISecOps技术框架Fig.6 AISecOps technical framework

整体上,AISecOps技术框架包含两个大的循环。一个是图中实线覆盖的机器自循环,这是AISecOps追求的运营关键任务自动化的终极目标。另一个是图上虚线覆盖的人-机协同循环,这一部分强调了,在机器自动化的各个阶段,需要充分融合人的反馈。高水平运营自动化实现的要义仍然是对“数据-信息-知识”层次化的分析与挖掘,以应对动态不确定性的网络空间环境与高交互的攻防对抗过程。可以看到,两大循环服务于前述AISecOps的评估指标。为了构建人-机智能协同的闭环,必然要求机器智能提供的数据结果、运算流程是透明的、可解释和可运营的,传统黑盒的深度学习模型在深度交互的架构下将难以为继。

3.5 AISecOps技术成熟度矩阵

为了有效评估当前智能安全运营技术的整体自动化水平,根据技术框架的层次架构,对应提出了AISecOps技术成熟度矩阵,以有效地在技术的横纵向对比现有技术的发展层次[3]。

如图7所示,按照安全运营关键任务的自动化程度,参考自动驾驶自动化分级,将AISecOps技术的自动化水平划分为L0~L5六个层次,对应无自动化到完全自动化。值得注意的是,每个阶段技术能力的可用性、鲁棒性,依赖于底层多个阶段技术能力的成熟度。以安全运营的响应行动为例,依赖对威胁与脆弱性的准确的检测与识别、攻击行为上下文的溯源信息构建以及鲁棒的风险评估量化。任何一个被依赖环节的失效,将导致响应行为的失效[11],甚至影响组织中正常业务的开展。

图7 AISecOps技术成熟度矩阵Fig.7 AISecOps technology maturity matrix

3.6 AISecOps前沿技术分类

AISecOps智能安全运营技术尚处于快速演进的阶段,所采用的技术方案迭代非常快。为了充分探究技术的未来发展方向,定位关键能力瓶颈,本文总结了面向安全运营自动化、智能化的十六种基础前沿技术,并形成技术图谱,以期为网络安全运营场景构建领域技术“内功心法”图谱。

技术图谱在横向上,按照面向攻击对抗的识别粒度进行技术领域划分,粒度自微观到宏观,包括指纹与特征、技术与行为、战术与意图、战役与组织、战役与态势。在纵向上,按照AISecOps智能化的经典技术阶段进行划分,包括数据层面的融合建模,以及分析层面的风险感知、因果认知、鲁棒决策、负责行动五大阶段。同时,根据技术的核心数据源不同,通过底色进行区分,涵盖环境数据、情报数据、知识数据、行为数据以及融合多维的综合数据。通过总结并归类十六种关键技术,试图厘清AISecOps的技术分类,以支持技术方案的细粒度抽象与整合,支持安全运营智能技术中台等基础平台能力的构建。以下简要概述关键技术的核心内涵与技术实现和分类。

3.6.1 超融合知识图谱

超融合知识图谱的含义是以安全领域知识图谱为核心,面向网络环境数据、威胁行为数据、威胁情报数据、安全知识库等,构建本体化、标准化、全局化的知识结构[12],支持安全数据的动态查询与聚合分析,提升安全数据运营分析的整体性。超融合知识图谱是后续风险感知、因果认知、鲁棒决策、可靠行动多层次技术能力实现的核心技术基础。没有统一的数据视图支撑,高复杂度算法的构建将是空中楼阁。

微软的智能安全图(Microsoft Intelligent Security Graph)通过云生态和平台全面融合,链接多方多维数据,提供全面的威胁关联信息,并以云端的分析能力保证实时的威胁检测。Sqrrl(2018年1月被Amazon收购)提供网络威胁狩猎平台,结合UEBA(User and Entity Behavior Analytics)提出了“Behavior Graph”的概念,使用行为评估和关联数据支撑威胁事件的深入调查。CyGraph是MITRE在图模型研究方面的原型系统。CyGraph使用了层级的图结构,包括网络基础设施(Network Infrastructure)、安全状态(Security Posture)、网络威胁(Cyber Threats)、任务依赖(Mission Dependencies)四个层次的图数据,用于支持针对关键资产保护的攻击面识别和攻击态势理解等任务。IBM提出的威胁情报计算(Threat Intelligence Computing,TIC)的概念,通过构建时序图结构,实现敏捷的网络推理和威胁狩猎。

3.6.2 情报要素自动化提取

情报要素自动化提取的含义是通过数据驱动的模式提取方法,从流量、样本、社交网络、情报文本等多源数据中,自动化提取威胁情报要素[13](攻击者、活动、技战术、特征、防护策略等),支撑网络防御的预防、检测、响应、预测等全周期的信息采集。

情报要素自动化提取是一项面向网络安全领域知识构建需求的重要任务,自动化的要素提取,关键技术目标是场景驱动下的模式识别。在攻击特征提取场景下,例如根据模拟的、采集的已知恶意样本、恶意流量,提取恶意特征,经典的处理方法一般可通过传统的序列相似性、文本相似性、结构相似性等手段,快速定位可疑特征信息。此外,基于可解释人工智能方法提取模型的知识,已成为知识获取的重要方法之一,例如通过透明可解释的决策树模型、文本主题模型、图模型、注意力机制等,或黑盒模型叠加后处理(Post-hoc)的解释手段SHAP、LIME等等,抽取安全检测分析模型内的攻击模式与特征,通过聚类与模型推断算法,能够有效提取恶意文本中的关键词特征形成检测规则。在攻击组织活动、技战术自动化情报生成的场景下,可通过经典的命名实体识别、关系抽取、知识图谱关系推理等技术手段,提取、对齐、关联情报实体要素,实现情报的标准化与可共享性。自动化的提取方案,能够有效作用在大规模数据空间下,从数据的角度提升威胁特征的区分性、情报实体的全局一致性等。

3.6.3 网络实体测绘画像

网络实体测绘画像的含义是通过主动指纹探测、被动的信息采集,收集、分析、整合网络空间资产、身份、数据等各类实体及其特征信息,形成网络空间的整体画像和实体局部画像[14],支持网络风险的全面、深度分析与威胁情报生成。

网络空间实体测绘的关键是保证实体实例的覆盖率以及准确的动态画像,核心技术主要包含已知类型实体的识别和未知类型实体的分类。已知类型实体的召回,在于通过特征指纹匹配与行为模式匹配,快速召回收录在册的实体类型实例;未知类型实体的分类,需要通过无监督或半监督的特征与行为聚类、信息流或结构性关联分析、统计频繁项挖掘等方法,识别未知实体数据中的模式信息,寻求与已知类型实体的相似性与关联性,并向运营人员提供数据特征支撑人工分类分组标记。值得注意的是,网络实体行为及其所处环境的动态性,决定了实体测绘不是一劳永逸的,而是需要持续迭代演进的。实体探测仅仅是测绘流程的一个步骤,分析、跟踪、可视化已成为实体画像的重要组成。例如,实体画像的准确性决定了基于异常行为分析的UEBA等技术方案的成败。

3.6.4 攻击检测与分类

攻击检测与分类的含义是针对各类网络实体及其行为,通过有监督或半监督学习的方式[15],实现攻击行为的识别,并区分攻击的技战术类型。

攻击检测与分类的关键是融合数据特性的算法建模。网络安全领域的算法建模相对于其他产业有一定的后发优势,可根据所处理数据的特性,如事件序列数据、时序数据、文本数据、实体关联图数据等,借鉴相关领域的成熟分析方法与思路。比较经典的方法,有基于集成模型和动静态特征集实现的恶意软件家族分类;基于CNN+LSTM和流量数据包、数据流多层次特征的恶意(加密)流量分类;基于图表示学习和进程调用关系的无文件APT攻击检测等等,不一而足。参考ATT&CK模型,现阶段包括终端、网络、文件等多源、多维度的二十余类数据的采集,给威胁分析带来全新的分析机遇。在有效数据标注的基础上,准确的学习攻击样本与正常样本之间的关键模式已不再是难事。

3.6.5 异常行为分析

异常行为分析的含义是构建多层次网络实体的行为画像,识别偏离正常行为基线的行为模式[16],捕获、召回潜在威胁线索与攻击行为。

异常行为检测的关键是正常行为模式建模与离群(异常)点检测算法设计。行为分析的主体是网络环境下的各类实体,包括系统相关的(进程、网络、文件等)、应用相关的(API调用、业务数据流等)、用户相关的(登录、访问等)等多维度、多层次可观测数据源。针对任何一类实体行为数据的建模,可对应一种具体的威胁分析场景。行为画像建模的关键在于通过统计建模、机器学习、策略抽象的方式,识别实体正常行为的关键参数与结构。常用的技术包括频率统计、聚类、编解码器、时序模型、隐马尔科夫建模等。在行为画像模型的基础上,对动态输入的未知行为执行离群点检测。离群点或异常点,指在数据模式中与大多数据点特征偏离较远的点。离群点的检测技术实现基于行为画像模型的构建方式。从数据特征建模的角度来看,主要包括基于距离的方法、基于密度的方法、基于统计阈值的方法、基于信息熵的方法、基于图的方法等等。不同的场景下,异常行为分析的数据粒度可能不同,整体来看,行为分析具有较强的环境自适应性,并且不依赖特征指纹与恶意样本,能够有效召回不同网络环境、不同攻防周期内的异常行为,是对传统静态的、针对已知威胁检测的有效补充。

3.6.6 团伙行为发现

团伙行为发现的含义是跨时间周期、跨阶段提取攻击、行为事件的行为模式,通过社区挖掘等方法实现攻击者组织、团伙的定位和划定,进而实现对相关事件的归因和追踪[17]。

攻击团伙发现的关键是基于威胁数据生成关联图与图上社区发现。STIX是MITRE发起的威胁情报交换语言和标准,在STIX 2.0体系的促进下,全球威胁情报的共享、关联开销大幅降低。通过情报数据图的实例化网络图构建,攻击者、IOCs、技战术、恶意软件、攻击战役及攻击组织等实体及其行为关联能够统一在一张数据图之中。同时,通过语义规则、统计规则、特征命中等方法,对图上的实体点和关系边进行特征抽取,以支撑图结构关联之上的细粒度分析。进而,针对情报的数据规模大、点边特征维度多、置信度差异大等特性,一般采用图社区发现算法实现自动化的团伙标定。社区发现的常用技术包括基于模块度优化的方法、基于谱分析的方法、基于信息论的方法、基于标签传播的方法及基于深度学习的方法等等。数据驱动的攻击团伙发现是一种情报或行为数据增强技术,基于动态情报数据的结构关联性、特征关联,召回疑似团伙、组织,并刻画其行为模式,有助于完善攻击事件的证据链,提升情报置信度。

3.6.7 狩猎查询专用语言

狩猎查询专用语言的含义是面向安全运营威胁狩猎已知信息的高效检索需求,基于融合的情报、行为、环境、知识数据基础,设计满足实时性、完整性、准确性的数据检索语言及处理引擎[6],支撑线索的定位、事件关联信息的召回、情报与知识的准确定位等任务。

威胁狩猎专用查询语言的设计的关键在于业务驱动的定制语义、语法以及支撑结果查询的匹配算法。语义、语法的设计的驱动力是威胁狩猎的关键场景,需要支撑包括不同数据源(如外部威胁情报、内部关键线索等)以及不同模式(精确匹配与模式匹配)的组合查询问题。DSL(Domain Specific Language)一般是声明式的独立抽象层,安全运营场景下最直接的构建基础是融合的图框架。基于安全领域知识图或事件图谱,结合其本体化设计与层次化实体交互行为,设计针对指定任务的抽象查询语法。经典的语言设计方案包括基于Cygraph的CyQL(CyGraph Query Language)、IBM的τ-calculus等。在匹配算法方面,一方面可直接将DSL直接编译为底层数据库查询语言,直接调用数据库内置匹配算法进行数据查询;另一方面,可通过子图对齐与相似性匹配、图神经网络、表示学习等方法,基于分析算法,从大规模数据中查询攻击模式、关联线索。

3.6.8 攻击意图理解

攻击意图理解的含义是基于大规模、依赖复杂、跨长时间周期的原始日志、检测日志等基本数据线索[18],从能力水平、攻击阶段、攻击目标等角度,提取、标注、归纳攻击者的战术意图,以明确线索之间的高层次逻辑关联,跟踪、预测攻击者的行为。

攻击意图理解的关键在于数据的安全语义化。即通过对数据及其特征的模板化、标签化、体系化归并,形成预设威胁模型框架下的实例化表达。核心技术实现一方面是数据的归一化与规范化清洗;另一方面,是语义抽象算法,主要可分为两类:基于行为模板的和基于统计切分的。基于行为模板的方法,例如HOLMES系统通过预设的数据模式提取策略,将终端侧溯源数据图中的关联日志实体和关系进行抽取,形成符合ATT&CK矩阵模型的技战术高层关联图谱。基于统计切分的方法,通过日志实体的逻辑关联或时序关联,在图数据或序列数据上应用社团发现、标签传播、主题模型、情感分析等经典技术手段,对图上或序列数据进行统计切分和聚类,再结合专家经验的标签化过程,形成符合威胁语义模型的数据基础。

3.6.9 攻击路径溯源

攻击路径溯源的含义是基于关键威胁线索,结合动态行为与资产环境,融合终端、网络、脆弱性、威胁情报等多源历史日志,回溯、精炼、重构攻击者的行为数据流[19],完整呈现、还原日志级别细粒度的攻击过程及攻击结果,支持事件调查与取证。

溯源重构的技术基础,是刻画、跟踪行为信息流,以指定的攻击树、攻击图等形式组织相关日志,形成事件前因后果。从数据的角度来看,可将溯源过程建模为统计相关模型、信息传播模型、图关联模型、因果模型等。统计相关性建模主要通过频繁项/模式挖掘、注意力机制驱动的序列模型等方式,识别统计层面的实体与行为关联性,以定位与关键线索相关的最可疑证据链。信息传播模型,基于图数据和标签传播,或先验传播策略,主动跟踪关键操作、敏感数据的传播路径。图关联模型,同样基于图数据,通过图神经网络、可解释图模型等模型算法,识别、抽象可疑的实体与子图结构,以及实体、子图之间的关键行为边,从而实现全局的攻击事件高效抽取。因果模型,相对经典统计模型主要考虑数据的相关性,因果建模通过因果推断框架,如基于约束的贝叶斯网络、反事实推理等,构建具有相对稳定性结构的数据因果依赖链路与图,以探索所采集各类传感器数据间的派生模式。整体来看,溯源与重建的关键在于数据的确定性关系推理。

3.6.10 威胁情报归因

威胁情报归因[20](Threat Intelligence Attribution)的含义是基于威胁情报中的关键要素,例如技战术模式、攻击基础设施、恶意软件基因、攻击意图与目标等,突破攻击行为伪装,识别、定位特定的攻击者、攻击组织等威胁主体,为事件的取证、溯源、归因提供基础,为防御反制措施的实施提供高置信度证据支持。

基于威胁情报实现攻击行为、事件归因的关键,在于情报的深度关联与置信度评估。在情报深度关联方面,最重要的驱动力还是情报的标准化与规范化。这一点上STIX 2.0情报标准、ATT&CK技战术矩阵、CAPEC攻击和脆弱性枚举库等开源数据库、标准的完善,推进了整个网络空间威胁情报体系水平交互的完备化。此外,情报与本地化分析检测数据的联动,是情报细粒度语义富化等垂直交互的重要组成。经典的数据驱动情报关联方法包括基于草图提取(Graph Sketches)的情报聚类方法、基于子图模式搜索的情报行为匹配、基于基因/血缘分析的恶意样本关联、基于知识图谱的语义推理关联等。情报关联之外,威胁归因的关键在于提升情报数据的置信度。置信度的评价一般通过基于区块链的情报信誉机制、基于证据关联命中评级方法、基于情报数据共享多方计算融合等方式实现。整体来看,威胁情报归因的可用性首先是机制保障驱动的,并通过数据智能支持证据强化。

3.6.11 告警分诊与误报缓解

告警分诊(Alert Triage)与误报缓解[21]的含义是基于告警统计、时序、语义、关联等维度上下文,对告警进行自动化分类,并评估其威胁等级,向运营者提供基于风险的告警排序列表,降低误报对事件调查的干扰。

告警分诊的关键在于充分提取、过滤、组装、推断告警关联的事件上下文,并以可量化、可理解的方式向运营人员提供风险排序值。从上下文自动化构建的角度,可划分为以下多个维度:

(1)统计上下文,主要是指告警及其关联实体、行为的统计频率、共现频率建模。一个统计建模的经典假设是:从异常检测和大数定理的角度看,高频次告警所蕴含的威胁信息较少。

(2)语义上下文,指告警间的触发时序和组合模式,指示了指定的事件规律或用户行为模式,通过主题分析、词嵌入等基于语言模型的建模方法,能够挖掘潜在的语义关联,提升告警的关联分析语义内涵。

(3)信息上下文,指相关网络实体的信息流传递过程。通过系统级的数据、实体及行为标注,结合先验规则和基于图的标签传播算法,以估计、推断敏感数据的关键传播路径。

(4)意图上下文,指告警涉及技术的高层战术意图抽象。通过Kill Chain、ATT&CK等威胁建模方式,可以把告警直接对应到指定的战术阶段当中。更动态的,可通过抽象的行为模板或统计方法,自动抽取实时数据的抽象意图。

上下文的提取不限于以上方式,关键是从风险驱动的各个维度,包括资产、脆弱性、威胁等,提取告警关联的“故事细节”。细节的丰富程度,决定了告警分诊的置信度参数。

3.6.12 态势感知与预警

态势感知与预警的含义是以系统的、整体的、全局的视角,基于网络运行状态数据、情报数据等,抽取、聚合、抽象网络空间关键要素,针对环境变化、攻击意图、行为趋势进行理解,持续监测安全状态,预警可能发生的风险事件,为事件应急处置提供必要的决策依据[22]。

态势感知技术的关键在于态势要素的提取、融合、消歧,及基于要素数据的关系推理。从威胁情报的角度理解态势要素,可包含攻击模式、战役、防护策略、身份、威胁指标、恶意软件、脆弱性、工具、攻击者等风险关联要素。以网络中攻击者的行为模式为例,通过安全日志、威胁情报数据提取行为特征,并基于特征集合和特征关系的相似程度定义攻击模式,从而将日志数据抽象成攻击行为事件,实现对海量多源异构日志数据的融合并范式化为以攻击模式为主的安全事件,为安全事件分析推理奠定数据基础。在推理方面,可基于融合的知识图谱结构,结合图表示学习、社交网络传播、团伙聚类、路径搜索与推理等方法,在本体实例化数据上完成语义对齐与扩充、攻击链推理、攻击事件聚合溯源等任务,以识别关键局部风险与整体风险点。

3.6.13 风险偏好学习

风险偏好学习的含义是打通人机交互的闭环,通过收集反馈信息,学习专家潜在的、运营导向的风险偏好,识别决定资产、威胁、脆弱性、策略等运营要素风险值的关键数据特征,实现知识先验与数据规律的深度融合,提升系统的决策辅助能力。

风险偏好学习的关键是面向风险的特征提取与基于用户反馈的偏好拟合。限于时间开销,传统安全运营的驱动力是一些固化的、静态的、基于经验的策略集合。例如特定的漏洞等级、威胁等级与类型等等。而数据层次动态的关联关系、依赖关系,需要通过数据挖掘的方式进行抽取,这些特征通过资产、脆弱性、威胁、防护策略等风险维度进行组织形成风险特征集合,能够向技术平台消费者——运营人员提供数据洞见,辅助事件的理解与策略的选择。进一步,通过构建友好的、可理解的人机交互界面,收集专家在运营流程中的访问行为、偏好分数、页面驻留、描述性反馈等关键信息,在系统后台,基于机器学习或强化学习算法,实现对用户偏好与风险特征集合的数据拟合或自动调整,自适应更新大规模漏洞、资产、线索、事件、策略的动态用户认知风险,最终向运营专家提供量化风险的排序结果。

3.6.14 攻击模拟动态规划

攻击模拟动态规划的含义是基于环境信息和攻击能力图谱,自适应评估攻击模拟效果,实时调整下一步攻击策略、技术实现与路径选择,支撑自动化突破与攻击模拟技术[23],提升渗透测试、脆弱性评估等主动风险感知运营环节的自动化水平。

攻击模拟动态规划的关键在于动作、状态、环境和反馈结果的动态建模,以及基于模型空间的学习过程。在建模方面,核心是规划关联元素的量化表达、交互流程、状态更新函数的设计。在学习方法上,动态规划、博弈建模、强化学习、递归贝叶斯估计等经典动态决策框架和算法能够捕获攻击策略选择、多元环境信息与指定攻陷目标函数之间的潜在模式,实现长周期、多阶段的路径自动化规划。

3.6.15 自适应防护策略生成

自适应防护策略生成的含义是针对持续的线索发现、事件重构、情报命中、脆弱性和资产识别的结果,基于指定的风险管控目标,动态地从可行防护策略候选列表中选择最佳防护手段,并生成具有可执行参数、步骤、任务依赖的防护策略集合[24],供运营人员判定或交由调度单元直接下发到指定执行单元。

自适应防护策略生成的核心在于博弈驱动的策略效果预估与在线策略要素提取。策略效果预估可类比强化学习中的回报函数设计。策略回报的计算需要考虑具体的运营场景。日志或漏洞分诊场景中,漏洞潜在风险、事件规模对人力资源的要求、平均关键任务调查处置时间等因素值得关注;攻击事件响应场景下,对正常业务的误杀率、攻击事件的阻断率、策略执行周期、策略回收周期等因素影响回报的计算结果。核心回报激励计算之外,环境、行动、策略状态空间的构建,也是强化学习等马尔科夫决策框架的重点。防护策略的制定不止于选定特定的策略类型,还需相应的配置策略参数,包括策略自身的阈值、选项、作用域等,以及作用对象的特征、状态、趋势等等。这些策略参数一方面需要结合前述学习过程习得统计性、关联性映射,另一方面需要自适应的数据模式抽取算法,提供在线的、实时的元素特征。

3.6.16 透明可审计响应

透明可审计响应的含义是自动化的事件响应需要保持足够的透明度,并提供可供审计的接口与响应审计范本,以在保证系统行动自主性的同时,向运营人员提供完整的、细粒度、结构化、可量化的响应流程、关键数据及其效果反馈[25],实现自动化响应技术整体可管控。透明可审计响应能力的实现是横跨整个智能数据驱动技术栈的,是感知-认知-决策-行动的融合体现。

行动响应透明可审计的关键在于关联技术的透明可解释性、行动目标一致性判定及结构化响应报告生成。行动响应(告警分诊、事件响应、故障恢复)的执行依赖多个前置技术能力,这些技术能力的实现过程中需要兼顾模型、方法的可解释性,具体可参考前述章节,不在此赘述。策略的部署执行的效果,需要行动单元驱动感知单元、认知单元和决策单元,共同收集并判定,以有效监控、评估与预期目标的偏差量。最后,在行动阶段,需要持续汇集决策输出、响应状态、环境反馈等维度的响应要素度量值,并通过结构化、指标化形式的响应审计报告。防护策略树(Attack Countermeasure Trees, ACT)框架通过构建量化的策略决策体系,并以树形结构组织策略的触发条件与依赖关系,能够以精确的、因果导向的方式表达、概述行动流程。除了树模型之外,基于马尔科夫框架的、基于因果依赖图的结构化响应概述方法,都能够有效融合多维度策略响应元素,形成可解释、可审计的响应反馈数据结构。

以上技术图谱中的技术之间有着复杂的依赖关系。整体来看,层次高、位置偏上的技术实现与有效性依赖其下方技术的实现效果。例如,因果认知中的告警分诊与误报缓解技术,依赖于同层次攻击意图理解的建模,以及更低层次的技术,包括风险感知与融合建模的多项子技术。值得注意的是,图8中技术的依赖关系与位置关系不是明确对应的。还是以告警分诊与误报缓解技术为例,其与攻击路径溯源技术之间是互相依赖的。溯源技术提供的上下文能支撑更为准确的告警分诊;同时有效地剔除误报、识别高危告警,能够减轻依赖爆炸、降低溯源的难度,提升攻击者、攻击源识别的效率。

图8 AISecOps前沿技术分类图谱Fig.8 Classification profile for AISecOps frontier technologies

4 总结与展望

网络安全技术发展已进入以安全风险全生命周期自适应管控与运营为核心的新阶段,面对大规模、多源、高维运营数据的涌入与融合,构建可信任的、可运营的智能安全运营技术体系,支撑网络安全防御体系迈向高度智能化、自动化,解放安全运营的生产力,已成为新基建数字安全时代的重要技术课题。

本文全面分析了网络安全运营大数据所面临的关键技术挑战,提出AISecOps智能安全运营技术体系框架。从安全运营的实践出发,深度总结AISecOps技术内涵、指标体系、成熟度矩阵、数据分类、技术架构,提出AISecOps智能化技术分类图谱,系统性总结十六大关键基础性技术,期望技术体系的提出能够促进AISecOps技术体系的成熟与行业生态的共建,为网络安全运营技术的发展提供实践驱动的基础推动力。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢

情报威胁
考古学未来的威胁与挑战
情报
情报
情报
情报
情报
人类的威胁
交接情报
搞笑图片
如何应对空间碎片的威胁?