数据驱动的威胁狩猎语言模型研究进展
2022-10-27张润滋康彬
张润滋,康彬
1.绿盟科技集团股份有限公司,北京 100089
2.解放军96941部队,北京 100085
引言
在数据过载的时代背景下,基于安全大数据进行威胁狩猎,给经验驱动的传统安全防护模式提出了挑战,专家规则的泛化能力、适应性、覆盖率等指标提升速度已经难以跟上数据、场景、攻击技战术的演进速度。
此时,机器学习、深度学习、图算法等数据驱动的方法的优越性就体现出来了。数据中蕴含的规律和模式,是可以通过数据挖掘的方法呈现出来的。流量、样本等数据的编码特征、序列特征、关联特征、时序特征等,这些关键的数字维度能够在没有专家参与的情况下,在限定条件下辅助实现检测、溯源、评估等任务。这里的“限定条件”是一个关键的问题。诸多实验性模型与算法,在实战化的安全运营中难以有效发挥作用。
面对快速演进的攻防技战术,通过数据与分析加速威胁狩猎的流程运转,降低狩猎技术门槛,固化狩猎经验知识,已成为安全运营中流程、技术、人、数据深度融合的重要研究与实战课题。因此,为构建数据驱动的威胁狩猎技术体系,需要从指标完善、数据融合、数据增强优化、多维多源多模分析、语言模型构建等维度,为复杂并且面向语义的分析技术奠定基础。以下,将结合工业、学术前沿安全研究和网络安全攻防实践,介绍相关领域的技术研究进展与趋势。
1 构建更细粒度的指标
安全运营工作的有效开展,依赖于合理的指标体系,以评估技术的有效性、流程的合理性、人的投入产出比、数据的规范性等等。威胁狩猎作为安全运营预测、预防、检测与响应的关键环节,目前仍然是经验驱动为主的一种技术方案。随着终端、网络、情报、蜜罐、沙箱等各类安全日志的接入,给辅助威胁狩猎团队的工具和技术升级迭代带来了全新的机会。威胁狩猎基于持续的观测、假设、调查和验证,在这个循环过程中,数据分析方法可以提供更精准、更具时效性的观测线索,更快速、更全面的调查平台,以辅助专家做出假设和完成验证。
为了有效跟踪安全运营的过程和效率提升情况,2021年的RSA 大会上,FireEye 及Palo Alto Networks 的专家给出了多个维度的优化指标参考[1],如表1 所示,主要包括分析活动(主要覆盖分析效率监控)、运营卫生(主要覆盖规则运营)、实现价值(主要覆盖技术应用情况监控)、过程偏离(主要覆盖运营流程监控)、分析负载分布(主要覆盖数据输入输出监控)五个方面。这些指标可以认为是对经典的分析、运营、响应效率指标,如MTTR、MTTD 的有效补充和细节描述。
表1 安全运营指标的优化设计Table 1 Metric optimization designs for security operations
这些指标中,针对分析的部分同样适用于评估威胁狩猎工具集以及平台技术的自动化和赋能水平。例如分析活动中的“EPAH”和“Handling time per alert per stage per analyst”两个指标,虽然针对不同的攻击场景、威胁隐匿程度等,指标实测值有较大的波动,但是通过长周期的刻画,能够有效反应运营和分析专家在同类别事件、告警上的平均处理时长,进而侧面反映相关支撑工具所能够提供的信息量多少。高自动化、关联更丰富的分析结论,能够提供快速且有效的威胁上下文;与此同时,高交互的、可理解的数字化结论展示与反馈机制,同样是专家与机器智能融合的关键要素。另外,运营卫生中的#of tunes per technology 指标,是监控规则和模型等技术维度迭代优化的一个维度。威胁狩猎这种专家与技术高交互的场景中,技术的迭代与调整就显得尤为关键了。威胁狩猎技术平台,需要提供根据专家反馈和数据模式自适应调节参数的接口,以实现自动化性能优化效果监控方法。
数据驱动的威胁狩猎技术演进,离不开合理、有效评估指标体系的构建。现阶段,威胁狩猎的流程与技术仍然缺乏规范性的业界共识。因此,需要从细粒度的指标体系入手,探索衡量技术有效性的基础,以支持相关技术发展与演进。
2 融合多源的数据
端点的可视性一直以来是威胁狩猎的关键数据源。随着SIEM、SOAR 等平台技术的应用,XDR,即拓展的检测与响应技术被广泛的提及,也被列入了Gartner 2020 安全运营Hype Cycle 中技术爬升期的技术之一[2]。
XDR 技术的核心在于数据融合分析,其中最基础的正是数据的融合。2021 RSA 大会上,Trend Micro 专家给出了面向零信任的XDR 架构[3]。该架构中的数据湖主要采集4 种数据源,分别是终端、网络、邮件和云上端点。实际上,数据采集和汇聚只是基本,融合才是关键。终端溯源图包含了细粒度的进程、文件、命名管道、注册表等数据流、控制流因果依赖关系,是构建完整威胁行为完整上下文的核心数据要素。围绕终端的溯源图,需要将网络中的用户、主机、IP、服务、载荷等,邮件中的用户、地址、内容、附件等,以及云端的虚拟机、容器、微服务、API、账户等维度,进行多层次的自动化关联。构建关联一方面需要做好数据的规范化,以降低多源数据关联信息字段消歧的门槛;另一方面,需要统一的图结构视图设计,即图中实体节点及实体关联边,及相关属性的类型。这两个方面对跨厂商的数据融合提出了较高的要求。
威胁狩猎是主动式网络空间防御的关键技术。融合多源异构的数据,构建统一的、完备的、多视角的威胁、资产、脆弱性视图,是威胁狩猎工作开展的最关键的数据基础设施。尽管工业界与学术界在数据的融合层次做出了相关探索,但是在多源数据的统一本体建模、语义消歧、模式分层等方面,仍然缺乏成熟的研究成果。
3 数据依赖爆炸缓解
高级持续性威胁(Advanced Persistent Threat,APT)具有对抗性、隐匿性、低频性、持续性,再配合复杂、定制化的技战术手段,给传统防护检测方案带来了挑战。为提升高级威胁分析的时效性,降低狩猎门槛,探索通过数据驱动的方式提升关键线索定位、攻击路径补齐的自动水平,有着重要的意义。
当前,大规模异构网络、终端、情报数据融合分析场景中,存在信息依赖爆炸、安全语义模糊等问题,亟待解决。特别是溯源数据的依赖爆炸(Dependency Explosion)问题,是基于终端的APT检测溯源关键挑战。依赖爆炸的数据线索将包含大量噪声数据,将大幅度降低通过威胁狩猎检测、查询语言进行线索分析的可行性。
溯源数据(Provenance)能够忠实记录终端上实体的行为逻辑依赖关系,自然形成溯源数据图(Provenance Graph)。通过溯源图的后向追溯和前向追溯,可实现攻击事件的溯源与取证。一个有效还原的溯源图如图1 所示。该图给出了一个基于CVE-2017-0199 的APT 攻击模拟与溯源数据重构,除了攻击行为,主机上还模拟了日常操作行为,以生成背景行为日志[4]。在该场景中,攻击者向受害主机1投递了包含漏洞利用脚本的文档,进而收集敏感信息,并通过受害主机1 的门户网页服务端特性完成横向移动攻陷受害主机2。
图1 CVE-2017-0199 攻击行为溯源数据重构Fig.1 CVE-2017-0199 attack behavior reconstruction based on provenance
图中的节点包括文件、进程、域名、连接等实体点,以及文件读写、进程创建、域名解析等行为边。该攻击子图是经分析算法提纯后的攻击行为还原,即该图中只包含了与关键攻击行为相关联的部分点和边,已剔除了大量的背景行为信息。通过溯源图的分析,专家可以以细粒度的系统行为视角观测攻击者的行为,为攻击行为取证提供了关键素材。
图2 展示了在整个仿真周期内的完整溯源图。该图记录了两个主机终端(分别标识为绿色与深灰色)的进程、文件、连接以及域名解析等日志中多种类型实体之间的,读写、创建、解析等多种类型信息流关系。值得注意的是,该图只体现了信息流的结构信息,未包含时序依赖。由于较为长时间的观测周期,受害者主机1、2 上的系统进程、动态链接库、浏览器等产生了大量的信息流交互操作,形成了下图中密集的团。
图2 基于CVE-2017-0199 跨主机APT 攻击模拟的溯源图(完整)Fig.2 Complete provenance graph for APT attack simulation based on CVE-2017-0199
如果以关键的线索文档msf.doc(恶意软件检测或情报)或C&C 服务端IP(恶意IP 情报)为出发点,可以看到局部恶意信息流覆盖,如图3(a)和3(b)中红色边所示。该图中,以msf.doc创建时间为界,过滤掉了该时间戳之前发生的所有行为边,以尽量屏蔽实际不存在的信息层结构关联。从关键线索出发,能够快速定位到被攻陷的异常winword.exe 进程——该进程读写了恶意脚本文件或异常外联C&C服务端IP。然而,由于winword.exe 是模拟的常驻程序,该进程或文件在指定时间范畴内,与大量的上下游文件或程序发生信息流传递,如图3(c)红色边所示,信息流依赖关系呈现数量指数级别的爆炸式增长,这无疑给进一步的攻击路径调查取证增加了难度。
图3 APT 攻击模拟的溯源图(msf.doc 或C&C Server IP为线索的信息流传染)Fig.3 Provenance graph for APT attack simulation (msf.doc or C&C server IP driven information flow spreading)
由前述APT 漏洞利用溯源数据实例分析看出,在现有的粗粒度溯源数据采集技术基础上,终端关键实体之间,特别是进程、文件、连接等实体,存在自然的信息流传染效应。在没有先验知识或基线数据的情况下,任何恶意信息流经过中间实体的中转,将以一定的概率向上下游实体扩散。随着信息流在关联实体各自邻域的传播,特别是通过常驻实体的传播,进一步导致了终端溯源数据中的信息流依赖爆炸问题。
依赖爆炸问题覆盖终端溯源数据、威胁情报数据、网络日志数据等多源多类型场景,给自动化的攻击检测、攻击路径分析带来巨大挑战。一方面,直接大幅度提升了专家人工分析的难度。如果说线索定位是大海捞针,那攻击路径还原在该问题下犹如走迷宫。另一方面,自动化的分析方案同样面临由大量无效信息依赖带来的分析误判、性能瓶颈等问题。
学术界与工业界针对依赖爆炸问题,从多个维度进行了探索。主要有以下几类缓解方法:(1)通过语义模板的方式,对具有高度信息流依赖关系的融合数据集进行抽象化的压缩提取。该类方法一方面将所处理的实体进行类似自然语义处理任务中的“词干提取”与“词形还原”,将大规模、不同粒度的实体压缩到有限维度的词汇空间中,实现对实体类型的有效压缩。另一方面,采用关系模板,定义泛化且具有明确语义的实体关系,来提取满足指定关系属性的实体关联,过滤无效的、缺乏语义的关联。例如,可定义(用户进程,读取,敏感系统文件)这样的关系模板,来提取所有用户态程序访问读取敏感系统文件的操作关系边。这一类缓解措施优势在于能够大幅消减信息流依赖关系,提取出最值得关注的且具有安全语义的关系集合。其劣势在于,模板的制定过度依赖专家经验与知识,同时,一旦模板制定完成,在已有的模板下将无法处理未知但合理的关联关系。(2)通过构建历史关系基线,通过统计模式剔除无效的关联信息,以缓解依赖爆炸。例如构建关联性频率统计库,或构造实体序列模板并生成实体嵌入向量,来估计实体信息流关联流动方向的概率值。该类方法具有较强的环境泛化性,能够根据指定的数据和系统环境,自动地学习历史数据的信息流传播规律,从而评估当前信息流传播的趋势。然而,基于统计的方式一般缺乏安全语义先验知识的规范性,习得的数据规律中存在大量的由数据不稳定与业务行为噪声导致的虚假模式或无实际安全语义的模式。这些模式在应用过程中将产生误报或人类难以理解和处理的结果,影响专家的深入研判。
4 多维多源多模分析
为了应对依赖爆炸、语义失焦等问题,以XDR为代表的多源数据深度分析技术受到业界的广泛关注。XDR 作为单独的技术方案,不能简单看作是EDR 和NDR 在数据层面的拓展。数据融合带来的不止是量变,同时带来技术演进的质变与全新机遇。如图4 所示,基于融合数据做检测,需要从多维、多源、多模的大数据中,有效地识别和挖掘行为模式与规律;基于检测结果或者线索做响应,需要更细粒度的告警分诊与风险评估,以及自动化的响应策略推荐与制定,才能保证策略实施的精确度。
图4 XDR 的多步技术依赖Fig.4 Multiple step technique dependencies for XDR
网络安全中的数据分析本质是基于数据标签化与模式聚合的数据漏斗模型——通过过滤、抽象、凝练风险相关信息,将高信息量的视图呈现给威胁分析人员。威胁狩猎则对这种数据漏洞模型提出了更高的要求,即如何快速、精准地召回行为线索及上下文。从XDR 技术趋势来看,可以总结为图5 中的几点趋势,分别是:
图5 XDR 中的数据分析演进趋势Fig.5 Evolution trends for XDR data analysis
● 从单点到多点,即从单一数据源单一维度到融合多源多维的数据;
● 从静态到动态,即从静态的规则驱动到自适应的数据驱动;
● 从无交互到高交互,即从可视、反馈、调节等方面提升人机智能融合与交互的水平;
● 从单一模式到多模式,即从传统的基于特征的识别升级为特征、时序、图、统计模型融合的模式识别;
● 从经验驱动到知识驱动,即通过将经验转化为知识图谱等结构化、数字化形式来加速威胁分析经验与知识的固化与应用;
● 从无状态到有状态,即从仅仅关注检测分析的结果转变为精确监控实体及行为的连续风险变化。
整体来说,XDR 技术方案的提出,是机器学习、威胁狩猎等网络安全运营前沿技术的融合技术场景驱动的,是业界通过数据驱动的方法对抗高级威胁的关键技术形态。
多模式事件分析的重点,在于通过统一的接口和规范,对底层多源多维数据进行统一的查询与分析。从以上总结的技术趋势来看,在多模式分析、动态特征抽取、人机交互性、知识固化与分享、分析状态持续维护等方面,仍然需要从数据、技术、流程等维度,探索能够支持数据驱动威胁狩猎工作开展的防护基础设施的构建方法。
5 威胁狩猎分析语言
在多源异构数据中进行威胁分析,需要通过灵活的规则撰写方法,来快速、准确定位关键线索。规则撰写的灵活性,决定于威胁狩猎分析、查询语言的设计与实现。
语言的设计源于科学的认知,也更依赖对事物理解的艺术。标准语言,类似普通话,能够促进信息的交换与传播,减少信息孤岛效应。在安全领域,除了上述提到的检测语言,威胁情报规范STIX[5]、恶意软件描述语言MAEC[6]、威胁检测框架ATT&CK[7]等,都是具有广泛影响力的领域信息交换与描述语言,虽然不一定称为标准,但其影响力被行业广泛认可。标准语言的成功普及一方面依赖于产业技术的成熟,另一方面需要强有力的行业领导者来推动。除了标准语言,定制语言也很重要,类似方言,能够提升局部信息的高效流转与决策实施。定制语言就是为了效率而生,一千个成熟厂商就可能有一千个定制的检测规则引擎系统。
我们已经看到,在威胁检测领域,即定位威胁的方法论上,已经有较为成熟的语言系统,包括用于流量攻击检测的Snort 规则,用于恶意文件检测的YARA 规则,用于日志威胁检测的Sigma 规则等。这些规则系统都自成体系,形成领域专用的语言系统。但随着高级攻击技战术的演进与攻击面的拓展,威胁分析已经不仅限于初级的威胁定位。主动的威胁狩猎,对灵活的威胁定位、高效的上下文拓展、精准的路径溯源提出了更高的要求。传统流量、样本、情报、日志分立的“语言模型”与规则系统,已经难以适应跨多源、多类型日志的威胁调查与分析需求。
以IBM 的开源威胁狩猎语言Kestrel 为例[8],该语言正是面向多源数据、高交互、多模式分析的数据查询语言。跟其他相关威胁狩猎调查分析语言一起,本文将Kestrel 的数据覆盖和核心功能总结在表2 中[8-16]。我们主要从该语言模型针对的数据类型、支持的模式类型、实时性三个角度来初步标定各技术方案主要的应用领域与方式。数据类型方面,行为、环境、情报、知识四种类型的数据可覆盖安全运营中心所接入的不同类型数据。实时性方面,主要包括流式的分析模式和批量的调查模式。
表2 威胁狩猎分析语言分类Table 2 Classification for threat hunting analysis languages
在模式类型中,“单点”指的是以特征或指纹匹配为主的单个事件模式;“集合”表示多个事件的无序组合;“序列”表示有序的事件组合;“静态图”表示信息流或结构相关的事件组合;“时序图”表示有序并且存在信息关联的事件组合;“模型”表示基于机器学习等模型方法,在统计特征上可关联起来的事件组合。图6给出了主要模式类型的说明示意图。图6(a)为“单点”的特征或指纹匹配,即在序列的事件中,通过指定的指纹,例如数据包载荷关键词等,来召回具有该指纹的攻击事件。如图6(b)所示,是基于组合或者序列的威胁狩猎模式。在该模式下,多个具有指定特征的事件,被组合或者串联起来。例如图中所示,一个完整的事件模式,包括首先触发的Redis 未授权访问攻击事件,同时该Redis 服务端被攻击者上传了用于SSH 访问的公钥。进而触发SSH 异常登录事件,即发现SSH 登录访问关系基线之外的SSH 访问关系。图6(c)给出了基于图的模式示例。多个事件的关联,是通过各个事件中的关键字段和信息要素在图谱中的关联关系构建的。例如,某事件1 的IP 字段关联到其他事件2 的IP,而事件2 的文件、进程信息又关联到某事件3。通过这种图上的信息延伸,多个事件被组装成一个统一的图模式。显然,在图模式之上,可以通过对各个事件发生时间的前后依赖关系的限制,自然地形成时序图模式。最后,图6(d)给出了基于统计事件关联模式。在该模式下,通过抽取多个事件的统计特征,例如载荷文本相似性、上下文告警相似性、告警发生时频特征等,进而基于聚类、社团分析等方法,将相似的事件进行关联聚合。通过这种统计机器学习的方法,能够突破传统事件分析依赖精确信息流或时序依赖的限制,从更宽泛的特征中挖掘未知威胁事件,是威胁狩猎环节中不可或缺的一种关联模式。
图6 威胁狩猎语言模型的主要模式示意图Fig.6 Schematic diagram of the primary patterns of the threat hunting language model
威胁调查分析语言,核心在于“表达力”,即能否灵活地支持威胁狩猎过程中的持续验证过程。为此,数据类型覆盖越全面,支持的事件模式类型越丰富,语言的表达能力越强,越能够有效地降低调查过程中的跨数据开销和复杂事件关联分析开销。威胁调查分析语言不限于表中总结的几种实现方案。
如前文所述,当前针对威胁调查领域语言的设计,业界尚处于探索之中,是安全学术与工业研究中的重要课题之一。本文根据威胁狩猎实践在灵活性、鲁棒性、安全性方面的需求,在此重点总结三个威胁调查语言领域的重要的研究趋势。
● 异构多源数据的统一灵活表示方法。如前文所示,威胁狩猎语言的设计需要支撑多种类型模式的灵活检索。然而,语言模式的灵活性依赖于底层数据的统一组织与表示形式。通过知识、情报、数据图谱的本体设计与图结构构建,进而实现异构图数据的表示学习,以提供图中实体、关系的统一的、压缩的向量化表示结果,能够支撑下游狩猎查询语言在数据中的表达灵活性。
● 支持模糊语义匹配的鲁棒查询方法。现有的各类语言模型,主要集中于模式的精确匹配。尽管基于统计关联模式的查询匹配方法在未知威胁的分析方面具有灵活性,但是对特征、时序、图模式的匹配中,仍需实现对模式“变异”事件的识别,即支持模糊语义的匹配,以保证相关模式规则在不同环境下的自适应性与容错性,并平衡识别的准确率与变异覆盖率。
● 面向隐私防护的分布式查询方法。威胁狩猎愈发依赖各层次细粒度的日志收集,包括网络日志、终端行为日志等。然而,随着数据资产安全性的日益凸显,越来越多的重要数据资产被加密、脱敏和就地保护,探索在数据加密、数据不出境情形下的威胁狩猎查询语言设计已被提上日程。
6 总结
与语言的建模与分析相关,安全知识库、知识图谱、语义分析、可解释智能、因果挖掘等,这些技术名词已经逐渐融入安全技术发展的视野中。打造XDR 技术栈,支撑威胁狩猎任务的开展,已逐渐成为安全运营中的常态化工作之一。本文以数据驱动的威胁狩猎中的语言模型构建为目标,结合前沿议题与学术研究成果,分析总结了技术相关的指标优化、数据融合与分析方法。基于多源数据进行威胁狩猎,仍然是一个开放性的、有挑战的技术方向,值得我们深入地跟踪与研究。