基于SOAR 的安全运营自动化关键技术构建及未来演进方向
2021-03-17赵粤征叶建伟郭兰杰
赵粤征,叶建伟,贠 珊,郭兰杰
(绿盟科技集团股份有限公司,北京100089)
0 引言
安全运营核心能力在于将人、数据、以技术为基础的工具和流程有机集合,共同构成安全运营的基本要素,以数据为基础,以安全分析为手段,发现有效威胁;以响应为闭环措施达到对安全风险的抑制或者降低,从而实现从被动安全到主动安全的转变。 而SOAR 作为近年来推出的安全编排自动化响应解决方案[1-2],充分融合了数据、人的安全技能、工具、流程,从而达到快速高效实现安全运营的目的。 随着 SOAR 解决方案的逐步推进和落地,安全运营自动化已经初见雏形,并在安全运营方面发挥着越来越重要的作用。
在安全运营自动化中,最重要的还是人的因素,没有足够的安全运营人才来运营,就无法发挥安全工具的完整价值。
2017 年,Gartner 提出了 SOAR(安全编排与自动化响应)的定义,其是安全运营实现自动化的最重要的解决方案。 大多数安全厂家都已经采用可视化编排的技术手段,通过各类安全分析工具箱、研判取证工具箱、响应工具箱的定义,利用人机可视化交互模式,基于威胁场景定义其分析及响应处置的业务流,从而达到将人的安全分析、研判取证、响应的业务能力基于场景固化,进而利用系统的自动化场景触发机制,实现安全威胁场景的自动化分析响应处置过程[3-4]。 其总体实现架构模型如图 1 所示。
在SOAR 的执行引擎中,当通过可视化流程编排定义了面向某一威胁场景的流程处置模型后,其对应的流程模型下发到SOAR 执行引擎中,并形成面向这一威胁场景的流程处置规则,通常把它称为案例规则[5]。 当对应的安全日志作为数据源进入SOAR 平台,则案例规则在分析阶段进行分析,当前日志命中案例中定义的安全规则模型时,则表示当前威胁场景被命中,在这种情况下,则开始进行自动化的研判取证并依据取证数据的结果,进行一系列的自动化响应。 这一系列的响应动作虽然针对的威胁场景不同,但总体面向设备联动的响应动作主要包含全局封堵、主机隔离、主机清理和主机加固4 类,并配套其他一些辅助性的响应,如创建工单、预警通知、人工审核等[6]。以上是 SOAR 解决方案中已知的实现方式及模型。
从当前国内主流厂家的SOAR 解决方案中可以看到,大多数厂家还都处于自动化响应的初级阶段,主要是针对已知的安全攻击场景进行攻击源的封堵、预警通知及处置报告的生成等[7-10]。 针对更深层级的复杂木马攻击(如挖矿、勒索病毒等)、APT(Advanced Persistent Threat)攻击等尚未形成有效的完整解决方案,同时,对于威胁攻击结合漏洞利用的完整响应闭环方案未见触及,关键基础设施的合规管理也未见任何论述。 这将导致安全运营自动化在关键环节缺失,无法形成完整快速闭环:
(1)针对APT 攻击的分析过程及自动化响应并没有在现有的SOAR 解决方案实现,导致行业关注度比较高的各类 APT 攻击(如挖矿、勒索病毒、震网攻击等)无法实现端到端的自动化分析及响应的有效闭环;
图 1 SOAR 架构模型
(2)资产漏洞和安全威胁的关联分析及处置过程没有有效纳入到自动化处置流程中,导致安全运营的效能大打折扣;
(3)响应完成后的响应验证环节未在SOAR 的概念模型中体现,人工离线验证过程也大幅降低了安全运营的效率;
(4)关键信息基础设施安全合规管理未在SOAR概念模型中体现,无法基于合规管理及监管诉求,快速构建合规检查、测评、整改任务等并基于检查结构自动生成合规报表等。
针对以上各类问题,本文提出面向APT 攻击、漏洞、响应验证及关键信息基础设施安全合规管理的可视化编排及响应方案,以完善和丰富SOAR 的概念模型,达到提升安全运营体系的价值,使得安全运营专家可以从重复性的分析及响应工作解脱出来。
1 可视化编排及自动化处置支持全场景安全运营
1.1 复杂的 APT 可视化编排分析及响应
相对比较复杂的APT 攻击分析和响应处理,长久以来一直是安全运营的痛点。 大量的人力都消耗在对多个数据源的人工关联分析确认并最终通过人力来实现响应闭环。 目前很多SOAR 解决方案也已经能够支持针对确定的威胁场景的自动化响应闭环[11],但对于分析研判的判定,由于攻击在内部潜伏一段时间后才开始攻击回连,或者发起横向攻击等,无法通过流式分析引擎有效地进行分析,还是需要通过人工在攻击已经造成损失后进行取证确认。 为了实现 APT 攻击的自动化分析过程,需要利用可视化编排手段,结合离线分析引擎,及时判定当前主机是否由于APT 攻击造成其失陷。
其编排过程如图2 所示。
在上述编排过程中,安全规则针对本次APT 攻击的确定在本次攻击的开始阶段,而研判取证则是确定APT 攻击是否成功的关联分析取证过程中的关键步骤。
由于APT 攻击在攻击成功后其木马(或者病毒等)脚本可能存在一个长期的驻留期,流式的关联分析过程可能无法通过长时间窗口命中后续的关联动作,因为对长周期的关联分析规则进行流式匹配会带来大量的系统资源开销,当这种长周期的分析在流式分析引擎驻留时,系统无法承受这种性能开销。 所以需要利用离线分析引擎,围绕被攻击对象,通过研判取证模块,利用其他安全设备日志、被攻击对象的主机日志、威胁情报等,进行攻击路径及攻击过程的离线关联分析。 该过程是一个周期性的研判取证过程。
当APT 关键威胁事件(或者初始威胁事件)发生时,系统将针对当前关键性事件建立一个周期性研判取证任务,这个周期可以是小时级、日级,甚至是周级。 当开始周期执行时,系统调用离线分析引擎,对事件发生的目标IP 及其周边关联 IP 进行关联事件的取证,确定是否有当前事件的前序事件及后续事件的发生,通过这种周期性关联分析过程,逐步构建出围绕当前关键事件(或者初始事件)的攻击行为时序关系。 其关联分析处理过程如图3 所示。
图2 可视化编排流程
在此基础上利用攻击链模型确定关联事件行为时序的攻击链阶段, 从而有效推理形成完整的APT 攻击行为链。
在真实的网络环境中,系统不应当等待完整的确定本次APT 攻击的攻击行为时序以及攻击链确认过程的输出, 否则就已经形成对网络的有效攻击。 系统可以依据编排过程中确定的响应策略,在攻击时序的某个阶段对本次APT 攻击进行有效的响应动作,以便及时阻断后续动作的发生。 例如图 4 中,当进行安装违规软件时,系统就可以确定当前被安装软件的主机IP 已经失陷,基于编排时设置的响应策略可以进行相应的封堵攻击源IP,隔离当前失陷 IP, 及删除非法安装软件等操作,以阻止后续攻击的横向蔓延。
1.2 漏洞的可视化编排及自动响应
随着安全运营场景的丰富和完善、EDR 系统功能的逐步增强,原来需要人工来进行的漏洞离线处置过程,也可以逐步纳入到安全自动化运营体系当中[12]。 在后续的自动化处理过程中,可以从如下视角考虑漏洞的自动化处置过程。
图3 APT 攻击时序关联分析过程
图 4 APT 攻击行为链
1.2.1 基于攻击实现对漏洞的关联处置编排
在很多威胁攻击中,都是利用某个漏洞实现攻击过程并最终导致失陷。 因此在自动化编排中,不仅需要考虑针对当前被攻击资产的漏洞加固,同时,还需要考虑针对网络中所有存在当前漏洞的资产的加固。 其编排流程可参考图5。
1.2.2 基于漏洞视角的处置编排
对于客户非常重视的一些高危漏洞,或者热点漏洞,需要考虑从漏洞视角进行响应处置流的构建过程,如图 6 所示。
1.2.3 基于风险视角的漏洞自动化处置编排流程
除了上述两个视角的漏洞处置编排流程外,系统也可以从安全风险的视角进行漏洞处置的编排流程定义,在“2020 年 Gartner 十大安全项目”中,提出了基于风险的漏洞管理,Gartner 认为补丁重要性是不同的,应该采用基于风险的方法来管理补丁程序,重点关注具有较高风险的系统和漏洞。因此,在漏洞的可视化编排及自动化响应中,应基于漏洞给整体网络安全带来的风险情况进行可视化编排,并基于漏洞的解决方案库确定自动化加固响应策略并付诸实施。
1.2.4 其他
同时对于客户关注的高价值资产,还可以从资产的视角进行威胁及漏洞的处置编排流程定义并实现面向资产的自动化加固过程。
1.3 响应验证的编排及自动化响应
传统人工应急响应完成后的验证环节在过去面临一些问题,例如验证环节由人工执行、验证效率低、验证周期长等,面对这些不足,企业急需一套可以高效运维的自动化验证管理工具。
图5 被利用漏洞关联处置流程
图6 漏洞视角处置编排流程
目前SOAR 编排及自动化响应体系中并没有纳入明确的自动化验证环节,在目前的SOAR 的自动化处置方案中,也没有任何厂商将响应验证环节纳入到整个自动化处置环节中,因此,本文在SOAR 的自动化执行引擎中将响应验证的模型纳入考虑,并支持和 NDR 及 EDR 的联动过程[13],以自动化的方式,实现对响应结果的验证。 其总体实现的扩展架构模型如图7 所示。
在响应完成后,把自动化响应验证纳入到自动化联动环节,将极大提升验证环节的效率。 其具体编排的流程如图8 所示。
自动化验证方案依托于NDR/EDR 设备联动,支持以下的自动化验证能力。
1.3.1 全局封堵验证
全局封堵验证主要是在完成针对IP 封堵、域名封堵、流量牵引、会话封堵等响应动作后,针对响应成功后的结果的验证,在验证的完整性层面上,需要考虑两方面的情况:
(1) 通过SOAR 平台下发到响应设备上的封堵策略的校验,确认封堵策略在响应设备上的正确性;
(2)通过自动化测试工具(Ping、Trace Routing 等)验证封堵的有效性。
1.3.2 主机隔离验证
主机隔离验证主要是完成主机隔离响应动作后,针对响应成功后的结果的验证,在验证的完整性层面上,需要考虑两方面的情况:
(1)通过SOAR 平台下发到响应设备上的隔离策略的校验,需确认隔离策略在响应设备上的正确性;
(2)一般主机被隔离后,在网络上仍然能保证EDR Server 和当前主机上 Agent 的通信正常,因此系统可以通过和EDR 的联动机制,确认被隔离主机的隔离效果和隔离范围,如通过通知EDR 对主机的隔离效果的确认(例如由EDR Agent 发起对某些 IP的访问请求),继而确定访问请求被拒绝等。
1.3.3 主机清理验证
主机清理验证主要是完成主机清理的一系列响应动作(这些响应动作包括清理异常进程、清理病毒文件、清理异常服务等)后,针对响应成功后结果的验证,在验证的完整性层面上,需要考虑两方面的情况:
(1)通过SOAR 平台下发到响应上的主机清理策略的校验,确认清理策略在响应设备上的正确性;
图7 SOAR 扩展架构模型支持响应验证
图8 响应验证编排流程
(2)通过和 EDR 的联动机制进行信息确认,确认清理动作的有效性,如下发信息查询到EDR,由EDR 和主机通信确认对应的异常进程、病毒文件、异常服务已经清理。
1.3.4 主机加固验证
主机加固验证主要是完成主机加固的一系列响应动作(这些响应动作包括补丁分发升级、服务加固、个人防火墙加固等)后,针对响应成功后的结果的验证,在验证的完整性层面上,需要考虑两方面的情况:
(1) 通过SOAR 平台下发到响应上的加固策略的校验,确认加固策略在响应设备上的正确性;
(2)确认加固策略执行的有效性,包括:通过自动化测试工具验证主机加固 (如防火墙规则加固)的有效性,通过主机查询确认补丁升级的有效性等。
1.3.5 响应验证的效果
将自动化安全验证环节纳入到SOAR 的编排及响应体系中,相对于原来响应中的人工验证,在效果上有以下提升:
(1)通过安全编排,将自动化验证的手段固化到数据库中,实现验证经验的固化和积累;
(2)能够大幅提升验证的效率,降低由于人工的技能差异导致的验证误差;
(3)通过自动化的验证过程,能不断通过验证的结果进行调优,并将调优结果通过编排重新优化验证经验。
1.4 关键信息基础设施安全合规管理可视化编排及监管闭环
随着等保2.0 的逐步落实,建立标准化、便捷化、智能化、可视化关键信息基础设施安全的监管闭环体系,开展等保全流程化管理,实现关键信息基础设施建设的全生命周期管理闭环,将是未来1~2 年的发展方向。
从资产监管的视角出发,本文对关键信息资产的安全风险评估、等保测评和定级备案等情况进行统计分析,将客户自身安全、等保日常检查制度、等保测评制度及通报预警相结合,并关联平台的安全隐患,创建日常检查任务、建设整改任务、跟踪记录等与客户业务流程密切结合的相关工作, 通过SOAR 体系来实现,构建可视化业务流工具箱,深度结合客户业务流程,通过可视化编排界面,对安全管理流程进行编排,形成安全风险的自动评估。 各类检查、测评、整改任务基于条件自动生成,实时进行预警通报,并最终基于整体的安全管理情况定期生成统计报表。
1.5 安全编排及自动化处置的效能提升确认
针对以上场景采用可视化编排及自动化响应后,经初步验证,可以提升的效能如下:
(1)人工APT 分析及取证环节一般需要几天甚至于几周时间,某些长周期APT 攻击甚至需要人力持续关注几个月才能排查确认,但通过编排后,可以实现自动取证和分析,无需人工干预;以往分析完成后的封堵、隔离、删除等响应动作,一般需要人工数小时来确认完成,但系统自动完成则只需要数分钟。
(2)漏洞的处理以往一般都是人工离线处置,但经过系统自动分析和批量处置后(如补丁的自动批量下发、端口自动封禁等),效能提升,处理时间可以从数天降低到数分钟。
(3)一般响应完成后的响应验证过程可以从人工验证的小时级降低到分钟级甚至于秒级。
(4)完成关键信息基础设施安全合规管理的编排后,最大幅度降低了人工干预,实现合规检查、整改任务下发及报表的自动生成,其效能的提升也是非常巨大的。
综上所述,在将以上几个方面完全纳入到SOAR的概念模型后,可以极大地提升安全运营的自动化率,大幅降低人工干预度,提高安全运营成熟度。
2 开放架构支持SOAR 的开放性生态体系
针对第三方设备的联动,SOAR 需要是一个完全开放的生态系统,这种开放系统意味着它不仅仅具备开放的接口,客户的第三方设备能够基于SOAR提供的开放接口实现与SOAR 的对接[14],更重要的是当SOAR 作为一个全新的安全运营工具部署到网络安全体系中时,它还要能兼容系统中已经部署的海量的安全设备、网络设备、EDR 系统[15],甚至可以与客户的业务系统对接,实现对客户业务的管控响应闭环,例如在 5G 环境中,和 5G 的 PCF 以实现针对5G 的网络管控策略。
2.1 OpenC2 开放管控接口
标准化接口与协议的引入将使得不同安全工具实现互操作,而不限其具体开发厂商、编写所使用的语言以及实际设计功能。 对于SOAR 解决方案必须要能提供一套标准化安全控制的通信和指令,面向相关的安全控制发布统一的策略规则, 以便和周边安全设备建立合作生态体系。
OpenC2 的设计理念在于让网络防御技术中的各类不同元素以机器速度实现相互通信,国内相关行业已经推动OpenC2 作为设备管控接口标准,在相关行业中落地实施。 对于 SOAR 解决方案来说,若安全设备都符合该规范,Playbook 的编写以及第三方设备的对接都将变得统一,从而实现不同跨厂商的安全设备间的互联互通互操作。
2.2 DevSecOps 框架支持设备的自适应
尽管 SOAR 解决方案可以采用 OpenC2 接口规范实现面向各类安全设备在管控层面上的互联互通,但海量已部署在客户现场的安全设备的标准接口改造是不现实的,为了实现和存量安全设备的管控接口,就必须要求SOAR 解决方案支持面向不同设备快速的兼容性接口扩展能力。
在SOAR 的数据接入及管控接口部分采用Dev-SecOps(Development,Security & Operations)开 放 框 架 ,其实现如图9 所示,主要实现如下功能:
(1)工程人员可以基于插件化模板编排不同设备厂商不同类型的数据接入模型,快速集成并实现插件在线激活及接入,实现数据源的开箱即用能力;
(2)工程人员可以基于标准插件化模板编排不同设备厂商、不同管控设备的管控模型,快速集成并完成管控设备插件的在线激活及接入,实现管控设备的开箱即用能力。 这将是SOAR 开放生态体系未来演进的一个主要方向和核心能力。
图 9 DevSecOps 框架下 SOAR 数据接入及响应管控
3 安全运营自动化未来演进:统一空间协同作战
未来的安全运营模式应该是在统一的平台、统一的可视化空间下,通过多人协同定义并改进安全分析及响应模型的实时生效机制。 在实现了多源数据归一化、DevSecOps 的插件式安全框架、可视化编排、可视化自动响应情况下,为统一空间协同作战打下良好的技术基础。
统一空间协同作战强调统一性,以及大范围精准的多人协同进行安全分析及响应策略确定。 没有统一的数据标准,就支撑不起大数据时代的联合安全分析、研判取证、响应的作战模型。只有明确规范各类数据标准,才能最大限度地解决客观上难以完全避免的网络和信息利用冲突问题,达成联合安全分析、取证溯源及响应的内在要求的互联、互通、互操作。 可视化的安全编排、可视化的自动化响应为各种威胁、漏洞的分析及响应闭环提供了关键安全业务链及统一规则,联合所有安全专家及工作人员,合力使可视化的关键分析及响应信息所得即所见,以最快的速度和最不受限制的方式,在统一的可视化编排及响应空间下,在数据源设备、安全分析平台、响应平台、响应设备之间建立分析构想,在响应指令和分析判断信息之间建立物理与逻辑联系,即迅速建立可灵活反应的安全威胁及漏洞等的信息关联,在信息泛滥和信息不足之间达成有效平衡,迅速完成“安全策略(Policy)、保护(Protection)、检测(Detection)和响应(Response)”的信息循环及信息再利用。
4 结论
本文针对 SOAR 解决方案,从 APT 攻击编排及响应、漏洞的自动化响应闭环、响应验证的自动化闭环、关键信息基础设施安全管理的编排及监控闭环等的能力方面进行了系统阐述,完善和丰富了Gartner 提出的SOAR 解决方案概念模型,大幅提升了安全运营的效能和成熟度;并在架构层面引入DevSecOps 插件框架及OpenC2 开放接口,使得SOAR的技术体系成为一个开放的生态体系。 在此技术体系的基础上,提出统一空间协同作战的可行性。 由于安全运营从分析、取证到响应是一个非常复杂的信息循环及再利用的过程,因此,未来安全运营自动化的构建必然基于全方位的SOAR 安全技术体系,利用多维空间协同的安全编排定义,基于编排后的自动化分析、取证及响应的协同进行实时改进。