网络安全一键式应急系统的构建
2018-03-22
陈维新 中国移动集团浙江有限公司网络部网管中心高级工程师
崔 晶 中国移动集团浙江有限公司网络部网管中心工程师
霍 旺 中国移动集团浙江有限公司信息安全部高级工程师
1 引言
随着信息化进程的深入和互联网的迅速发展,人们的工作、学习和生活方式正在发生巨大变化,但随之而来的网络安全问题日益突出,主要表现为拒绝服务攻击、病毒木马植入、网站篡改、漏洞利用等。安全事件的发生对网络运行造成严重的后果,如何保护安全资产的机密性、完整性、可用性一直以来都是安全工作的核心目标,也是国家信息化战略必须面临和解决的问题。
对于运营商而言,在互联网发展的背景下,CT向IT的转型发展日益迫切,随之带来的可用性、完整性、机密性风险也日益凸显,在重大活动期间,安全事件频发,尤其是网页篡改事件,当出现不良信息、反动标语、非法图片等内容时将带来严重的社会影响。
如何建立一个全方位、立体式、高效率的安全应急系统成为一个迫切需要解决的问题。本文提出基于应急服务的一键应急系统的构建,旨在传统的安全应急响应能力基础上进一步流程化和体系化,为安全运维人员提供高效的应急处置手段,实现面向各类安全保障等级的应急处置模式。
2 安全应急响应概述
(1)应急响应
应急响应通常是指一个组织为了应对各种突发意外事件的发生所做的准备以及在事件发生后采取的措施和行动。应急响应的对象则是针对安全事件。所谓安全事件是计算机系统和网络上数据和信息的保密性、完整性,以及信息、应用、服务和网络等的可用性受到影响的事件。应急响应的内容则是针对安全事件的响应。所谓事件响应,是指安全事件发生后采取的措施和行动。这些措施和行动通常是用于阻止该事件的发展和扩大,降低事件带来的负面影响。
(2)应急响应流程
在安全事件的处置过程中,应急响应流程尤为重要,但是要对一个安全事件做出合理的、准确的、高效的响应判断则不是一件简单的事情,这不仅需要安全决策人员具有高层次的技术知识背景和丰富的安全处置经验,还需要做好充足的技术监测准备以及各方人员的紧密协作。合理的应急流程往往是经过实践检验的、切实有效的处理方式,对于不同的安全事件能够寻找处置共性,逐步实现处置标准化。
在国际上,安全事件的应急响应通常分为6个阶段,分别为准备、检测、抑制、根除、恢复、总结(见图1)。
3 一键式应急系统研究与设计
通过对应急响应方法学(PDCERF)的研究和总结,从以上各个阶段的应急流程分析,整个应急响应流程需要在合理、可靠的应急策略指导下,根据事先确定的流程和方法下对安全事件做出有效的处理,尤其是在重大活动保障期间,安全应急流程的执行效率要求更高,通过人为的梳理安全应急预案已经无法满足应急要求,急需一套高效的安全应急系统对各类安全事件能够做出准确的分析和判断,进而做出高效的安全应急处置。因此,一键应急系统重点基于重大活动期间的信息安全保障要求来构建,同时能够支持日常模式下的安全应急流程。
图1 安全应急流程
3.1 背景与现状
(1)活动保障要求高
重大活动涉及面广,对信息系统的需求庞大而复杂,保障难度相对更大且关注度高,更加容易成为有意破坏的目标,需要应对的威胁种类更加多样。按照保障经验,一旦发现重大安全事件必须在30m in内处置完成,对于网页篡改事件则要求在10min内完成处置,最大程度降低影响面。
(2)安全事件影响大
信息系统是当前所有国内外重要大型、特大型活动的核心基础保障,是外界对活动进行实时了解和关注的主要途径,被大范围人群广泛使用和关注,影响面极大。信息系统的安全保障,直接影响到重大活动的效果乃至活动本身的成功与否。
(3)应急处置效率低
当发现网页篡改、外部攻击等安全事件时,往往缺乏有效的应急处置手段,在事件的发现和确认、处理人员的到位、设备登录和处置等环节效率低。
对于公有云资源池往往通过防火墙虚拟化实现租户的隔离,但是当资源池面临外部安全事件时,由于无法下发全局需要逐个虚墙操作,处置效率会大大降低
(4)防护手段较分散
安全设备相对分散,未能实现有效的集中管理、防护、处置,急需通过有效的集中处置手段来提升安全事件应急管理,尤其在业务高度集中的资源池要求更高。
3.2 系统设计思路
基于安全背景和现状,结合安全应急响应方法论,提出系统设计思路:通过一键式应急系统的构建,重点提升应急响应流程效率,实现从多人员到单人员,多流程到单流程,多工具到单工具的转变,真正做到化繁为简。
以网页篡改的应急处置流程为例(见图2),通过引入一键应急处置系统后,人员、流程、工具都实现了归一化,真正做到化繁为简,大大缩短应急处置时间,减小安全事件带来的影响和损失(见图3)。
3.3 系统架构及功能设计
在设计理念指引下,结合安全应急技术,充分发挥管理与技术结合,不断改进应急策略,进而构建一键式应急响应系统(见图4)。
(1)安全设备池
安全设备池主要包括防火墙、路由器、交换机、入侵检测设备、漏洞扫描设备、恶意程序检测设备、僵木蠕检测设备等,一键应急系统作为支撑安全应急响应流程的核心系统,需要具备与各类安全设备的对接能力,能够调用安全设备的检测能力、阻断能力、查杀能力、加固能力等。
(2)采集层能力
采集层主要通过任务调度方式通过前台界面下发操作指令,并通过ssh、telnet、4A等通道登录设备进行指令下发,并能够获取下发成功状态和配置校验。事件采集接口能够通过syslog、数据库等接口从安全设备和外部网元获取安全事件告警日志,为应急策略模块提供数据分析来源。
(3)控制层能力
控制层的设计从应急响应流程为出发点,结合安全应急响应技术和系统自身管理要求,构建了十大能力,分别是事件取证、工单派发、策略控制、事件管理、系统安全、智能判断、资产管理、地址溯源、处置联动、入口管理。
●事件取证能力
事件取证能力属于取证技术的一种,主要归类为信息发现技术,对能够获取的原始日志做进一步的分析和关联判断,如在入侵事件发生时段内资产的系统负荷、系统的访问记录、IP来源。同时,能够支持攻击、入侵、篡改等安全事件发生后的取证能力,包括页面内容获取与比对、文件快照等。
●事件管理能力
图2 传统的网页篡改应急流程
安全事件主要由安全设备分析后上报的事件以及人工发现的安全事件,事件管理模块支持各类安全事件的集中接入和解析呈现,如IDS、DDoS、僵木蠕、恶意程序等,并能够对安全事件做初步的归一化处理,支持重大安全事件的短信告警和应急上报流程。
●资产关联能力
资产关联能力能够与组织内的配置管理系统、资产管理系统进行资产同步,在发现安全事件告警后能够准确地定位到资产的详细信息和责任人,如安全资产的价值、安全资产所属的安全域信息,以便进一步做出应急处置判断。
●处置联动能力
支持与垃圾短信平台、诈骗电话平台、僵木蠕平台、恶意程序监控平台、DDoS检测清洗平台、DNS平台等多个安全平台对接,实现多业务联动处置,例如一键应急平台获取恶意程序平台的url,能够通过接口将url同步至垃圾短信平台做加黑处理,也支持调用DNS接口将url的域名做本地解析处理,做到人员、技术、平台多维度联动。
●智能判断能力
支持地址及url多种方式输入,当选择相应的应急功能后能够自动适配操作对象,并智能生成操作指令。在指令下发过程中如果出现各类报错或者通道异常,通过业务控制层对异常流程的处理,形成准确的操作提示,并支持回滚和补发,更好地体现平台的智能化。
●地址溯源能力
地址溯源属于网络追踪技术的一种形态,网络追踪技术是指通过收集分析网络中每台主机的有关信息,找到事件发生的源头,确定攻击者的网络地址以及展开攻击的路径,将攻击者在网络中的活动轨迹进行串接,支持公网IP溯源,展示攻击来源;支持内网IP溯源,展现资产归属、设备名称;通过地址的溯源,能够准确分析恶意软件、DDoS攻击等安全事件路径,为实现近源拦截提供技术支撑。
图3 一键式应急网页篡改处置流程
●工单派发能力
安全事件集中接入后,安全事件信息可通过一键应急平台统一派发,由业务负责人确认是否需要处置,在重大活动保障期间,可由监控人员直接处置完成后通过工单形式通知。
●策略控制能力
支持日常处置模式和应急处置模式,日常处置模式主要通过人工判断安全事件影响,由监控人员手动实现阻断指令下发;应急处置模式主要通过预置安全事件判断规则,当接收到的告警达到一定阀值自动触发阻断。规则包括事件的风险等级,事件的发生频率,并结合资产重要性和资产脆弱性来判断。
●入口管理能力
系统支持多入口管理,入口的开放可通过开关设置,主要包括手持APP、微信版、PC版、大屏等,确保系统在保障期间的多通道应急响应
●系统安全能力
作为一个安全类应急处置平台,需要具备自身的安全性要求,同时考虑到安全处置流程属于涉现操作,封堵拦截等操作需要严格的权限审批和角色控制,尤其是在对核心路由器的封堵操作需要引起关注,因此需要做好角色控制、权限管理、合规管理;不同的用户分配至不同的用户组,用户组授予不同的权限,权限可按模块、子功能、按钮等操作,确保操作安全性,同时需要定期加固系统自身弱点。
(4)应急服务层
应急服务层设计遵循技术驱动向服务驱动转变的理念,控制层通过对安全能力进行整合及封装提供给应急服务层调用,实现安全事件的检测、分析、抑制、根除等多个应急响应流程的闭环处理,应急服务层提供各类应急场景,如网页篡改应急、IDS安全事件应急、DDoS事件应急、DNS事件应急、僵木蠕应急、恶意程序应急等。对于不同的服务在抑制环节可能会采用相同的处置方式,如在核心路由器设置黑洞路由,在边界防火墙配置acl策略,以阻断网络层的访问。
以网页篡改应急为例,网页篡改在重大活动保障期间属于重中之重,其一键应急处置实现方案如图5所示,一键应急平台下发路由器黑洞路由,确保外部所有上网用户无法访问被篡改网站;一键应急平台还可通过下发防火墙策略,对篡改网站内网地址(目的地址)进行封堵,禁止外部所有上网用户访问被篡改网站。
应急服务层除提供抑制手段外,通过对安全设备能力的调用,还具备一键加固、一键修复、一键查杀、一键切换等功能,实现应急响应全流程的闭环处置,通过系统界面的开放,真正实现一键操作。由于篇幅问题,其他功能不再展开描述。
4 应用效果
通过一键式应急系统的建设,实现了监控人员对安全事件的集中处置,在重大会议保障期间,当产生网页篡改、入侵攻击等安全事件告警后,监控人员能够第一时间进行封堵处置,将原来人工处置流程的时间由30m in缩短为3m in以内,大大缩短了安全事件应急处理时间,遏制了安全风险的进一步扩散;从传播学的角度分析,对于一个重要网站发生篡改后,减少的27min处置时间相当于挽回了百万用户级的篡改页面传播影响。
图4 一键式应急系统架构
图5 网页篡改一键式应急实现方案
5 结束语
本文提出了一种基于应急响应流程的网络安全一键式应急系统的实现方法,通过对安全设备能力的调用和策略控制为上层提供应急服务,并贯穿于整个应急响应的生命周期,系统设计体现SOA理念,不仅实现了安全能力的集中调用,还引入事件取证、资产管理、地址溯源等功能模块。通过一键式应急系统的构建,真正实现从多人员到单人员、从多流程到单流程、从多工具到单工具的应急处置模式转变,对安全应急系统的创新具有一定的现实意义。
[1]刘宝旭,马建民,池亚平.计算机网络安全应急响应技术的分析与研究[J].计算机工程,2007(10):128-130.
[2]王红艳,张艳丽,李玉鹏.基于BPM的网络安全应急响应协同系统设计[J].信息网络安全,2014(09):123-126.
[3]马洪雷.基于CBR的网络安全应急响应系统的分析与设计[D].上海交通大学,2010.