IDC运行安全事件等级划分方法研究
2018-05-22陈其云中国信息通信研究院产业与规划研究所高级工程师
陈其云 中国信息通信研究院产业与规划研究所高级工程师
吴 博 中国信息通信研究院产业与规划研究所工程师
1 引言
近些年,我国IDC运行安全事件不断发生,影响到行业发展和经济社会的平稳运行,也暴露出IDC企业在多个环节存在的众多安全隐患,加强监管已势在必行。IDC运行安全十分重要,但是国内对运行安全事件的应对处置和等级认定方法尚未有统一规范,理论界对此几乎未有多少探讨和研究。而其他各类公共安全事件的等级划分通常都是定性评估,缺乏定量标准。因此,本文将提出定量和定性相结合的IDC运行安全事件等级划分方法。该方法可供IDC企业参考,也可为政府部门在IDC运行安全事件的处置提供借鉴。
2 IDC运行安全典型事件
IDC运行安全事件指由于自然灾害、停电、火灾等原因造成的机房环境、传输线路、设备与系统等基础网络设施及软硬件系统的中断和不稳定运行。
2015年5月27日,由于光缆被挖断,支付宝用户中约有一半以上(超过1亿)用户在支付过程中出现支付不成功、发生银行掉单、无法查询余额的故障,历时2小时40分钟;2016年7月30日,因服务器故障,微信朋友圈无法打开,微信图文也无法打开,此故障持续时间为2h,期间部分微信用户的微信公众号文章无法打开;2017年6月17日,新浪微博经历了“黑色一小时”,几乎全平台瘫痪,微博CIO王巍在事后回应称,此次故障的原因是“外部机房整层掉电”,这意味着支撑着上亿用户的新浪微博数据中心出现因电力保障问题而宕机的运行安全事件。
3 IDC运行安全风险分析
综合分析历年各类IDC运行安全事件可看出,风险主要在于以下3个方面:
(1)机房环境安全隐患
在基础通信设施方面,部分数据中心机房设备存在单点单路由的情况,灾备手段并不健全;部分机房负荷较大,出口带宽利用率较高,存在安全风险。在基础物理设施方面,供电系统安全问题居多,在日常应用时不接UPS或UPS电池已经损坏而不更换的情况经常发生。据不完全统计,大约40%的数据中心机房存在无双路供电、无UPS供电、无油机供电等电力保障隐患。
(2)一些基础网络设备和业务平台存在较多安全隐患
在网络功能虚拟化的趋势下,依托云计算数据中心聚焦起多种应用复杂系统,特别是异构的网络环境和多设备的并行给运维工作带来了极高的要求,其安全性、自动化、资源统筹等都已经成为当下运维安全的棘手问题。
(3)传输线路安全隐患
首先,传输线路自身保护级别不够。部分互联网企业出于节约成本的考虑,通过裸光纤连接不同机房的交换机实现组网,难以做到电信级的传输保护,带来安全隐患;其次,重要节点存在单点或单路由故障隐患。存在单点或单路由故障隐患的重要传输节点,一旦发生安全问题,容易造成网络或业务平台瘫痪,引发业务中断;最后,部分传输带宽资源紧张。随着业务的发展和用户规模的增多,网络带宽需求不断增长,网络资源相对紧张,一些突发访问流量疏导不足,可能会导致部分应用不能及时响应。
4 运行安全事件等级划分
运行安全事件等级划分有较大的现实意义,对事前预防、事中应对和事后处置方面都有重要作用。以下将从运行安全事件的界定因素、划分标准、划分方法和改进方向出发,阐述如何划分运行安全事件等级。
4.1 界定因素
(1)服务中断时间。在实际运营中,当IDC出现故障时,不管个人用户还是企业用户,最关心的是服务中断时间,而服务提供者和政府监管部门也最关心什么时候能恢复。IDC服务标准里也用可用性来衡量这一指标,例如国际公认的数据中心标准ANSI-TIA-942-2005中的最高级别Tier4标准,对数据中心的要求是系统的可用性需达到99.995%,转化为时间约是1.6h。因此,服务中断时间是界定IDC运行安全事件等级所需要考虑的第一个要素。
(2)影响用户数。除了服务中断时间,作为服务提供者和政府监管部门也特别关心受故障影响的用户数量。这涉及整个事件的波及范围,范围越大给服务提供者和政府监管部门的压力也越大。因此,影响用户数是界定IDC运行安全事件等级所需要考虑的第二个要素。
(3)经济损失。用户、服务提供者和政府都关心IDC运行安全事件所造成的经济损失。用户关心事件给自己带来的经济损失,特别是企业用户;服务提供者需要关心事件对自身、用户和社会造成的经济损失;政府部门主要关心事件对社会造成的经济损失。另外,经济损失分为直接经济损失和间接经济损失。经济损失在实践中面临较难准确计算的问题,通常采用估算的方法。
(4)在实际工作中,往往需要考虑一些特殊情况,包括重大会议和活动的IDC服务支撑和保障工作等。例如,我国的“两会”、奥运会、G20会议等各类重大会议和活动。这些都是对IDC运行安全保障工作的重要考验。
4.2 划分标准
本文将基于以上介绍的服务中断时间、影响用户数、经济损失和重大会议和活动支撑中断4个界定因素,对IDC运行安全事件等级进行划分。参考《国家突发公共事件总体应急预案》和《国家网络安全事件应急预案》对突发公共事件和网络安全事件等级的划分方法,将IDC运行安全事件分为4个等级,分别是特别重大事件、重大事件、较大事件和一般事件。
(1)服务中断时间
●特别重大事件。数据中心标准ANSI-TIA-942-2005中Tier3标准数据中心要求,系统的可用性需达到99.982%,即平均一年中断时间不超过1.6h。因此,参考Tier3标准,本文将IDC服务单次中断超过2h(即一次用完全年额度,属于Tier2标准及以下)作为特别重大事件起始点。
●重大事件。参考国务院《特别重大、重大突发公共事件分级标准》中,从特别重大事件到重大事件界定标准之一是持续时间减半。例如,铁路繁忙干线、国家高速公路网线路遭受破坏,造成行车中断,经抢修48h内无法恢复通车的确定为特别重大安全事故;铁路繁忙干线、国家高速公路网线路遭受破坏,或因严重损毁造成通行中断,经抢修24h内无法恢复通车确定为重大安全事故。因此,本文将IDC服务单次中断超过1h作为重大事件的起始点。
●较大事件。Tier4标准对数据中心的要求是系统的可用性需达到99.995%,即平均一年中断时间不应超过0.44h。而目前国内大部分IDC无法达到这一较高要求。因此,本文将IDC服务单次中断0.5h作为较大事件的起始点。
●一般事件。本文将IDC服务单次中断0.5h以下的作为一般事件。
(2)影响用户数
根据CNNIC调查数据显示,主要互联网企业用户规模基本都在5000万用户以上(约占现网民总量6.5%)。本文将影响1000万用户(即5000万户的20%)作为特别重大事件的起始点。即使是作为我国互联网用户规模最大的微信,1000万用户也达到了其10亿月活用户的1%这一临界值。本文将影响500万用户作为较大事件的起始点,将影响100万用户作为较大事件的起始点,将影响100万用户以下作为一般事件。
(3)经济损失
参考国务院出台的《生产安全事故报告和调查处理条例》对事故等级的划分标准,本文将造成1亿元以上直接经济损失的IDC运行安全事件定为特别重大事件,将造成5000万元以上1亿元以下直接经济损失的定为重大事件,将造成1000万元以上5000万元以下直接经济损失的定为较大事件,将造成1000万元以下直接经济损失的定为一般事件。
(4)重大会议和活动支撑中断
在实际运营中,确保重大会议和活动中的服务不中断是IDC运行安全保障工作的一个重点。结合我国实际情况,本文将造成国际或国家级会议和活动支撑中断的IDC运行安全事件定为特别重大事件,将造成省部级会议和活动支撑中断的IDC运行安全事件定为重大事件,将造成地市级会议和活动支撑中断的IDC运行安全事件定为较大事件,将造成地市级以下会议和活动支撑中断的IDC运行安全事件定为一般事件。
表1中4个界定因素可单独作为划分IDC运行安全事件等级的标准,也可以结合使用。例如,基于经济损失和重要会议活动支撑中断两个因素可以分别作为事件等级划分方法;但单独关注服务中断时间或影响用户数都将有失偏颇。
表1 4个界定因素总结
4.3 划分方法
4.3.1 方法一:矩形区间法
结合考虑服务中断时间和影响用户数两个因素,可以得到如图1所示的IDC运行安全事件等级划分方法。
图1表示出不同区域代表不同的事件等级,这是较常见的一种划分方法,即同时满足时间和用户数来确定事件等级。但此类方法存在一些问题,例如虽然有的事件中服务中断的时间低于2h,但由于其涉及的用户规模特别大,甚至达到数亿级别,显然此类事件应属于特别重大事件,而不是只作为重大事件。因此,提出了方法二。
图1 基于服务中断时间和影响用户数的事件等级划分方法一
4.3.2 方法二:曲线区间法
为避免出现上述问题,本文将在分析界定因素时所确定的时间轴和用户数量轴上关键点的基础上,通过曲线区间法对事件等级进行划分(见图2)。
曲线区间法以用户数和时间乘积构建了xy=k曲线。其中,k基于前述关键点数值分析分别取0.05、0.5、2,由此构成了3条区间边界曲线。如图2中的示例,2℃线的由来分析如下:
2000万(用户×小时)=2千万(用户)×小时=2kWh=2度=2℃
因此,上述曲线可称之为IDC运行安全事件的温度线。特别重大事件区间范围是2000万(用户×小时)及以上(即2℃线及以上);重大事件区间范围是500万(用户×小时)到2000万(用户×小时)(即0.5℃线到2℃线);较大事件区间范围是50万(用户×小时)到500万(用户×小时)(即0.05℃线到0.5℃线);一般事件区间范围是50万(用户×小时)以下(即0.05℃线以下)。
在企业IDC运营中,可参考这一方法,以3条温度线为界对IDC运行安全事件等级进行划分。当然,除了用于划分等级,用户数和时间乘积(可称之为事件温度值)可用于判断任一运行安全事件的严重性。极端情况下,例如10亿用户服务中断1h,事件温度值将达到沸点100℃,显然社会也将“沸腾”。政府部门在IDC运行安全实际监管中也以此温度线作为判断事件等级和严重性的依据。
4.4 改进方向
以上提出的基于4个界定因素4种方法,特别是方法二以数学曲线定量的方式划分IDC运行安全事件的等级,该方法论能较好地用于实践当中。但是,也面临一些问题,例如在事件定级方面,目前门槛较低,较容易出现特别重大事件,可以进一步参照业界现实案例进行调整。在影响的用户数量确定方面,特别是对局部故障的情况下,要准确计算影响的用户数有较大难度。在经济损失的估算方面,也没有固定标准,对损失的确定,不同企业不同用户的认识不一,也就导致估算不一定准确。同时,还可以考虑声誉损失,当然,声誉损失最终也会反映到经济损失。在重大会议和活动支撑中断方面,事件等级的划分方法尚待优化和细化,同一活动中不同时间段出现的问题的影响也不相同。另外,除了出现服务中断之外,服务质量也会出现问题,例如丢包率高、时延大等也属于运行安全事件范畴。未来,可在这些方面进行改进。
图2 基于服务中断时间和影响用户数的事件等级划分方法二
5 加强IDC运行安全监管的必要性和建议
当前,加强IDC运行安全监管十分必要。从宏观发展环境看,我国加快构建高速、安全、稳定的IDC基础设施,对于推动实施“互联网+”行动计划,实施网络强国战略,服务大众创业万众创新,激发形成国家转型升级的新动能,具有极为重要的现实意义和战略意义。从行业发展角度看,IDC的建设水平良莠不齐,运行安全事件屡屡发生,严重影响着行业健康发展,提供优质IDC服务、保障IDC网络设施安全已经成为社会的广泛呼声。目前,监管手段缺失和法规不健全,导致对IDC运行安全管理力度不足,这不利于提升互联网设施建设质量和支撑能力。从企业发展角度看,IDC企业自身也希望政府出台监管政策,制定管理或技术标准,来防范和规避运行安全风险。从用户需求角度看,用户迫切希望政府能对IDC服务进行规范和指导。从这个角度讲,强有力的监管有利于增强用户信任,推动行业的健康发展。
因此,建议我国制定IDC运行安全相关管理制度及实施细则,制定运行安全事件处理流程,细化政府监管部门和互联网企业的职责分工。制定IDC运行安全技术标准,明确IDC运行安全事件等级划分方法,定期评估运行安全,切实提升运行安全保护工作整体效果。
参考文献
[1]ANSI.Telecom munications Infrastructure Standard for Data Centers.ANSI-TIA-942-2005[S].2005,7.
[2]中华人民共和国国务院.生产安全事故报告和调查处理条例[Z].2006,1.
[3]工业和信息化部.电信网络运行监督管理办法[Z].2009,4.