“宕机”背后云安全的问题有多少？

2019-03-19梅雅鑫

通信世界 2019年7期

本刊记者|梅雅鑫

近日，阿里云突发的宕机事件又将云安全推到风口浪尖，据了解，此次事件是阿里云华北2地域可用区C部分的ECS服务器（云服务器）等实例出现IO HANG（IO不响应）导致的。阿里云经紧急排查处理后，业务已全部恢复。同时，阿里云方面表示，将根据SLA协议（服务合同）尽快处理因此次故障受影响企业的赔偿事宜。

但是比起赔偿，业内人士更加关注此次宕机事件带来的影响和事件背后折射出的问题。经过十余年的发展，中国的云计算市场已经初具规模，各种新技术、新应用、新场景、新架构成为公有云/私有云平台市场保持快速、持续增长的助推器。目前越来越多的企业将其业务系统、数据部署在云上，云服务器一旦宕机，企业业务必然会受波及。因而安全被各企业视为头等要务。

理论上不存在“永不宕机”的云

事实上，不止是阿里云，其他云服务提供商也都出现过宕机事件。仅2018年一年，全球主流云计算厂商曾发生数十起宕机事故。

2018年1月18日，谷歌云自动化失效导致宕机；

2018年3月2日，AWS宕机致部分Alexa失声；

2018年5月31日，AWS北弗吉尼亚地区数据中心出现硬件问题；

2018年6月17日，因爱尔兰数据中心的恒温系统出现问题，微软Azure爱尔兰数据中心宕机；

2018年7月20日，腾讯云云硬盘故障；

2018年9月4日，微软云Azure数据中心遭雷劈宕机；

2018年11月9日，谷歌公有云下的Kubernetes服务（GKE）宕机；

不难发现，虽然宕机的原因不尽相同，但宕机却时有发生。

据悉，云服务产生故障的原因一般分为两类：一是因为误操作导致的问题（用不用云服务都有这个问题），二是云平台故障导致的问题。中国信息通信研究院云计算与大数据研究所所长何宝宏也表示，目前发生的宕机事故约80%是因为技术人员操作不规范或“误操作”导致的，相比于“误操作”，云平台故障的技术问题仅占20%。

云服务提供商的云平台可提供服务器快照、数据库备份和日志备份等诸多功能，这些功能为企业带来了便利，远比企业自己构建类似的服务简单好用，但是涉及到权限问题就值得思考了。企业使用云平台上的账户权限管理时，严格地避免无意或者恶意的“误操作”很重要，因为如果云服务管理权限每个人都有，那么很容易出现“误操作”的问题，所以要严格控制账户管理的权限。

无论是传统的环境，还是云环境，都不能做到绝对“持续可用”。何宝宏对此表示，理论上任何技术或者服务出现中断都是不可避免的，仅是概率大小的问题。

虽然所有的云服务都不是绝对安全的，没有办法100%保证系统的正常。但是大部分情况下，云环境的可用性和可靠性都比传统环境高，这主要是因为云平台的运维更加专业。可见，尽管云会发生故障，但云仍然是值得信任的。

服务可靠性、业务连续性需不断加强

未来云服务或将像水电煤一样成为基础设施。停电1分钟，对于一般家庭而言，也许只意味着少看一会儿电视、少吹一会儿空调，但对于企业而言，或许意味着一条生产线的瘫痪、整个生产流程的推倒重来。同理，云服务器宕机1分钟，对于云服务提供商来说是一次运维故障，但对企业而言，或许意味着客户的流失甚至企业破产，特别是不可逆的故障不是云服务提供商赔偿就能挽回的。

有业内专家透露，宕机的后果可以分为两种，一种是可恢复的，一种是不可恢复的。例如，此前腾讯云因硬盘故障导致一家初创公司近千万元的平台数据丢失，且不能恢复，让腾讯云元气大伤，与之相比，阿里云的损失就没有那么惨重了。

而且此次事件折射出来的问题并不完全属于云安全范畴，随着云计算在各垂直领域的不断渗透，云服务的可靠性、业务连续性将成为下一步云计算发展的重中之重。

可靠性和业务连续性一直是电信业非常重视的指标，但云厂商对于服务可靠性的要求还不够。何宝宏指出，该问题并不只出现于云厂商提供的服务中，而是新兴行业发展初期常常会遇到的问题。例如，2016年国家电网公司经营区域内城市配电网和农村配电网的供电可靠率分别达到99.946%、99.782%，但随着近年来工业互联网的需求越来越大，对电网的依赖性越来越高，99.9999%的供电可靠率也逐渐出现。由此可见，一项服务的可靠性可以随着人们对该服务的依赖程度提升而越来越高。

未来，云服务的可靠性和业务连续性也将会随着企业上云以及垂直行业对云服务的依赖程度的加深而不断提升。当然这样的提升需要更多经验的积累和时间的考验，眼下还是应该尽量避免宕机事件的发生。

“多云”部署或成企业新保障

诸多宕机事件告诉我们，面对天灾人祸，不论是公有云还是私有云都不能独善其身。为减少业务中断带来的损失，云服务厂商需要构建云容灾方案。

何宝宏指出，预防宕机发生可以从多个方面着手。

一是云厂商技术的完善，即不断地增强云服务的可靠性和业务连续性，但毋庸置疑的是无论可靠性达到几个9都无法保证云服务“永不宕机”。

二是企业需根据自身特点选择云灾备和云保险服务，尽量在经济和人员条件可行的情况下使用这些服务分散风险，如果故障只出现在一个服务器集群，采用异地灾备的方案，就可以以最快时间切换到另一个集群，保持系统可用；云保险则是企业的最后一道屏障。

三是增强用云规范意识，为避免由于人员的“误操作”或者相关人员操作不规范造成的宕机事故，相关企业和政府机构应加强技术人员的培训和建立灾备意识，企业的IT人员日常应做到异机备份、数据容灾、业务双活、定期对灾备和双活进行演练等，尽可能避免云故障带来的损失。

宕机事件的发生使不少企业对云服务的部署方式产生了质疑，于是，“多云战略”成为很多企业正在考虑的方案。业内分析师也坦言，真正安全的方式需要将重要业务分别放在不同的“篮子”里，也就是选择多个供应商，进行“多云”部署。“多云”部署本身也是一种灾备预案，如果自身服务非常重要，可以考虑租用多个云服务器互为主备，或者自建机房，只是这样成本和技术复杂度会成倍增加。

对于初创企业或中小企业而言，自建机房的运维难度很大，运维水平也远低于大的云服务厂商，因而故障概率更大、损失更加不可控。所以采用多云或混合云可能是未来最为靠谱的方案，纯公有云、纯私有云都是不太安全的解决方案。

而有实力的企业应该尽可能自建服务器，将核心数据、核心业务逻辑放在自己的内网服务器上，前端模块等可以考虑放在公有云服务器上，这样的话可以最大限度地实现风险分担，保障企业的用云安全。