电信运营商的多云全栈式运维管理体系研究
2023-09-15操张进丁光远汪韬君李国策
郑 卿,操张进,丁光远,汪韬君,李国策
(1.中国移动通信集团有限公司,北京 100032;2.中国移动通信集团安徽有限公司,安徽 合肥 230088)
1 研究背景
近年来,电信运营商在云计算领域的应用广泛而深入。对内,实现5G及4 G的网元云化;对外,运营商依靠扎实的电信基础设施,加入到云服务提供商的赛道中,面向公众的移动云、天翼云迅速扩张。服务于政府、医疗,教育等领域的行业云也在持续建设。云平台的快速扩张随之带来了不可小觑的运维问题[1]。受限于组织架构及维护职责的界限,各云之间相对封闭,且运维水平参差不齐,但是它们之间的运维结构存在很多共性,独立烟囱式的运维模式完全忽略了各云之间的共性,导致大量的运维资源被浪费。因此,如何打破各云壁垒,建立通用高效的全栈式运维体系,是本文接下来讨论的焦点。
2 全栈式运维管理体系构想
如上所述,为解决上述痛点,本文提出建立一种涵盖多云、贯穿云平台全栈的运维管理体系。
(1)打造统一数据底座。通过广泛接入不同平台的资源性能数据,屏蔽底层架构差异,实现全省多云资源池能力统合与统一管理。
(2)建立智能运维模块。利用流程、定制作业等支撑工具,分层次制定维护办法,补足运维短板,提升运维效率。
图1 多云全栈式运维管理体系概念图
3 多云统一纳管实现思路
3.1 接入适配方案
图2 多云接入与适配概念图
完成上述统一化接入分为三个阶段:标准设计、云平台设计以及多云适配。标准设计是云平台接入的前提。通过广泛调研,制定出适合各类云平台接入的数据模型、权限模型和服务API标准。这些模型将作为信息货架,等待下层平台信息装填。因此该标准模型需要足够的广度,足以覆盖将来各类云平台的接入适配。
标准制定完毕后,则进入到第二阶段的工作,即云平台设计。云平台设计可以理解为将某种类型云平台的数据进行抽象,并按照标准设计制定的统一标准进行数据分类。相当于按照信息货架的要求进行装货准备。
最后一阶段的工作则是多云适配,将云平台上的数据模型、权限模型、服务API与标准设计中的对应模型进行适配。南向适配不同云平台的模型与服务能力,屏蔽不同类型云平台之间的差异;北向提供统一的标准化服务支撑能力,将各类不同的云平台数据装入统一化的信息货架。
完成上述接入后,就具备将多个云平台的资源、性能、告警数据进行统一纳管的能力。
3.2 支撑工具
完成数据底座的建立后,下一步就要通过各类支撑工具将接入的数据加工为支撑运维的信息。一般来说,支撑工具越全面越好,下面介绍几种支撑基本运维需要用到的工具。
⊙ 资产管理:全量设备管理库,能够全面、准确地记录设备信息、能力、当前状态等数据。
⊙ 告警监控:基本告警监控界面可实时呈现接入网管及设备的告警信息。
⊙ 操作管理:操作变更的统一管理界面包含方案、授权、工单等一系列信息。
⊙ 故障管理:故障管理中心具有故障记录、处置模板、案例库等功能。
⊙ 作业管理:作业计划管理模块完成值班、巡检、出入记录等信息及流程的管理。
⊙ 安全运维:平台及设备安全工作台具有账号管理、身份控制、安全配置、操作审计等功能。
4 全栈式运维管理体系
4.1 数据中心层
云平台数量和规模的扩展对云基础设施提出更高要求,集约化的云数据中心为各类云平台提供良好的空间载体。本章将从云的角度出发探讨多云环境下数据中心层的运维要点。
云数据中心为云平台设施的运行提供一系列物理条件,这些设施包括但不限于计算设备、网络设备及安全设备,它们共同组成云平台的物理底座。因此,机房管理的出发点就是如何为这些设备提供良好的运行环境。
在基础动环方面,云设备所在的机房需要考虑电力、制冷、环境控制、机房出入制度、灾情预防等因素。
具备上述能力后,还需要定期对机房环境和设备进行巡检,及时消除环境隐患。为压实机房安全责任,可采用楼长制进行管理。
4.2 硬件层
4.2.1 硬件管理思路
硬件管理的基本原则是在保障安全的前提下,尽可能长地提供质量合格的服务。核心点在于硬件资源的调度[2]。
事前管理主要关注两个要点:一是要全面准确地掌握硬件信息;二是根据业务情况建立备品备件库。该库的建设目的是提供冗余硬件资源,防止由于故障等不可抗原因导致的硬件损毁无法及时处置,进而引发业务波动。备品备件可通过采购过量余存和按需添购两种方式实现增补。
下面就依据某运营商的数据中心硬件管理实践来详细介绍其管理流程的大体框架,该流程总体分为任务触发、入场申请、管理员授权、身份识别、操作记录、质检归档六个环节。事中管理主要关注硬件更换过程中的流程规范;事后管理主要聚焦于各类硬件调度事件的分析,分析的对象是上述提到的硬件更换工单,通过细致分析更换频次、更换用时等维度的信息,可从宏观角度判断硬件的用件趋势,为后续的硬件管理和质量控制提供指导意见。
4.2.2 硬件故障处理思路
事前主要考虑的是如何将故障抹除在发生前或尽快暴露故障。硬件故障按发生类型可分为瞬时性故障和积累性故障。
故障事中处理的原则是尽可能地降低故障造成的影响。根据故障发生的时间线,做好故障分析、故障定位、故障解决的全流程管控。故障分析和定位阶段需要的客观条件包括但不限于全面而准确的标准化告警呈现。处理过程中遵循先抢通、再抢修的原则,既要保障运维人员的操作安全,也要防止故障扩大化。
硬件故障的事后处理不同于硬件管理,它更加注重于故障的各类数据的分析。通过分析各厂家、各设备类型的故障率、故障数、处理时长等数据,统计故障趋势,找到故障频发点。有针对性地进行对标和优化。
4.3 云软件层
4.3.1 底层容灾
运维工程师可以从数据中心、主机两个层面部署容灾能力,提升业务连续性[3]。
数据中心层面,构建“两地三中心”的保障能力。对于安全级别高的云平台,可以同步建立生产中心、同城容灾中心、异地容灾中心。三中心的数据库保持热备份。当发生重大故障时,业务侧通过调整域名解析策略,实现业务流的改变。在这一过程中,用户是无感知的。
主机层面,建立反亲和性机制。反亲和性指将具备相互冗余功能的云主机分配到不同的宿主机上。
4.3.2 云主机状态评估
云主机指标分为基础指标和进阶指标。基础指标反映云主机的基本信息,进阶指标大多反映云主机的状态信息。例如,按照主要资源类型,各类指标可划分为vCPU、内存、存储、网络指标。在这种划分模式下,制定健康度模型需建立四类资源的进阶指标库,用以表征云主机的状态。
指标模型建立后,需对各类指标赋权重值,并根据阈值设置对应的评估函数。指标模型需满足两个原则:越敏感的指标权重越大、某项指标达到故障阈值后需直接触发预警线。健康度模型可在基本原则下自行调整,以达到适应业务特性、准确预警劣化的目的。
4.3.3 高并发场景下的SNAT优化方案
本小结介绍一种典型的高并发风险场景——业务使用SNAT解析DNS请求,并提供相关的解决思路。
SNAT(源地址转换)是一种地址转换技术。当内网地址访问外联网络时,发起访问的内网IP地址将被转换为指定的IP地址。这可以使内网的多个源地址通过一个公网IP访问外部网络。
4.4 云业务层
4.4.1 基于全流量的业务质量监测方案该方案通过部署全流量分析系统来监测业务质量变化。实现思路为在每一个VPC内部署一个流量分析探针。对于需要监控的云主机,配置全流量镜像命令。当云主机存在出方向或入方向流量时,流量通过OVS、虚拟路由器或业务交换机镜像到对应的流量探针服务器,并存储规定的时长。探针服务器根据配置的规则,自动分析出目标TCP/IP链接的各项核心指标,如L2、L3、L7协议数量、长度、占比,TCP三次握手涉及的SYN、FIN、RST、ACK等协议数据单元信息。该功能可用于业务阻断时的故障分析和责任界定。
4.4.2 基于压力测试的业务最大负荷界定思路
低能力、高并发是互联网应用流畅运行需要面对的经典难题。对于涉及高并发场景的应用,云服务商需要配合客户侧完成压力测试。压力测试一般选择具有代表性的核心接口,包括请求处理的前置机和四层、七层负载均衡。测试过程中可以逐步增加TPS,当nginx的利用率超过阈值或响应时延大幅度增加时,可认定系统已经达到了负荷极限。该方法可辅助界定业务的最大负荷值,并指导业务侧进行能力扩充,达到提升业务质量的目的。
4.5 云安全层
4.5.1 云外数据中心级网络安全云外安全防护是指云平台所在数据中心构建的大网安全能力,即第一道防线。一般通过在数据中心出口层部署池化抗D(抗DDoS,抗分布式拒绝攻击)安全防护系统,形成统一的数据采集能力、检测/溯源能力、调度/清洗能力[4],实现运营商级抗D防护。形成能力后,数据中心可为面向IDC的政府金融客户业务系统提供定制化的安全增值服务。
4.5.2 云内网络安全
云内安全防护是指云平台内部采用的各类安全能力,即第二道防线。云平台的数据流量分为东西向和南北向。两者具有的安全风险和防护手段各不相同。
东西向的安全威胁主要来自于不同安全等级的AZ(Available Zone)区域间的横向互访。例如,在政务类的云平台中,根据业务性质一般将资源池划分为政务外网区和互联网区,两区之间使用隔离防火墙或网闸相连。相较于隔离防火墙,网闸具备SNAT和DNAT的双向NAT功能,可以隐藏真实IP地址,有效防范安全攻击,具有极高的安全性。
南北向威胁主要来自于互联网的恶意攻击。一般来说,云平台部署有IPS、防火墙等安全防护和分析设备。同时具备拦截DoS攻击和渗透攻击及IP封堵等基础的安全防护能力。
4.5.3 业务系统安全
业务系统安全是指租户级别采用的各类防护能力,包括通用安全和数据安全,是云安全的最后一道防线。
租户层面的通用安全主要考虑到VPC之间的安全隔离及应用安全,通常采用的安全能力包括但不限于虚拟防火墙、主机安全防护、云WAF、网页防篡改。
通用安全由云平台单方面提供,对于只提供IaaS层能力的云平台来说,业务数据安全由云平台和客户侧共同维护。下面将分别从数据存储和数据用途两方面介绍数据安全防护思路。
在存储层方面,要根据业务的敏感性,提供相应的灾备能力。
在数据用途方面,云平台需要为客户提供数据溯源、追踪的相关功能,且需要根据业务侧或法律要求进行长时间的存储和一定的分析整理。
5 结束语
本文从电信运营商提供的云服务出发,提出了多云统一纳管的思路,并分别就数据中心层、硬件层、云软件层、业务层、云安全层的运维方法进行了系统性的探讨。目前,云计算技术仍处于快速发展的时期,算力网络等先进概念不断涌现。为了适应进步趋势,运维思路也需持续革新。如何灵活适应运维演进、提高运维主动性,是将来运维工作开展的重点,也是运维工作者持之以恒的追求。■