运营商政务云省市一体化运维支撑体系的探索与应用
2021-01-13操张进吴传杰
魏 丰,操张进,程 炎,吴传杰
(中国移动通信集团安徽有限公司,安徽 合肥 230009)
0 引言
政务云成为重要的新型信息基础设施,承载着各类关键的民生、政务类应用及数据,其规划、建设、运维、服务、安全管理标准远高于传统云平台。三大电信运营商近年来全向发力政务云业务,目前市场占比37.6%。如何应对政务云运行中的行业安全风险,探索和统一安全运维标准,提升资源池的整体安全稳定性,以及如何统筹管理分散于各地区的云资源池,优化贯通业务与运维的流程和系统,提升运维响应与接维效率,成为运营商云改过程中迫切需要解决的内在诉求与难点。安徽移动探索与建立了省市一体化的政务云运维支撑体系,全面提升政务云的安全管理与服务水平,支持行业云的发展。
1 业务上云支撑体系构建
1.1 上云前
做好平台性能与客户需求的数据收集与匹配,针对电子政务系统业务架构类型多、需求多样化的问题:
面向业务前端,建立业务上云需求信息对接机制,制定通用云上业务场景匹配与资源评估表,重点从资源、性能、功能及应用结构等方面协助业务支撑部门收集上云业务的特点及业务量数据,合理评估资源池承载能力,提前协调准备资源工程并开展业务平台适配工作。
面向平台自身,梳理平台服务目录、产品能力及兼容性信息。独立部署生产测试环境,重点针对平台性能,搭建模拟化的客户业务场景,从公网、平台内网两大场景,针对不同网络层次开展端到端性能压力测试,收集验证云平台关键网元的不同场景下的业务适配性能指标数据。
面向客户侧,关注业务上云的条件与工具手段,针对早期的烟囱式架构客户,提供云平台兼容性数据,辅助客户进行业务改造;对于无需改造的业务架构,例如客户侧无迁云团队的情况,提供CloudBus 等集成商迁云工具辅助客户迁云。
1.2 上云中
面向内部做好响应标准落地与跨部门的工程及业务流程对接,面向客户做好业务资源发放、配置变更收集与业务上线测试工作。
制定云资源申请、变更及回收流程处理时限指标,提升流程响应支撑效率。拉通与数据中心管理系统、信息备案系统与监控平台的流程,编制云产品配置信息收集表,在上云过程中实现网络访问及产品策略、域名及服务信息备案、业务告警监控阈值的统一收集与配置,提升关联服务支撑效率。配合客户执行业务上线测试,同步关注功能性与安全性,强制执行应用及系统漏洞扫描与基线检查。
1.3 上云后
确保业务稳定运行,重点关注运行监控、可用性与应急保障。
业务运行监控层面,除运营商负责的云及安全设施、网络链路、系统平台层面的性能及容量的巡检与监控以外,针对客户业务层面的运行状态,建立与引入全流量镜像分析工具,观察匹配业务端口,实时关注会话质量;针对页面类的应用,协同客户收集访问目标链接及应用地址,统筹利用三网(移动、电信、联通)拨测探针模拟客户端执行主动拨测,确保端到端监控。
数据及业务可用性上,定期针对云上客户执行可用性风险评估,依据客户使用的云产品类型、业务架构、保障需求、容量性能监控数据,结合资源池的能力,面向业务前端研究制订与推荐优化方案,协助业务的可用性提升与持续发展。面向客户,梳理建立通知与发布的流程规则,确保信息通报与各类服务、故障、可用性、安全等报告的质量、时效与合规性。
应急与保障方面,根据上云业务特点,制定与匹配覆盖硬件、网络、系统、存储及安全层面的应急保障流程,协同业务侧开展可用性应急演练,定制与落实运维作业计划,指定告警、客户需求与投诉的响应时限,确保问题需求的实时处置和清零。
2 云上安全构建
2.1 安全管理体系
除满足政务行业所需的网络安全等级保护2.0标准外,以ISO27001体系为基础,CSASTAR 为主体,融合ISO27018数据隐私保护及ISO20000服务管理标准构建云上安全管理框架,确保安全管理覆盖基础环境、云上设施、数据接口、人员操作及应用服务等各环节。
2.2 安全防护架构
整体通过态势感知系统,汇集资源池主机、网络及安全等全网元日志信息,实现云上安全统一态势分析、安全信息预警与安全联动处置。
2.3 安全运维管控
(1)人员管理方面:运维人员上岗前执行安全意识宣贯与培训,通过安全考核并签署安全生产及数据隐私保密条款;重要岗位配备AB 角,定期执行交叉培训与职责轮换,降低人员安全风险。
(2)设备管理层面:云上设备全量接入4A 管控平台,通过角色授权机制,确保权限最小化分配。针对特权账户及重要设备,定期执行操作与日志的安全审计。采取默认拒绝原则,严格限制访问目标及路径,实现数据访问的精细化管控。
(3)操作与作业管理上:基于风险的评估,制定云上维护操作分级分类表。针对不同级别的操作,规定特定的执行时段、流程与标准:重要变更配置类操作要求提供标准化的计划、执行与回滚方案,通过正式流程申请操作时间窗口,经过技术及管理侧评审授权后方可进行,执行时要求一人操作一人审核,完成后进行业务验证、信息发布与归档闭环;普通维护类操作通过简化流程记录、执行与归档,以兼顾安全合规与运维效率。落实平台运行健康检查,常态化执行云上业务及系统漏洞与配置扫描,开展渗透测试,向业务侧推送安全报告及预警通知,确保云上安全防御水平。常态化开展安全及故障推演,挖掘与分析云上风险点及影响范围,针对性地制定应急响应与处置措施。
3 平台能力构建
(1)统一云资源:制定标准资源目录与资源拓补框架,对接地市资源池,将多池的硬件设备、云基础设施、云产品、业务以及账号等资源信息进行整合、分析与呈现。同时北向与集团云网平台互通,实现省内政务云资源的上报与网资源信息的获取同步功能。
(2)统一云告警与性能库:实现个体设备与资源池级别的告警及运行监控数据的汇聚、分析、处理与呈现,解决了各政务云资源池部分三方安全设备的告警及监控数据无法集中管理的问题。充分利用运营商优势,北向对接省级监控中心,形成省市二级监控保障机制。
(3)统一云运营管控:北向连接云网中心、业务工单系统,提供资源容量上报及云业务流联通,南向对接各云资源池进行云业务编排,实现云上业务全生命周期管理。提供业务视图,实现业务容量、用量计量的统一管理。提供运营分析与服务报告,综合提升用户感知。
(4)统一运维管理:推进省市运维协同。融合ITIL管理框架,实现云平台性能、容量、质量、安全、故障、服务、投诉事件及问题的快速响应与流程化处置;实现工程、操作、配置及作业的规范化审核、执行、归档与审计。
(5)统一客户服务入口:建立客户自服务门户,作为传统热线与邮箱的补充手段,为云上客户提供便捷、安全、多样化的服务入口与信息交互渠道。开放云业务运营视图、云产品自动化运维与配置变更、问题投诉的办理窗口,提升业务上云后的服务效率。安徽移动自2020年政务云省市一体化运维支撑体系推行以来,已陆续应用于安徽省级政务云以及包含合肥、滁州等5个地市政务云资源池。面向客户,为安康码、网上政务等在内的100余重要民生及政务应用提供了安全稳定的运行环境、标准统一的运维支撑服务。面向内部,解决了云改过程中政务云服务支撑过度集中省公司的问题,极速提升地市级政务云高效平稳接维能力,有效提高面向客户及业务的服务支撑能力,云上业务安全闭环处置效率大幅增强。
4 应用情况
5 结束语
综上所述,文中运维支撑体系面向运营商省市政务云资源池统一化纳管、建设与维护场景,从客户服务支撑、云上安全构建与平台手段建设三个方面,提供高效的服务支撑与安全运维管理框架体系,助力运营商云改战略落地,为运营商政务云建设运营提供实践案例。后续将重点围绕云网协同,探索云平台智能化运维管理与服务支撑手段,持续提升云智能化运维、一体化支撑、端到端安全管控能力。