政务云运维提升解决方法
2018-11-06陈宝光
陈宝光
(河北省信息资源管理中心,石家庄 050071)
1 引言
随着云计算的快速发展,国家各项云计算相关标准和要求的出台,各个省市的政务云相继建设完成,政务云的运维也越来越重要。政务云运维涉及多个部门,客户需求多种多样,具有较强的时效性,应及时做好应急预案,出现故障需立即响应。因此,政务云的服务商应保证政务云的稳定运行,保证在出现故障和缺陷后按照事件等级在相应时间内做出响应和解决问题。
2 政务云服务商日常运营维护的主要工作内容
①对政务云平台持续建设更新,依据政务云业务发展,在资源使用量达到一定比例的情况下对资源池进行扩容建设。②设备日常监控,包括机房的温度、湿度和设备的运行状况。③业务受理,开通相应账号及资源,并向部门系统负责人提供业务系统部署到政务云的技术支持。④迁移服务,提供现场支撑或设计方案支撑,尤其对传统网络架构向云计算平台迁移提供转化方案。⑤异常或突发事件处置,包括主动发现或客户反映故障、平台运行中存在问题等,排查问题原因,解决存在障碍。⑥政务云整体安全管理,配置安全设备的策略、制订安全应急方案。⑦政务云门户网站的管理,做好部门在线申请资源的技术支持,政务云服务过程制度化、流程化。⑧做好政务云日常业务运营统计,产生各种报表,支持领导的决策分析。
3 政务云运维当中存在的问题和原因分析
第一,出现一对多和多对多的情况,问题处理不连贯,客户满意度差。①政务云目前运维人员实行轮值制度,存在较多客户与不同技术人员对接的问题,处理问题没有连续性,容易造成客户混乱,事件处理规范性存在问题。②涉及的客户层面人员复杂,客户不同由不同层级主管负责,加之应用厂家多人参与其中,部门和云服务商之间易形成多对多局面。③管控平台缺少相应工具系统,各事项及运行情况透明度差,导致管理单位获取信息不全面、不完整。④云计算业务的责任边界较传统模式模糊,容易产生责任不清问题;事件后续跟踪不到位,未能及时了解各厅局存在问题,客户满意度低。
第二,系统上线时间长,申请到业务正式上线至少20天。原因分析:业务开通资源开通较快。但涉及互联网IP提供由于受备案管理影响,至少20日才可开通http端口,针对客户的宣传解释不到位,容易造成客户的误解。
第三,事件处理周期长,回访不及时,部分业务需求不能满足。①部分运维人员技术能力有所欠缺,好多问题解决不了,需要其他公司技术支撑人员解决,一般会在1到2天内排除,尤其是涉及存储性能、安全设备等问题未能有效解决。②运维人数不够,尤其是缺少硬件维护人员,造成一定程度延时。
第四,云服务体系不完善,缺少灾备服务、多样化存储、个性化安全配置能力;①目前政务云上安全设备存在故障率较高的问题,多次发生安全设备故障,解决办法都是返厂维修,极大地影响了部门在政务云上的业务系统。②网络故障多,因涉及和运营商进行沟通,造成客户断网时间稍长,用户体验较差。
4 解决办法
4.1 规范服务途径,统一服务入口
运营维护组为政务云平台提供7*24小时服务支撑,对外提供统一的服务窗口:服务官网,统一的工单邮箱和报修邮箱,统一的运维电话(24小时在线)三个主途径。后续所有服务均通过上述入口启动支撑流程,三个入口与运维服务流程直接对接,通过系统实现规范统一的管理[1]。
4.2 充实人员,新设岗位
第一,设置负责业务或事件统一受理的服务受理岗位,事件进行内部分发,集中跟踪统一回复口径,统一政务云对外服务形象。由服务受理台集中值守受理电话及邮箱,并监督业务受理和事件处置按流程要求落实。
岗位名称 岗位说明 人员需求服务受理台受理邮箱、受理电话、服务门户值守;记录业务事件(受理工单、障碍、咨询、问题等);按事件类别、级别派发事件流程,并全程监督流程处理过程;事件完成后,对事件客户进行定期回访;3人运维岗接收事件工单,按客户需求办理业务或解决用户障碍;处理内容包括软件、系统、虚拟化、网络、安全、线路、接入等。虚拟化3人,网络3人,安全3人;其他4人共13人巡检及安全漏扫岗硬件和网络设备2人,安全和业务系统2人。共4人(可兼职)VIP客户经理对政务云所有硬件、网络、云主机、业务系统定制巡检和安全扫描计划并按照计划进行扫描巡检,并处理扫描巡检结果,针对结果提前发现并处置问题,形成系统运行的日报、周报、月报和年报等。暂需要3人,随业务发展持续增加(可兼职)应用建设及总体规划对重点客户或重点项目提供定向服务支撑;定期对服务客户进行回访和走访;根据政务云的使用情况和客户需求提供政务云持续提供IaaS、PaaS、SaaS以及安全等设计规划和建设方案。2人(可兼职)
根据新的岗位设置,结合目前整个运维团队人数和运维能力,运维团队需充实3名安全运维人员和2名VIP客户经理[2]。
第二,优化备案管理相关流程。加强工信部、通管局对备案相关要求的宣传力度,避免造成服务错觉。建立健全回访制度,提高客户满意率。
①日常业务受理回访:涉及客户新开户、增删改等日常服务,操作完成后第一时间与所属客户联系人沟通确认,客户试用无误后闭环。建立规范的回访话术,健全回访记录。②客户故障回访:对于客户申告故障,经排查无论是平台引起还是其他公司其他业务引起,在公司可解决范围内,由故障处理人协助通知其他维护单位排查,处理完成后反馈客户;经排查属于客户系统等其他原因引起的,与客户详细解释,避免出现推诿问题;以上各类故障确难解决且历时较长的,由故障处理人每20~30分钟与客户通报一次进展。障碍处理后,业务受理人员或VIP客户经理对客户进行回访,健全回访记录。③新客户回访:对于第一次开通政务云资源的客户,在反馈资源开通当时,要向客户介绍政务云迁移部署注意事项,同时在第3、8、15天分三次回访客户部署情况,有问题客户保持随时沟通,期间客户正常迁移部署完毕可结束该回访。④VIP客户回访:对于使用云主机数量超过4台的业务系统或者客户或者需要重点保障的业务系统和客户定义为VIP客户,针对VIP客户需要回访到客户主联系人或信息中心负责人,每月回访一次,每季度走访一次,了解客户使用情况,并做好回访和走访记录[3]。
4.3 提升政务云平台服务能力
①容灾备份中心建设:尽快完成并确定实施方案,完成容灾备份中心建设。②存储多样化:为满足部门多种需求,增加磁盘阵列存储方式。③加快相关监管、工单系统开发速度,提升服务能力,增加服务透明度,可视化。④进一步优化监控功能,有效使用监控工具定位问题,分清问题责任,提高工作效率。⑤不断派技术人员去学习,提升自己的业务能力。
5 结语
政务云是目前的发展趋势,也是一个新兴的事物,政务云运维的好坏直接决定了政务云建设的成败。政务云运维是在不断摸索中进行的,并没有形成成熟的体系,分享在实际工作中政务云运维的一些经验并总结提升变得非常必要。