智能运维在中国移动IT云中的应用
2022-08-17刘志
刘 志
(吉林吉大通信设计院股份有限公司,吉林 长春 130012)
0 引 言
在中国移动IT云数据中心管理中,已经形成集机房、设备以及资源于一体的综合化管理体系,为构建和实施智能运维平台打下了基础。中国移动依托人工智能、5G网络通信技术、增强现实(Augmented Reality,AR)虚拟现实技术等关键技术,构建起功能完善、覆盖各层业务数据的智能运维平台,能够实现设备运维流程化、数据监测全程化、运维操作自动化以及监控告警实时化管理,提高中国移动IT云的运维管理水平。
1 中国移动IT云传统运维方式弊端
中国移动IT云采用“一云多中心”格局,集成集团公司内部各单位的业务系统,已建成大规模的服务器、数据中心机房和软硬件设备[1]。随着中国移动IT云建设的不断推进,各地数据中心运维管理的重要性日益凸显,但是从传统运维方式的实施现状来看,仍存在着较多问题,具体表现在以下方面。
1.1 故障修复效率低
中国移动数据中心机房分散在各地,运维人员在数据中心机房出现故障后才能采用运维措施,使得运维工作处于被动低效状态。在运维过程中,运维人员需要耗费大量时间进行现场勘察,核对设计图纸与实际数据的差异找出故障原因,无法保证在短时间内快速修复故障,影响中国移动业务处理的连续性。
1.2 运维监控缺失
中国移动IT云缺乏统一的运维监控体系,不同运维实体存在着功能重叠、难以整合的问题,使得运维成本居高不下。从运维管理系统建设现状来看,运维自动化程度不高,暴露出运维系统层次化不足、模块划分不清晰、运维脚本泛滥等缺陷,并且各地方运维监控系统各成体系,尚未执行统一化建设标准,使得运维监控处于分散状态[2]。
1.3 海量运维数据利用率不高
中国移动IT云资源池中拥有种类繁多的设备,这些设备在运行中生成大量运维数据,而传统的运维方式未能有效利用这些运维数据,只是对其进行浅层分析,缺少对运维数据纵向关联的挖掘,导致设备故障定位时间较长。此外,传统的运维方式设置固定的阈值,在运维过程中采用人工调整阈值的方式,易造成阈值告警误判、漏判[3]。
1.4 运维数据预警不到位
在传统运维模式下,针对IT云的运维仅停留在主机、网络故障运维层面,而缺少对业务层面的运维数据监控,难以实现端到端的自动化运维,无法对业务层面异常数据产生预警。此外,在IT云设备不断增多的情况下,日常巡检工作量也会逐步增大,但是日常巡检很难预测设备变化,不利于运维工作的开展。
2 智能运维平台的架构设计及模块功能
2.1 智能运维平台架构设计
为弥补上述传统运维模式的弊端,中国移动要结合IT云的运行特点建立智能运维平台,加大对运维数据的有效利用,提高故障修复速度。智能运维平台利用物联网技术、三维可视化技术、人工智能技术等先进技术,对数据中心实施可视化、数字化、智能化管理,实现数据中心机房设备的全景态势感知,及时告警和定位故障[4]。智能运维平台整合展示所有资产对象监管信息,便于运维人员及时掌握设施设备的运行状况,提高运维可视化、一体化管理水平。智能运维平台能够对数据中心机房进行全天候实时监控、分析、安防、检测以及告警,其平台架构如图1所示。
图1 智能运维平台的基本架构
(1)用户层。智能运维平台同时服务于运维、业务监控、业务主管和客服的工作需求,能够使有操作权限的部门人员在系统平台上获取所需数据。(2)视图层。智能运维平台提供Web端可视化视图、移动端App视图以及大屏幕业务状态视图。(3)服务层。智能运维平台提供业务视图服务、性能关键绩效指标(Key Performance Indicator,KPI)服务、拓扑服务、运维分析服务、报表服务、系统管理方案和告警服务[5]。(4)核心能力层。智能运维平台提供智能监控、智能分析和智能告警模块,其中智能监控包括应用性能监控、用户体验监控、基础架构监控等功能;智能分析包括趋势预测、异常检测、日志分析、关联分析、故障定位和自愈等功能;智能告警包括基本告警、告警轨迹、告警自动处理、告警关联分析以及应用程序编程接口(Application Porgram Interface,API)化等功能。(5)运维对象。智能运维平台的运维对象包括服务器、应用/服务、数据库、中间件、日志以及虚拟机等。
2.2 智能运维平台模块功能
2.2.1 智能监控
该模块覆盖各个层面的数据,包括用户体验数据、应用性能数据、设施设备数据、中间件数据等,通过监控找到数据关联,输入到运维数据库中。在智能监控数据展示时支持视频、音频接入,采用多媒体资源可视化展示监控数据[6]。
2.2.2 智能分析
智能分析涵盖离线算法和在线实时分析训练模块,根据历史数据推测数据变化趋势,用于故障定位、故障预测以及异常检测等场景。
2.2.3 智能告警
智能告警运用高效的分析算法自动归类、消除告警信息,找到告警之间的关联,动态调整告警信息发送频率和周期,避免同时出现海量告警。
2.2.4 智能巡检
智能运维平台采用智能机器人完成自动巡检工作,减轻运维人员工作量。具体包括运用智能机器人自动规划行走路径,收集应用场景内的温度、湿度数据,将采集的数据与历史数据信息进行对比分析,判断是否出现设备增加、减少或位置变化等问题,是否发生设备温度异常升高情况,及时发出告警。此外,机器人自动采集机房设备图像,运用AI图像识别算法提取出图像中的信息,包括设备类型、型号、位置等信息,将提取出的信息与设备二维码标准信息对比分析,自动完成资产盘点。
2.2.5 智能安防
在机房运维中,采用深度学习算法建立起智能安防模块,加强对机房的安全防控。具体包括采用人脸特征分析算法对进入机房的人员进行人脸特征向量提取,快速完成人脸识别;采用目标检测算法对机房数据优化训练,全面检测机房内的目标物品;采用Yolo算法、Deep sort算法跟踪检测机房内人员的位置和运动轨迹,当人员进入到敏感区后自动告警,发挥电子围栏作用;采用肢体识别库、ST-CCN算法识别人体动作特征点,当人员出现危险动作时立即告警[7]。
2.2.6 远程故障处理
智能运维平台采用AR远程巡检,由运维人员佩戴AR眼镜进行巡检,AR眼镜扫到设备后远程获取机柜信息、巡检任务,运维人员运用语音设备与运维中心后端技术专家进行交流,指导运维人员处理故障。在运维中心,技术专家可以将AR眼镜获取的信息与后台数据库中信息进行交互,在白板上展示故障现场,实现AR现场与真实故障机的重合展示,便于技术专家快速制定故障排除方案[8]。
3 智能运维的典型应用场景与关键设计
3.1 数据采集
智能运维平台的数据采集可以采用Pinpoint开源软件中的字节码增强技术,内置支持Java程序的通信协议,用于采集接口响应时间、内存消耗、服务调用时延以及调动次数等信息。在海量数据采集后,利用业务远端的agent将数据传输到collector,并采用Web UI可视化展示监控数据。当采集基础设施和中间件的关键数据时,建立Telegraf(轻量级采集框架)+Influxdb(时序数据存储引擎)+grafana(前端可视化引擎)的数据采集框架,通过数据采集框架实现对平台即服务(Platform as a Service,PaaS)、数据即服务(Data as a Service,DaaS)层中间件的数据监控,集中汇集应用层数据及其关联数据[9]。
3.2 故障可视化
当IT云运行中发生设备故障时,智能运维平台采用运行图谱进行全部关联指标分析,可视化展示页面访问量(Page View,PV)、数据数、错误率等异常指标,帮助运维人员准确判断故障原因。当业务系统发出错误请求时,智能运维平台可以重现请求过程,自动排除错误请求。同时,智能运维平台还可以回放一次应用请求,可视化展示每一个请求的执行时间。
3.3 异常检测
在监控指标中采用机器学习算法识别历史数据特征,建立个性化异常检测模型,提高固定阈值的检测精度,解决人工调整阈值的难题。智能化指标异常检测流程如图2所示,具体包括以下流程。
图2 智能化指标异常检测流程
3.3.1 周期指标特征识别
对原始数据采取降噪处理,获取连续标准数据,满足特征识别对数据的要求。采用局部异常因子算法识别出明显背离指标分布点的离群点,对数据进行填充或丢弃。转换、归并指标特征数据,对数据进行标准化、归一化以及离散化处理,识别指标数据的周期性特征[10]。
3.3.2 指标数据基线计算
在数据预处理后获取历史数据叠加图,根据采集周期将数据划分为多个时间节点数据,将历史数据放入时间节点内计算出最大值、最小值以及均值,连接每个时间节点的最大值、最小值,得出各时间节点的模型基线值。在数据基线计算中,可以运用一些参数控制基线的敏感度,避免发生错误告警。
3.3.3 周期性指标检测
建立动态基线模型后,将其应用到检测场景中验证模型的有效性。当模型判断结果不准确时,要对模型参数进行微调。如果出现短暂的基线偏离,可以修改与基线敏感度相关的参数。
4 结 论
中国移动IT云运行中要建立起智能运维平台,弥补传统运维模式的弊端,借助人工智能技术、三维建模技术、可视化技术以及AR技术等实现对内部私有云数据中心机房设备的智能运维,并加强对业务层数据的有效利用,及时识别和诊断运行故障,准确发出告警、快速定位和修复故障,进而保障IT云的安全稳定运行。