APP下载

动环集中运维管理平台应用探析

2020-03-21

通信电源技术 2020年3期
关键词:机房容量运维

任 帅

(中国移动通信集团有限公司,北京 100033)

1 需求分析

中国移动现有45+4个数据中心、近千栋核心机楼以及逾50万个存量基站。面对如此庞大的动环基础设施,急需构建业内领先的动环设施支撑手段能力,实现全网动环设施资源及能力的集中化、精细化、智能化的可视、可管、可控。

1.1 手段现状

现网动环管理能力较弱,各省仅靠OMC系统进行基本管理,只能实现告警监控、负载率统计、资产管理等简单功能。从现网调研分析和统计结果看,当前动环设施运维管理面临诸多挑战,主要包括以下3个方面。

(1)缺少集中化监控管理平台。日常维护管理工作及指标考核数据收集大部分依赖邮件及EOMS系统。

(2)监控覆盖面不足,监控与管理不够紧密。基础设施监控较弱,对能效、资产、容量管理缺失抓手,对运维与运营等管理维度指标缺少关注。

(3)智能化程度不高。目前,监控主要是实现动环的基础数据采集,在历史数据分析、故障根因分析等方面智能化程度不高。

针对上述挑战,深层次分析其中原因主要包括以下4个方面。

(1)不同厂家FSU和SC互联互通问题。中国移动现网已建成的动环监控涉及的厂家众多,新建设备和老系统接口协议不一致,对接存在困难。

(2)各省动环监控系统组网架构不统一。现网动环监控架构从2~4层不等,组网复杂,亟需推动省级SC架构标准化建设,实现省级架构的扁平化和集中化。

(3)精细化运维管理手段不足。机楼基础运维不到位、动环设施超负荷运行、带病入网、性能劣化等问题,缺乏管理规范、预案和管控手段。

(4)系统接入困难、耦合性高。传统动环厂家在系统对接设置壁垒,导致数据接入、云端协同、系统建设难以有效执行。

所以,为补齐短板,实现业界领先的动环运维能力,参照行业标杆经验,打造总部一级动环设施运维管理平台,实现对全网动环设施运行情况管控,如图1所示。

图1 动环基础设施DIKW模型分析图

1.2 建设原则

动环集中运维管理平台建设需要围绕易用性、可扩展性、接口开放性、可维护性、稳定性、先进性等原则进行建设。

1.2.1 易部署原则

充分利用现有资源进行建设,既可与机房主设备同步建设,也可对已有机房进行补充建设。可根据现场的传输资源进行组网,包括IP资源、无线、物联网等。

1.2.2 可扩展原则

平台接入规模与系统处理能力满足项目需求,支持平滑升级与弹性扩容能力,以满足业务和管理发展需要。

1.2.3 接口开放原则

提供多种标准的数据接口,如B接口、C接口、D接口等。也可提供定制化数据接口,以实现与第三方监控系统或其他管理系统的对接。

1.2.4 可维护性原则

平台架构需考虑运维体系变化对业务的影响,可快速适应运维体系变化的要求,最大限度减少运维人员运维工作量。

1.2.5 稳定性原则

平台系统架构具有良好的稳定性,单一节点或者设备故障不影响系统运行,具有高可用性、稳定性特点。

1.2.6 先进性原则

平台应能满足公司发布的关于动环系统的所有技术规范和要求,系统架构和技术在业界具有领先水平,满足系统长期建设、演进和发展的需要,以最大限度的保护用户投资。

1.3 设计需求

根据需求调研、场景类型分析、建设原则,可归纳出动环集中运维管理平台的基本设计要求。

(1)系统架构需采用业界灵活、先进的架构,具备可扩展性和高可用性特点;

(2)数据接入支持南北向接口(如标准B接口、标准C接口、能耗接口、故障接口等),可实现边云协同、无障碍互联互通;

(3)围绕“监”“管”“控”目标,实现动环基础设施全网集中监控及运营,实现统一监控、统一标准、统一视图;

(4)系统从5大域(设施、人员、管理、手段、流程)、8个方面(可视化、运维管理、资源管理、安全保障、系统管理、系统接入、深度应用、支撑工具)构建需求能力。

2 总体架构

2.1 系统架构

本文提出的动环集中运维管理平台采用Spring Cloud微服务架构,支持Docker容器化部署,具备滚动升级、弹性扩容、高可用特性。按照数据流向维度可将平台分为接入层、存储层、能力层、业务层和展示层。总体架构如图2所示。

(1)接入层:负责设备接入(动力设备、环境设备、门禁设备、视频设备等)及第三方系统接入(冷源系统、通风系统、空调系统、安防系统等);

(2)存储层:负责系统数据缓存、存储及相关中间件功能;

(3)能力层:负责数据的清洗、应用使能,为业务层提供相应的能力;

(4)业务层:负责不同业务的逻辑处理,为展示层提供相应的接口服务;

(5)展示层:负责提供平台门户,多渠道、多方式展示系统业务。

2.2 功能架构

动环集中运维管理平台主要针对核心机楼、数据中心(含八大区数据中心)、汇聚机房、基站等动环设施纳入集中管理,围绕5大管理域(设施、人员、管理、手段、流程)构建“边-管-云”,从系统接入、支撑工具、系统管理、运维管理、资源管理、安全保障、深度应用、可视化、方面出发,实现“物联、数联、智联”三位一体的新型动环智慧运维新模式,推动全网集中动环运维管理能力建设,全面提升全网动环运维能力。平台主要功能架构如图3所示。

3 功能介绍

图2 动环集中运维管理平台系统架构图

图3 动环集中运维管理平台功能架构图

动环集中运维管理平台经过前期的需求调研与设计研发,经系统测试后正式上线运行,已构建集中化动环设备及业务容量管理、能耗管理、资源管理、供电拓扑的可视化呈现等功能。

3.1 容量管理

该功能模块从供电、空间、制冷、承重等多维度出发,通过持续记录容量消耗量和分析增长模式,使动环集中运维管理人员能够更加快速准确地掌控各机楼电源、空调设备的负载率情况,更高效管理各项关键资源,同时针对各机楼容量预警,实现工单督办、挂牌通报等功能[1]。

(1)电力容量。实现核心机房变压器、发电机组、开关电源系统、UPS系统、空调系统、蓄电池的负载率分析,容量负荷预警;支持各省预警方案的自定义设置,能够以设备为维度和以预警级别为维度进行容量预警数量和占比分析,可按照月、季、年提供容量预警趋势分析图;提供设备性能预警的统计汇总、明细报表功能。

(2)空间容量。实现机房空间、配套空间、管线空间、机柜空间管理和U位管理(占用、剩余、最佳位置推荐)。

(3)制冷容量。根据机房不同区域制冷容量和现有带载负荷情况,得出不同机柜、不同机房还可新增负荷量的情况。

(4)承重容量。根据地板承重和机柜电力配置,确定机柜摆放位置。机柜和设备的总重量不能超过地板总体承重要求,避免超重设备集中在某一区域。

通过容量管理,可支持从园区到机房的不同层级容量视图,全面了解容量使用现状;实时查看各机柜容量使用情况,快速查找设备上架的最佳机位,通过“UPS等重要设备的负载率红色预警”等关键信息实时监控,基于事前分析的预测性运维,实现全网机楼运行风险的有效把控,如图4所示。

3.2 拓扑管理

该功能支持以2D、2.5D及3D可视化方式显示空间拓扑、设备拓扑、供电拓扑功能。聚焦丰富的KPI指标,包括资源、告警、性能、容量、能效、巡检、温度云图等多种类型,实现运维状态多维数据的全局可视化,如图5所示[2]。

(1)空间拓扑。可根据布局图,实现按照园区、机楼、楼层、机房、设备、机架等环境的可视化仿真,支持在拓扑图上按空间资源分层定位设备以及查询、显示设备资源属性。

(2)设备拓扑。提供重要设备拓扑,图形化呈现设备关键运行参数指标,支持快速查询、显示设备资源属性和设备当前运行状态。

(3)供电拓扑。供电拓扑分为4层——高压配电层、低压配电层、不间断电源层、机房业务层;直观呈现设备的路由关系(包括上游设备和下游设备),支持按照楼层、房间的端到端拓扑呈现,具备从高低压配电系统、交直流配电系统到列头柜的端到端供电拓扑情况,实现全网核心机楼、数据中心的供电拓扑、业务关系管理。

3.3 资源管理

图4 动环集中运维管理平台容量负载率分析图

动环设备及业务资源管理,通过掌控设备在网情况、设备与业务系统关联关系,基于设备和业务信息将应急预案固化在管理系统,指导故障应急处置。针对超期服役设备、老化劣化设备建立病历表,全生命周期管控各类设备的在网状态,并关联日常运维 信息。

图5 动环集中运维管理平台供电拓扑图

3.3.1 动环设备资源管理

提供FSU管理、不间断电源系统管理、蓄电池管理、空调管理以及发电机管理,提供供电与业务关系管理,提供全网动环设备资源统计分析功能。动环资源统计包括机楼、区域、设备类型、设备子类、设备品牌以及设备数量等,可从多个维度进行统计分析,并可查看设备详细详情。

3.3.2 设备超期服役管理

提供动环设备超期服役统计分析功能。支持按照省份维度和设备类型维度进行统计分析,显示设备超期服役数据、超期服役日期。老化劣化设备建立机历卡,为采购后评估和预算决策提供科学依据。

3.3.3 健康度管理

支持核心机楼、站点机房健康度管理,包括直流不间断系统、交流不间断系统、温控系统、市电可用度、系统监控可用度,判断机楼、站点机房的健康状态,结合设备生命周期管理和健康度模型,设置相应的巡检维护计划及预警功能。

3.4 能耗管理

该功能通过对各用电设备的分项用电量、总用电量进行实时监测获取能耗数据,通过精细化统计和分析以及智能化管控,实现动环体系整体能耗水平的测评,便于运营者准确和快速地掌握整体能耗状况,如图6所示。通过比较不同行业的能效水平,制定科学的衡量标准,提供能耗指标阈值管理和预警生成功能,同时实现节能减排。

图6 动环集中运维管理平台能耗分析图

(1)提供动环体系各个节点的能耗总量视图,直观清晰了解机房/站点重要能耗指标,帮助用户梳理机房能耗数据。

(2)提供按时间段、按用电类型、按站点查询用电量和总计,用柱状图、饼图等方式展示能耗数据。

(3)提供区域、机楼、机房能耗趋势曲线,通过趋势曲线、环比、同比、PUE等指标,帮助管理者找出用电差异并调整用电方式。

(4)通过对能耗数据的分析和运算,得出用电方式调整建议,对实际设备进行智能控制操作,实现节能目的,并以表格、柱状图形式呈现节能措施前后机房用电量,评估节能效果。

3.5 告警管理

将现网电源、空调告警接入总部平台,提供重要动环告警的统计结果呈现,可以查看告警清单,定时刷新。实现告警分类统计(分厂家、设备、级别、故障原因等维度),实现异常告警分析,提供超频、超短、超长告警的统计报表。可以按省份、IDC园区、设备类型、告警类型等维度,进行一定时间周期的趋势分析、对比分析、排名分析。

建立关键告警知识库,对各种类型站点设备告警。制定告警关联规则或其他相应手段,通过关联规则标识主次告警和衍生告警,对主告警进行准确的故障定位,提升故障处理效率。

4 结语

本文提出的“动环集中运维管理平台”实现了全网动环设施容量和运行情况的集中监控,集中收集全部集团要求根据采集的全网动环数据,实时采集解析多维呈现,并能提供能耗数据的统一对比分析。根据上下层业务的资源关联关系,辅助统一应急指挥调度和关键问题的督办等,对全面提升全网动环运维能力,有效支撑节能减排、降本增效,具有重大的价值与广泛的应用前景。

猜你喜欢

机房容量运维
平疫结合的CT机房建设实践
高速公路智能运维平台
水瓶的容量
浅谈广播电视播出机房技术操作与维护
基于VPN的机房局域网远程控制系统
取消省界收费站智慧运维思考
传输机房安全操作和日常维护要点
配电线路的运维管理探讨
小桶装水
基于一体化的变电标准运维模式