移动无线网集中监控系统关键问题解决
2016-07-04葛中魁
葛中魁
【摘要】 文章依据中国联通集约化运维为背景,依托河南联通现有网管系统监控的实际情况,全面分析移动网无线网络监控保障中关键问题,并通过研究分析,制定相应的对策,确保集约化维护后,支撑系统安全稳定地运行。河南联通根据集团集约化维护体系的整体部署,于2014年开始进行“集中网管、集中监控、集中派单”的集中化维护体系建设。为无线专业“三集中”支撑系统的稳定性提供手段,同时对其他专业也有借鉴意义。
【关键词】 移动无线网 集中监控 关键问题 解决
中国联通2014年提出以提高网络质量、提升维护效率和效益为目标,全面推进面向业务质量和客户感知的运维转型,逐步建立集约化维护体系。
集中监控作为集约化维护最关键的一环,承担着设备告警监视、设备故障告警派单的基础保障。而移动无线网络因设备复杂,网元数量庞大,告警量巨大的特点,更是监控和派单中的难点。本文仅从移动综合网管系统中无线专业集中监控关键问题着手进行分析和解决。
一、集中监控系统概述
1.1网管系统架构
移动网管系统从网络架构上可分为网元、设备网管,专业综合网管和多专业综合网管。设备网管管理各种网元设备,包括操作维护、配置、性能、告警、安全等,设备网管通过北向接口将配置、性能、告警等上报给专业综合网管解析、处理、入库,并进行后期汇总等工作。对于告警,还需要通过消息及时送往上层监控平台呈现。专业综合网管通过北向接口将告警、性能等信息送往上级总部综合网管系统和多专业综合网管。
1.2河南联通移动网集中监控现状
河南联通移动综合网管作为移动网基础网络管理平台,实现了同各设备厂家网管和总部网管的互联。已利用该系统进行故障集中监控、性能数据采集、网络维护、生产分析等工作,在河南联通日常运维工作和网络分析工作中发挥了重要的作用,为设备维护、网络规划、市场发展提供强有力的支撑。
二、集中监控系统问题分析
2.1 设备网管与网元连接不稳定
设备网管与网元接口,G网和W网均通过基站控制器(BSC/RNC)后管理模块连接,LTE是设备网管直接与基站通信,设备网管均集中在省网管中心机房。接口不稳定主要原因主要有以下几个方面:DCN网络瞬断、厂家自身私有接口不稳定、基站控制器的后管理模块故障等。
接口不稳定会导致一部分告警丢失、告警清除不掉的情况,给日常维护造成漏判、误判,同时会导致考核数据不准确。
2.2 设备网管与综合网管连接不稳定
设备网管与移动综合网管告警接口存在多种,有SOCKET、CORBA、人机命令、数据库等。各种接口及在现网应用中的现状如下:
SOCKET接口:Socket接口采用TCP/IP协议,telnet到指定端口,两端分别设置成Client端和Server端,实时接受网元告警消息。现网使用中,此类接口较不稳定,网络稍有抖动就会出现告警丢失的情况。
CORBA接口:将私有接口转换成标准接口,可有效保证数据完整性和安全性。CORBA接口偶尔也会出现网络抖动或订阅失效导致告警丢失。
人机命令接口:综合网管通过程序配置向OMC发指令进行告警侦听。此接口同样存在较严重的告警丢失情况。接口较不稳定。
数据库接口:综合网管通过数据库驱动软件直接连接数据库查询。在数据库不出故障的情况下,接口非常稳定,但不具有及时性。
2.3 无线网元上报告警格式问题
无线设备厂家告警分别从两类网元上报:BSC/RNC和基站。BSC/RNC上除产生BSC/RNC全局性告警外,还有针对基站的接口告警,无法把两者区分。维护中BSC/RNC和基站告警的重要性不同,在网管上无法根据告警标题做级别重定义,因此存在无法定位网元和级别的问题。
2.4 无线网元告警数量巨大
统计全省无线告警数量情况,全部无线网络告警量每天在30-35万条之间,BSC/RNC的告警量8-10万条之间。提取全省无线BSC/RNC一周告警做分析,工程割接占比达到58.64%,资源负荷类告警占32.98%,设备硬件软件告警只占7.2%。如此大量的告警,如果不进行告警梳理,将割接和不影响业务的告警进行筛选和级别重定义,无法形成派单和处理。
三、问题解决
3.1 设备网管与网元连接
厂家私有接口问题解决措施
设备网管和网元间各厂家均是私有接口,理论上来说出现问题的概率偏小,但爱立信G网设备丢失告警的概率偏高。
解决方案:通过在厂家OMC上部署告警同步程序,根据网管设备处理能力选取合理的同步周期,比对设备网管告警与BSC/RNC后管理模块告警的一致性,进行同步。
DCN网络中断、后管理模块故障监控措施
设备中断都有类似“网元断链”或“网元连接中断”的告警出现,通过监控此类告警判断某些网元是否连接故障,并根据告警产生时间长短,逐级提升告警级别;另外综合网管上编制PING各BSC/RNC后管理模块IP地址的小程序,在值班巡检时检查。
3.2 综合网管与设备网管连接
监控OMC上报告警。综合网管上编写程序,监视各个设备网管北向接口告警信息,某个OMC在一定周期内(如10分钟)无告警消息报送即产生告警并发送手机短信。
综合网管和设备网管之间告警同步。考虑到SOCKET、人机命令等接口没有同步机制,即使是CORBA接口,订阅同步及对所有告警分析,因告警量大,受到设备处理能力限制,河南联通采取的措施是数据库同步。
3.3 无线网元上报告警格式问题
基站小区告警产生在BSC/RNC上的情况相当多,必须进行全面的梳理,并不断核对观察,筛选出告警标题。通过细化修改综合网管的解析文件,把这些告警对象匹配到基站和小区上面。
3.4 无线网元上报告警数量巨大
工程预约实现工程告警过滤 。工程预约的功能是将某个时间段内计划割接的网元信息导入到网管系统,综合网管告警监控系统会将割接时间段内的此网元告警标记为工程状态,并且不生成告警工单派发。录入的信息包含节点类、端口类、小区割接类、未入网网元预约等。
通过告警标准化梳理重新定义告警级别。告警标准化梳理,并重新定义告警级别是集中监控必不可少的环节。河南联通告警级别共分6级:重大、严重、主要、轻微、警告、不确定。不同级别告警影响业务的程度不同,采取不同的处理时限。
告警关联规则设置。告警关联就是将基本同一时间发生的有一定相关性的告警进行关联分析,分衍生关联、主次关联、阈值升级。通过告警关联,能有效降低高级别的告警数量和派单数量。
3.5 其他辅助措施
告警短信辅助监控。通过与短信网关接口,设置设备重大和严重告警、设备网管与综合网管断连告警发送短信给相关维护责任人,辅助监控。
智能巡检配合。智能巡检是利用人机命令接口,向网元设备发指令提取实时的各种链路状态、CPU负荷、重要告警等信息,将提取的报告解析与预先设置的标准或门限比对,判断设备是否正常。对巡检结果会以报告的方式提供给维护人员查阅,同时设置异常巡检结果直接转告警。
四、总结
在联通如此庞大而且多种制式网络并存的情况下,集约化运维是一项巨大而复杂的工程,而集中监控系统是关键。对跨专业的告警关联要做细致分析和梳理,特别是基站主设备与传输、动环专业告警关联是定位基站故障原因的关键要素。与相关的系统协同配合,如电子运维的精细化派单、资源管理系统的完善等,与之相匹配的管理流程也要及时跟进。
参 考 文 献
[1]夏海涛,詹志强 新一代网络管理技术 北京邮电大学出版社 2004
[2]中国联通OSS/WCDMA网综合网管系统与网元管理系统间接口技术规范 2013