APP下载

集中监控模式下的信息通信网络故障管理探索与实践

2015-02-28

电信科学 2015年1期
关键词:工单网管监控

王 洋

(中国移动通信集团山西有限公司网络部网络管理中心 太原 030009)

1 引言

移动信息通信网络技术和移动信息业务种类的专业化、复杂化、多样化、快更新、细分工等发展特点,要求网络监控工程师和设备维护工程师不仅具有丰富的维护经验,而且要具备较强的知识更新能力。信息通信网络中任何设备/局部区域的性能降低/故障都将导致整个网络服务能力受限。传统网络运维模式存在重复承担监控任务、流程自动化程度和信息智能化程度低、专家知识与经验固化周期慢、网络质量评估智能化薄弱等问题[1]。因此,集中故障管理为保证网络运维可靠、高效运行提供了重要的解决手段。

2 扁平化监控与层次化管理

为了实现全网运维的可视可控、可管理,通信网设备的全量可靠接入成为集中监控的基础资源。由于网络拓扑自身存在层次化特征,各级通信设备对于网络整体效能的影响程度存在差异,因此,层次化管理为集中化监控提供了一种网络管理思路。根据经典管理理论中的“管理幅度”(management span)理论,即:由于监控工程师经验精力、知识能力的限制,其管理幅度(宽度)有限;工程师数量配置与基本管理内容和管理流程的影响因素有关;基于管理幅度的组织规划合理性直接影响层次化管理的效能[2]。

集中监控管理幅度规划应考虑的一些影响因素如下。

·明确目标与权限规划:以网络管理权责为基础,明确各自的目标和任务,降低各级主管在工作中的偏差纠正、职责划分等所带来的资源消耗。

·任务复杂度特征:负责复杂度较高的任务的网络主管,建议其管辖的监控人员数量有所降低(管理幅度应相对较小)。

·人员能力特征:对于具备较高网络监控、沟通协调、网络管理能力的人员可逐步增加其工作量,扩充其管理幅度,培养自主管理能力(管理幅度应相对较大)。

·任务工作量特征:当监控任务协调程度较高(如IT系统功能需求描述与验证测试、一线维护人员问题沟通与协助处理等)时,其管理幅度需减小。

·渠道流程成熟度:当集中故障管理中的信息上报、沟通理解、核查处理、质量评估等流程环节已经具备规范化流程和手段时,负责该项任务的故障管理人员的管理幅度可适当扩展,但仍需保留其原有任务内容,以保证后续的完善和优化。

扁平化的集中监控并不是简单意义上的中间层网络运维人员数量减少,而是将其在网络运维环节中涉及的管理资源进行整合,实现信息传播加速和信息价值突显,对于信息通信网络管理由核心层向末梢层的业务全流程服务质量感知,提高全网的管理质量和掌控能力。层次化管理实现了权责分明,通过适当的管理幅度和管理层次划分,可以提升网络管理的运营效能。扁平化监控与层次化管理不仅提高了网络质量管理的全程性和透明性,而且也增加了网络监控管理的风险性。通过建立网管系统冗余备份、细化账号权限差异、规范账号授权流程、授权与审核相分离、构建网管失效应急预案等系统手段和管理流程,可以进一步提升网络管理的风险防控能力。

3 集中监控模式下的故障管理

集中故障管理是区域级网络管理向全局级网络管理的探索实践,其涉及的内容包含组织结构、权责优化、告警管理、故障管理、网管系统等多个方面,而故障流程管理是集中故障管理的核心和各环节的纽带。从网络告警、故障管理角度对集中故障管理进行分析讨论。告警管理、工单管理分别作为集中故障管理的“信源”和“信宿”,而“故障管理”作为管理流程成为两端的融合“信道”,如图1所示。

图1 集中监控模式下的故障管理环节

3.1 告警管理

3.1.1 网络设备告警获取

网络设备告警全量接入是集中故障管理的基础,网络设备告警包括主动上报类告警和被动探测类告警,主动上报类告警是将设备自身运行状态过程中产生的状态告警(接口、板卡、模块等)上传至网管系统;被动探测类告警是由网管系统发送消息至网络设备,根据网络设备反馈信息判断设备是否为正常的运行状态。

主动上报类告警由设备厂商进行告警含义定义,网络设备厂商首先将网管(如OMC、OMCR等)上传至综合网管(如OSS),在此过程中新增设备特征信息(网元设备名称、告警发生时间、端口速率等)和告警特征信息(如告警逻辑分类、设备影响情况、业务影响情况等),然后根据派单规则进行故障工单派发;被动探测类告警通过告警标准化(设备特征信息)进行规范化处理,后续流程与主动上报类告警相同。

由于网管系统字段庞杂且数据量巨大,设备告警字段信息传送与网管系统告警字段均预设解析协议,通常会对字段长度进行长度限制,为了防止字段信息异常导致垃圾数据积累或者解析错误,网管字段信息建议采用自动匹配或者基于文本挖掘技术的关键字异常检测预警;通信设备告警时间通常采用自身时钟(设备首次配置设定时间,后续由含有晶振时钟的板卡推算时间),当自身时钟出现异常时告警发生时间上传将出现错误,进而导致工单派发异常,因此建议接入时间与全网设备时钟规范同步;性能告警(如语音全程呼叫成功率、网络分组丢失率等)作为反映网络客户服务质量和客户网络感知的重要手段,必将逐步受到重视,性能告警的动态阈值科学化、全局性、系统性设置与组合将成为性能管理的关键环节。

3.1.2 告警标准化管理

网络设备告警源于不同设备厂商定义的告警信息,但其告警信息字段内容存在明显差异,而且其更关注设备运行状态,对于设备服务质量和全网性能影响缺乏精确的分析评价。因此,智能告警标准化管理显得十分必要。告警标准化字段通常包括告警逻辑分类、告警逻辑子类、告警对设备的影响、告警对业务的影响等[3],由于设备软件版本的更新升级将导致新告警产生,告警信息内容将随之剔除或者新增,然而对于已部署网管系统的标准化告警无法及时发现和更新,因此建立告警标准化专家管理系统(alarm standardized expert management system,ASEMS)将规范告警标准化流程,降低沟通与管理成本,如图2所示。

ASEMS实现了告警标准化智能化、专家化梳理过程:设备告警通过网管系统内嵌的告警标准化梳理表进行告警信息关键字段自动匹配,如果匹配成功则按照告警派单规则形成电子故障工单,如果未匹配成功则该告警信息进入ASEMS;ASEMS将未匹配告警信息部分相关字段(如专业类型、设备类型等)自动填充至告警标准化字段信息,将缺失的告警标准化信息推送至相应专业的网络设备厂商专家进行信息补充,当标准化信息字段全部补充完成后提交网络维护专家,专家多数评审通过则纳入告警标准化梳理表,反之填写评审意见后退回网络设备厂商专家重新修订。

3.2 工单管理

3.2.1 告警派单规则制定与分析

信息通信网络不同专业、不同厂商、不同类型的告警种类和特征很多,全量告警直接形成故障工单不仅会带来浩大的维护工作量,而且会隐藏关键故障源点。单条告警派单规则有两种梳理方式:正向梳理,基于维护工程师检验进行全量告警,逐条筛选形成“白名单”方式的派单规则;反向梳理,由于通信设备组网方式、网络设备软件版本以及网络环境差异等因素制约,全量告警并不会全部产生,按照“排除法”开启全量告警全量派单,及时剔除不需要派单的告警,最终形成“黑名单”方式的派单规则。两种梳理方式对比见表1。

表1 派单规则正向梳理与反向梳理对比

当网络中的设备发生故障时,快速发现、排除故障是保证网络安全、可靠运行的关键,也是网络运维管理的首要任务。单一的故障也可能引发海量告警,大量的单条告警独立派发故障工单不但增加了网管系统的开销,而且掩盖了故障的根源,非常不利于网络运维人员排查故障。通过对告警进行合并和转化,将多个告警合并成一条具有更多信息量的告警来代替多条告警[4],以协助网管人员分析故障信息、快速定位故障,即告警关联与工单合并追加。

工单追加与合并主要涉及设备维护操作系统、网管监控系统、故障工单系统,该策略主要包括合并规则、时间点设置、工单呈现与回复、追加规则等,如图3所示。

图2 告警标准化专家管理系统

图3 工单追加与合并策略

工单追加与合并策略过程如下。

(1)以告警关联逻辑、设备链接拓扑、地理维护区域为基础,形成工单合并逻辑。

(2)以特定时间周期T为粒度,根据告警历时(告警消除时间与告警发生时间之差)形成消除告警量柱状图并拟合为曲线(如图4所示),形成故障告警历时数据分布,T1表示在消除告警量最大时所对应的时间点,T2为工单追加合并派发时间点,T3表示告警工单派发最长的时限点,T2~T3为网管系统工单消息排队的最长时间。

(3)若合并后告警满足派单时延要求则形成故障工单,当故障工单包含告警未消除且该工单涉及关联逻辑(告警关联、拓扑关联、区域关联)又发生新告警时,追加至该工单;反之,生成新的故障工单。

为了进一步评价和优化派单规则质量,通过建立告警数据库,对优化调整后的单条派单规则、关联规则、合单规则、追单规则等效果进行分析评估,即信息通信网络告警派单规则分析及评估功能方法,系统功能架构如图5所示。

该方法从网管系统负荷和维护人员故障工单处理工作量角度,对优化前后的告警派单量进行量化评估,结合网络告警属性和网络服务质量评估派单规则合理性,不仅为告警关联规则和派单规则匹配度分析提供数据支持,而且为工单合并和工单追加方式提供了验证评估手段。

图4 故障告警历时数据分布实例

图5 信息通信网络告警派单规则分析及评估系统架构

信息通信网络告警派单规则分析及评估方法可对优化后的派单规则及关联规则的合理性和可靠性进行事前分析,辅助网管系统发现问题,通过引入信息通信网络告警派单规则分析及评估,实现告警到工单的可视、可控、可分析。对告警、工单进行模拟分析后,结合维护需求选取科学合理的派单规则,可进一步提升现网故障派单的及时性、准确性,提高网络的运维管理水平。

3.2.2 故障工单预处理

对于无线、传输、数据等单专业而言,故障工单预处理是在形成故障工单后人工输入或者系统自动执行相关操作命令(如功能模块重启、端口/板卡状态查询等);对于跨专业而言,故障工单预处理可实现跨专业的告警关联和故障定位,以无线专业为例,当无线设备网元出现故障告警时,提取该告警网元的物理名称和相应物理位置信息,通过告警网元的名称及物理位置信息关联到该网元所在的传输链路、动环机房,然后根据关联网元的信息输出相应网元的全量告警信息,最后对各专业的告警信息进行综合分析和智能关联,并仅对故障点源头专业派发故障工单。

由于通信设备上报告警信息存在大量英文字段且文字类告警可能对应不同的告警描述,通常可将相关英文进行直观汉化描述并补充告警辅助字段信息(如告警详情描述、告警预处理建议等)。另外,对于工单相关信息字段配置需避免内容重复和文字歧义,最终达到工单所含内容文字量最小化和信息价值量最大化的目的。

通过对各专业告警数据信息的关联及智能分析,实现了故障准确定位,同时对定位准确性进行了事前验证评估,可以实现对故障的精准派单,支撑维护排障,缩短故障时长。

3.2.3 故障工单直派

故障工单需直派一线末端维护班组,不仅简化故障信息传递的中间环节,而且更有加强末端故障处理的掌控能力。为了协助一线维护人员更好地理解故障工单信息,以一线维护人员最密切的无线专业和传输专业为切入点开展告警故障工单的“三化”(汉化、简化、通俗化)质量提升,依托故障工单形成告警信息重点字段(所属EMS、网元名称、基站号、小区站号、载频号、CI号等)的有效传递,为基层维护人员的故障关键信息的辨识和重点理解提供便利。

3.3 故障管理

3.3.1 渠道优化与应急预案

集中化故障管理实现了一线维护人员与核心网络管理人员的直接沟通,同时也带来了频繁的资源成本,因此,建设高效可靠的信息渠道(网络设备整体性能、板卡端口状态查询等)成为问题的关键。通过分析一线维护人员的工作习惯,为搭建手机掌上运维、飞信机器人、微信沟通平台、工程割接管控系统等提供了便捷的新工作模式和沟通方式。

为了防止区域维护人员对网络运行状态存在“看不到、听不清、摸不透”的问题,建议网络运行采用关键性能指标实时报、网络设备自助查询、区域差异化“红橙黄蓝”应急预案和信息发布等方式,从而为一线维护人员提供更加可靠和及时的网络运行资讯,提高基于网络维护的网络感知水平。

集中故障管理系统的运行状态直接影响着网络管理的有效性,对于系统失效的情况需建立一整套完整的应急预案,如数据库负载均衡系统、二级监控系统、地市自主应急监控系统等。

3.3.2 管理流程穿越与质量管控

基于告警信息数据流、工单关键字段流、故障发布信息流、全业务质量关键信息流[5]的钻取分析,可实现集中化管理的事前风险评价、事中预警监测、事后评估优化,同时对于各系统环节匹配优化、工单内容质量监督、故障处理效能评价、网络故障原因挖掘、代维/自维护流程规范等提供了丰富的信息资源。例如,通过告警标准化字段信息对各级别/各厂商/各专业的告警量/非工程告警量变化波动分析、基于告警标题的排名分布特征和异常类告警(超量网元、超长告警、超频告警等)的网络“隐性故障”的显性化;结合工单处理时长对区域维护质量进行基础评估;利用工单回复原因分类的故障分布情况等评估网络故障原因,并为基于故障原因概率分布特征的告警工单派发提供数据支持。

集中监控管理是集中故障管理的基础,构建顺畅的“告警发现—告警标准化—告警派单规则—工单质量管理”工作流将直接助力集中故障管理工作的开展,而“渠道优化与应急预案”将为集中故障管理提供环节优化和稳固支持,“管理流程穿越与管控”提升为整体网络监控质量、网络排障质量管理提出了可行的策略和手段。

4 集中故障管理与新兴技术

集中故障管理不仅是一次流程制度的变革,而且是一项工程实践的探索,其本身就是创新思路与新兴技术的融合,是传统方法向现代管理的转变,如基于文本挖掘技术的工单回复质量、网络故障原因分析、基于移动互联网思想(价值多元性、价值时空性)的支撑系统优化等。以集中故障管理中的大数据可视化技术、云技术与云应用为例展开论述。

4.1 大数据可视化技术

一个大型城市移动用户的位置更新信息量超过8万条/min,移动电话呼叫次数为300万次/h,互联网每天30亿次点击量将产生70~100 TB互联网访问量[6]。通过对信息通信网络大数据的联动分析,可以实现信息通信流量趋势的预测分析和波动预警、网络故障诊断定位加速、网络故障恢复时长降低、网络潜在恶意攻击预警、数据设备容量规划、网络系统非法入侵取证以及流量内容聚类等系统功能[7~9],使整体网络管理方式由“业务分布规划”驱动向“数据价值策略”驱动转变。

以全专业全量告警信息大数据为基础,按照“专业内分层、专业外分块”的原则实现大数据可视化探索与实践,即:专业内告警分层,基于告警的设备归属、设备间拓扑关系,通过对专业内告警进行按级别或按业务影响情况的分类,对告警间关系进行分层展示,通过可视化网络图形,找出专业内的频发告警或源头告警;专业间告警关联,基于网元机房归属、地理位置、拓扑关系,通过复杂网络方式展现告警跨专业关联情况,展示专业间告警关联点,以关联点入手反推出跨专业关联告警,优化派单规则,找准预处理关键信息(如图6(a)所示);基于网元地理位置信息,通过热力图方式展现区域内网络告警的渲染图,并进行区域内网络情况钻取,以反映区域内网络运行质量(如图6(b)所示)。

大数据可视化技术提供了一种更加直观的数据呈现和网络运行质量管理手段[10],大数据资源还可以在网络维护质量评估、网络性能趋势异常检测、网络运行隐性故障预警等方面提供新的思路和方法。大数据与数据挖掘技术为新时代环境下的网络智能化管理提供了科学化的方法手段,而且注入了持续的发展动力,开拓了全新的知识视角。

4.2 云技术与云应用

虚拟化技术是一种典型的云技术和云应用,其实现了计算机硬件资源的抽象化,将硬件资源抽象为一系列的接口资源,隐藏属性和操作之间的差异,并允许用一种通用的方式查看并维护资源。桌面虚拟化(desktop virtualization)将分立的用户桌面环境与计算资源解耦合,把软件操作系统、应用执行程序等涉及硬件资源的I/O封装在一个虚拟机的文件中,服务器存放每个用户的完整桌面环境,服务器虚拟化软件可以让多个虚拟机在一台硬件服务器上运行[11]。

瘦客户机桌面虚拟化监控终端的功能软件部署和更新统一简洁,管理维护便捷,可以直接支持新功能需求;通过热桌面技术可以自由移动办公位置且不需要重新启动操作系统和运维系统;由于监控终端通常为24 h运行状态,虚拟桌面方式较传统PC方式节能约50%,且其散热、噪音优势明显。集成化程度较高的虚拟化桌面系统存在应用型环节,可能会影响到系统稳定性,如防病毒软件系统、Windows登录身份验证系统等安全管理技术是否适用不同等级的监控终端需求[12],相对独立的虚拟化桌面系统杀毒功能定时策略是否可能给系统带来突增负荷等。

图6 大数据可视化技术

5 结束语

集中监控模式下的故障管理是一项复杂的系统工程,其涉及网络运行维护管理全流程,网络管理、网络监控、网络维护和支撑系统均承担着重要的环节枢纽作用,每股环节的“短板”都将影响整体故障管理效果和水平。管理流程源于工作实践,倾听自维人员和代维人员的需求,避免出现流程及其辅助系统的“用不惯、不好用、没人用”的情况。关注客户感知需求,树立人性化管理意识,强化内部服务意识,建立顺畅的沟通机制和评价指标体系,激励一线问题发现与引导自主创新实践。

在互联网大数据时代背景下,瞬息万变的业务市场和客户需求给信息化企业带来了“短、频、快”的运营要求,网络运维管理也需要融入互联网思想,让“反应迅速、专业专注、信息开放、价值平等、部门协作、资源分享”等互联网品质助力新型信息通信网络运维体制的转型和发展。

1 吕雪峰,陈刚.电信企业网运体制改革探索.通信企业管理,2014(2 ):64~66 Lv X G,Chen G.The structural reform exploration of telecommunication enterprise network maintenance.Enterprise Management,2014(2):64~66

2 施雪华,陈勇.大部制部门内部协调的意义、困境与途径.深圳大学学报(人文社会科学版),2012,29(3):90~95 Shi X H,Chen Y.Significance,dilemmas and solutions:internal coordination in the super-ministry system.Journal of Shenzhen University(Humanities & Social Sciences),2012,29(3):90~95

3 黎娟.通信网网管支撑系统运行质量管控的研究与实现.电信科学,2013,29(12):139~144 Li J.Research and implementation on quality control of network management support system.Telecommunications Science,2013,29(12):139~144

4 郑哲渊,刘渊.面向大规模告警数据的高性能信息筛选系统.计算机工程与设计,2014,35(2):435~439 Zheng Z Y,Liu Y.High performance information filtering system for large-scale alarm data.Computer Engineering and Design,2014,35(2):435~439

5 叶长根.基于业务平台综合网管的全业务流程监控设计思路和解决方案.电信技术,2014(3):64~68 Ye C G.Design ideas and solutions of all business process monitoring based on integrated services management platform.Telecommunications Technology,2014(3):64~68

6 包劼.大数据,大变化,大未来—大数据支撑驱动电信运营商转型发展.通信世界,2013(20):49~50 Bao J.Big data,big change,great future-telecom operators transformation development be driven by big data.Communications World,2013(20):49~50

7 Rijmenam M V.How telecom companies can improve their results with big data.http://www.bigdata-startups.com/how-t elecom-companies-can-improve-their-results-with-big-data/,2014

8 Ignasi P O,Pere B,Xenofontas D.FaRNet:fast recognition of high-dimensional patterns from big network traffic data.Computer Networks,2013,57(18):3897~3913

9 Liu J,Li T T,Cheng G,et al.Mining and modeling the dynamic patterns of service providers in cellular data network based on big data analysis.China Communications,2013,10(12):25~36

10 陈为,沈则潜,陶煜波等.数据可视化.北京:电子工业出版社,2013 Chen W,Shen Z Q,Tao Y B,et al.Data Visualization.Beijing:Publishing House of Electronics Industry of China,2013

11 雷璟.安全桌面虚拟化信息系统设计与实现.电讯技术,2014,54(5):637~643 Lei J.Information system design and implementation based on security desktop virtualization technology.Telecommunication Engineering,2014,54(5):637~643

12 Liao X J,Zhang M,Kong S Q.Experience of constructing virtual desktop.WIT Transactions on Information and Communication Technologies,2014(51):293~296

猜你喜欢

工单网管监控
客服工单监控技术的开发与研究
基于量化考核的基层班组管理系统的设计与应用
The Great Barrier Reef shows coral comeback
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
给水网管的优化布置研究
基于HANA的工单备件采购联合报表的研究与实现
电力95598热线全业务集中后的工单预警机制
“五制配套”加强网管
PDCA循环法在多重耐药菌感染监控中的应用