APP下载

通信网管系统数据质量管控的技术研究与实现

2016-01-04

电信工程技术与标准化 2015年4期
关键词:监控



通信网管系统数据质量管控的技术研究与实现

黄敏飞,王翔,谭展

(中国移动通信集团广西有限公司,南宁 530028)

摘 要本文提供一种新思路,即通过加强采集层的数据质量监控、质量分析、问题辅助定位,以及补救措施等技术方案提高数据质量,从而更好地保障业务支撑系统的正常运行。同时,本文提及到这些数据质量管控的技术研究方案,在统一采集平台中得到了技术验证,并取得了良好的应用效果。

关键词网管系统数据;数据质量管控;监控

随着全业务运营时代的到来,市场竞争压力也越来越大,而市场也会将这种压力逐步传递给网络部门,从而需要网络部门提供更高质量的服务,这些服务都需要强有力的IT系统来支撑。而IT系统支撑的能力,在很大程度上都依赖于数据,如果系统的数据质量差或共享不够充分,则都会直接影响对外提供服务的能力。

此时,传统的“烟囱式”采集及数据管理模式逐渐满足不了网络运维管理集中化的要求,弊端显现如下。

(1)系统扩展能力不强,采集能力无法平滑扩展。

(2)系统可靠性低,采集任务静态负载分配,出现故障无法自动恢复。

(3)采集资源浪费,目前不支持按需采集,采集普遍应用价钱昂贵的小型机硬件架构,但资源利用率却很低。

(4)采集效率不高。采集速度和接入速度远达不到应用要求。

(5)采集管理维护困难。各专业分别开发采集程序,管理维护岗位重复设置,缺乏集中维护监控手段。

(6)采集质量无法保障。缺少采集数据质量监控手段,采集数据不及时、不准确,无法自动发现。数据缺失,却无法执行自动补采。采集问题难以定位,采集过程及指标算法不透明,无法管理。

统一采集在此种背景下应运而生,从构架上打破了传统的以专业划分的独立网管系统采集建设体系,建成为一个基于私有云资源、云计算、负载均衡技术,实现采集任务管控、数据质量管控、北向接口管控的综合采集平台。统一采集层,实现了对设备、OMC、信令等数据的采集、管控与共享,真正实现了采集层与数据层及应用层的解耦。提升数据质量管控能力,一直是众所关注的难题之一,而在采集层保证数据质量的高效可用将是支撑业务顺利开展,提升全网管系统整体运行质量的关键。

本文将围绕统一采集平台如何提高数据质量管控领域做些相关技术研究,并结合广西移动的实施效果做些阐述和说明。

1 现状研究

1.1 数据质量管控现状

由于现存的采集模式多是专业网管直采,Counter 及Counter生成KPI层的数据质量管控方式,仍采用各专业网管自管控,对以单项的、分散的、独立的数据管控为主。而数据质量的监管方式相对单一(手动或半自动),导致了设备采集上来的数据频频出现了不完整、不及时、不准确状况,直接影响到上层的数据应用。尽管各自系统都有一些补救措施,但由于补救不及时效率低,还是对业务支撑的顺利开展和全网运行质量造成了负面影响,如图1所示。

1.1.1 所采数据的质量不够优质

(1)数据完整性不够。现有采集模式下,往往采集上来的数据完整性不够,数据质量达不到应用系统所需的要求,一直是运行质量得不到提升的关键。

(2)数据准确性不高。现有专业网管对采集数据准确性验证的方面相对比较欠缺。采集上来的数据,缺少历史值、经验值的对比,即使数据异常也不会标注,由于这种异常数据(坏数据)可能导致上层分析类数据造成很大的偏差,从而影响到决策类应用。

(3)数据及时性不理想。现有的专业网管采集,由于缺少对采集数据质量监管力度,往往很难保证数据采集的及时性,直接或间接导致数据延迟上报,分析及报表类应用也常常因为数据不及时受到影响,界面数据缺失、显示异常。

1.1.2 各专业采集数据不够规范

目前,采集上来的数据不够规范化,往往数据处于不同的系统不同接口,数据的格式和数据质量衡量的标准差异很大,这给上层应用的处理带来很大不便。

1.1.3 缺乏统一的数据信息获取途径

设备数据采集均由各自专业网管承担,缺少统一的数据采集出口。同一类型的数据重复采集,采集方式也不尽相同、指标算法更是难以统一,导致了数据一致性很难得到保证。这些不一致的数据应用到应用系统中,直接影响业务支撑应用的可信性,在一定程度上影响了网络运行质量。

1.2 数据管控问题解决思路

在“4+1”网管建设模式的演进趋势下,统一采集平台有了新的发展空间和潜力。而在统一采集平台下,解决专业网管“烟囱”时代采集层数据质量存在的不足和诸弊端、提高数据质量的解决方案,却离不开采集层数据质量的监控、定期的质量分析和报表分析、问题定位以及一些补救措施和手段的应用,如图2所示。

2 基于统一采集平台的数据质量管控技术方案

2.1 监控手段提升采集数据质量

统一采集平台的数据质量管控模块采用了监控手段提高数据质量,包括采集层的数据及时性监控、数据完整性监控、数据合理性监控、告警数据质量监控、数据异常监控等功能。通过可视化监控界面,维护人员能够快速、简捷定位到采集层数据的问题所在,便于及时做出决策降低了影响到上层数据应用概率。

图1 网络数据采集流程图

2.1.1 数据及时性监控

对采集源的数据及时性进行监控,在数据可视矩阵图上能够清晰地标注出及时的数据、延时的数据以及采集异常的数据。同时,该功能能够对不及时或异常的数据进行问题定位。通过对采集任务执行过程监控、数据采集情况的检查信息以及采集过程出错情况来完成数据不及时的原因。

2.1.2 数据完整性监控

数据完整性监控提供着采集源以及指标组两种维度的监控。从采集源、指标组维度监控并显示某个时间点数据条数、经验数据条数以及数据完整性情况。

采集源监控维度,通过完成监控日期、监控粒度以及选定采集源后,可以看到该采集源下数据完整性监控的矩阵图,通过矩阵图能够确定该采集源数据任务生成情况、下发任务的成功情况、采集异常情况以及数据的缺失情况。该界面提供具体采集信息,包括完整率、采集条数、经验值、完整率阈值。

指标组维度监控,通过完成监控日期、监控粒度以及特定指标组的选定后,可以看到该采集源下数据完整性监控的矩阵图,通过矩阵图能够确定该采集源数据任务生成情况、下发任务的成功情况、采集异常情况以及数据的缺失情况。

厂家完整性监控功能,可以根据主动监测结果,从宏观到微观方式监控厂家的准备情况,显示厂家、某个采集源再到指标组的数据准备情况。从厂家完整性监控的角度,进一步提升对采集层数据质量监控的力度,保障了上层支撑应用的系统正常运行。

图2 移动OSS 4+1系统规划

2.1.3 数据合理性监控

针对重点考核的指标进行合理性监控和分析。

根据同期或历史经验值(可设置)进行重点采集和指标合理性比对分析,能够自动对那些超出阈值或低于极限值的采集源下的重点考核指标筛选。在数据合理性监控可视界面上,系统将比对之后不合理的数据进行了标注,运维人员可及时对这些异常指标进行数据处理和采取相应补救措施,避免这些不合理的采集数据对上层应用决策和分析造成负面影响。

2.1.4 告警数据质量监控

实现了对告警数据的完整性、合理性、及时性监控,保证了从统一采集平台输出的告警数据质量。

完整性:协议层单位时间收到多少字节数,单位时间截取出消息的字节数,单位时间截取出的告警条数,单位时间解析后输出的告警条数。

合理性:单位时间截取出消息的字节数/单位时间收到字节数,简称告警截取率;解析后条数/解析前的条数,简称告警解析率。

及时性:单位时间内抽样检查,告警解析完成的时间,该告警截取完成的时间。

2.1.5 数据异常产生告警

统一采集平台的数据质量管控功能,具备数据异常处理或识别能力,通过该功能保证高品质的数据质量。

当采集上来的数据(包括配置、性能以及告警等数据)在解析或KPI计算的过程中处理失败时,平台能够做出数据异常识别,并能够生成数据异常告警。同时,统一采集平台的数据质量管控功能,具备查看数据异常告警的可视界面,也应该可以将这些数据异常告警log到日志中。

2.2 质量分析和报表提升采集数据质量

统一采集平台的数据质量管控模块能够通过数据质量分析和报表数据分析的手段对采集层的数据质量有一定的提升。

2.2.1 数据质量分析

统一采集平台提供了数据质量综合分析功能,能够进行分析维度选择、支持完整性分析、数据量分析、数据质量分析(日粒度、小时粒度)、任务量分析。每种分析类型的柱形图都可下钻至详细信息列表。

2.2.1.1 完整性分析

从南向、采集、北向数据流向和厂家两个维度分析某天某类网元指标数据完整性,同时对比分析各设备厂家的原始Counter数据情况,显示某个采集源的具体情况。

支持按照专业类型、网元类型、时间的条件过滤进行完整性分析支持数据流向和厂家两个维度。

数据流向维度:数据流向维度图维度细化条件为南向、采集、北向,横坐标为时间单位1,不足一天以当天0点到当前时刻的前一个整点的数据来统计,纵坐标为完整率,鼠标放到相应的柱状条时显示该时刻的完整性分析信息,信息包括数据流向、时间点、完整率。柱状图可下钻到详细分析信息页面。

厂家维度:厂家维度图维度细化条件为全部厂家,横坐标为时间单位1 h,不足一天以当天0点到当前时刻的前一个整点的数据来统计,纵坐标为完整率,鼠标放到相应的柱状条时显示该时刻的完整性分析信息,分析信息包括厂家、时间点、完整率。柱状图可下钻到详细分析信息页面。

2.2.1.2 及时性分析

从南向、采集数据流向和厂家两个维度分析某天某类网元指标数据及时性,同时对比分析各设备厂家的原始counter数据情况,显示某个采集源的具体情况。

支持按照专业类型、网元类型、时间的条件过滤进行及时性分析。及时性分析支持数据流向和厂家两个维度。

2.2.1.3 数据量分析

从counter、KPI数据两个维度分析某天某类网元的数据量。

支持按照专业类型、网元类型、时间的条件过滤进行数据量分析。数据量分析支持KPI层和counter层两个维度。

KPI层维度:KPI层维度图横坐标为时间单位1h,不足一天以当天0点到当前时刻的前一个整点的数据来统计,纵坐标为归属为该所选网元类型的所有KPI层指标组的数据量。柱状条可以显示该时刻的数据量分析信息,分析信息包括时间点、数据量。柱状图可下钻到详细分析信息页面。

counter层维度:counter层维度图维度细化条件为原始counter表个数和原始counter表记录数,横坐标为时间单位1h,不足一天以当天0点到当前时刻的前一个整点的数据来统计,纵坐标为归属为该所选网元类型的所有原始counter层表个数和表记录数。柱状条可以显示该时刻的数据量分析信息,分析信息包括时间点、数据量。能够提供查看详细信息。

2.2.1.4 数据质量分析

从厂家维度对比分析counter数据完整性、及时性。

支持按照专业类型、网元类型、时间的条件过滤进行采集数据分析。采集数据分析的时间粒度为天粒度和小时粒度。

采集数据分析天粒度厂家维度:采集数据分析天粒度厂家维度细化条件为采集完整性、采集及时性,横坐标为厂家,纵坐标为完整率和及时率。柱状条能显示该时刻的采集数据分析信息,分析信息包括维度、厂家、与维度相关的分析值,柱状图可下钻到详细分析信息页面。

采集数据分析小时粒度厂家维度:采集数据分析小时粒度厂家维度细化条件为采集完整性、采集及时性,横坐标为厂家,纵坐标为完整率和及时率。柱状条能够显示该时刻的采集数据分析信息,分析信息包括维度、厂家、时间点、与维度相关的分析值。柱状图可下钻到详细分析信息页面。

2.2.1.5 任务量分析

从任务和负荷两个维度分析任务整体执行情况和对应采集机负荷。

支持按照时间、采集机的条件过滤进行任务量分析,可以选择某一特定采集机也可以选择全部采集机。任务量分析支持任务和负荷两个维度。

任务维度:任务维度细化条件为执行失败、正在执行、等待执行、执行时长小于10 min、执行时长大于10 min,横坐标为时间单位1 h,不足一天以当天0点到当前时刻的前一个整点的数据来统计,纵坐标为任务量,鼠标放到相应的柱状条时显示该时刻的任务量分析信息,分析信息包括细化维度、时间点、任务量。柱状图可下钻到详细分析信息页面。

负荷维度:负荷维度横坐标为时间单位1 h,不足一天以当天0点到当前时刻的前一个整点的数据来统计,纵坐标为负荷率,鼠标放到相应的柱状条时显示该时刻的任务量分析信息,分析信息包括采集机、时间点、负荷率。柱状图可下钻到详细分析信息页面。采集机可以选择某一特定采集机也可以选择全部采集机。

2.2.2 数据质量报表

系统提供数据的完整性、及时性、合理性的报表。

数据分析报表:支持完整性、及时性、合理性的小时报、日报表。选择过滤条件包括报表类型、专业、层次、时间周期、厂家、数据类型、开始时间、结束时间、指标组名。

从数据质量报表进行数据质量分析,在某种程度为提升数据质量管控能力寻求了另一种保障手段。

2.3 补救措施提升采集数据质量

当数据不完整、数据延时、数据不准确的诸多状况已经发生,在统一采集平台上要保障采集层数据质量,能够支撑上层应用系统正常运行,管控功能少不了补救措施。目前,应用到统一采集平台的补救措施有3种,分别为数据自动补采、数据人工补采、数据填补。

2.3.1 自动补采

通过设定自动补采策略,作为后续数据自动补采的基准。策略中,内容包括采集源、补采检查点、一天后补采检测点、描述信息等。

统一采集平台的管理服务器的自动补采线程,定时轮询检测数据完整率情况,当数据完整率低于90%(设定值)时,管理服务器会根据补采策略下发补采任务,自动执行数据补采操作。

数据自动补采功能,很大程度上提高了数据的完整率,从而保证了采集层的数据质量。

2.3.2 人工补采

通过选择需要补采的指标组,制定补采策略。

界面上提供了可手工补采单个或多个时间点的数据的功能,同时支持对系统所有采集源某个时间段的数据进行补采,支持批量补采。

手动补采:选择对有问题的数据手动补采,系统提示操作是否成功,补采执行次数由系统累加,手工重采时间记录为最后补采时间。

批量补采:可对缺失的数据按照指标组进行批量补采,操作时需要选择要进行补采的指标组和补采策略,完成批量补采集。

2.3.3 数据填补

可以制订数据填补规则。当数据缺失或异常时,系统允许运维人员根据数据填补规则对近期缺失或异常的数据进行批量填补,以确保共享数据的完整性。

数据填补规则包括指标的设定、指标值的范围设定(平均值、最大值、经验值,数值可编辑)、数据填补时间段及时间点的设定。当满足填补条件时,系统能够自动根据规则进行数据填补;数据填补完成,系统记录对哪些数据进行了填补,记录填补前后的值。

从数据填补功能上,可以凭借经验值对由于设备故障或网络等因素产生的异常数据或者偏离很大的数据进行修补,从而使数据质量管控得到了保障。

2.4 问题辅助定位

可根据采集流程中各个监控点信息,辅助进行问题定位,应该能够从以下3个方面完成问题定位。

(1)监控厂家侧数据准备情况,判断采集数据问题是否由厂家侧导致。

(2)监控厂家侧数据准备情况,判断数据质量问题是否由厂家侧导致。

(3)监控数据采集过程中错误信息,判断采集数据问题由采集过程的哪个具体环节导致。

3 实施效果及应用

目前,上述技术和解决方案已在中国移动通信集团广西有限公司统一采集平台项目中得到了验证和实施。

从实施的规模和应用效果来看,在采集层数据质量的管控手段和措施得到了丰富,在功能上尝试了一定创新,尤其是在监控力度和方式得到了进一步的扩大和深入。

表1是传统网管的采集层数据质量管控模式与统一采集平台内实现的数据管控模块的差异对比。

经过统一采集平台的数据质量管控的实现及应用,采集层数据质量的完整性、及时性、合理性、告警数据的数据质量等方面得到了10%~20%的提升,如表2所示。

广西移动统一采集平台数据质量管控现网运行的功能具有以下功能。

(1)完整性监控功能展现:该采集源在某一时刻的具体采集信息,包括完整率、采集条数、经验值、完整率阈值。

表1 采集层数据质量管控模式差异性对比

表2 传统网管与统一采集平台数据管控模式数据质量提升对比

(2)任务流向监控展现:从某一个异常KPI可以顺序追溯到数据共享、数据汇总、计算甚至采集源头是否有异常。

(3)数据报表展现:数据质量报表子菜单,界面如图所示,支持完整性、及时性、合理性的小时报、日报表。选择条件包括报表类型、专业、层次、时间周期、厂家、数据类型、开始时间、结束时间、指标组名。

(4)数据质量分析:及时性分析、完整性分析、数据量分析、任务量分析、全采集机负荷分析。

(5)问题定位展现:根据采集流程中各个监控点信息,从数据采集过程、数据准备情况、错误信息3个方面完整问题定位。

(6)告警数据质量监控展现:提供“专业”,“采集源”“开始时间”、“结束时间”等查询维度。 包含“完整性”、“合理性”、“及时性”3张图表。完整性是接收字节数、截取条数、解析条数的叠加;合理性是截取率、解析率的叠加;及时性是解析用时。

Research and implementation of communication OSS system data quality control

HUANG Min-fei, WANG Xiang, TAN Zhan

(China Mobile Group Guangxi Co., Ltd., Nanning 530028, China)

Abstract This paper provides a new way, through enhancing the quality of data acquisition layer monitoring, quality analysis, problem assisted positioning, and there medial measures to improve data quality and to better protect the normal operation of business support systems. Meanwhile, the data quality control technology resolution that the paper referred to,has been verifi ed and achieved good effect in General Collection Platform.

Keywords data network management system; data quality control; monitor

收稿日期:2015-03-01

文章编号1008-5599(2015)04-0019-07

文献标识码A

中图分类号TN915

猜你喜欢

监控
The Great Barrier Reef shows coral comeback
基于无人机的监控系统设计
手机能监控疾病了
高速隧道监控联动管理系统
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
监控软件预案策略控制在海底隧道监控中的应用
模糊监控图像视频的清晰化处理
立体化监控在广东省路网监控中的应用
PDCA循环法在多重耐药菌感染监控中的应用