网管数据质量评估模型研究
2013-02-19方津
方 津
(中国移动通信集团福建有限公司 福州350001)
1 引言
随着电信行业业务的快速发展,运营商通信网络不断扩大,由此导致网管数据逐步海量化、复杂化和多样化。如何有效地存储和查询这些数据,通过数据挖掘从海量数据中获得有用的信息,是当前面临的一个挑战。
目前电信网络运维工作面向全业务发展,逐步实现网管体系转型。为了支撑跨专业关联和全业务运营,需要进一步建立基于共享数据结构的全业务支撑运维体系,对数据质量提出了更高的要求。数据共享化后,不仅要使用数据源系统和属主系统,还要使用大量的消费系统,一旦有劣质数据,影响的范围更广。因此需要对数据质量进行统一管控。数据质量控制是依据数据质量评估模型,由各系统通过设置数据质量考察点对外提供可供评估的数据质量原始数据,经数据管控平台加工处理后形成数据质量业务数据后进行统一呈现,从而实现对网管数据质量的全面评估管理。
2 数据质量定义
研究者们普遍认为,应该从数据使用者的角度定义数据质量。因此,基本的数据质量定义是“适用”,还有一个比较流行的观点是“高质量的数据应该是能充分满足用户使用要求的数据”。除此之外,其他比较有影响的定义有:
·反映了数据满足特定规则或者需求的特性;
·反映了数据对用户有较高价值的特性;
·反映了数据的内容、格式以及时间特性满足特定的最终用户要求的程度。
综上所述,数据质量是指数据能够充分满足用户使用需求的特性。
3 评估模型
数据质量评估从用户对数据综合应用要求的角度考虑,对数据的生产、存储和消费进行全面的考察和评价,从而提高数据的可信度和有效度,为数据的使用提供更有利的基础。
所有的数据都是为客户服务的,通过各种业务来满足客户的需求,因此提升数据质量也是各种业务的共同目标。对于数据使用者而言,数据质量是一个多维度或者多属性的概念。这些维度包括数据的精确性、可信度、关联度和实效性等。
3.1 评估维度
依据数据质量定义的精神,分析网管数据的生命周期,数据从产生到消费,总共可分成三大环节。
(1)数据模型定义
对网管数据进行分类,按照层次关系划分为不同的域,每个域中包含一组类,每个类的定义由类的名称、一组类的属性和方法来描述,对于每个类的属性,给出属性名称、属性类型、该属性是否可空、数据值域范围等。
(2)数据实体化
根据数据模型定义,从数据源采集数据,按数据质量定义要求对数据进行加工处理,通常包含采集、解析、装载、预处理、汇总等环节。不同的数据处理环节可能略有差异。
(3)数据消费
依据数据使用特点,对外提供各种类型的数据接口,包含实时数据分发、定时数据分发、同步查询、异步查询、文件传输等。
在数据生命周期的不同环节,数据质量有着不同的关注点。在数据模型定义时,主要关注数据的完整性和数据的有效性;在数据实体化过程中,主要关注数据采集处理过程的准确性和及时性;在数据消费环节,主要关注数据的一致性。
基于以上网管数据的生命周期以及数据生命周期的每个环节,结合网管数据的自身特点,提出从数据完整性、有效性、准确性、一致性、及时性5个维度评估系统的数据质量。其具体定义如下。
·数据完整性:主要包括网管系统被管实体缺失、属性缺失、记录缺失和字段值缺失4个方面。
·数据准确性:网管应用系统的结果值、计算值与网络中真实值之间的差异大小。数据的采集、录入、传输和处理等环节,都可能影响数据准确性。
·数据有效性:主要包括格式、类型、值域和业务规则的有效性。对于采集到的数据,需要考虑这个数据的绝对门限和波动门限。超出门限范围的数据为无效数据。
·数据一致性:指数据的属主系统、数据源系统以及消费系统之间的数据差异和相互矛盾的一致性。
·数据及时性:指网管数据提取、传送、处理、装载、展现的及时性和快速性。应用系统在日常数据的管理中,往往要求能够更快、更准地收集到所需的数据,也就是说数据必须要有及时性。
3.2 评估流程
在理解数据质量定义的基础上,要提高数据质量,必须对数据进行数据质量评估。数据质量评估实际上是统计综合评价问题,数据质量的评估模型通常包括6个方面:评估对象、评估指标、评估规则、权值、期望值、评估结果。结合网管系统数据的特点,提出如图1所示的评估模型中的对象关系。
评估对象是指需要进行评估的数据集对象。网管系统产生的所有数据对象或数据对象的子集都可以作为评估对象。网管域业务产生的数据的特点是数据量大,数据模型相对较复杂,因此数据的评估过程也较为复杂。
建立对象层次,是一种有效降低复杂性的系统方法。为了更好地从5个维度评价数据质量,结合对于网管的理解,对评估对象自上而下划分为如下几个层次:系统、数据域、对象指标。每层对象的数据质量评估值都由若干个下层评估值计算得到,如图2所示,具体介绍如下。
·对象指标:对象指标是对基础对象数据质量的综合评价。具体体现为某个评估值。
·数据域:按照数据类别,属主系统、数据源对数据进行分类,可分为业务域、资源域、配置域、事件域、统计域等10大数据域。数据域结合具体的质量评估目标以及对象之间的逻辑关系,可以进一步按照地理、网元等维度进行细分。
·系统:单个系统整体数据质量评估值。一个系统包含多个数据域。
评估指标是针对基础对象定义的,数据质量基础评估指标一般包含数据完整性、准确性、一致性、有效性、及时性等,详细如图3所示。
与评估指标对应的是评估规则,规则可以使用规范化的自然语言或形式化语言来描述。通常一个评估指标可以对应一个或多个评估规则。
权值包含规则权值和指标权值。规则权值指计算基础指标时,指标规则对应的权值,描述该规则在所有规则中所占的比重;指标权值指在计算上层指标时,评估指标在所有同层指标中相对于上层指标所占的比重。
期望值指评估之前所期望得到的结果或参考值。为了方便地评估指标,进一步区分为挑战值、达标值、最差值。
评估结果指使用评估规则评估后得到的实际结果值。
在得到数据质量评估模型的对象关系后,数据质量的评估可划分为下面几个步骤。
(1)评估准备。确定数据评估对象,选择评估指标,制定规则集。
(2)计算基础对象评估值。通过规则权值和规则评估值计算出基础指标值;通过基础指标权值和基础指标值算出基础对象评估值。其中,规则权值和基础指标权值的计算方法有多种,如层次分析法、专家调查法、Delphi法等,这里采用层次分析法。
(3)计算上层评估对象的指标。通过基础对象指标权值和上层评估对象指标值的线性加权,计算得出上层评估对象指标值。依次可获得数据域评估值、系统评估值。
网管数据质量评估流程如图4所示。
3.3 评估算法
3.3.1 基础指标计算
(1)计算评估规则在所有评估规则中相对于评估指标的权值
采用层次分析法对所有评估规则进行分析,得到所有评估规则权值。层次分析法是将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础上进行定性和定量分析的决策方法。该方法是美国运筹学家匹茨堡大学教授萨蒂于20世纪70年代初提出的一种层次权重决策分析方法。假设得到的权值集合为:
(2)分析计算基础指标评估结果值
根据评估规则,获得每个数据对象每个规则的评估结果值。假定规则权值为W,评估规则评估值为R,那么基础指标的评估值S计算如下:
为了更加直观地反映数据质量的高低,使用百分制评价每个评估指标,对每个指标的期望值进一步细分,定义了最差值、达标值、挑战值3个值反映当前指标健康度,其对应的得分范围见表1。
表1 指标评估结果对应分值规则
这里,给出每个评估指标得分的具体算法。假设评估值为K、最差值为A、达标值为B、挑战值为C,那么评估值的得分计算式为:
3.3.2 上层指标计算
参考国际电信管理论坛(TMF)的GB917文档中提到的相关算法,使用线性加权算法计算上层指标值。
首先,针对每个下层KPI,通过层次分析法,确定其聚合到对应上层指标KPI’的权重。假设下层指标评估值为KPI,上层指标评估值为KPI’,那么KPI’计算如下:
对象指标可通过基础指标线性加权计算得到,同理可计算得到数据域评估值和应用系统的数据质量总评估值。
4 应用示例
结合实际应用场景,使用评估模型进行质量评估。对于模型的应用示例,主要是介绍整个评估的过程,所以抽取少量考核指标来计算,抽取的指标含TCH掉话率、TCH话 务 量、SDCCH话 务 量、SDCCH接 通 率、SDCCH掉 话 率、GSM接通率,具体模型如图5所示。
针对简化的评估对象,根据数据的生命周期,每个对象定义如下5个评估指标:数据完整性、准确性、有效性、一致性、及时性。从这5个评估维度考量数据质量。以无线接通率完整性为例进行说明。
以某省话务网管地市级别,小时粒度的数据为例,数据时间跨度为24 h,评估的是一天的数据,空间维度粒度为地市(9地市),数据的时间粒度为h,那么总的记录数应该有9×24=216条。考虑到凌晨等时段允许部分数据缺失,制定对象指标的完整性挑战值为99%,达标值为95%,最差值为85%。完整性计算包括记录完整率和字段完整率。通过层次分析法计算出其权值。假设其对应权值为(0.5,0.5)T。根据式(2),得到计算规则为:完整性=实际记录数/总记录数×0.5+非空字段数/总字段数据×0.5。
其数据完整性情况见表2。
表2 无线接通率完整性
可以算出完整性为:
根据式(3)可计算出评估值为:
同理,可以算出其他指标的完整性。
使用层次分析法,计算得出的指标权值为:
根据式(4)计算得出无线域数据完整性A1:
同理,可计算出无线域有效性A2、无线域准确性A3、无线域数据及时性A4、无线域数据一致性A5。
通过层次分析法,得到无线域评估维度质量指标(含数据完整性、有效性、准确性、及时性、一致性)的权重,假设权值为W1、W2、W3、W4、W5,那么无线域的数据质量评估得分为:
获取到评估结果后,可以进一步生成数据质量评估报告,数据质量报告是对数据质量评估结果各种信息进行汇总、梳理、统计和分析,形成统计报告的过程。数据质量报告提供了一个集中展示系统数据质量状况的窗口,数据质量管理人员召集相关人员对数据质量报告进行分析讨论,以总结经验、沉淀知识和改进方法,不断提高系统的数据质量问题的处理能力。
5 结束语
网管数据质量的控制及有效提升,主要依据数据质量评估模型。基于本文的数据质量评估模型,结合数据质量评估报告,可以实现网管对数据质量评估的要求。在实际应用方面,可按照实际情况,对现有网管系统进行改造,增加考察点,嵌入数据质量评估模型,生成评估报告,作为数据质量控制和提升的依据。在指导规划方面,考虑建立数据质量管理规范,指导新系统的建设,这是下一步要研究的工作。
1 ITU-T E.800.Terms and Definitions Related to Quality of Service and Network Performance Including Dependability,1994
2 Aebi D,Perrochon L.Towards improving data quality.Proceedings of the International Conference on Information Systems and Management of Data,1993:273~281
3 Wang R Y.A product perspective on total data quality management.Communications of the ACM,1998,41(2):58~65
4 Saaty T L.The Analytic Hierarchy Process.McGraw Hill,New York,1980
5 韩京宇,徐立臻,董逸生.数据质量研究综述.计算机科学,2008,35(2)
6 郭志懋,周傲英.数据质量和数据清洗研究综述.软件学报,2002(11)
7 高明飞.移动综合网管数据缺失原因的分析及处理.电信技术,2009(1)
8 王维虎,刘延申.浅析提升电信企业数据仓库中数据质量的方法.高等函授学报(自然科学版),2006,20(1)
9 王晓华,苏宏业,渠瑜等.面向电信欠费挖掘的数据质量评估策略研究.计算机工程与应用,2011,47(12)
10 倪萍,廖建新,王纯等.一种KPI映射到KQI的通用算法.电子与信息学报,2008,30(10)