保险业务数据质量指标体系及指数研究
2017-04-10叶立武王东李井波顾佳盛
叶立武+王东+李井波+顾佳盛
【摘要】 数据质量是一个抽象概念。针对保险业务,如何评价数据质量,提升数据质量一直是困扰数据管理人员的一大难题。通过借鉴信息生命周期管理理论与数据治理成熟度模型,从数据生命周期的角度,对影响数据每个周期的环节进行主要因素分析,结合保险业务的特点形成了相对全面的数据质量指标体系。同时,根据应用实践的需要,通过利用数理统计的技术完成了数据质量指数模型的建立,指导数据质量工作的改进。
【关键词】 保险 数据质量 指标 指数
围绕公司“科技国寿”战略,建立健全适应大系统、大集中、大数据的数据管理机制。项目组以新一代业务系统建设为契机,不断优化数据管理结构,提升数据质量。对于数据质量的提升,需要明确数据质量真实情况,评价过程需要一套相对完整、客观、符合保险业务的评价标准或评价体系,指导数据质量治理工作在保险公司的开展。
一、数据质量指标体系构建
1.1指标体系设计
在信息生命周期中,影响数据质量的因素较多,数据质量指标体系框架设计的目的在于从一定的角度观察、了解可能影响数据质量的因素,通过对其范围及程度的研究,形成可量化、可落地的评价指标。利用统计学相关理论和技术,形成数值量化。以信息生命周期、影响数据质量的基本要素、影响数据质量的广义要素形成的数据质量指标体系框架如图1所示。
1.1.1影响数据质量的基本要素维度
数据:对数据质量的研究首先需要明确对象,具体数据的分类将影响对数据质量的分析,如主数据、交易数据、参考数据及元数据。
流程:涉及影响数据或信息的功能、活动、行动、任务或程序(业务流程、数据管理流程、公司外部流程等)。
人员和组织:影响或使用数据或者与信息生命周期的任意阶段过程密切相关的组织、团队、角色、职责或个人,包括管理及使用数据的人等。
技术:与信息生命周期的任意阶段流程密切相关,或人员和组织使用的用来存储或操作数据的软件、数据库、文档、程序等。
1.1.2影响数据质量的广义要素维度
广义影响要素指影响信息质量的其他要素。在整个信息生命周期中都应该考虑这些要素,它们处理的恰当与否将间接影响数据质量的情况。
需求:需完成的内容以及支持完成这些内容所需的数据及信息。
时空:事件在哪里发生,数据何时使用,以及需要用多久。
权责:职权、治理、所有权、动机和收益。
优化:根本原因、持续提高、检测、度量、目标。
结构:定义、背景、关系、标准、规则、体系结构等。
沟通:认知、影响范围、教育、培训和文档资料。
1.2数据质量指标分解
结合保险业务及数据质量管理实践需要,进一步将数据质量指标设计为三级,其中第一级指标4项,包括数据类、流程类、人员类、技术类;第二级指标22项,包括数据规划、数据获取、数据存储等;第三级指标161项,例如对数据类规划情况的评价,具体包括了主数据类别数量、主数据标准的数量、建立元数据的数量、元数据规划标准率、交易/参考数据类别数量、交易/参考数据标准的数量等。通过指标分解,将描述数据质量的抽象维度尽可能落地为具有实际意义的数据,并进行加工分析。
二、数据质量指数构建
根据已建立的数据质量指标,通过标准化策略将指标同趋化处理,进一步利用层次分析法、熵权法等统计方法,形成各级指标权重,构造数据质量指数计算模型。在各类指标数据采集的基础上,结合数据质量指数计算模型完成指数的测算,最终形成数据质量指数。
2.1用层次分析法求解第一级和第二级指标权重
一是明确评价对象。项目组选择以公司某一业务处理系统的数据质量为指标权重计算对象, P=某业务系统数据质量。
二是构造评价因子集。根据影响数据质量的基本要素建立递阶层次结构体系。
三是构造判断矩阵。采用T.L.Saaty教授提出的标度法,构造三个判断矩阵。
四是判断矩阵的一致性检验。用EXCEL计算判断矩阵S1的最大特征根得λmax=4.214836159。为进行判断矩阵的一致性检验,需计算一致性指标:CI==0.071612053,平均随即一致性指标RI=0.89。随机一致性比率:CR==0.080462981<0.10。因此,认为层次分析排序的结果有满意的一致性,即权重系数的分配是合理的。同理,分别对S2和S3进行一致性检验,CR皆小于0.1,因此认为权重系数的分配是非常合理的。
五是计算一级指标权重。利用几何平均法,计算S1各行各个元素的乘积,得到一个4行1列的矩阵B:B=[27,0.0247,0.0062,243,计算矩阵每个元素的4次方根得到矩阵C:C=[2.27951,0.39640,0.28030,3.94822,对矩阵C进行归一化处理得到矩阵D:D=[0.33015,0.05741,0.04060,0.57184,该矩阵D即为所求权重向量。
六是计算二级指标权重。利用几何平均法,得出三级矩阵的权重系数。数据类指标的权重:[0.06294,0.26543, 0.67163],技术类指标的权重:[0.1,0.9]。
2.2 用熵权法求解第三级指标权重
一是原始数据标准化。现有36个待评价项目,准确性和完整性衡量中有7个评价指标,根据原始数据,通过正向指标标准化方法:,逆向指标标准化方法:按照上述方法将原始数据标准化。将标准化后的矩阵进行归一化处理,计算第j个指标下第i个项目的指标值的比重,计算出。
二是求各指标的信息熵。根据信息熵的计算公式,可以计算出7项指标各自的信息熵,见表一。
三是计算各指标的权重。根据指标权重的计算公式,可以得到各个指标的权重。
综上所述,数据质量指数模型中各级指标权重设计见表二所示。
2.3 数据质量指数计算与评估
结合数据质量指标,并根据数据质量指数模型试算,进一步获得各省级分公司业务的数据质量指数,例如:
(1)P1公司数据质量指数= 7960
(2)P2公司数据质量指数= 3948
利用5-MEANS法对各省数据质量指数聚类,共得到A、 B、C、D、E五类,其中A类分公司的数据质量指数分数最高,E类分公司的数据质量指数分数最低,各类指数均值分别为7273、6269、5353、4477、4011。根据中位数选取法则,将C类公司的数据质量指数均值5353作为描述在该统计周期内系统数据质量指數,指数的变化将反映该系统整体数据质量的变化情况。
参 考 文 献
[1] 李美娟,陈国宏,陈衍泰.综合评价中指标标准化方法研究.中国管理科学,2004,12:45-47
[2] Danette McGilvray.数据质量工程实践——获取高质量数据和可信信息的十大步骤[M].北京:电子工业出版社,2010
[3]Batini,Carlo,and Scannapieco,Monica(2006).Data Quality:Concepts,Methodologies,and Techniques. Springer.