基于电网行业的主数据量化识别模式研究

2021-11-01梁盈威万婵杨朝谊

微型电脑应用 2021年10期

梁盈威，万婵，杨朝谊

(广东电网有限责任公司信息中心，广东广州 510000)

0 引言

目前，某大型电网企业已完成对内部主数据的规划设计、试点建设与推广应用工作。但由于企业数据资源庞大，在建设推广的过程中业务需求的不断扩展，主数据的识别缺乏一种可量化的技术评判标准，导致业务人员在增补过程中产生不少分歧，最终导致主数据应用效果不佳。

主数据是作为企业核心主营业务数据的唯一可信数据源，为企业内部核心数据共享交换提供完整的、实时的、准确的、一致的核心主数据视图。结合企业内部业务需求，须满足统一标准化“谁产生、谁识别、谁维护”的三大原则。

1 主数据的量化识别模式

1.1 主数据的定义

主数据(Master Data)指的是各个业务系统间的共享数据(如，人员、供应商、组织部门、客户等)，具有高价值、共享性、唯一性、基础性、稳定性、完整性、准确性的特点[1]。

1.2 主数据识别的工作流程设计

主数据识别是一项复杂的工作，结合企业主数据“谁产生、谁识别、谁维护”的三大原则情况，引入科学的分析方法论和主数据识别管理知识[2-4]，设计一套明确的主数据识别管理工作流程，才能有效并快速地实施识别工作。本文将主数据识别分为四大工作步骤，整体流程如图1所示。

图1 主数据识别流程

数据实体梳理[5-6]：从业务角度出发，分析目前业务流程中的数据内容，得出在业务流程中核心业务实体和对应的数据生产部门，以此作为主数据识别的对象和数据管理责任方，从业务层面规范数据标准唯一性。

主题域划分：通过参考IBM的IFW模型并充分结合电网企业数据模型标准的业务情况，将梳理出来的实体划分到对应的主题域中，如参与方、协议、位置等。

数据评分：数据评分分为4个步骤：① 识别数据对象是否属于企业主营业务的重要实体；② 确认主数据识别指标与分数；③ 利用科学方法论量化识别得出主数据识别指标对应的权重；④ 根据识别指标和指标权重制作主数据识别评分表。

数据模型构建：将以需求为主导，方法论为指引，遵循企业既有标准,梳理主数据建模步骤。

1.3 主数据识别评分流程设计

主数据是企业数据资源利用的重要保障，而主数据的评判标准则是主数据识别工作的重点之一，科学的客观评分决策机制为主数据识别提供客观的决策依据。

1) 主营业务数据实体识别

电网内的主数据是描述现实世界中的核心对象，是参与企业运营独立存在的业务对象，包含最重要、最稳定、最基础三大特征。

基于企业主数据的三大特征，本文优先采用德尔菲法[7-8]，邀请业务专家对已梳理的业务数据实体进行投票识别。投票指标：主营业务∈(是，否)，若最终结果为“是”，则继续进行后续的主数据识别工作；若结果为“否”，该对应的数据实体则不被列入主数据行列管理。

2) 构建主数据识别的评判指标

主数据评分指标项的选取是通过对企业的主数据识别标准与方法，同时参考电网企业集团网省两级架构的特点，在确定主数据的评分指标中，需要综合考评以下九大指标内容。

① 业务等级：分为“一般、重要、较重要、非常重要”，级别越靠后，越符合主数据的使用标准，也越能体现该数据的高价值性。

② 共享业务部门个数：主数据的共享性，主数据可以跨部门共享使用，记录数据消费方个数。

③ 数据有效期：主数据的稳定性，一般从产生到消亡的时间越长越符合主数据的稳定性。

④ 主责级别：分为“省级共享、网级共享”，反应电网企业的行业结构，体现主数据的高价值性和共享性。

⑤ 业务唯一性：主数据的唯一性，能够唯一识别业务属性。

⑥ 系统跨度：主数据的核心价值在于各个系统之间的共享使用，系统跨度是共享性的体现。

⑦ 更新频率：主数据的稳定性的体现，如一个数据频繁被更新，存在多个版本，则不符合主数据的特性，不利于主数据管理。

⑧ 使用频率：主数据的高价值性体现，如一个数据被系统频繁使用，该数据一定是系统中的关键核心数据。

⑨ 基础性：主数据不是衍生数据，是生产之后未加工的基础性数据，这样才更利于共享使用。

3) 评判指标量化赋值

为确保评分指标在使用过程中能充分反映企业决策者意向，严格把控主数据识别的精细度，对于指标的评判分值将不采用简单的是或否的评判基准，而是采用量化手段进行多维度的评判，步骤如下。

(1) 首先将评判指标细分等级，采用专家分析法[9]，将指标进行多维拆分，如业务等级指标不再是以前的“一般”或“重要”两个评判基准，而是根据业务实际情况，参考行业的成果，经专家分析拆分出“一般、重要、较重要、非常重要”四个等级。

(2) 等级量化赋值，每个指标采用10分总分制计分。在得出等级划分后，我们将10分作平均分配法，分配到各个维度中去，如业务等级指标有4个维度，则维度平均基础占比10/4=2.5分，分配结果为：“一般”=2.5分，“重要”=5分，“较重要”=7.5分，“非常重要”=10分。

(3) 分值校准，在最后我们还需要使用集体决策法，提供数据管理者的主观能动性和专业性，将数学平均分析法的结果作最后的调整，原则如下。

ⓐ 评分分值最大值<10分；

ⓑ 根据主数据标准和行业业务性质调整分值，如业务等级指标为“一般”=2.5分，但重要性“一般”的数据实体在电网业务主数据标准是不被纳入主数据范围，所以经过调整分值后，“一般”=0分；

(4) 识别结果输出，“一般”=0分，“重要”=6分，“较重要”=8分，“非常重要”=10分；

主数据识别评分的指标类别和分值对于主数据的识别工作具有重要意义，但并不足以支撑整个识别工作。主数据识别过程中的关键是确定识别指标的权重，这关系到主数据识别的精准度，必须采用科学客观的确认方法，常见的有主成分分析法、因子分析法等。本文将使用主成分分析法[10-12]作为量化识别方法论。

主成分分析法(简称PCA)，通过降低维度的作用，把多个相关且复杂的指标数据进行矩阵降维的方式成为少数几个相互无关的综合主成分指标，使问题简单化，在电网企业使用主成分分析法将九大指标维度进行数据评分降维、降噪、去冗余分析，利用大数据计算维度的占比权重。具体步骤如下。

① 梳理电网企业主题域中的数据实体分析样本，如人力资源域中：人员、组织、岗位等实体，使用数据库管理技术获取样本中所有九大维度指标的专家评分，再将评分结果罗列成矩阵形式，输出随机数据矩阵K，其中每一行代表一个数据实体的一条评分数据，每一列代表指标维度，如k11代表数据实体人员在指标业务等级维度的一条初始评分数据，如此类推得式(1)。

(1)

② 将矩阵K各个业务指标的原始数据进行标准化、归一处理，将数据转换成相同度量尺度的可比较状态，具体方式通过每列变量值减去当前列的平均值，再除以当前列的标准差来完成，最终形成标准化集合矩阵X，如式(2)。

(2)

③ 求X矩阵的协方差矩阵，协方差矩阵用于对数据进行降噪，减少数据的干扰值，得到每个指标维度与其他8个维度的方差关系，形成新的矩阵C，矩阵C为i行j列，此时原始的数据将转化为协方差数据，如式(3)。

(3)

④ 求C的特征值(主成分)，利用线性代数知识或是MATLAB中eig函数可以得到求矩阵C的特征值，用于去除总量数据中冗余量，特征值越大，原始数据在对应特征向量变换下的独立数据量越多，更有利于分析工作，如式(4)。

特征值=λ1,λ2,…,λe

(4)

⑤ 由矩阵C中求到e个特征值，由大到小排列后，包含的信息量也是递减的，所以进行实际分析时会选择m个贡献率大于85%的特征值，计算每个特征值的贡献率，指某个特征值占全部特征值的比重，如式(5)。

(5)

⑥ 根据式(5)原则，选取出m个特征值后，根据式Cvm=λmvm的公式原则，求出对应的特征向量，排列成矩阵，如式(6)。

特征向量矩阵V=[v1v2…vm]

(6)

⑦ 计算指标维度对应主成分的得分系数，分别用对应的V×X矩阵得到矩阵Tm，其中每一列都是该主成分一个指标维度的评分系数，如式(7)。

Tm=[mt1mt2…mt9]

(7)

⑧ 计算每个维度的综合评分系数，综合每个特征值的评分系数Fl，l=1,2,…,9,为式(8)。

(8)

⑨ 计算每个维度的百分比权重Sl，为式(9)。

(9)

根据权重结果值，将信息综合整理成主数据识别评分表，如表1所示。

表1 主数据识别评分表

1.4 仿真数据量化识别测试与分析

基于主数据识别的工作流程和评分流程设计，对某大型电网企业进行仿真数据测试与分析工作，得出主数据实体识别验证。本文将严格遵守设计流程对测试数据进行数据实体梳理、主题域划分、数据评分三大工作步骤，对比分析识别效果。

(1) 根据业务系统分析情况，分别从数据生产方筛选出数个测试用业务实体：供应商编码、供应商名称、员工薪资、员工编号、客户订单、客户名称。

(2) 参考IFW 模型并结合企业的实际情况，将数据主题域划分为参与方、协议、位置、分类、资源和项目六大模块，将测试数据实体根据业务属性归类参与方的数据主题域中，通过参照主数据识别评分表中的规范，进行初步专家评分后，得出参与方主题域中的相关实体和基础指标分值，具体如图2所示。

图2 主数据识别测试实体基础分值图

(3) 参考然后再根据主数据识别评分表中的权重数据进行分值权重化，最终结果如图3所示。

图3 主数据识别测试实体最终分值图

(4) 最后经过企业需求和专家评估判断，设定符合主数据识别的分数阀值为总分的60%，合格分数为6。所以本次测试实体中总分超过6的供应商编码、供应商名称、员工编号、客户名称为新识别的企业主数据。

1.5 主数据模型构建步骤

快速准确地完善建模，以规范好主数据服务的实施落地，是主数据识别工作最后也是最必要的工作。因此数据建模工作也是需要有先进的方法论和规范化的管理去落实。本文研究的建模方式将按照IBM建模方法论指引[6]、参考企业公共信息模型、遵循企业数据标准和实际需求梳理整体建模步骤。

(1) 梳理数据集：评分识别中已将主数据分到六大数据主题域中，在此基础针对每个域梳理出对应的数据集，形成数据集工作件。

(2) 对每个数据集在信息资源规划标准中找到对应的实体及其属性，梳理对应的数据库原始表、字段以及引用关系。

(3) 多渠道补充完善该数据集的数据元(属性)，通过遵循IRP建立基础属性集、参考IBM实践框架[6]、与企业内部交流的方式，进行补充完善工作，确保主数据实体选择准确，属性的含义描述合理，与企业公共信息模型映射正确性。

(4) 拆解数据集为对象：参考企业公共信息模型[16]，建立数据集的数据元在企业公共信息模型中的映射，按面向对象方法拆解出多个需最终落地的逻辑模型实体(对象)，形成数据字典工作件。

(5) 绘制模型关系图：根据数据字典工作件，将拆解后的各个实体对象梳理出继承及关联关系形成对象关系图。

完成以上五步主数据模型构建(逻辑建模)步骤，主数据管理可以按企业的实际数据库环境进行落地实施(物理建模)工作，然而这已超过了主数据识别的研究范围，进入了一个新的研究课题，本文不作过多叙述。

2 总结

本文对主数据识别中的管理方法、识别技术和建模技术进行了研究，提出了主数据识别工作流程的四大步骤，设计了主数据量化识别评分法，降低主数据的主观性判断分歧错误，科学地预防主数据识别的质量风险。通过仿真数据识别测试，验证了量化识别法的高效性和可操作性，有助于企业对主数据识别工作的效率提升，减少管理成本。

猜你喜欢

特征值分值实体

一起来看看交通违法记分分值有什么变化

一类带强制位势的p-Laplace特征值问题

单圈图关联矩阵的特征值

前海自贸区：金融服务实体

实体的可感部分与实体——兼论亚里士多德分析实体的两种模式

振兴实体经济地方如何“钉钉子”

两会进行时：紧扣实体经济“钉钉子”

基于商奇异值分解的一类二次特征值反问题

关于两个M-矩阵Hadamard积的特征值的新估计

宿迁城镇居民医保按病种分值结算初探

微型电脑应用

2021年10期