电网企业指标数据溯源模型研究与设计
2021-07-29缪新萍吴漾孔庆波方俊霆
缪新萍,吴漾,孔庆波,方俊霆
(1.贵州电网有限责任公司信息中心,贵州 贵阳 550002;2.贵州电网有限责任公司,贵州 贵阳 550002;3.御数坊(北京)科技咨询有限公司,北京 100086)
在企业信息化环境中,错综复杂的系统和数据关系增加了指标溯源以及基于溯源关系开展数据治理的难度。其中计算过程的正确与否以及计算数据元的质量好坏将会直接关系到指标计算结果的准确性和可信度,进而影响企业经营管理和决策。
贵州电网公司欲基于数据认责管理模式,结合元数据管理的成果,开展指标溯源应用的建设。然而,对于如何规范表达指标溯源过程、完整记录指标溯源信息,缺乏模型依据,制约了溯源应用功能的设计和开发。
本文通过对重要的溯源模型进行研究,分析指标计算过程,结合数据认责管理场景,设计了指标溯源的内容模型和轻量化表达模型。
1 指标数据溯源分析
指标溯源过程是与指标计算相逆的过程,从位于顶端的指标开始,通过不断地拆分参与指标计算的每一个数据对象,向下追溯,直至找到源端所有的数据元,并得到由若干个指标计算数据对象依计算关系所关联形成的树状网络溯源关系[1],如图1所示。
图1 指标数据溯源示意图Fig.1 Schematic diagram of index data provenance
每一个参与指标计算的数据对象都包含了本身的数据值和附带的元数据两类信息,而后者是进行溯源的一类主要信息[2]。这里将参与指标计算的数据对象分为两类:一类是在业务活动中直接产生和采集到的数据元,例如用户用电表底数;另一类是在数据元的基础上,经统计或计算得到的派生数据,例如小区用户当月用电量。这些数据元和派生数据可能来自企业信息化环境中不同的系统,又各自经历过不同的创建、更新、复制/抽取、转换、集成以及计算过程。
指标数据溯源需要完整记录指标计算过程中的必要信息,特别是表征指标相关属性以及对于还原指标计算过程相关状态具有重要参考和指导意义的信息,例如7W模型在语义层级所定义的各类溯源信息内容,并在逻辑层级将这些溯源信息纳入数据对象的元数据中进行存储和管理。
指标数据溯源还需要能够对从数据元到指标的整个计算加工过程中的关系信息进行记录,以厘清指标数据的溯源关系脉络,便于查找其中存在的问题。在对指标数据溯源关系的表达方面,OPM以支持不同溯源技术间的互操作性为目标,抽象并定义了工件(artifact)、过程(process)、动因(agent)等三个基本元素[3],并以有向无环图来表示三个基本元素之间的5类关联关系。考虑到指标数据溯源还需要借助信息化技术和手段实现溯源信息的存储、处理和展现等功能,技术上需要以序列化方式对表达模型进行映射和记录,形成文本化的溯源数据块。文献[4]提出了一种基于PROV-Template的扩展算法,支持以任何序列化格式的模板和绑定集合来生成溯源实例。
2 指标溯源内容模型设计
7W模型由于其发展和内容扩充已经较为全面,可以作为设计指标溯源内容模型的一个良好基础。但与早期主要关注where相比,如今what成为处于中心位置的溯源关键信息,记录使数据发生改变的事件。而其他的六个元素则从不同的角度对事件加以补充说明,例如事件是何时发生的?文献[5]将溯源信息归结为数据、可视化、交互、洞见、根因等五种类型,而7W模型涉及了其中的数据、交互和根因三类,可视化和洞见两类信息在指标数据溯源场景中并不具备。
通过使用7W模型来记录指标数据溯源实例的关键信息,分析其对于指标溯源场景的适用性。例如,将“供电局市场营销部客户专责张某于2020年8月14日14点35分28秒操作营销管理系统通过加总下属各区县供电局当月实际售电量的方式统计了市8月份的售电量指标”这一溯源事件以7W模型元素进行映射和填充,可以得到如表1所列的结果。
表1 指标溯源场景下7W模型元素填充实例
实例中的关键信息基本可以对应填充到模型元素中。但7W模型在指标溯源场景中存在精细度不足和信息缺失的问题:
(1)××电网公司数据认责机制规定数据项的责任认定应当“认责到岗”,并包含“组织-岗位-人员”的对应信息,但7W模型的who元素并没有对应的细分子元素。因此会对后继责任人的查找造成带来不便。
(2)指标的统计和计算通常会按照时间频度以及空间维度进行,但7W模型的how元素只是记录较为笼统的算法。
(3)企业通常会通过分层、分级、分主题的方式构建和管理指标体系,以此明确指标的组织应用层级、对于经营管理的重要性级别以及与业务领域的相关性,但7W模型缺乏对这类指标属性信息的表达元素。
(4)指标溯源路径上各数据项经过计算统计所得到的中间结果对于判断指标的准确性以及分析可能存在的问题具有重要的参考价值,但7W模型缺乏相应的表达元素。
基于以上问题,对7W模型进行适当的扩展:通过扩展who和how元素的子元素解决前两个问题;通过扩展index和result两项基本元素解决后两个问题。扩展后得到指标溯源的内容模型,如表2所列。
表2 基于7W模型的指标溯源内容模型Tab.2 Content model of index provenance based on 7W model
为了便于理解指标数据溯源内容模型各元素之间的关系,按照指标数据的生命周期过程,从指标的策划、实施与结果等三个方面对模型元素进行整理,如图2所示。
图2 指标数据溯源内容模型元素关系Fig.2 Element relationship of index data provenance content model
在指标策划阶段,why元素参考index元素的规划和规范提出指标计算事件的目标、原理与方法;在指标计算的实施过程中,who、when、where和which元素围绕how元素记录了指标数据计算事件的机构人员、时间、地点和方法工具信息及具体执行过程步骤信息;最终由result元素记录指标数据计算事件的结果信息。
3 指标溯源表达模型设计
指标溯源表达模型需要指导和规范指标溯源关系路径的描述。而在从指标到源端数据元的溯源过程中,不仅包括数据元的采集、录入等生产过程,也包括数据的汇集、抽取、计算和统计等二次加工过程。OPM模型作为应用较广泛的一种溯源表达模型,其所定义的三种基本要素和五类关联关系为指标数据溯源表达模型的设计提供很好的抽象基础。
其中,三种基本要素用以指代溯源过程中的主要对象,包括指代触发数据处理过程的agent,指代数据处理过程本身的process,以及指代数据处理过程输入/输出的artifact。在指标的计算加工过程中,这三种要素依然可以很好地抽象和覆盖相关对象。但为了更好地贴合指标数据。溯源场景并便于理解,将名称分别调整为actor、calculation、artifact,分别指代指标计算的执行者、指标的计算过程以及参与指标计算的工件,即计算过程所需的输入和输出数据。在指标数据溯源场景中,指标计算过程将作为溯源关系的中心;执行者根据现实情况又可细分为人类执行者(humanActor)和事物执行者(thingActor)两类;而工件作为计算过程的输入/输出又可细分为数据元(dataElement)和指标(index)两类。详细定义见表3所列。
表3 指标数据溯源表达模型的元素类定义Tab.3 Element class definition of index data provenance expression model
指标数据溯源的表达模型的构建将以执行者、计算过程、工件三种元素作为节点,节点之间以其相互作用关系作为边进行连接。参考OPM的五类关系,指标数据溯源场景中,三种元素之间主要存在四类关系:计算过程与执行者之间的被执行关系performedBy;基于指标计算的分级统计特征[6],可能自我递归逐级触发,计算过程之间的被触发关系triggeredBy;工件与计算过程之间的输入关系input;计算过程与工件之间的输出关系output。此外,考虑到指标计算加工过程中可能存在人类执行者对事物执行者的操作,还定义了operatedBy关系,详见表4所列。
表4 指标数据溯源表达模型的元素关系定义Tab.4 Element relationship definition of index data provenance expression model
由此构建起如图3所示的一种轻量化的指标数据溯源表达模型,在形式上给出了表述指标数据溯源过程的范式,可以对一个指标计算环节进行完整表达,并进而绘制指标溯源图,为开展指标数据溯源工作和系统功能设计提供了理论指导。
图3 轻量化的指标数据溯源表达模型Fig.3 Expression model of lightweight index data provenance
图4展示了基于上述表达模型进行售电量指标溯源所绘制的溯源图示例。示例中,通过操作营销管理系统功能,调用区县售电量合计算法,对南明区等各个区县8月的售电量进行计算,从而得到贵阳市8月的售电量指标。其中,各区县的售电量数据是由区县售电量合计算法调用用电户电量计算算法,并以本次表示数、上次表示数等数据作为输入计算得到。而本次表示数又是由李某通过操作营销管理系统功能而输入的。由此清晰地展示出从地市级指标到区县级次级指标,再到数据元的完整溯源路径。
图4 售电量指标溯源图示例Fig.4 Example of provenance chart of electricity sales index
4 指标溯源管理系统设计
指标溯源管理系统的设计过程中主要考虑以下几方面:
(1)分布式环境:由于指标数据溯源过程通常会跨越企业信息化环境中的多个系统,特别是在电网企业推进数字化转型的当下,这种多源与分布式的特点将更加突出[7]。
(2)数据安全:溯源信息本身的机密性、隐私性、不可篡改性、不可伪造性和不可否认性是数据溯源应用推广的基本条件[8]。因此,区块链等新技术的应用将为以去中心化的架构方式构建安全、可靠的指标数据溯源信息化实现提供新的思路和便利[9]。文献[10-11]提出的一种基于区块链的数据溯源系统设计中,溯源模型层作为一个独立抽象层次。而上述的指标数据溯源模型可以作为一种模型方案“插入”到该系统设计中,并运用区块链技术实现底层对指标数据溯源信息的可信查询[12]。
(3)数据表设计:溯源模型中定义的元素逻辑对象以及相互关系需要根据当前关系型数据库系统的技术规约恰当地进行物理数据表的设计[13],并平衡数据冗余与性能指标。新型的图数据库也是一个较好的选择。
(4)存储优化:由于溯源信息量巨大,合理的分类、压缩和按需存储也是一个设计上不可回避的问题[14]。
(5)可视化展现:于上层采用可视化方式对溯源分析状态进行查询和浏览,文献[15]给出了一个参考方案。
在进行指标数据溯源管理系统(功能架构如图5的设计与实现时,既考虑了上述技术方面的因素,同时也结合贵州电网公司所开展的数据认责和质量治理提升等工作,将数据的责任和质量信息在指标溯源关系上进行叠加,形成维度更加丰富、实用性更强的管理与应用看板。
图5 指标溯源管理系统功能架构Fig.5 Functional architecture of index provenance management system
系统功能采用组件化模式进行设计,以提供按需的灵活扩展性,自下而上依次分为基础组件、核心业务组件、展现交互组件等三个层次。
(1)基础组件,主要提供通用化的、业务无关的基本能力,包括流程运行、资源接入等常见功能组件,以及基于指标数据溯源模型、数据认责模型而开发实现的核心功能逻辑、与区块链平台集成的服务调用接口。其中,溯源模型功能模块实现基于溯源信息数据构造和管理各类元素对象,以及处理和分析元素对象之间的关联关系,生成溯源图;溯源数据序列化功能模块实现对元素对象的序列化和反序列化处理;溯源数据持久化功能模块实现综合利用关系型数据库和图数据库对溯源信息进行存储和管理。
(2)核心业务组件,主要提供指标、数据认责、数据质量等业务对象的核心管理功能。
(3)展现交互组件,主要融合指标的各类信息数据,实现面向指标主人、业务管理人员、数据管理人员等不同使用者角色的综合、可视化信息展现与应用交互。如图6。
图6 指标溯源管理系统功能界面Fig.6 Functional interface of index provenance management system
5 结语
通过对7W模型进行扩展的方式,我们构建了指标数据溯源的内容模型。同时,以OPM模型为蓝本,结合指标数据溯源场景设计并提出了轻量化的指标数据溯源表达模型。而后,结合贵州电网的数据管理实际设计并开发了指标数据溯源管理系统,并配合贵州电网2020年的管理指标实用化和数据认责工作开展了功能应用,相关设计进行适用性验证,并实现与数据资产管理、元数据等系统、工具的集成落地,为贵州电网加强指标管理与实用化提供了有力的技术保障。
后继,还需要在功能和应用两方面进行完善和深化,包括:
(1)研究指标数据溯源内容模型与企业元数据标准进行整合,将指标数据溯源信息作为指标数据的元数据纳入统一的企业元数据管理体系,并完善公司元模型和元数据规范[16]。
(2)研究基于语义信息使用查询语言[17]对指标数据溯源信息进行查询访问[18-21],并实现多维度的可视化展现。
(3)深入开展基于指标溯源关系的数据认责管理,强化数据源头对于指标的保障,发挥指标对于业务工作的牵引和指导作用。