数据治理在解决“一张表”问题中的实践

2020-01-13郝志杰

实验室研究与探索 2019年12期

郝志杰，李莉，荣娟

(中国石油大学(华东) 信息化建设处, 山东青岛 266580)

0 引言

数字校园建设以来，信息化大幅提升了高校管理的精细化水平，在职称评审、岗位考核、导师遴选、学科建设等重要工作过程中教师需要填写大量的表格，而且表格之间数据重复项很多，导致教师感觉相同的数据要次次填、年年填，给教师造成了很大的负担。为解决师生反应强烈的“表格繁多、重复填报”等突出问题，启动了“一张表”工程。当有数据填报需求时，直接从这“一张表”中自动抽取数据，生成表格，从而达到减少重复填报，节省师生的宝贵时间。实现在办理业务填写相关表格时“一次录入、共享互通、重复使用、自动填充”。

事实上，“一张表”的本质是数据问题。数字校园时期高校信息化建设了大量的MIS系统，教师填表所需要的教学科研数据已经存在于各个业务部门的MIS系统中，但是由于系统孤岛、数据烟囱和应用碎片化等问题，导致这些数据难以共享。因此，是否能够进行有效地数据治理是破解“一张表”难题的关键所在。

1 数据治理的内涵

“治理(Governance)”原意是控制、引导和操纵。全球治理委员会对治理的定义是：治理是各种公共的或私人的个人和机构管理其共同事务的诸多方式的总和，它是使相互冲突的或不同的利益得以调和并采取联合行动的持续过程[1]。数据治理最早是沃森( Watson)在2004年就企业管理中数据仓库治理的实践提出的[2]。美国国际数据管理协会(Data Management Association nternational) 是较早开展数据治理相关研究的学术团体，并将数据治理定义为对数据资产管理和控制的活动集合，包括计划、监控和执行等[3]。数据治理研究所( The DataGovernance Institute)认为，数据治理是信息相关流程的决策权归属和责任担当框架，即根据商定的模型，确定谁在什么情况下，对什么信息，使用什么方法，能采用什么行动，并按此执行[4]。国内学者则认为数据治理是指与有效运用数据所需的、组织或执行层面的准则、政策、步骤和标准相关的实践活动，是通过建立数据标准体系提升数据质量，通过数据架构合理组织数据，通过元数据和主数据管理提升关键数据的管理水平，通过安全和生命周期管理保证数据的安全性、有效性、时效性等功能的综合体系[5-6]。综合已有研究以及数据治理的实践经验，认为高校数据治理，是从目标、组织、管理、技术、应用的角度持续提升数据质量的过程；它可以帮助学校清洗数据、使用数据，挖掘数据价值，从而提高学校的科学决策能力、运营效率和管理水平，增强竞争力。数据治理的长期性、往复性是其内在特征。

2 数据治理的模型和技术架构

如图1所示，为数据治理所涉及的核心领域：

(1) 战略目标。数据治理最终是要通过提供数据服务，发掘数据潜在价值，进而让组织能够创造出比之前更大价值。因此，明确数据治理的战略目标，并将战略目标和组织发展战略目标高度一致，是数据治理的前提和最终意义，确保数据有效治理。

图1 数据治理框架体系

(2) 组织架构。高校数据治理组织机构是由高校领导牵头的自上而下的一个完整的组织机构，并明确数据治理组织中相关部门和人员的数据职权和责任。组织机构是数据治理的灵魂[7]，高校信息中心虽然是数据治理的发起者和IT技术的掌握者，但信息中心只是数据管理部门不是数据生产部门，所以只能在技术层面支持数据治理，改变不了数据本身的问题。相应的数据产生部门才是数据治理真正的主体。

(3) 数据标准。标准是对重复性事物和概念所做的统一规定。数据标准是为了保证高校内外部数据的使用和交换的数据的一致性和准确性，经协商一致制定并由相关主管部门批准，能够共同和重复使用的一种规范性文件。数据标准是高校数据治理的基础，也是数据治理建设中的首要环节[8]。① 数据标准为高校数据中心提供统一的数据定义。② 数据标准是高校数据中心进行数据治理的依据和根本[9]。

(4) 数据集成。数据集成也称数据整合,把不同的源头的数据收集、整理、清洗、转换后加载到一个新的数据源，然后为数据消费者提供统一视图的数据集成方式[10]。即将高校范围内各个异构的业务系统的数据按照相应规范和数据标准进行交换和集成，将业务系统中的数据抽取到学校数据中心，并在学校数据中心完成这些数据的统一管理、更新和维护。

(5) 数据质量。数据质量是数据治理过程中非常重要的环节，也是数据治理成果的重要体现之一。“Garbge In,Garbage Out” 是数据质量领域最为经典的一句话，意思是“输入的是垃圾，输出的也是垃圾”[11]。如果进行数据分析前，不能保证数据质量符合标准和业务需求，那么使用这些数据分析所得出的结果当然是无效和错误的。在“数据—信息—知识—决策”的工作途径中，如果数据是低质量的，那就不可能做出科学的决策。因此，数据质量管理需要通过建立闭环管理，保证数据一致性、准确性、完整性和及时性。实时监控数据质量，清洗脏数据，反馈数据质量报告，形成良性的数据质量改进闭环，确保数据质量满足提供方、使用方和管理方等多方的需要。

(6) 数据仓库。数据仓库并不是简单数据库叠加形成的一个大型的数据库，而是在数据库已经大量存在的前提下，为进一步实现数据的分层分级管理[12]，挖掘数据资源等需要而产生的，其建设目的是实现数据的集中有序管理，以及为前端大数据量的并发查询和分析等需求提供稳定高效的数据基础。

3 数据治理的模型在 “一张表”中的应用

3.1 明确工作目标

数据治理的难点并不在于IT技术本身，而组织架构的权责分配、协调工作、业务梳理和对接才是关键[13]。数据治理的目标必须和组织目标保持一致，必须能够支持组织目标，推进组织工作。如果数据治理不能做到这一点，是很难真正意义上的推进。在解决学校数据的痛点问题时，应该主动寻找具体工作载体，并做出实际的改善，这样才能得到相关管理部门的认可和支持，协调推进。

目前，在高校里重复填表问题无疑是大家公认的痛点，几乎达到了人人共愤的地步，是高校数据治理一个非常好的工作切入点。解决“一张表”问题选取岗位考核为抓手，就明确了本次数据治理的工作目标和工作范围，并将数据治理的工作目标与业务部门的工作目标一致起来。

3.2 清晰组织架构

数据治理的核心是角色，即数据治理的组织架构。高校数据治理组织架构图如图2所示，最上层的是决策层，如果数据治理在组织范围内没有领导决策和支持是不可能实行的。第二层为管理层，主要包括信息中心、数据管理职能部处和院领导。第三层包括学院的数据审核员、教师作为数据的录入员等。

图2 高校数据治理组织架构图

要数据治理主体去完成数据的录入、审核等繁琐工作，就必须有相应管理手段和有效激励。否则教师就没有动力去填写，更谈不上保证数据的准确性。以岗位考核、职称评审等工作为抓手收集数据，这些数据的准确性就与每位教师的切身利益息息相关，这样教师和相关部门的配合程度就可以得到充分的保证。

“一张表”选择岗位考核为抓手，治理和教工相关的数据，就自然形成了数据治理的组织机构。同时以岗位考核为抓手还具有以下三大优势，① 涉及的教工数据字段最全。岗位考核涉及教工个人基本信息教学科研等方面的数据，是涉及数据字段非常全的一个应用，这保证了数据的广度。② 时间跨度长。岗位考核的周期为4年，也就意味着借助这个抓手可收集到和教工相关的4年数据，保证了数据的深度足够。③ 涉及教工范围广。职称评审、导师遴选等应用都是涉及到一部分老师，而岗位考核是全校教工均需参加，方便学校收集每位教工的数据。

3.3 建立数据标准

在高校，系统建设都是为了满足部门业务需求，没有考虑到其他系统数据重复使用的问题。因为缺乏这种对数据的整体设计考虑，造成了多种数据问题，如数据共享困难，统计口径不一，业务沟通困难易发生歧义等，只有建立数据标准才能解决这一问题。

(1) 权威数据源。建立数据标准的基础是在高校范围内确定数据的权威数据源，一数一源是数据治理过程中最基本的原则之一。在高校应用场景中，多个部门共用相同的数据。最常见的是学生数据，同样在校学生数，教务处、学工处、就业指导中心等多个部门都存在，但往往这些部门的数据因为各种原因无法对上。这就导致大家都有这个数据，却不知道哪个数据为权威数据来源，有数据而不能用。

首先确定了“一张表”涉及到的每一个数据项的权威来源部门，其他部门只能从权威数据来源读取数据。其他部门在数据使用过程中，发现问题必须到权威来源部门去修改，保证数据的权威性和准确性，梳理清楚数据的来源和去向。

(2) 主题定义与分类、数据表结构和码表。数据标准主要包含3个部分，主题定义与分类、数据表结构、标准代码[14](如图3所示)。其中主题定义与分类包含本次“一张表”数据所涉及的人事数据子集、教务数据子集、研究生数据子集和科研数据子集。每个数据子集中又包含各自所涉及的数据表结构：字段定义、类型、长度、值空间、约束、字段描述等。标准代码记录信息项的固定码值，码值取自国标、行标、校标以及一些规范性引用文件。

图3 岗位考核数据标准

在“一张表”工程中，梳理业务涉及到的35张表，268个字段，以国家标准为基础对所涉及的关键数据进行梳理，进而形成全校统一的业务定义和业务规则，确保全校各信息系统中的数据定义保持一致。此后学校在数据共享与交换过程中，严格按照标准实行，保证了数据在各种应用场景中的一致性。

3.4 数据集成与维护

(1) 数据集成。将各个源头的数据加载到学校的数据仓库，再通过数据仓库统一为包含“一张表”在内的各个应用提供视图，其标准流程如图4所示。

图4 数据集成过程示意图

根据数据的现状，“一张表”通过3种方式填充数据。有系统的单位可以通过系统的同步采集数据，最大程度的保证了数据的实时更新；没有系统，用Excel电子表格维护数据的单位，我们还提供数据导入的方式，这种方式非常灵活，能够把一些线下数据收集起来；对于暂时缺失的数据，我们采用教工填报的方式主动的把这些数据收集起来。

(2) 基于标签的权威数据维护。在数据维护过程中，采用打标签的方式来保证数据的权威性，具体流程如图5所示。数据获取后，会获得权威的认证标签，例如从人事处同步的数据，会标记人事处的标签。进入权威数据库。同样，Excel导入的数据会标记导入数据部门的标签，教师填报的数据，经过权威部门审核后会标记相应权威部门的标签，并进入权威数据库。

图5 权威数据修改流程图

同时，“一张表”涉及的数据繁多，需要不断的进行更新修改。根据数据来源形式不同，分为3种修改审批方式。如果数据是通过系统同步进入的，需要在原系统中进行修改，再通过每天的数据同步进入“一张表”。从系统同步进入的数据会自动标记相应权威部门的认证标签。如果是Excel导入或者填报的数据，修改后权威认证标签消失，需要相应的权威来源部门审批，通过之后，才能重新获得权威标签，作为有效数据使用。

3.5 提升数据质量

数据的价值是在使用过程中体现出来。在“一张表”中，首先将与教师相关的人事、教学、科研业绩等数据以电子档案的方式展示出来，并将各个模块的管理部门联系方式以及数据修改方式标注在旁边，这样教师可以自助的来修改数据，确保数据真实可靠。

同时通过岗位考核、职称评审、导师遴选等具体工作为载体，不断地使用校验数据。在高校的管理工作中，上述管理抓手都是非常严肃的应用场景，数据的真实性和准确性不仅关系到教师的切身利益，还关系到教师的职业道德和操守，因此数据流程得到认真完整地运行。相同的数据使用于不同场景，通过权威部门认证标签的方式，在减少审核的工作量的同时，在不断的使用中确保数据质量。

3.6 搭建数据仓库

高校数据难以沟通，难以利用，难以整体防护等问题，从源头看还是数据归属的分布性和数据管理的碎片化问题[15]。所以建立高校统一的数据仓库，实现对数据的统一的管理、调度和共享交换非常必要。数据仓库中数据的存放也必须严格分类，学校数据仓库的层级结构(见图6)。

如图6所示，数据仓库中，第一层为业务数据层，是各个业务系统的数据库以及管理部门的Excel电子表格，通过数据共享平台以及ETL数据交换工具抽取到原始数据缓冲层，也就是ODS贴源层。ODS贴源层是与源业务系统最为贴近的数据层，一般采用松耦合的方式，将业务系统中的主数据以接口的形式提供给数据仓库。ODS贴源层的特点是数据粒度尽可能的小。以教学课程数据为例，在贴源层会细分为课程、教室、选课、排课等最细粒度，在数据仓库的更上层组装生成更加综合的数据内容。

图6 数据仓库层级结构示意图

主题数据层是按照学校数据标准形成，按照主题存储的，能够支持快速数据查询，并遵循统一业务编码的数据层。主题数据层的特点是是按照学校数据标准生成。数据标准是在教育部2012年发布的行业标准《中华人民共和国教育行业标准JY/T 1006-2012 教育管理信息高校学校管理信息》的基础上根据学校实际的情况调整而形成的。

聚合数据层是根据常用的数据统计主题和统计维度以及业务指标汇总的数据层。其特点反映学校常用数据需求。以教学课程数据为例，最为常用的接口是教师和学生课表。其中教师课表是由教师基本信息、教师授课信息和教室地点信息汇总而成的。通过一个接口即可获得教师和课程以及教学地点之间的关联关系，在高校课程信息中，使用频率非常高，因而在聚合数据层专门存放教师课表视图，以供直接调用。

分析应用层是根据具体的数据需求，例如领导驾驶舱或者对于一个具体数据维度，比如对科研业绩的统计分析而产生的数据层，其特点是针对特定主题。分层分级管理使得数据在适量冗余的前提下，最大限度的方便各种应用场景的提取和应用。

4 “一张表”的建设效果与展望

通过“一张表”相关数据的治理，理清了人事、教学、科研等学校核心数据。进而通过这些数据的应用，解决了学校四大难点问题。

(1) 保证了学校核心数据的权威性、一致性。通过对教工相关的数据治理，将教工相关的基本信息，教学信息，科研信息等核心数据汇总到学校数据中心，并完成了这些常用数据的日常维护和在学校范围内的共享交换。数据权威来源部门统一发布数据，由数据中心统一分发，其他部门共享使用。

(2) 切实减少了部门的审核量。“一张表”系统汇聚了人事、教务、科技、研究生院、国际教育学院等相关部门的35张表，268个字段。数据记录总量203 287条，其中教师填报了46 798条占数据记录总量的23.002%。教工填报量占整个数据记录总量的不到1/4。超过3/4的数据都是通过系统集成或管理部门数据导入，这些数据原本就经过管理部门认定，所以这些数据不需要审核，因而也减少了相关部处和学院的审核量将近3/4。

(3) 消灭了数据重复填报。在收集到的核心权威数据的基础上，不仅完成了人事职称评审，人事岗位考核，人事岗位聘用等工作，同时还可以支持学院工程教育认证、研究生院导师遴选、学院年底津贴计算等多种应用。通过不断的迭代新的填报表单，消灭高校的数据重复填报。将教工从重复数据填报中解放出来，节省了教工宝贵的时间。

(4) 为领导决策提供权威数据支持。通过将数据不断的应用于岗位考核、职称评审、研究生导师遴选等高校重点工作，极大地提高了数据质量，保证数据准确性和权威性。通过对这些准确数据的汇总分析，可以获得关于学校方方面面准确的分析结果，为学校的发展和领导决策提供权威数据支持。

“一张表”的建设，取得了良好成效。为今后更多应用、权威的数据和便捷服务作进一步拓展，完成学校各业务部处表格的自动填报，消灭了数据重复填报；不断提高数据质量与教工相关的核心数据分析结果；结合一站式服务大厅，将线下的服务搬到线上，让数据多跑路，让师生少跑腿，不断创新学校的管理和服务。