基于BEPD的高校大数据治理方案研究与应用
2019-12-30李炜邵梁
李炜 邵梁
摘 要:数据资产是高校的战略性资产,开展大数据治理有助于减少劣质数据,促进高校治理水平的提升。但工作量大、技术队伍短缺、业务部门参与少、治理延续时间长等因素导致了尚未形成效果显著的高校大数据治理方案。鉴于此,文章根据某高職院校的具体实践,提出了较为可行的高校大数据治理方案,探讨了构建治理工作框架、制度流程体系规划、建立线上数据标准管理体系等关键要素,并重点论述了BEPD数据质量控制法。数据治理工作对于任何高校而言都是复杂的系统性工作。该方案的核心理念是抓住主要矛盾,借助技术,将数据治理工作落实成一项“人人工程”,相关的经验能够为其他高校提供借鉴。
关键词:大数据治理;组织;制度;数据标准;BEPD
中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2019)23-0055-03
当前已进入大数据时代,大数据的影响已扩展到政府、互联网、金融、保险等领域。与其他领域类似,高校的数据规模也在逐渐扩大,劣质数据对高校数据应用的不良效应也随之而来。关键数据缺失、数据错误、数据孤岛、数据时效性差等质量问题不仅对高校内部日常治理产生了困扰,也降低了高校大数据蕴藏的价值。
大数据治理的重要性在其他领域已取得了各方的共识[1]。信息化发展到一定阶段,数据资产将成为战略性资源,多个高校也认识到了大数据治理的必要性和紧迫性。首先是内在要求,《教育信息化“十三五”规划》[2]提出要建设“智慧校园”,探索“以数据为核心资产、以数据驱动业务革新”的发展模式,如果能够合理运用各类数据,就有可能为高校改革提供一个新的转折点;其次是外部压力,互联网、大数据等新技术潜移默化地改变了人们日常工作、生活的习惯,对高校信息化也提出了更高的要求,其根源还是在于高质量数据的管理。有些高校采用传统的主数据管理技术,也有高校使用数据采集和报表汇总技术来进行数据管理,但工作繁琐、工作量大、技术队伍短缺、业务部门参与少、治理延续时间长等因素导致了尚未形成效果显著的案例。
本文基于对高校数据应用现状的分析,提出了高校大数据治理面临的挑战和构建大数据治理体系的必要性。笔者结合所在高职院校的具体实践,提出了基于BEPD质量控制法的高校大数据治理方案,围绕方案中的关键构成要素和有效实现路径展开论述,如构建治理工作框架、制度流程体系规划、建立线上数据标准管理体系等,并重点论述了BEPD数据质量控制法。
一、构建治理工作框架
大数据治理是一个庞大的系统性工程[3]。成熟的工作框架能够帮助对复杂模糊的概念做清晰的梳理。本方案中的治理工作框架(如图1所示)以学校发展战略为导向,参考了DGI数据治理框架[4]和IBM数据治理统一流程[5],围绕数据的全生命周期管理,从数据管理和服务的整体角度出发,清晰描述高校数据各项功能和活动,同时打破了数据治理是技术问题的固有思维,认识到人员和流程是首先要解决的核心问题。
二、设定组织架构和制度体系
大数据治理工作实际上是对高校业务管理工作的整体梳理和重构,涉及各个部门、各类人员的切身权益,因此首先需要做的是制定完整、科学的治理体系规划,保证后续的各项工作有制度保障并有序推进。体系规划主要包括组织架构设计和制度流程设计两个方面。
1.数据治理组织架构设计
治理组织中应争取各方的支持,设为三层结构:决策层、管理与协调层、执行层,如图2所示。
2.数据治理制度编制与流程设计
制度和流程是数据治理工作的保障。在工作正式开展之前,应完成定章建制,说明各方需要遵循的规章,在治理过程中,能够显著减少推进的阻力。本方案指定的制度和流程主要分为基本制度、专项制度、管理流程和操作手册,后续可以根据实际情况进行拓展。基本制度为《数据管理办法》;专项制度包括《数据标准管理办法》《数据质量管理办法》《数据应用管理办法》《数据开放管理办法》《数据安全管理办法》;管理流程包括《数据标准管理流程》《数据质量管理流程》《元数据管理流程》;操作手册为《数据平台操作手册》。
三、建立线上数据标准管理体系
在谈论数据的价值之前,必须先构建一套术语规范、定义明确、语义语境无歧义的数据标准,实现各类信息在采集、存储、开放、交换等应用中的一致性和可比性。当前多数高校使用的是纸质的数据标准,数字化比例不到35%[6],与实际业务存在脱节的情况,反向监督标准落实情况非常困难。
本方案中采用学校人员和校外企业团队合作的模式。首先企业派驻人员驻场,收集各部门需求,完成业务咨询调研,构建分类清晰的校级标准体系;同时企业研发团队在数据统一管理平台框架下进行数据标准管理功能的开发,最终实现数据标准的数字化管理,将调研所得的数据标准作为系统初始化数据导入;后续的新增或修订将在线上即时完成,而且该数据标准与下一阶段的数据质量控制贯通,作为质量评价的依据之一。
四、设计BEPD数据质量控制法
高校信息系统起步早、跨域广,数据质量问题千头万绪。面对治理时间跨度长和成效不显著的风险,应设计适应各阶段特点的数据质量控制法,具备持续向前推进的动力。BEPD数据质量控制法,即核心净化打基础(Base)、一站填报强骨架(Entry)、流程对接促规范(Process)、问题分解聚合力(Decomposition)四管齐下,前三者重点保障核心数据质量,第四步保障业务数据质量,促进治理“人人工程”的建设。
1.核心净化打基础(Base)
众所周知,高校最核心的数据,是有关学生、教职工、专业、课程的关键基础数据。这些数据的特点与各类企业信息化管理中提出的主数据类似,是一个机构的信息中的最具价值者。这些数据经常被各个系统复制使用,呈现零散状贯穿学校的业务流程、各类系统和应用。在提交报表给各类上级部门时,基于这些数据的统计值也是最基础最核心的内容,例如“在校生人数”“在职教职工人数”等最基本的人头统计数,甚至这些数据也是未来持续开展基于在线平台的数据治理活动的基础。
基于这些核心数据的战略价值,质量控制方案的第一步就是对现有存量核心数据进行净化清理。核心数据的范围包括三类内容:第一类是人(教职工、学生),第二类是实体物(建筑物、房间、设备等),第三类是非实体物(机构、专业、课程等),因范围较大,可采用逐个突破的方式分步进行。净化清理时争取决策领导者和业务部门的支持,协调数据的责任部门。首先结合当前应用和未来拓展需求,拓展升级数据分类方式、状态标记方式、数据生命周期标记方式,然后导出各个系统的核心数据,进行线上与线下实情的比对纠正,用新标记方式对数据表进行更新拓展,最终以梳理后的健康数据作为后续数据全生命周期管理的起点。
以教职工核心数据为例,校内教职工、外聘教师、督导等类型的教职工由各个部门管理,分而治之的模式导致现有数据存在混乱。当人员交叉多种身份时,因现有业务系统功能缺陷,无法及时记录人员进出校动作并将结果反映到数据表上,导致人员身份和状态不确定。这对于教职工的人数统计和应用控制是一场灾难。针对教职工核心数据的问题,首先要设计一张基础表,统一管理各类教职工,并且支持拓展类型,以身份证号关联的工号为唯一判别依据,针对校内外身份不可共存、校外身份可兼任的逻辑条件来设计人员状态码,然后协调各个部门对现有数据进行逐个判别,标记正确的身份、部门、人员状态,最终完成教职工核心数据的净化,为后续步骤的实现打下基礎。
2.一站填报强骨架(Entry)
现有业务系统存在三个比较明显的问题:一是系统设计时以满足本部门的业务需求为主,缺少全校层面的信息化整体规划,出现了各类系统之间数据打架、多处录入的问题;二是建设初期以满足功能需求为主,对重点核心数据的前台技术约束能力较弱,数据质量依赖于工作人员的业务熟悉程度,人员更换时便可能混入一些低质量数据;三是数据全生命周期管理理念缺失,结果式、断点式管理导致数据无法按历史线追溯。这些问题大大影响了核心数据的质量,即使在某一时间点对数据进行了净化,运行一段时间后也会再次被污染。
为了保障核心数据的质量,构建强健的高校信息化骨架,可以采用两种模式:一是改造升级原有系统;二是新建一站式核心数据填报系统。因改造升级涉及面广、成本预估过高,我们采用的是新建一站式核心数据填报系统的模式,以全校信息化整体规划为设计落脚点,关注核心数据在全校横向公共性需求,其他纵深业务需求仍由原业务系统完成。
3.流程对接促规范(Process)
一些高校启动了主数据管理(MDM),以期净化并整合大量的教师、学生等数据。虽然短期数据得到了大的改善,但随着时间推移,或者数据再次被“污染”,或者工作集中卡在了技术部门,数据更新明显滞后于业务。原因在于高校内部存在大量跨部门、多人协同配合的业务流程处理,一环接一环,传统的信息传递采用报表汇总、电话催办的模式,这样的方式对数据质量无太多益处,反而影响了效率和准确性。
在当前数据跑腿代替人跑腿的行政管理改革方向下,需要意识到,核心数据能否管理好,关键在于能否打破核心数据管理(MDM)与业务流程管理(BPM)的封闭现状。利用制度明确、横向协同的业务流程管理大大提升了数据管理的规范性和效率。在“最多跑一次”理念的指导下,我校已建成了网上办事大厅(BPM),各类业务流程均上线,各个部门须在规定时间内按规则完成线上的事项审批工作。例如学生休学、复学、请假申请;教职工进校、请假、外出培训申请等。契合数据全生命周期管理理念,协调互通一站式核心数据填报系统与网上办事大厅是高效的实现路径。通过优化整合业务流程,提高核心数据变化全过程的规范化和时效性,重点实现基础主体的进、变、出实时管理,不仅能便利师生,也能降低业务人员的工作量,因人工产生数据错误的情况将基本不会出现。
4.问题分解聚合力(Decomposition)
除了保障核心数据的质量,维持高校信息化的正常运转之外,还需关注每天新增的各类业务数据的质量。大数据的价值就是来源于对业务数据的挖掘分析。但这些数据规模过于庞大,如果采用人工分解,工作量非常大,并不是一种可持续的方式。
本方案采用一种自动将问题分解到人的方式,将数据治理工作落实成一项“人人工程”。具体是以数据标准为基础,依赖大数据技术,对每个数据进行合规性校验,并智能自动关联找出该问题数据对应的数据责任部门和数据生产者。通过统一的数据管理平台发送消息给责任部门和师生用户,用户可以直接登录平台查看他需要修改的问题数据。各层级的管理者可以查看问题修改的情况和进度,并敦促管辖范围内的用户尽快修改,配合相应的数据质量管理制度对各方进行工作绩效考核。
五、结束语
对于每一所高校而言,数据治理工作都是复杂的系统性工作。在“数字校园”向“智慧校园”转变的关键节点,高校业务对技术的依赖逐日增长,信息化建设不可避免地需要重新定位、重新梳理、破除痼疾。因此,应当抓住其中的主要矛盾,建立有效的组织模式,理顺数据标准和数据管理流程,制定适用各个阶段的质量控制方法,便于各项工作的开展,并在此基础上逐步推进数据应用工作。
参考文献:
[1]桑尼尔·索罗斯.大数据治理[M].北京:清华大学出版社,2014:13-27.
[2]教技[2016]2号.教育部关于印发《教育信息化“十三五”规划》的通知[Z].
[3]董晓辉,郑小斌,彭义平.高校教育大数据治理的框架设计与实施[J].中国电化教育,2019(8):63-71.
[4]Thompson N,Ravindran R,Nicosia S.Government data does not mean data governance: Lessons learned from a public sector application audit[J].Government information quarterly,2015, 32(3):316-322.
[5]Soares S.The IBM Data Governance Unified Process: Driving Business Value with IBM Software and Best Practices[M].MC Press,2010:7-15.
[6]吴刚,陈桂香.高校大数据治理运行机制:功能、问题及完善对策[J].大学教学科学,2018(6):34-38.
(编辑:王晓明)