数据治理背景下高校数据共享框架的研究与实践
2022-11-12毛文卉刘雅琴
毛文卉, 吴 驰, 刘雅琴, 李 凯, 秦 楠, 严 帆
(华中科技大学网络与计算中心,武汉 430074)
0 引 言
大数据时代,数据互通共享是挖掘数据价值的重要基础,也是数据利用的主要方式。数据共享在国家层面也受到极大重视,国务院办公厅先后印发了《政务信息资源共享管理暂行办法》[1]和《政务信息系统整合共享实施方案》[2]。作为人才培养和科技创新重要场所,在教育信息化2.0的背景下,全国高校都在不断优化整合自己的业务流程、逐步消除数据孤岛,促进数据共享,大部分高校均建设了统一的数据共享平台,基本实现了“信息多跑路,师生少跑退”,但在这个过程中也暴露出业务部门数据共享意愿不足、数据质量不高、数据标准缺失、数据共享存在安全隐患等问题[3]。
通过在CNKI中检索并分析高教领域的数据共享相关文献后发现,目前高校数据共享治理框架的研究较少,大部分集中在对数据共享平台和共享技术与平台功能的研究[3],这些平台仅从技术和工具上解决了数据流动的问题,但是数据共享过程中的组织机制建设、流程梳理、数据源头确定、数据安全保障、数据质量管理等重要因素较少提及,没有上述保障,数据在共享过程中的完整性、一致性和可用性很难保证,数据的真正价值无法发挥。同时,为提升数据质量,挖掘数据价值,发挥数据在高校治理、决策中的作用,高校不少学者提出了自己的数据治理框架和体系[4-8],数据共享作为数据治理的主要目标之一,其中虽提及数据共享框架的建设,但未对其进行深入探讨和分析,数据共享作为数据治理的核心问题和主要目标之一[9-12],对其研究的深度和广度需要加强。
因此本文在高教领域数据治理的背景下,从组织建设、流程管理、数据标准管理、元数据管理、数据集成、数据安全、数据质量7个方面构建统一、通用的高校数据共享治理框架,全面梳理数据共享的整个流程、完善数据共享中的体制机制、扩大数据共享的广度和深度,同时提升数据的质量,保障数据安全。在学校数据共享平台的建设中,基于此框架,建成了校数据共享平台,厘清了数据共享中的组织建设、流程管理等问题,实现了数据标准及时更新、数据流向实时显示、数据加密传输、数据质量报告定期反馈等。
1 高校数据共享现状及问题
通过分析CNKI上高校数据共享相关的文章[3],目前高校已基本建成或者正在建设校级数据基础数据库以及共享平台,将学校管理中最基础最核心的数据集成到数据中心,再对外共享数据。但对数据共享平台的研究多集中在共享技术的分析和共享平台功能的阐述上,少部分高校在建设数据共享平台的过程中考虑到数据采集标准、数据质量管理、数据安全等问题[13-15],但未形成统一的、通用的框架。
大部分共享平台的建设路径,遵循下面的模式:确定数据源系统-通过ETL工具或者接口将数据采集到校基础数据库-对外共享数据[3]。这种建设模式解决了以往由各业务各自开发接口对外提供数据时遇到的职权不清,接口维护成本日益增大的问题。但是在实际工作中凸显很多问题:
(1)大部分系统共享意愿不高[16-18]。若没有明确的组织机制保障,一般数据共享平台的建设由校网络中心负责,在集成各个部门数据的时候困难重重。①数据共享平台的建设改变了传统数据共享方式;②在享受到数据共享平台带来便利前,集成数据时带来的数据清洗、转换工作,确实给业务系统增加了日常工作量;③很多部门担心数据对外共享带来的安全问题。
(2)数据标准缺失或不符合学校实际情况[8]。没有数据标准,数据共享过程涉及基础数据库的建设无据可依。部分高校依据教育部2012年发布的《教育管理信息教育管理基础代码》[19]发布了数据标准,但缺乏专门的更新、管理机制,导致数据标准不符合学校实际情况,在使用过程中形同虚设[8]。
(3)权威数据源部门定义不够细致[3]。数据共享中定义了某类信息归属部门,但没有细化到字段,在集成过程中就会出现数据不一致,一字段多源的情况。
(4)数据共享缺乏流程管理[3]。数据共享中两大主体为:源数据部门、数据需求部门。没有流程管理,源数据部门对自己数据何时流向何处不清楚,数据需求部门不知如何申请数据,造成数据共享程度不高。
(5)数据共享中数据安全性问题没有受到重视[3]。目前数据共享大部分采用数据推送或者是提供服务接口的方式,均是明文传输,数据流出去后,也没有对应的审计手段。
(6)无法提升数据质量[3]。数据共享缺乏反馈机制,虽然数据共享平台初步解决了“数据孤岛”的问题,但目前的建设模式并没有把提升数据质量放在重要的位置,导致数据质量仍然是一个很大的问题,而数据质量出现问题,导致很多系统又会重复采集一些基础数据,导致数据共享程度降低,无法形成良性循环。
为解决以上问题,必须在数据治理的背景下,提出高校数据共享的共享框架,解决高校数据共享中遇到的组织制度不完善、流程管理欠缺、数据标准不符合实际、数据集成不全、数据安全问题不够重视、数据质量不高的问题。
2 数据治理背景下的共享框架
为了解决当前高校数据共享面临的问题,提升数据质量,挖掘数据价值,不仅要解决技术实现的问题,还需要构建学校层面的数据共享框架,如图1所示。由组织建设、流程管理、数据标准管理、元数据管理、数据集成共享、数据安全、数据质量7部分组成。这7个部分既有机结合,又相互支撑。
组织建设是数据共享的基础。①应根据高校各部门管理职责的实际情况,确定各类数据的权威管理和产生部门[19];②应有专门的组织协调机构,注重发挥其作用,一般由高校的网络与信息化管理部门承担;最后,还应有专门负责数据共享实施的技术部门,如校网络中心、信息中心等,所有的技术实现都由该部门完成。为保证数据不被随意共享,数据共享应有完整的审批流程,由数据的权威产生部门按照“最少可用”的原则,对数据共享的申请进行严格审批。权威数据源确定后,数据共享有两种模式,一种是直接从各个部门的系统将数据共享出去,但这加重了业务系统的维护成本,且在实际工作中,各个部门管理人员往往缺乏技术能力,无法依靠内部人员来实现,如果依靠第三方公司,又有数据泄漏的风险,故应采用第二种方式,建立学校的基础数据库,由学校专门的技术部门将各类基础数据按照数据标准采集到校基础数据库,再经基础数据库统一共享出去,这就需要建立数据标准和对元数据进行管理。在整个数据采集和数据共享的过程中,要保障数据安全和数据质量。
2.1 组织建设
数据共享工作的有效开展离不开组织建设[20],这也是数据共享工作的基础。如图2所示,整个数据共享工作应该由校信息化领导小组牵头,协调各个部门,使得数据共享工作在整个学校内获得支持。由校网络与信息化办公室制定具体的管理办法,包括确定数据共享的范围(确定哪些是需要共享的基础数据)、如何建立数据标准、确定共享数据的权威数据源、确定共享的模式等核心内容。各个业务部门配合校网络与信息化办公室进行各自系统数据的梳理,按照数据标准提供和申请数据。整个数据共享过程的技术实施由专门的校网络中心技术部门负责,保证共享过程的安全性和效率。经过数据共享过程中的组织建设,从校领导到各业务部门都对学校和各自业务部门的数据有了深入的认识和理解,也明确了各自的职责和工作。
2.2 流程管理
数据共享涉及多个环节和多个部门,需要申请数据时,会遇到以下问题,按什么原则申请数据?向谁申请数据?由谁来审批?由谁来执行等,可通过流程的建设来解决这些问题。
通过组织建设,明确了各项数据的权威数据源,业务部门在申请数据共享时,应按照“最少可用”的原则,首先应将数据共享申请按字段向所属部门提交申请,字段所属各部门对申请进行审批,最后意见汇总到校网络中心技术部门数据操作人员节点上,由该人员进行实际的数据共享实施,保证数据共享过程有流程有据可依。整个数据共享的流程如图3所示。整个流程涉及申请人、各业务部门信息化联络员、各业务部门主要负责人、校网络中心操作人员、校网络中心数据复合人员等,各类人员各司其职,所申请的字段经过层层核查,最大程度避免数据滥用。每个流程节点人员的职责如表1所示。
表1 数据共享流程各节点人员职责角色
2.3 数据标准建设
数据标准是整个数据治理下数据共享的基础和首要环节[21]。数据共享的实施离不开数据标准建设。数据共享涉及两个关键流程:数据采集和数据共享。传统的数据采集是根据数据源本身的结构把数据采集到学校基础数据库,但是随着对接的系统越来越多,每个系统数据结构规范会有很大差异,基础数据库就会变得杂乱无章,不好管理。所以要进行标准化的采集。而将数据共享出去时不应是按照业务方的数据结构需求把数据提供过去,这样会使相同的数据项可能由于对方需要结构的不同需要反复开发接口,维护会变得非常困难,所以在数据治理背景下,一定要进行标准化地采集和共享,总的原则是:按照学校数据标准建立学校基础数据库,按基础数据库的结构对数据源头的数据进行转化后采集,数据共享时,按照基础库的结构提供数据,方便数据共享接口的复用和维护。
为实现上述目标,首先就要建立数据标准。教育部在2012年发布了《教育管理信息教育管理基础代码》[22],其中对高校管理所涉及所有表信息和相关的代码标准都做出了定义,也对高校管理中需要参考的国家标准和行业标准也做了详细说明。但是每个学校的信息化程度和实际办学情况有所差异,需要结合学校的实际情况来建立学校的数据标准。综上,高校数据标准的构成如图4所示。
整个数据标准包括3个部分:
(1)基础数据标准。按照高校管理的实际情况,将所有的数据按子集分类,并定义每个子集内基础数据的数据结构,基础数据标准的体系结构见图5[22]。
(2)代码标准。定义基础数据中所涉及到的代码信息,其中需要参考国标、行业标准(简称行标)、通用标准、校标。
(3)编码标准。根据学校的实际情况,对机构或者人员等的编码规则。
在梳理确定好数据标准后,需要建立专门的数据标准管理平台,数据标准管理平台的功能包括标准管理、发布、更新等功能,让业务系统在建立之初就参考数据标准进行建设,方便后期的数据治理工作。
2.4 元数据管理
元数据是关于数据的数据[16]。在数据共享的数据采集环节,要确定从业务系统的什么表中去采集什么字段,需要对业务系统的数据结构进行全面摸底调研,采集各个业务系统的元数据信息,再参考学校定义的数据标准,对涉及的所有元数据进行统一管理。
元数据管理的体系结构如图6所示,元数据管理与数据标准管理密不可分,数据标准是元数据管理的基础,通过元数据管理平台对全校数据资源进行集中定义、统一管理,通过建设该平台帮助管理人员掌握学校资源,对于数据的全生命周期的掌握更加全面。对于数据从哪来、到哪里去,一清二楚,同时也能够更加方便知道数据在哪,促进高校数据标准不断完善通过建设元数据管理平台,采用集中式管理模式进行元数据管理,全校元数据逻辑集中,即元数据管理模块作为学校元数据的统一发布源,集中管理元数据,提供元数据集中创建、维护、查询功能。平台具备管理、开发、共享、使用等能力,通过自动、自助、智能化的大数据治理,实现对数据的找、供、用、治。
2.5 数据集成
数据集成是数据共享的必备环节,经过数据标准梳理和元数据管理,已经解决了数据集成的数据从哪里拿,按什么结构拿的问题。接下来就是按照标准对原始数据进行清洗转化,通过专门的数据交换平台,采用定时或者实时的方式将数据采集到基础数据库。一般数据的清洗和转化采用在业务系统编写视图的方式,代码数据的转化可以在数据采集的过程中进行动态的转化。整个采集过程如图7所示。
为防止数据集成对业务系统数据库的影响,采用从业务系统中间库集成数据的方式,其中业务系统中间库由业务部门自己维护,从业务系统数据库到中间库的数据同步由业务系统根据系统的实际情况选择同步方式。
数据交换平台提供两种数据交换的方式:定时和实时。定时一般采用ETL工具实现,实时交换一般基于数据库的日志实现源端数据到目标端数据复制。
此外,为了让数据集成工作有规章可依,网络与信息化办公室可以在项目的验收环节,增加数据集成的步骤,从制度上就保障了数据的集成。
2.6 数据安全
数据安全是数据共享中是必须要解决的问题[23]。保障数据安全可以从管理和技术上着手。
在数据共享中,整个安全保障体系如图8所示。
在管理方式上,可以通过以下手段提升数据安全:
(1)各类基础数据共享的权限分别分配给各数据源部门,当数据需求方在线上提交数据共享申请后,由各个数据源部门按照“最少可用”的原则对每个字段进行审批,①保障数据共享的范围最小化,避免敏感数据外发;②共享出去的每个字段都是经过层层审批,在发生安全问题时,可以快速定位被泄漏的字段曾经共享给哪些系统,找出可能存在泄漏的系统。
(2)由校网络与信息化办公室定明确的规章制度,要求在业务系统的开发过程中正式数据库服务器和测试数据库服务器分开,系统上线前经过严格的安全扫描,在系统通过安全扫描前,只能往测试数据库服务器上同步测试数据,正式上线后,再向正式数据库服务器同步正式数据。
(3)对数据库服务器的访问统一采用堡垒机的方式,保证对数据库服务器的所有操作都能完整记录下来,避免数据泄露。
整个数据共享分为两种方式:定时推送、开放接口。在同步技术上,通过以下手段提升数据安全:
(1)定时推送采用中间库的方式。中间库“专库专用”,所有的数据共享均通过统一的数据共享平台按照数据标准来推送数据,保障数据的可用性、完整性。部署数据库安全网关,对数据从中间库流向业务库的过程进行监控,对异常的访问和导出及时向管理员发送告警。
(2)通过开放接口RESTFUL类型接口共享数据时,采用加密技术对数据加密,保证传输安全,采用数字签名技术,保证数据完整性。
(3)建立数据同步监控平台,对定时推送和开放接口的同步情况进行监控,发现异常的情况立即告警。
2.7 提升数据质量
数据共享推动数据在流动、在使用的过程中不断完善,提升数据质量。
当数据仅存在各自业务系统中时,业务部门提升数据质量没有驱动力,大部分系统仅仅满足在功能可用的阶段。只有当数据通过共享流动起来时候,才能暴露数据的问题,在使用中不断修正。
在数据共享的过程中提升数据质量,主要从管理和技术两个方面来实现。在管理层面,通过在数据共享前对权威数据源的认定,让各个系统在建设的时候,尽量不自己搜集数据,每类数据仅有一个权威数据源,发现问题向权威数据源反馈并解决,权威数据源一旦修正后,所有共享数据的系统的相关数据质量均得到提升;对于已经建成的系统,在数据集成到基础数据库时按照数据标准对原始数据进行清洗转化,保证数据在共享出去前尽量标准、规范,提升基础数据的质量。在技术层面,建立质量管理平台,对共享的数据进行质量检测,定期给数据权威部门发送质量报告。
在数据共享的基础上建立“一张表”应用系统[24],教师在查看核对自己数据的过程中进一步完善数据,提升数据质量。
本框架以组织建设为基础,梳理数据共享中的流程,详细定义整个流程中涉及角色的定义和责任,建设数据标准管理平台,对外发布符合高校实际情况的数据标准并按标准采集和共享数据,在整个过程中保障数据流动安全,监测数据质量。
3 实践应用
按照上述框架,我校目前的数据共享取得了显著成效。在组织机构建设上,形成了以校信息化领导小组牵头,校网络与信息化办公室具体协调各个业务部门的信息化工作,指定相关的政策文件和管理办法,校网络中心专人负责具体的技术实现和数据共享工作的管理结构;在流程管理上,整个数据共享流程在网上办事大厅实现,保证数据共享的整个审批实现都“有据可查”,通过流程的管理,明确数据都流向了哪里,如图9所示。
在数据标准上,整个校基础数据库的建设参考国标、教标、行标并结合学校管理的实际情况,并初步建成了数据标准管理模块;在元数据管理上,参考教标中的管理子集,将学校管理中最核心的、需要共享的数据划分成了八大数据子集,并初步建成了元数据管理模块;在数据集成与共享上,按照校数据标准,累积集成了32个业务系统,涉及24个业务部门,累计集成数据3 300万余条数据,日均共享数据约3亿条,实际效果如图10和11所示。
在数据安全上,数据库的正式库和测试库分离,测试库仅同步测试数据,系统经过安全检测上线后才在正式数据库服务器上同步正式数据,且对数据库的访问权限有严格控制,所有对服务器的操作均通过堡垒机进行,所有的操作均有记录,数据共享中严格采用“最小够用”原则进行共享,且在数据传输中对敏感数据进行加密;在数据质量上,所有的字段都有唯一的权威数据源,每个字段都仅从权威系统采集,发现问题时,反馈给数据权威部门修正,在数据集成时,尽量按标准进行清洗转换,保证学校基础数据库的数据质量,并建成了“教职工业绩考核系统”,其中数据按有系统管理的数据,不自行搜集的原则,大部分数据来自校基础数据库,让基础数据真正用起来,在使用中不断提升基础数据的质量,此外,建设了数据质量管理系统,对基础数据库的数据定期进行质量检测,发现问题及时反馈给权威数据源部门修正,日常质量监控见图12。
按照提出的数据共享框架,在实际工作中厘清了数据的实际情况,参照数据标准,建成了校基础数据库,其中包含了学生、教工、教学、科研等八大数据子集,根据实际需要,为85个业务系统提供基础数据,为数据治理工作打下坚实基础。
4 总结展望
数据治理背景下建设数据共享框架,从高校数据共享中普遍面临的“组织制度不完善、流程管理缺失、数据标准难落地和数据共享不安全”出发,由组织建设、流程管理、数据标准管理、元数据管理、数据集成共享、数据安全、数据质量七部分构建,不仅可以解决高校面临的数据孤岛的问题,帮助高校数据共享实践人员更全面深刻地理解高校数据共享的内涵,全方位提升数据共享水平、数据治理水平。但不可否认的是,目前的数据共享框架仍然存在开放程度不高、业务部门参与不强、数据共享监控粒度过粗等问题,在今后的数据治理工作中,要进一步研究解决各业务部门数据资源目录开放程度不够、业务部门无法参与、各大数据管理平台分散、字段级别的数据溯源图谱缺乏等问题,提升数据治理的深度和广度。