智慧校园中数据治理实现路径探索
2019-10-31李炜李滢
李 炜 李 滢
(1.浙江建设职业技术学院教育技术中心,浙江 杭州 310000;2.菲律宾国父大学,菲律宾 马尼拉 999005)
我国高校信息化发轫于20世纪80年代,前期十多年主要是校园网络、CAI课件和分散独立的管理信息系统建设。当前,教育信息化已进入2.0 时代,大数据、云计算、人工智能等新一代信息技术成为与教育共生融合的整体,高校正处于由“数字校园”向“智慧校园”转变的关键节点[1],业务对技术的依赖逐日增长。然而因为各种因素,当前高校的数据管理还存在着一些问题,这些问题阻碍了数据在智慧校园中发挥更大的作用,因此,需要探索一种适用于高校的数据治理路径,推动智慧校园向纵深发展。
1 高校数据管理存在的问题
1.1 数据标准不统一
前期的高校信息化建设,缺少统一的顶层设计[2],数据标准梳理时间滞后于系统的建设。行政部门、教辅部门、教学院系通常独自购买或建设业务系统,所采用的数据标准通常偏向于该业务领域的通用标准,例如,人事系统通常采用企业的人力资源管理通用标准,而科研系统通常采用科研管理领域的通用标准,不同领域的标准风格不同,导致校内存在多种数据格式,同时,因为业务细化扩展的缘故,这些领域的通用标准不一定完全适用于高校,甚至会出现“水土不服”,数据替代表示的情况也有出现。数据标准不统一,客观上造成了数据孤岛和数据打架,即使制定了纸质的数据标准,在推广落地上还是存在效果不佳的问题。
1.2 数据源头不清晰
“多头录入”现象较普遍,同一个数据在多个系统都存在录入界面,数据使用需求方不清楚何为源头,再者,目前高校工作人员的流动性增加,部门的工作职责范围常有调整,数据录入的工作人员岗位变动频繁,这些源头不清晰的情况导致数据责任不明确,更新公示不及时,数据的严谨程度、被重视程度不高,在问题数据出现时,各个部门之间互相推诿、争论的情况时有发生,出现的问题往往无人认领,解决问题所花费的时间成本非常高。
1.3 数据质量难提高
各个业务系统产生的数据质量参差不齐,尤其是一些系统建设时以功能实现为主,缺少专业人员的系统严谨性验证,部分数据录入页面没有进行标准化、规范性、约束性的设计,如大量使用无约束的文本填写框,引发了重要数据缺失、数据格式混乱、准确性不高的质量问题。
1.4 数据流转不顺畅
一些管理人员习惯于Excel管理各类数据,存在数据录入系统不及时的情况,导致共享给各个系统的数据存在滞后的问题。
结构化数据库之间的数据交换效率较低,传统的技术如ODI数据交换平台,在定时(T+1)的模式下工作比较稳定,若采用CDC实时的模式,其稳定性就要依赖于触发器,触发器对数据库的业务性能有较大的影响,常有无规律停止的情况发生。此外,非结构化数据如PDF、JPG文件的实时采集也是个难题。
1.5 数据粒度不细致
过去,业务系统在建设时通常考虑的是录入最后的结果数据,并未贯彻过程化管理、伴随式采集[3]的理念,这样的断点式数据蕴藏的价值有限,在实时分析时无法利用数据的详细演变过程来分析演变趋势,从而无法做出准确的决策。
2 高校数据治理实现路径
为了进一步提升智慧校园的数据服务能力,针对存在的数据管理问题,应采取有效的治理措施,笔者所在高校探索了数据治理实现的路径,主要思路是制定完整的数据发展规划,基于数据的全生命周期管理理念,建立以数据标准为起点、数据应用为终点、数据闭环治理为保障的大数据架构体系,构建了统一数据管理平台,以期实现三大目标:责权清晰,优化教育治理能力;数据驱动,提高信息服务的获得感;精准分析,以数据辅助学校管理决策。具体的治理工作是通过“五单一库一指标一通路”(图1)来推进实现的。
图1 高校数据治理实现路径
2.1 责任清单
责任清单构造了精确到数据项的数据责任体系,并实现了线上统一管理,明确告知各方每个数据项的源头,其责任部门和唯一生产者,最终达到“一个数据一个部门一个人负责”,这个数据出了问题,就由这个责任部门和生产者来解释。与传统的纸质标准相比,新版数据标准不再是空中楼阁,其使用效能大大提高,从技术和业务的角度均能真实落地,是全校的数据权威依据,同时也为后续的数据核验工作提供了技术规则依据和问题自动溯源的基础。
2.2 问题清单
责任分清楚之后,便开始技术和业务两重审核,找出生产数据中所存在的问题,审核采用旁路监督的方式,不影响数据的正常使用和流转。技术审核是机器自动审核,系统利用完整性、规范性、一致性、准确性、唯一性等技术性规则校验数据,并收集校验未通过的问题数据;业务审核是归口部门人工审核,只有技术审核通过的数据才能按照数据审核流程自动流转到对应的业务工作人员的审核页面中,审核人需要对业务的内容进行检查,是否符合业务的真实情况,如有不符,标记成问题数据。两重审核的结果将汇总成问题清单。
2.3 任务清单
任务清单旨在将传统的少数人参与的阶段式治理模式转变成人人参与的常态化共治模式,数据治理是一项长期而又庞大的工程,任何一个部门、工作人员都无法独立完成。因此只有借助责任清单和问题清单,打造针对生产者的任务清单,任务单自动智能分解,层层下发,直接到具体的部门和具体的人,实现一条线闭环反馈,并为用户提供每一个数据修改的快速跳转入口,才能扎实推动数据质量的提高,形成一项常态化、具体的工作,营造氛围,使数据质量的重要性深入人心。
2.4 填报清单
填报清单是针对学校的主数据,例如教职工、学生、专业等主体中最重要的基础数据,提供一站式录入系统,全面梳理教职工、学生涉及的人员类别,基于数据的全生命周期管理理念打造针对教职工、学生的全过程闭环,联合业务流程体系,实现伴随式采集人这一主体的“进校”“变化”“出校”的数据,从源头控制住核心数据的质量,实现“控重点、强骨架”的目标。
2.5 开放清单
为了消除数据相对封闭,开放机制尚未形成的问题,梳理了所有具备开放条件的数据,以目录清单的形式展现,用户能够根据需用户能够根据需求勾选对应的数据服务,然后再发起申请。对接方式有基于HTTP方式,用机器码、工号鉴别的方式来加强HTTP方式的安全性;基于数据库接口方式,用户可以使用数据服务的自带标准直接在自管系统中快速完成正向工程。数据服务获取支持基于最细粒度的数据共享接口:最小数据单元,即信息项,比如身份证、姓名等。以数据交换共享机制为依托,支持对信息项进行无条件共享和条件共享,以及不予共享。
2.6 一库
一库就是“一库一表”,为全校每个人建立一张成长记录表,将散落在各个系统的数据围绕人进校全面梳理,并在数据中心汇集教师库、学生库,用户不需要再登录各个系统查询本人的各类信息,在一个平台内就可以看到全部内容,既能纵向看自己的关键时间线,也能横向切片看细节,在职称评定资料准备、毕业简历准备中能够为师生提供更好的服务,提高用户参与数据治理的获得感。
2.7 一指标
一指标是构建数据质量评价体系,针对全校、部门、业务系统、个人多个层次提供量化的质量评价Q值,并进行实时排名。Q值既是数据质量状态的晴雨表,Q值提高,说明问题不断减少,数据质量向好的方面发展,Q值也是各个部门治理工作绩效的成绩单,利用好Q值这个抓手,能够实时督促各方参与数据治理,配合详细的质量报告,各相关方可以查排名,知差距,找短板,从宏观和微观层面把握治理绩效。
2.8 一通路
一通路是重新构建数据流转通路,针对高校的数据生态环境特点,设计混合式的实时数据架构,首先利用OGG、Kafka、Spark等技术实现了基于日志的结构化数据采集、计算和实时共享,在对源数据库性能影响尽可能小的前提下,耗时从原来的平均1 h缩短到秒级;其次,针对存量业务系统中的非结构化数据,例如教师培训证书、科研论文、教师获奖证书、学生获奖证书等,开发采集软件,连同关联关系,抽取存储到非结构化存储中,并规整统一的API访问接口。最后,构建学院的Hadoop大数据存储中心,将过程性结构化数据和非结构化数据统一存储,为未来的大数据分析奠定基础。
3 高校数据治理实践效果
3.1 制度成果
在治理工作启动之前,首先制定了《学院数据管理办法》,治理团队以“数说业务”、用数据推进教育治理的出发点,提高数据管理的站位,将需要学院决策层支持,各个部门配合的内容和相关的考核办法写入制度,并提交学院审核发布执行。制定了《数据质量考核办法》,明确了数据质量的量化评价指标,所有工作有凭据,公平公正推进。
3.2 平台成果
在实践过程中,学校和企业研发人员共同研究,设计开发了一套针对高校特点的数据管理平台,统一的大平台将数据标准、数据质量、数据填报、数据开放、数据底盘分析中心、数据浏览、领导驾驶舱、数据融合管理各个模块囊括其中,需要处理的事项一目了然,也提高了师生用户的数据素养,平台各个模块相互协调融合,实现了连通所有、管理所有、服务师生、立足当下、预见未来的目标,切实提高数据支撑教学、管理的能力,充分发挥学院的数据内在价值。
3.3 应用拓展
在对学院数据进行地毯式的全面排查梳理中,发现了系统应用的薄弱点改进和补充列入了计划,未来的升级、建设有据可依,在构建责任清单时,各个部门各抒己见,将历史遗留问题逐一协商,其中产生了较多有趣的想法和创新的应用场景,例如过程式教学评价、专业群建设、师生发展、校园物联感知[4]等方面,对于学院的发展大有意义。
4 结语
数据治理是一项长期的、复杂的综合性系统工程[5],不能一蹴而就,首先需要结合学校自身的业务需求及发展状况,设计完善的体系,制定必要的制度和考核办法。在数据治理过程中,应有优先顺序,合理设置数据治理的短期及长期目标,例如首先对最核心的主数据先进行治理,然后再分阶段逐步推进各个业务主题的治理。同时,治理的评价指标需是可量化的,以此对各个责任主体进行有效的绩效评价,提高各部门的重视和配合程度。
高校数据治理不能靠某一个部门完成,需要统筹协调,多方参与,自上而下进行推进。因此,需要从体制机制建设、人员意识培养、组织职责划分等多方面进行综合设计,才能确保数据治理达到理想效果。