南开大学数据治理演进思路
2022-08-24张四海焦宝臣颜伟荣
文/张四海 焦宝臣 颜伟荣
疫情所带来的社会影响和产业变革仍将长期持续,高等教育面对的挑战将越来越多,为迎接挑战,我们必须要充分做好数据治理,并构建基于数据的应用生态。
2020 年新春伊始至今,新冠疫情进入第三个年头,病毒肆虐导致的社会变化深刻地影响着人们生活的所有领域。传统的工作方法、管理思维和交流模式,在无法顺畅面对面接触的现实环境中,显得低效无助,从而迅速崩溃。在与紧急事态赛跑和从庞杂信息中寻找关键的务实需求中,疫情用一种粗暴的方式逼迫我们在治理的道路上必须全面深入地走向信息化、标准化。
在教育领域,信息技术已逐渐成为教学、科研和管理的主要工具。教育部部长怀进鹏同志在今年初提出“应用为王、服务至上、示范引领、安全运行”的工作要求和思路,强调把业务应用摆在优先突出位置,以应用需求驱动运行平台、安全平台、标准平台和数据资源平台建设,加强内容建设和运营维护,切实为师生提供能用、够用、好用的数字化资源。
南开大学
基于数据的涉疫应用
在疫情防控常态化阶段,高校需要开展人员管理和排查等相关工作,通常通过开发业务系统或者利用移动平台开发相关应用来满足需求,而应用更需要高质量的数据作为支撑。下面以南开大学为例,介绍涉疫应用以及数据支撑情况。
防疫相关的典型业务包括:
1.确定高危人员与学校的关系,即社会面出现的高危人员是否是学校人员;
2.确定人员在学校的轨迹和状态,例如在校内到过的场所和接触过的人员,当前是否在校、所在具体位置等;
3.管理在校人员,包括出入校审批、健康信息填报等。
图1 给出了自新冠疫情爆发以来,南开大学开发的涉疫应用及其所需的支撑数据情况。针对上述疫情防控相关业务的需求,南开大学开发了人员信息定位系统,包括人员轨迹查询、接触人员定位和学生是否在校等应用,并依托学校移动门户平台快速开发了师生出入校审批、疫情填报、学生返校等一系列应用,有力支撑了学校疫情防控工作的开展。
图1 疫情防控相关应用及所需支撑数据示意
上述应用功能的具体落地实现,必须要有良好的支撑数据。涉及的数据包括:人员基本信息、无线AP 日志、一卡通消费流水、门禁出入记录等。
对于人员基本信息需要强调两点:一是基本信息不仅包括学工号、姓名等基础数据,还应涵盖宿舍、班级、专业、学院、辅导员等数据;二是通常情况下,学校的人员管理只针对在校师生,但是疫情期间还应包括食堂、保安、物业及其他在校人员,这部分人员信息如何采集并汇入数据中心也很关键。
此外,对于无线AP 日志、一卡通消费流水、门禁出入记录等,通常是存储在网关系统和一卡通平台中的业务流水数据,数据总量非常大,且数据与人员信息精确匹配也是工作的难点。
考虑到当前移动终端已成为用户接入互联网的主要途径,且具有实时、便利和使用体验佳等多方面优势,南开大学采用了依托移动门户平台开发涉疫应用的方式。对比疫情爆发前的2019 年和疫情期间的2021 年的全年微应用使用次数(2019 年5500000 次,2021 年15600000 次),两年间几乎翻了三倍。这里虽有微应用业务范围逐步拓展的原因,但是涉疫应用的广泛、高频使用无疑是主要因素。
以上情况从一个侧面反映了疫情防控常态化阶段,高校对信息化应用的需求愈加强烈,而这些应用的实现无一例外都是以良好的数据支撑为前提。使庞杂多源的数据汇集,并形成高质量的可用数据,离不开科学合理的数据治理。
数据治理工作历程
数据治理工作开展的要点,首先是要获取完整、准确、及时的全域数据,其次是要做好数据与具体应用的适配,最终通过应用业务开展来实现数据价值。这项工作技术要求高,涉及部门广,内容繁琐复杂,是一项长期工作。下面结合南开大学的工作历程,介绍5 个数据治理工作的关键点。
1.2007 年,建设公共数据库
南开大学自启动数字校园建设开始,就已着手开展数据相关工作。学校规划了公共数据库,计划将全校业务系统中的数据统一归集到公共数据库。但因学校各部门业务系统建设不全面、厂商和平台不一致等,信息孤岛现象非常严重,导致公共数据库规模有限,可用数据源较少,难以形成充分的数据支撑。
2.2017 年,建设新一代数据中心
经过十年的数字化校园建设,南开大学各部门业务系统基本实现了全覆盖,具备了为数据中心提供充足数据源的前提。在此基础上建设新一代数据中心,通过DCI 工具将全校业务系统数据抽取到数据中心,形成全量数据中心,同时作为存量和新建业务系统的数据支撑。目前数据中心已经接入31 个信息系统作为数据源,并为49 个业务系统提供数据服务,涵盖人事、教务、学工、设备资产等主要业务域,为学校信息化快速发展创造了条件。这一阶段仍待解决的问题主要包括数据标准不统一、数据冲突、存在脏数据等。
3.2019 年,开展数据治理
面对上述困难,我们意识到,单纯依靠技术手段、依靠网信部门自身的力量,使用传统的管理思路解决数据问题已经达到了瓶颈,必须从管理上升到治理,综合运用各种手段、形成适应数据工作规律的治理体系,才是未来支撑信息化持续健康发展的关键。
图2 给出了南开大学数据治理架构示意图。在技术方面,需要对数据组织架构进行梳理,对数据进行标准化。开展元数据管理,并对数据中心的数据进行数据质量分析,给出数据治理报告。还要关注数据安全,对数据全生命周期进行治理。管理上,要有政策保障、组织机构支撑,规范治理流程。
图2 南开大学数据治理架构示意
针对数据质量,通过元数据和主数据实现对数据中心的监控,从完备性、完整性、有效性、及时性、一致性五个方面进行衡量,并给出数据质量报告。主要描述业务系统哪些数据存在问题,为改进数据提供依据,达到提升数据质量的目的。
这一阶段,数据治理的推进大大提升了数据可用性,但因校内不同部门间信息化建设水平不均衡,部分非传统业务缺少系统支撑,部分系统建设比照业务发展存在滞后等情况,又暴露出新的数据不完整等问题。
4.2021 年,构建数据生态,建设双循环体系
随着教育信息化建设的中心从主要支撑校务管理向支撑师生工作生活全场景拓展,使用户个体被纳入数据治理框架成为可能。据此,南开大学提出了建设良性数据生态的工作规划,其核心内容是构建数据双循环体系。图3 为数据双循环体系示意图。
图3 数据双循环体系示意
内循环:以高校数据治理七大核心领域(组织架构、数据标准、元数据、数据中心、数据质量、数据安全与隐私、数据生命周期)为指导,配合数据治理保障机制(政策、组织、流程、技术),通过打通校内产生及使用重要数据的部门,完成数据在校内的强大内循环。
外循环:将数据的真实生产者即师生,作为数据服务的重要对象,依托一表通平台,方便其通过各种形式的终端获取数据服务,进一步检验数据质量的同时,为数据中心缺少的业务数据、过程数据等其他数据提供补充。
5.2022 年,数据驱动应用创新
传统的应用构建,通常沿用的是业务系统建设的逻辑,依照既有业务模式提出需求,再尝试获取相应数据,一方面工作效率和体验感与师生期待有所差距,另一方面也禁锢了开发者的创新思维。对此,南开大学采用以数据开放为抓手、为应用构建提供标准化数据服务的方式,力求形成从数据出发的创新应用构建模式。
图4 为数据应用逻辑示意图。核心思想是:一切数据应用以标准为依据;一切应用及关联服务以数据安全为底线;以需求为导向对数据进行分级分类;完成数据资产编目,突出数据的资产化,进一步契合数字经济发展规律;提供标准封装和个性化封装的数据开放服务,支持敏捷开发和应用创新。
图4 数据应用逻辑示意
经过深度数据治理后的数据开放服务,其对象将不限于业务部门,更包括专业学院、附属机构、学术团队甚至师生个人,让数据真正“活起来”,全方位赋能高等教育创新发展。
未来展望
我们知道,教育信息化是通向教育现代化的必由之路,而疫情大大推动了这一进程。在可预见的未来,无所不在的应用将取代过去的计算机、多媒体、管理信息系统等,成为教育信息化可感知、可触摸的标志性载体。而应用的落地必须以数据为先决条件,“数据为先,应用为王”将更加凸显。此外,因为应用的对象更多集中在自然人,服务也将占据更为重要的地位。
需要特别强调的是,不同于传统行业,信息化服务并非止于业务的末端,还应反流到数据中,为数据健康发展提供营养,形成数据、应用、服务三位一体的数字时代动态循环,如图5所示。
图5 服务、应用、数据逻辑示意
对高校而言,数据不再是传统教育、科研、管理的补充,而是开展工作的前提和依据,良好的数据支撑是应用落地的先行条件,是在纷繁资讯和事件组成的茫茫迷雾中照亮前路的唯一明灯。我们深刻地认识到,疫情所带来的社会影响和产业变革仍将长期持续,高等教育面对的挑战将越来越多,离开了数据和建构于数据之上的应用生态,我们必然寸步难行。