信息化2.0时代数据中台在教育行业的应用
2022-02-24洪伟任剑洪任剑岚
洪伟 任剑洪 任剑岚
(1.江西省教育评估监测研究院,江西 南昌 330000;2.江西交通职业技术学院,江西 南昌 330013)
伴随着以云计算、大数据为代表的新一代信息技术的发展迭代,数据呈爆炸式增长,关于企业数字战略转型的思考和实践也日益增多,阿里作为行业先行者,带头掀起了数据中台建设的浪潮。教育作为数字时代重要一环,也同样面临着信息孤岛、服务转型升级等问题。近年来,由于数据治理实践方法论的不断成熟,教育信息孤岛正被逐步破除。随着数据中台的兴起和发展,其共建共用共享的体系架构,可进一步促进数据互联互通,推动教育数据资产化和服务智慧化。
一、数据中台的概念
为了满足企业日益增长的业务需求,阿里在2015年12月宣布组织架构调整,提出了“大中台、小前台”的IT转型战略。即依据“业务中台+数据中台”的双中台架构,将业务、数据和技术从前台剥离,以有形的产品体系和实施方法论为支撑,构建包含搜索事业部、业务共享事业部、数据平台事业部等在内的中台架构,形成持续将数据提炼成资产并服务于业务的机制。通过产品技术和数据运营能力的整合,中台助力阿里完成了企业数字化转型、具备了业务快速创新的能力。在阿里提出中台概念后,一些大型互联网、金融企业因为IT能力强、数据量大、组织结构灵活等特点,相继成了“中台”的追随者,围绕各行业、各领域数据中台的会议和解决方案也纷至沓来,大有谈及数字战略转型升级,就绕不开数据中台建设的趋势。
滴滴出行经过多年的发展,在前端业务上相继衍生出快车、出租车、专车、代驾等业务共同发展的业态,为了解决各部门独立发展、业务间缺少协同的问题,滴滴围绕精益数据生产、深度数据治理、智能数据目录、敏捷数据创新、数据服务交付等目标搭建了中台管理体系,经过两年的建设,实现了数据能力全链路覆盖并能系统性对外输出。民生银行在践行云化架构思想上,结合金融领域数据服务特点,从平台、管理、组件层面搭建起一套面向不同业务条线和信息系统的数据中台体系,致力于支撑业务多样化的数据需求,让他们真正感受到数据“易用”。网易针对传统行业特点,提出一套数据中台解决方案,该方案让企业可以更好地整合跨部门业务需求,集成和管理企业海量数据,快速发掘数据背后蕴涵的价值,提升数据应用水平和管理效能。
与很多新概念诞生之初一样,数据中台目前还未形成统一的定义,由于行业、企业规模、业务方向等因素,最终落地的数据中台项目也是“千人千面”。首先,数据中台可以说是加强版的数据仓库。除了承载着数据仓库分域建模的职能,数据中台将建设、治理、管控、服务放到同一高度,通过跨部门协作构建起的统一数据平台,为数据服务和决策分析确立了权威的数据源。其次,数据中台是大数据平台的延伸。数据中台不只以Hadoop、Spark等为代表的大数据计算与存储技术做支撑,还包括智能算法、与业务联动的特性、数据资产图谱等,通过平台的联通为前台用户提供一致体验。再次,数据中台是数据资产治理的主战场。中台的建设从企业全局视角来推动数据治理,通过对企业数据资源进行统一的梳理、识别、定义、分类分级、定编码、贴标签、清洗、转换、加工等一系列活动,进而形成能够为企业产生价值的数据资产。最后,数据中台是高性能、可复用的数据服务平台。数据中台在继承SOA共性业务服务、共性技术服务、共性数据服务的基础上,运用分布式架构良好地解决了SOA性能上的问题,简化了运维。
在笔者看来,企业数字化转型有一条非常清晰的发展主轴,那就是资源的枢纽和共享。数据中台是众多解决方案中热度最高的,其实质是通过搭建企业级的数据公共服务平台,对所拥有的数据进行汇聚、整合、加工、存储、贴标签等活动,形成高价值、可复用的数据资产,进而为业务应用提供准确敏捷的数据支撑。
二、教育数据中台的发展现状
回望我国教育信息化发展之路,相继经历了网络硬件建设、业务应用建设、智慧校园建设等阶段,从门户网站到数据治理,逐步形成了以网络、信息系统、数据为核心的教育资产。得益于教育信息化1.0时期打下的坚实基础,线上办公、在线教学、“云毕业答辩”等活动在疫情下能够常态化运行,积极响应了“停课不停学”的号召。2018年,随着《教育信息化2.0行动计划》的印发,开启了教育信息化从数字时代迈向数智时代的新篇章。为了实现“三全两高一大”的发展目标,打破“信息壁垒”、将“管控型”的建设理念向“服务型”转变、实现教育行业的数字化转型已成为教育界的普遍共识。
近年来,随着信息技术与教育的不断深度融合,高校由于建设经费充裕、人才储备充足等因素,在教育数据管理方面开展了较多实践,部门高校开始规划并尝试搭建数据中台,基于数据中台向全校提供统一的数据服务。
苏州大学在校园传统数据平台基础上,通过对数据存储、计算和融合等方面能力的扩充,搭建起由数据采集、数据开发、数据治理和数据服务组成的数据中台体系,通过中台建设,逐步实现了校园数据资源的整合汇聚,梳理形成了“8+1”个主题域数据模型,方便各部门查看全景数据,为智慧校园提供了强大的数据支撑。东北财经大学设计了集“鉴证、赋信、授权、互联”为一体的用户中台,在统一存储个人信息、差异化认证授权的基础上,极大提高了数据安全管控水平。其中,统一鉴证中心包含多种用户鉴权方式信息,并以统一的方式提供认证服务;统一赋信中心在完成用户鉴权认证后,以API形式按需对系统赋予相关信息;统一授权中心统一管控接入系统、接入服务、应用授权等信息,可实现微服务架构下多维度、细粒度权限的灵活赋予;统一互联中心不仅能与微信、支付宝、微博等用户平台互联,还可以实现校园数据以中台的形式统一开放。南京理工大学以数据中台建设为依托,推动全校数据治理体系建设。全量数据中心汇聚的资源在数据中台以资源目录的形式对外发布,并提供统一接口服务;另外,数据中台内置的机器学习、深度学习等技术,通过对全域数据的挖掘和分析为学校的网络大数据应用和精准扶贫项目提供了决策支持。上海外国语大学聚焦信息化2.0时期数据服务对象多元化、数据服务内容复杂化、数据服务响应时长敏捷化等问题,提出了一种数据中台解决思路,通过采集、清洗、加工各类数据,并按照业务类别、服务对象、数据属性、时间跨度等多个维度对数据进行整理、整合和存储,并提供数据传输、数据导出、报表生成、数据可视化等工具,为各类需求快速地提供数据服务。华南师范大学在业务中台和数据中台领域同时发力,通过对校园信息化应用中的共性需求进行专业化组装,形成了包含一网通办办事大厅、电子印章与数字签名服务平台、智能合同管理服务平台等在内一系列专项能力平台,更好地促进了中台能力向前台延伸展现,发挥了中台共性能力的支撑作用。
可以看到,数据中台的引入为教育数据统一管控和服务转型升级提供了必要的支撑。一方面,数据中台资源共享的建设理念,实现了教育信息化精细化管理和降本增效,为信息化长期建设营造了良好条件;另一方面,作为一种新型信息架构,数据中台也要求建设方站在全局高度来考虑数据服务工作,转变工作思路,提高数据综合治理的能力。
三、教育数据中台拟解决的问题
(一)数据孤岛丛生
教育信息系统建设初期,率先进行了局部信息化,表现为各部门主要根据自身业务发展需要,搭建了众多业务系统和信息平台,需求主要是纵向的。由于缺乏统一的顶层设计和建设指南,不同业务系统的数据标准、业务流程和技术架构彼此独立、缺少关联,逐渐发展成一个个信息孤岛。在数字校园时代,数据孤岛支撑各业务条线,并未产生特别影响。但是智慧校园甚至是智能校园时代,要求教育部门站在全局角度记录业务流程并提供个性化服务,因此需要将多业务来源的异构数据汇总到一起进行综合分析。此时,同一数据多头采集、业务联动性差等问题就使大量的数据处于游离、孤岛的状态,难以匹配关联,进而影响信息传播,也无法满足综合决策要求。
数据孤岛表面上反映了建设模式上应用交互问题和数据不一致导致的共享难题,但从深层次分析可以发现,数据孤岛本质上是由管理职能分化导致的。而数据中台建设并不只是搭建一个能力平台,还承担着重构信息化建设模式的职能,从技术部门大包大揽逐步过渡到由业务部门、技术部门、广大师生群体等多个主体共同参与建设。强调教育部门加强信息系统深度整合和集约管理,通过对全域数据的汇聚整合摸清数据底数,明确各项数据的唯一业务归口部门,并形成数据溯源图谱;各部门依据“一数一源”的要求,优先通过共享交换向数据归口部门获取数据,原则上不得另采数据,只有这样才能逐步消除数据孤岛,解决数据冲突的矛盾,更好地通过数据服务于教育管理与决策。
(二)数据体系不完整
随着信息化、物联网、大数据的发展,各信息系统产生的原始数据越来越多,堆积在一起导致使用成本高昂,都知道数据是企业的战略性资产,但杂乱的数据是无法直接为业务输送价值的。这些数据往往只能被主管业务部门和信息化基础较好的技术部门使用,而且会出现指标名称相同,但统计口径、计量方式不一致的问题,进而影响整体的数据流动。另外,各部门根据自身业务发展需要,都会有量化考核指标,但不够全面,也缺乏方法论指导。在智慧校园时代,这种孤立强调重要性、缺乏整体考量而设置的指标体系,不利于提升教育部门整体的数据应用分析能力,进而影响业务体验。
数据中台作为企业数据集中地,并不是把各种数据简单堆积在一起,而是通过一套指导规范,将杂乱无序的原始数据整理成完整、易用、规范、准确的数据体系。首先,数据中台通过全域数据汇聚,形成了业务服务的权威数据源;其次,通过对原始数据进行纵向分层、横向主题域划分等操作,让整个数据中心的层次结构清晰易懂;再次,通过建立一致性指标统一字段的命名、计算口径和业务含义,以面向业务服务的视角建模,确保数据的标准一致;最后,数据体系的建设以共享共用为前提,通过建立可复用的数据模型,避免了大量烟囱式的数据开发,节约存储计算资源。
(三)数据缺乏治理
根据教育信息化发展的现状,教育数据在数据治理方面仍存在诸多挑战。由于缺乏统一的数据视图,数据管理者无法从全局掌握目前拥有的数据资产及其分布情况,数据使用者不能便捷地获取想要的数据;部分业务系统的数据模型像一个黑盒子,表信息无注释、字段冗余、枚举值缺失等现象普遍存在,有的系统甚至没有数据模型;各系统由于功能缺陷、管理缺位、操作不当等原因,数据的质量也是参差不齐,这些问题数据与其他数据进行关联分析时,每个数据问题的不良影响都将以网状形态传递,造成诸如关联失败、统计核算错误、分析维度缺失、结论失真等问题;组织管理制度、管理流程以及数据管理平台工具的缺失,也导致数据治理工作很难落地。
数据中台通过一整套数据治理活动,对企业的数据进行统一管控,保障数据资产的可见、可懂、可用、可管。在对部门数据全面盘点的基础上,形成数据资产地图,以资源目录的形式面向不同用户开放数据资产,让各类用户快速找到需要的数据;通过数据资产体系建设,对数据进行标签化处理,将数据加工组织成业务可懂的数据资产;数据质量管理模块以问题数据为切入点,通过问题发现、定位、分析、处理、跟踪、持续优化、知识积累等程序,形成数据质量持续提升闭环管理,为应用提供高精度的数据;另外,中台的建设将数据安全管理放在了重中之重,通过设计覆盖数据全生命周期的安全管理体系,多维度、深层次地保障数据安全,特别是核心主数据。
(四)数据赋能效率低
数据资产只有被业务使用到,才能发挥其价值。数据的应用成熟度反映了数据对业务的支撑程度,应用成熟度越高,说明业务对数据的依赖程度越高,应用成熟度越低,依赖性就越弱。目前,绝大多数教育部门的数据应用水平还停留在统计分析阶段,表现为以实现业务办理的流程化、自动化为导向,依托关系型数据库对数据进行存储,针对业务发展中的关键指标进行简单的、单一维度的描述统计和趋势分析,以了解业务发展的基本情况。部分数据应用水平迈入决策支持阶段的单位,虽然对各业务环节产生的数据进行了整合汇聚,开始建立数据仓库,实施数据质量管控,以可视化的方式实现了数据与业务的融合,但距离数据赋能教育科学决策、精准化管理和个性化服务的目标还相差甚远。
数据服务体系作为数据中台实现资产服务化的最后“一公里”,致力于将数据转化为服务能力,是连接后台数据与前台业务的主要桥梁。借助多样化的数据服务能力,对数据中台的全量数据进行封装上架,让数据反哺业务,业务发展产生的新数据进一步回流到数据中台,从而实现数据在业务之间循环流动。另外,在梳理不同业务部门提出的共性需求基础上,通过统一规划、独立授权等方式构建起数据服务接口和标签服务体系,既消除了孤岛式接口的重复开发,又通过独立授权满足了个性化业务需求,从整体上保证了资源和需求的协调。
四、教育数据中台的基本框架
教育数据中台的建设作为一项系统性工程,涉及目标规划、组织架构、制度保障等方方面面的工作,而且随着中台搭建完毕,还需要通过运营机制,让教育数据资产越来越多、数据质量越来越好、数据服务越来越快。接下来主要从能力体系和物理形态上描述教育数据中台的基本框架,主要分为四个板块,分别是数据采集层、数据存储层、数据治理层和数据服务层(见图1)。
图1 教育数据中台基本框架
(一)数据采集层
教育数据中台的构建,第一步就是对全量教育数据进行汇聚整合,从物理上打破信息孤岛,实现数据互联互通,这主要是依赖于数据的汇聚及交换能力。随着管理信息化和教学信息化的深入发展,目前教育数据采集以内部数据为主、外部数据为辅,呈结构化数据、非结构化数据一同兼顾的特性,根据数据应用的时效性,需要同时具备离线采集和实时采集的能力。在离线采集场景下,如果数据量不大且结构化数据较多,可采用轻量化的ETL方式;当数据量较大、数据仓库性能较好且非结构化数据占比增多时,建议采用ELT集成方案。相较于ETL,ELT可以依赖目标系统的分布式计算集群,达到更快的数据同步、清洗和分析速度。在实时采集场景下,对于结构化数据变更,可使用Kafka Connect将数据抽取至数据仓库,利用数据仓库的SQL引擎或者额外的计算框架,如Spark,完成数据的复杂计算;对于非结构化数据,可采用Flume技术对数据进行采集,借助Kafka消息系统对实时数据进行缓冲,并交由Storm作进一步数据处理,最后根据业务应用场景,将数据依次存储在不同数据库中。
(二)数据存储层
为了方便数据阅读和应用,需要设计层次分明、易读可用的教育数据体系,完整的教育数据体系一般涵盖贴源层、标准层、标签层和应用层。贴源数据层作为数据体系的基础,目标是实现全量教育数据的集中统一存储,从而能在数据中台查询到各类需要的信息。该层级的数据一般为实时或准实时,是对各业务系统数据的镜像复制,尽可能地保留数据原貌,对于半结构化数据、非结构化数据仅进行简单的结构化处理。标准数据层作为数据体系的核心,是站在更高层面,以业务域为单位对贴源层的数据进行重新分类、组织和标准化;针对教育业务的特性,通过对业务过程的抽象,依次完成组织、人员、教学、科研、财务、资产、服务、位置、公共等业务域的建设。另外,为了确保数据被各部门理解一致,统一字段命名、业务含义、计算口径、指标设计等操作也都是在这一阶段完成。标签数据层实质是对标准数据层的萃取和组合,目标是通过特定标识,将跨部门、跨业务域的同一对象数据打通和整合,形成特定对象的全域数据标签,方便数据使用者查找、理解和使用数据;围绕学校、教师、学生三大教育主体,根据业务需求,酌情设计属性标签(性别、贫困等级、学籍状态)、统计标签(学分获取情况、签到率)和算法标签(挂科率、学校吸引力指数),标签类目的划分尽量参照业务域设置;标签数据层可通过接口形式向业务输出,是教育大数据应用的基础。应用数据层是面向特定业务场景,将标准数据层和标签数据层的数据进行个性化计算和再加工,以灵活响应业务需求;该层级的建设需要同时兼顾业务需求形式和响应速度,如设计大宽表支撑多维度自由聚合分析、组装K-V结构数据满足特定指标的查询、选择Redis数据库支撑延时要求高的在线查询、基于Hbase数据库支撑延时要求一般的在线查询。
(三)数据治理层
数据治理层在数据中台架构中起承上启下作用,对上向业务输出动力,支撑以数据价值驱动为导向的各类教育应用,对下依托大数据平台对各类教育数据实施全生命周期管理,提升数据质量、保障数据安全。结合教育数据治理特点,数据标准管理、数据模型管理、数据质量管理、元数据管理、主数据管理、数据安全管理、数据生命周期管理共7个方面应重点建设,下面就各职能域进行描述。数据标准是为了统一单位内部的数据口径,对数据定义、表达及格式进行的统一约定;应尽可能地围绕主数据和核心业务数据开展,不要一味追求大而全,脱离数据的实际情况,导致标准难以落地。数据模型是对单位内部各业务主体数据关系的客观描述,对数据治理的成功起到重要作用;在定义和分析现有业务的基础上,重点构建低冗余、可重用、可共享的教育数据模型,该模型不仅要利于异构数据的共享共用,还能记录特定对象的业务活动全貌。数据质量管理是一项集方法论、业务、工具和管理流程为一体的解决方案,实施中要找准影响数据质量的关键因素,在数据源头和流转通道中设置质量控制点,建立量化管理和问题处理机制,以数据应用为抓手推动问题数据的发现、处理、反馈等。元数据管理是数据治理的核心环节,基于元数据的数据资产地图可以从全局视角呈现教育数据资产,指导业务部门找到他们需要的数据;通过元数据管理,不仅可以理清数据的结构、分布和流向,还能掌握数据资产的冷热度,为数据生命周期管理和数据价值分析提供支撑。主数据一般是不同部门、不同业务流程高频共享的基础数据,通过梳理各职能域和业务域中的业务流程,确定主数据范围和权威来源,基于标准规范对主数据进行编码、转换和清洗,形成教育主数据库;权威的主数据可通过共享服务通道同步至各业务域,有效地消除“信息孤岛”和数据冗余,保障数据的唯一性和准确性。数据安全管理是数据治理的重点领域,教育部门应从组织、制度、人员、平台等方面建立覆盖数据全生命周期的安全管理体系,重点保护师生个人隐私信息。“数据即资产”正渐渐被教育行业所接受,但并非所有教育数据都能称之为资产,无应用价值的数据仅是数据而已;数据生命周期管理在数据中台承担了降本增效的职能,教育部门应结合数据业务属性、产生时长、热度情况、存储量变化等因素,设置各类数据的生命周期和清理策略,避免资源浪费以提高治理效率。
(四)数据服务层
数据服务层是数据中台能力对外的出口,通过对治理好的教育数据进行逻辑封装,生成API服务供前端调用,支撑各类业务决策和智能应用。根据教育数据常见的应用场景,可按需建设数据查询、多维分析、标签画像、算法模型等4类数据服务能力。数据查询作为最基本的服务形式,主要是通过唯一标识查询特定对象的对应信息,教育部门可通过搭建数据资源共享交换平台,实现基础数据的内部共享和对外开放,支撑教育政务服务“一网通办”。多维分析主要是通过统计计量的方式,多角度、深层次地对数据进行综合分析,旨在帮助业务人员快速掌握数据集的基本特征和发展趋势;在梳理业务需求的基础上,可通过数据大屏的可视化框架,将统计性、结论性数据直观地呈现出来,方便用户分析决策。标签画像属进阶服务能力,部分数据管理基础较好、数据维度丰富、数据增量较大的教育部门可开展建设;通过对特定对象标签数据的萃取和融合,可以从全局描述对象的数据特性,为智能推荐、圈人服务等应用场景提供重要支撑。算法模型属于高阶服务能力,面向的场景主要包括学生个性化学习、教师因材施教、校址选取等,有时甚至还需要外部门数据的支撑;可依托机器学习或深度学习平台,将数据资产和算法模型一键封装成API接口,供上层的智能应用查询调用。
五、结语
在以用户为中心的数智化时代,教育部门也在不断追求利用信息技术提升治理能力、创新治理模式,而数据中台作为数智化时代的能力底座,对促进数据融合共享、培育行业数据专家、提升业务服务体验等具有重要意义。相信随着教育新基建进程的不断加快、数据中台能力的不断完善,两者的结合会有越来越多的落地场景。