APP下载

基于Hadoop生态圈的区域基础教育大数据应用体系架构研究及实现

2021-09-05汪翀

中国教育信息化·高教职教 2021年8期
关键词:体系架构实现途径数据仓库

汪翀

摘   要:教育数据的海量爆发和流通、大数据技术的逐步完善,促使教育数据的应用从零星走向整体、从人工迈向智能。对教育数据进行有效梳理、科学规划,应用当今较流行的Hadoop生态圈组件和智慧城市数据共享平台体系,建构易实现、低成本的基础教育数据应用体系,分而治之,可以有效降低基础教育大数据的应用复杂度。采用单一系统数据来源和多系统数据来源相结合的、灵活的建模方式,面向主题、应用驱动,研究基础教育数据的挖掘、整理、建模、分析、应用的全流程及规律,探索数据应用的实现方法,可以用最低的成本最大可能地发挥基础教育数据的综合效益。

关键词:基础教育;数据应用;系统分类;主题建模;数据仓库;体系架构;实现途径

中图分类号:G40-05 文献标志码:A 文章编号:1673-8454(2021)15-0054-07

一、引言

伴随IT技术的迅猛发展,海量数据爆发并产生流通,引起世界各国对大数据的空前关注和重视,纷纷在各领域推进大数据的挖掘、分析与应用,大数据的效益日益呈现。全球知名咨询公司麦肯锡认为:“数据,已经渗透到当今每一个行业、业务职能领域,成为重要的生产因素。人们对海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

我国基础教育信息化“十三五”期间得到了长足发展,教育部教育信息化2.0工程的实施,更大幅地提升了基础教育行业信息化系统的建设与应用。打破系统间的壁垒,充分挖掘、分析、应用教育数据,提升教育的精准性、智能化,成为今后一段时期教育信息化的重要任务。

什么是大数据?百度搜索的定义:或称巨量数据,指的是需要新处理模式才能产生更强大决策力、洞察力和流程优化能力的,海量、高增长率和多样化的信息资产。[1]维基百科的定义:是指无法在一定的时间内用常规软件工具对其内容进行采集、存储、处理和应用的数据集合。[1]教育大数据目前还没有一个公认的权威的定义。杨现民教授等[2]认为:教育大数据是指整个教育活动过程中产生的、根据教育需要采集到的,一切用于教育发展并可创造巨大潜在价值的数据集合。方海光认为:教育大数据有两种定义,第一种特指教育领域应用大数据的技术和方法,它强调了大数据及大数据技术在教育行业的应用,是一种技术引导教育变革的基本想法。第二种特指教育领域的大数据,即教育和学习过程中所伴随的各类数据的总称,它强调了教育行业本身特有的大数据带来的新方法,是一种通过教育应用技术解决问题的基本想法。美国Knewton教育公司将教育大数据解释为两类:一类是有关学生基本信息的数据,另一类是基于学生学习活动用以提升学习效果的数据。[3]本文概念应用更偏向于杨现民教授等人的观点。

二、基础教育大数据特点分析

基礎教育因行业的特点,信息化的应用起步较早,但进展并不乐观,还未能形成颠覆性的革命,信息技术远未达到和教育管理、教育教学的深度融合。当前行业内建设的系统,信息孤岛现象相当严重,数据应用层面较低。国家“三通两平台”建设及教育资源公共服务体系建设对上述现象有一定的改观,但还无法根本解决地方信息化应用中数据的深度应用问题。区域使用的教育管理信息系统和业务系统多达数百种,给基础教育部门的数据应用带来了很多的痛点和难点。全面梳理基础教育应用的信息管理系统和教育教学业务系统,分析教育系统生产的各种数据集及其特点,有利于教育信息化工作者,更好地开展数据挖掘、分析、应用,有效发挥数据的作用。

1.基础教育数据集

基础教育信息应用系统主要有四类:①教育部、省厅、市局行政机关或直属事业单位部署的系统。②IT企业提供的云服务系统。③学校自建系统。④其它相关机构部署的系统(本文图表中分别称A1、B1、C1、D1类系统)。教育系统的信息应用系统种类繁多,除少数系统进行了数据标准的统一,完成系统间的对接,多数应用仍是孤立的或简单进行了统一的用户论证。

从数据应用的时效性看,基础教育数据可以分为:①静态数据,数据变化或更新周期较长。如教职工基本信息、学生学籍信息、教师发展信息、学生成长信息、学生学业成绩信息、学生健康体质信息、入学招生信息、教育事业发展信息、中高考信息等。这类数据基本上是以学期或学年度为周期产生更新,变化相对较慢,但规律性很强。②动态数据,数据变化或更新周期较短。如智慧课堂系统信息、学生“一卡通”系统信息(一般整合了门禁、图书阅读、班牌、水电管理等应用)、学生社会活动信息、学生作业和阅读信息、学校(单位)物联网管理系统、学校视频监控系统信息等。这类数据基本上是实时性的、动态变化的。当前基础教育主要信息管理和业务应用系统如表1所示。

2.基础教育大数据特点分析

理论界普遍采用4V表示大数据的特征,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。基础教育大数据因行业性质及历史发展因素,笔者认为其具备大量、多样、价值三个特征,“高速”这一特征并不明显。基础教育领域的数据却还存在这样一些特点:①数据来源复杂,数据质量偏低;②数据应用侧重于过程数据,对实时数据要求不迫切;③应用模型开发严重滞后,缺少专业性。这些特点决定了数据应用体系建构时,需要分而治之,采用数据局部应用和整体应用相结合(单一系统数据来源建模和多系统数据来源建模)的原则,以数据应用的实效性为主要目标,分别规划实施。

三、基础教育数据应用的分类及主题建模

1.主题建模的概念

数据应用无论是简单的,还是复杂的,一定是面向主题的。主题是在信息系统或信息平台较高层次上为完成某个或某类应用而对数据进行整理、归类、分析的一个抽象概念。主题建模是为了达成主题而实施的数据组织形式,是在较高层次上对数据的一个完整而且一致的描述。完成这一阶段工作,应当由用户、系统开发人员和教育信息化技术人员三方共同协作。传统情况下,在系统或平台开发过程中,熟悉教育业务的教育信息化专业技术人员对主题建模的关键作用容易被忽视。

2.基础教育数据应用的分类

基础教育的数据应用较为复杂,特别是涉及教育教学质量、师生发展评价、学校发展效益评价等,国际国内并无统一标准,指标体系也有多种,从而造成教育系统的大数据核心业务应用不会象其它行业那样易于建模。对当前基础教育四类应用系统进行梳理分析,系统服务面向的对象主要涉及教育工作者、管理者、学生、家长、学校(机构)等。为了便于基础教育数据应用的快速实施,减少数据挖掘、分析和应用的复杂度,可以将基础教育数据应用分为单一系统数据来源建模应用和多系统数据来源建模应用两大类。单一系统数据建模应用指的是某一教育信息系统的数据采集、挖掘、建模、分析和应用不涉及其它信息系统的数据,其数据应用过程及实现相对简单,现阶段有为数不少的信息管理系统或教学业务系统都或多或少地在系统中建设了数据分析、应用模块,但无理论体系支撑,仅是零星应用。多系统数据来源建模应用指的是数据采集、挖掘、建模、分析和应用涉及多个信息管理系统、业务系统的数据,其数据应用过程及实现相对复杂,需要通过数据仓库等平台来实现。其难点在于数据应用开发技术人员与教育业务管理者在工作上脱节,应用需求分析不到位、不彻底。

3.两类数据应用的主题建模及实现

对地级市区域来说,需要面向数据应用对象认真梳理各类系统,整理出基础教育的信息系统数据应用主题,按照单一数据来源建模应用和多系统数据来源建模应用对其进行划分,能够在单系统中完成数据挖掘、建模、分析应用的,尽量在本系统中解决,这样既可以节约系统开发成本,也易于数据应用的实现和落地。对于管理类信息系统,往往国家、省级教育行政部门都有建设和部署,但因系统建设的重点不同,上级部门部署的这类系统,数据采集和数据分析的维度较少,很多与地方数据应用主题不吻合,或不适合本地需求。地级市可以考虑在市级建设一系列以发展性数据应用为主体的系统,这既可解决个性数据应用问题,也可为多系统数据来源建模应用完成个性数据采集工作。

以基础教育“教师(教职工)管理信息系统”为例,国家或省级系统数据采集基本集中在教师基本信息、教科研、培训等,数据应用也主要为基本信息的分类统计。上级部署的系统存在着这样一些问题:对个体来说,不能对教师的发展状况进行精准分析和画像,更不能提供多模型评价的精准分析。对管理部门来说,由于各地各校教师用工情况复杂,系统数据采集不完整,从而不能精准分析区域内教师的真实情况,也不能进行多口径(多模型或多主题)数据分析,为行政决策提供依据,更谈不上与本地教师使用、管理、培养工作有机结合,更好地发挥信息化系统的智能辅助作用。以镇江地区为例,教育行政部门部署的教职工管理系统的数据应用情况如表2所示。

(1)单一数据来源建模应用的实现(见图1)

同样以区域教师专业发展系统为例,鉴于教师发展过程中的评价及区域师资管理工作,使用的数据基本不涉及其它系统,数据建模应用可以在本系统内完成,因此可以通过建立数据应用主题模型库,将各地区对教师发展状况评价的政策或标准,抽象成应用模型,设计成可调整、可插拔模型库,供用户使用。如教师画像的应用,可以将当地人事部门对教师的基本评价(考核)标准,骨干教师、学科带头人、特级教师的评价标准,抽象成评价模型,根据教师的基本数据、发展数据进行分析、画像,形成发展性报告等。由于教师成长过程中涉及数十种表格,为了让系统更实用、便捷,还有一个关键点是将系统内各种数据,智能地与表格栏目形成关联,与教师归档资料形成关联,减轻教师系统应用的负担,这样即可大幅度降低数据应用的复杂度和系统开发成本,快速又便捷地解决当前的一些数据应用问题。

(2)多系统数据来源建模应用的實现

多系统数据来源的建模应用,需要抓住应用主题和数据来源两个要点。这类数据应用如果涉及的来源较多,数据类型复杂,则通常需通过数据仓库来实现(本文基于Hadoop生态圈技术)。为了降低数据应用的复杂度,应用主题可在本系统解决,同样通过数据接口,可将外系统数据导入本系统,进行整理、挖掘、建模、分析应用。在数据仓库应用层解决的,通常涉及多维度历史数据、非关系型数据等。数据来源可能涉及本行业上级部门部署的、单位自建的系统(A1、C1类),也可能是IT企业开发的云服务系统(B1类),或是行业外行政机构部署的系统(D1类)。

两种不同数据建模应用的实现方式,复杂程度区别很大,以下分别用实例阐述说明。

①在一个系统中完成多系统数据来源建模应用(见图2)。以地级市“义务教育阶段招生系统”为例,我国义务教育阶段实行免试就近入学、划片招生政策,热点学校招生时报名火爆,对报名学生的户籍所在地和家庭房产证的审核就相当繁杂,需要大量人力物力。为降低招生人员的压力,可以将智慧城市共享数据平台的公安户籍数据和房产管理局的房产数据采集接入招生系统,根据本市的招生政策、流程,抽象出数据应用模型,完成报名学生信息与户籍、住房信息的比对,实现招生系统辅助决策功能,可大大减少招生人员的工作。因系统数据来源涉及面仅两个,数据量也不太大,这类应用可以直接在主业务系统建模完成,易于数据应用的实现。

②通过数据仓库完成多系统数据来源建模应用(见图3)。以地级市“义务教育学校资源配置辅助决策系统”为例,苏南地区外来务工人口较多,且分布极不平衡,子女的入学对当地义务教育学校资源配置带来很大压力,科学规划、预警、配置资源,有很大的现实意义。完成这一主题应用,涉及的数据比较多,来源类型、维度复杂,在单一系统中解决的效益比较低。可以将智慧城市数据共享平台、上级教育行政部门系统平台、IT企业第三方服务数据平台的相关数据接入当地教育系统数据中心的数据交换前置端口,使用对应的数据采集工具,导入数据仓库的“贴源层”,按数据流程对相关数据进行加工,和教育行政部门共同完成资源配置的抽象、建模,用可视化工具呈现或开发第三方系统,加以展示应用。

四、多系统来源的数据流转设计

1.数据流转

基础教育大数据流转过程(见图4)包括数据采集、数据整理及存储、数据资源管理、通用计算、数据分析、数据可视化及应用。数据源主要由提供基础教育数据集的各种应用系统或某些综合平台构成。

2.流转技术架构

数据流转过程中主要使用Hadoop生态圈的各种组件完成对数据的各种处理,组件也可部分选用在此开放代码基础上开发的商业化产品。Sqoop、Flume、TDT用来进行静态和动态数据的采集;HDFS解决数据的分布式存储;Hbase进行超大规模的表数据存储,其对大表数据的读写访问基本能达到实时。YARN 作为另一种分布式资源管理系统使用,它适用各种计算框架,扩展性、可用性均高。MapReduce、Spark Core、Flink Dataset选择为平台的通用计算框架,解决各种场景的分布计算。基于数据分析、主题建模、数据应用、可视化等,平台较高层面可以根据区域实际选择不同组件,如国内商业产品Inceptor、Slipstream、 HypeBASE、Search、Discover、Sophon等。应用组件参考架构如图5所示。

3.数据采集

基础教育大数据采集分为静态数据采集和动态数据采集。不同类型系统数据采集如图6所示。生产静态数据的管理信息系统主要是各级教育行政部门部署的教育管理类系统,用户涉及面一般比较广,以区域为单位覆盖率理想情况下可接近100%。产生动态数据的主要是IT企業开发的教育教学业务系统、区域或学校部署的学生行为管理类系统(如学生“一卡通”系统等),这类系统一般由学校、集团校、县区局部部署,很少有地级市全面部署的现象,数据采集相对繁杂,难以覆盖区域内全部用户对象,易形成数据空白区。静态数据可以使用Sqoop、TDT等工具完成数据的导入,全量导入建议使用TDT组件,过程中可进行一些轻量级的整理。动态数据采集的数据多使用Flume、Kafka来完成,地级区域可以在业务系统与数据仓库之间建设数据中转端点,建设数据交换平台进行数据处理。常见数据采集工具特点比较如表3所示。

4.数据整理及管理

数据整理需要考虑的是数据质量,可以从数据的4个C方面入手,即数据的完整性(complete)、一致性(coherent)、准确性(correct)、可解释性(accountable)。[4]基础教育各个应用系统提供的数据质量比较令人担忧,原因是多方面的(因非本文重点,在此不作阐述),数据整理可以分三阶段完成,即轻度整理、深度整理、形成数据资源库(数据集市)。

整个数据整理过程应围绕数据应用、主题建模进行,轻度整理阶段按4C原则解决数据质量问题;深度整理阶段重点依据数据应用方向,对数据进行切割或合并,根据主要应用主题生成数据集市。

同时数据整理还需要考虑数据粒度,它直接关系到数据仓库中数据量的大小以及应用查询的类型。粒度级别越高,查询越少。多数情况下,数据在进入数据仓库时的粒度级别太高,意味着在数据存入数据仓库之前,开发人员必须花费大量设计和开发资源对这些数据进行拆分。[5]如基础教育学生学业成绩数据,现阶段主要来源于这样几类系统,即考试阅卷系统、智慧课堂系统、教务管理系统、中高考成绩系统。其数据粒度比较情况如表4所示。

这几类系统的数据都反映了学生的学业成绩和学习行为。就学业成绩而言,市场上的主流产品对数据细化到了学科知识点的情况较多,无能力点的维度。教务管理系统、中高考成绩系统多为学科综合成绩类,数据粒度高,数据应用查询的频次会较低,深度挖掘、分析的难度会较大。基础教育需要实现较高水平的精准教学、智能辅助决策,前端业务应用系统应结合行业的业务特点,努力降低业务数据的粒度,才能在数据应用的深度上实现重大突破。

建立基础教育数据资源目录是实现数据管理的最重要环节。它应以教育部、省教育厅、地市教育行政部门发布的教育行业数据标准为依据,结合各级教育行政部门对学校、单位、教师、学生的评价标准,由数据仓库建设专业技术人员会同教育行政部门管理人员共同讨论制定。教育部曾发布与教育管理信息有关的《教育管理基础代码》、《教育管理基础信息》、《教育行政管理信息》、《普通中小学校管理信息》、《中职学校管理信息》、《高等学校管理信息》和《教育统计信息》共7个教育信息化行业标准,可以结合当地情况在制定数据资源目录时参照执行(部分标准已不适应现实要求,可按IT通用标准处理)。

五、基础教育大数据应用体系架构

1.数据仓库的设计

区域基础教育的数据仓库可以采用硬件资源层、数据交换层、数据计算层、数据应用层四层结构。考虑到教育行业应用系统的复杂性,可以建设一个数据交换平台,根据不同系统的类型使用静态导入或实时采集,并通过ETL工具进行轻度的数据整理。贴源数据区基本保持原数据结构,仅进行数据质量、数据一致性的处理。数据计算层是数据仓库应用的核心,重中之重在于面向应用主题,进行数据的抽象建模,完成各类数据集市的建设,这一过程需要IT专业技术人员和教育行业各业务部门、行政管理部门的人员共同研讨,制定应用主题,搭建数据模型,然后抽象成算法。面向基础教育用户对象可考虑建设教育事业类、教师发展类、学生成长类、家校共育类等数据集市;面向教育评估评价主题可建设各类教育评估评价专业数据集市;面向事业发展、师生发展可整理出发展预警预测类数据集市。数据仓库应用层可由易到难,先从数据的主题查询、数据快速报表做起,再根据现今教育的主流评价模型设计各类对象的个性画像、事业画像,逐步建设基于数据挖掘的智能辅助决策应用和预警预测应用等。针对更多更深度的应用可以建设多类型数据仓库接口,提供给第三方开展应用系统的设计建设。基础教育区域数据仓库架构如图7所示。

2.数据应用体系架构

以应用为导向、以应用为驱动是基础教育信息化建设的核心,尽管教育行业信息化系统错综复杂,但理清系统间的数据应用关系、合理架构应用体系,能够最大可能地挖掘、使用數据,发挥数据的应有效益。围绕数据应用这个核心,以区域基础教育数据仓库为中心,构建数据应用架构体系(见图8)。区域单一系统数据来源和多系统数据来源数据中较为简单的,采取这两种数据应用建模时,可以直接将数据交互到单应用系统中进行应用主题建模,完成数据应用;跨多个系统、多个数据类型的应用,可通过区域数据交换平台将数据交互至数据仓库贴源层进行数据的整理、建模,建设数据应用集市,设计多类型数据应用接口,然后由第三方开发企业,完成数据的对接,二次建模应用。国家、省部署系统目前多数还未建设交换共享平台,可考虑采取设立数据交互前置终端的方式解决。智慧城市数据交换平台通常是在政务内网中设立一个数据交互前置终端,应用系统可与此终端进行数据读取。该体系的特点是比较务实,可以快速实现现有状况下基础教育的大数据应用,同时也具有发展性和可扩展性,当大数据技术向前发展时,适当对体系进行调整即可完成新技术下的深度应用。

六、结语

基础教育大数据的应用,不是一个简单的项目建设,而是一个长期的不断发展的,并会给教育带来深度变革的进程。它需要国家层面顶层规划教育数据交互、应用体系;区域和学校层面统筹数据应用系统建设;教师和教育管理者逐步提高数据素养;教育信息化人员提升专业保障能力,多方共同努力才能完成。区域大数据应用体系的构建,可以逐步纳入国家教育数据整体建设体系中。现阶段可以将重点落实到区域数据仓库、基础教育数据资源建设中;使用本文建议的单一系统数据来源建模应用和多系统数据来源建模应用的两种方式,在应用中研究、在应用中提升、在应用中发展,推动我国基础教育大数据应用的快速发展。

参考文献:

[1]黄东军.Hadoop大数据实战权威指南[M].北京:电子工业出版社,2017:7.

[2]杨现民,李新.中小学教师数据素养[M].北京:科学出版社,2020:3.

[3]肖君.教育大数据[M].上海:上海科学技术出版社,2020:6-7.

[4][美]Q Etban McCallum.数据整理实践指南[M].魏秀丽,李妹芳,译.北京:人民邮电出版社,2016:198.

[5][美]William H Inmon.数据仓库[M].王志海,等译.北京:机械工业出版社,2019:28.

(编辑:王天鹏)

猜你喜欢

体系架构实现途径数据仓库
基于数据仓库的住房城乡建设信息系统整合研究
分布式存储系统在液晶面板制造数据仓库中的设计
基于国产软硬件的行业大数据体系架构研究
如何将创新阅读植入小学语文教学中
探析电力系统调度中数据仓库技术的应用
浅析我国公立医院在新医改下的财务管理目标和实现途径
新时期马克思主义大众化与思想政治教育实现的途径
基于数据仓库的数据分析探索与实践