基于互联网+大数据的智慧教育平台的设计与应用
2021-11-17袁庆祝
袁庆祝
中博信息技术研究院有限公司
0 引言
教育大数据是指在整个教育活动过程中所产生的以及根据教育需要采集到的、一切用于教育发展并可创造巨大潜在价值的数据集合,中国政府高度重视教育大数据及研究应用,提出“探索发挥大数据对变革教育方式、促进教育公平、提升教育质量的支撑作用”。
中国教育资源虽丰富但数据分散、数据收集与分析手段落后,为此,本文研究了教育大数据智能分析平台及关键技术,搭建教育大数据智能分析平台。研究结果可为后续教育质量综合分析、教育质量预警和教育决策支持等提供参考,从而推进教育现代化发展。
1 研究现状
随着大数据技术的发展,国内已有较多学者针对教育大数据展开了广泛研究,祝智庭与杨现民等从教育大数据的文化意蕴及教育大数据的应用模式等方面展开了讨论,提出了构建大数据的策略框架与相应政策建议。吴南中等讨论了教育大数据范式与建模策略的问题。在教育大数据应用方面,从个性化资源的推送服务、资源开发范式、学习分析方法、教育数据挖掘等方面展开研究。然而这些研究中,未将大数据、互联网技术与教育中的痛点相结合,形成规范、体系的教育大数据系统。
本文经过实地调研及向相关工作在教育一线的专家请教,发现目前教育中存在以下痛点:(1)教育资源分布不均。目前学区划分多是按照人工划分,并未结合新生儿数量、适龄儿童数量,尤其是这两者未来两三年内的变化,导致教育资源不平衡。(2)学位信息缺少预警机制。对于适龄学生和学位未进行比对,对教育资源紧张区域没有预警。(3)控辍保学缺乏分析机制。对辍学的学生,没有有效的手段进行整合、分析,并采取相应的措施进行干预。(4)数据分散,存在孤岛现象,无法实现数据资源统一,建设统一分享。
2 技术路线
2.1 技术架构
本文针对教育大数据现存的问题,利用大数据采集分析、机器学习等先进技术手段,研究基于互联网的异构系统数据采集、融合、深度预测分析等,解决数据分散、教育资源分布不均匀等问题,按照数据源、关键技术、平台建设的思路进行研究,技术架构路线如图1所示。
图1 技术架构路线
2.2 异构数据采集技术
基于互联网+大数据的智慧教育平台关键难点是数据采集问题,平台的底层数据来源均来自不同学校或地区的内部系统,如何利用互联网技术从异构系统中获取统一数据源是本文所要解决的关键问题。如图2所示。
图2 异构数据采集技术方案
针对这一难点,本文设计了一种多模态数据融合与交互共享技术,面向大规模结构或非结构化、异构文本数据的特征信息提取方法,以及基于文本描述数据集成的关联,实现大规模数据的融合与交互共享。不同来源的数据,其特征在现实中都具有其意义,在特征表示学习方法的基础上,结合其语义关系进一步处理后,形成数据集,通过模型融合来实现多任务集成的深度学习,并同时完成决策融合,输出数据融合结果。
最后基于自主设计的服务集成中间件平台及流数据实时处理技术,兼容多方数据的对接模式,实现多方数据的采集。
2.3 大数据应用及分析技术
2.3.1 低负载数据索引技术
互联网大数据多样复杂且动态性高,使得传统索引方法不能适用。本文定义检索算法,针对性地研究面向大规模非结构化异构文本数据的用户行为主题、情景、情感的理解方法,提取相关特征信息,基于预编码的符号化方法对其有效表征;在数据库层设计一套内容语义、情景特征敏感的压缩感知、多模态低负载索引和基于CPU/GPU的处理机制,支持各种个性化分析及典型查询的快速处理。
2.3.2 用户特征分析与画像构建技术
针对用户在异质空间的行为数据,本文设计一种大数据驱动的、基于特征挖掘技术的用户细分方法,通过知识图谱技术构建必要的知识,从不同维度提取用户基本特征,支持基于网络空间数据输入自动生成用户个性化空间。
2.3.3 个性化的推荐技术
本文基于分布式环境下的推荐算法,提出了面向精准推荐的特征选择与特征向量相似性度量模型,结合社交网络关联、时空特征关联等信息,实现对缺失行为信息的用户进行特征填补。这样的一个推荐模型充分考虑本项目的数据特征、应用约束与复合优化指标。
2.3.4 大数据应用基础技术
(1)大数据基础环境
Hadoop是一个开发和运行处理大规模数据的软件平台,在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。本项目基础元数据存储在基于HDFS分布式文件系统的HBase中。而对于数据的ETL过程以及模型计算分析过程都将基于Hadoop生态圈组件进行。
(2)批处理引擎实时分析技术
Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce算法。本项目采用spark进行模型的实时计算与分析。为教育政务信息决策系统的各个应用提供数据分析结果。
(3)数据流实时分析技术
数据流实时分析技术,实时处理采集进来的教育数据,保证数据分析的实时性和准确性。本文将采用Spark Streaming技术,把Spark Streaming的输入数据按照batch size分成一段一段的数据,每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset),然后将Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作,将RDD经过操作变成中间结果保存在内存中。
3 平台架构设计
本文基于各方数据源信息,基于当前主流的大数据技术,搭建大数据平台,建立数据集市中心,结合人工智能分析算法,建立智慧教育平台。
系统架构设计图如图3所示。
图3 系统架构设计
(1)数据采集层
主要包括以下采集内容:学生、教师、教育厅门户、普通高中等信息数据,外部数据采集包括社保、医疗、交通车管、房产等数据。
平台提供可视化ETL平台,根据采集工具及数据源类型,定制采集方式,采集频率等,使用拖拽的方式定义数据源、适配器、入库等配置,并监控执行状态。
(2)数据集市中心
数据集市基于大数据平台创建,用于不同业务部门的需求和不同分析应用的分析数据的存储,数据集市模型也按主题组织,可以采用星型模型或雪花型模型进行组织,是基于不同部门、不同人员的分析需求而组织的。
(3)数据分析工具
本文基于Spark Streaming实时流计算框架以及storm流处理技术,结合算法框架搭建的数据分析子系统,具有实时流处理功能,并且具有批处理和事件两种处理模式。并搭配NOSQL数据库等离线计算集群,使得集群同时具备海量数据处理和实时计算的能力。
4 功能设计实现
4.1 功能架构
平台提供统一的门户,支持WEB、移动APP等多种方式访问。面向用户端,涉及教育规划、教育扶贫、控辍保学、综合查询等应用。面向管理端,提供采集配置、数据库配置、权限管理等多种系统配置管理功能,支持系统个性化设置。如图4所示。
图4 功能架构图
4.2 详细功能设计及应用
4.2.1 教育规划应用
在传统的学校服务区划分过程中,大多数教育的管理者只考虑了行政边界上的划分,很少从空间上、学生上学距离远近的角度进行分析。应用GIS技术,从空间分布的角度研究学校的服务范围,利用空间分析和Voronoi多边形,划分空间上学校教育服务区,使得每个学生上学比较近,结合学校资源和规模,帮助教育厅更好地配置资源,给教育资源可达性评价分析提供决策支持作用。
4.2.2 学位预警分析
从各官网、新闻媒体音视频、图像等渠道采集学校学位、师资力量、人口数等各类数据,提取其特征、语义等信息,进行数据融合,计算得出每个学校的教育容量和教育规模,与同期服务区内的人口进行对比,计算出服务区内教育资源过剩和不足的学校;通过教育服务区的划分和可达性评价计算,得出该地区基础教育资源相对较好的地区和教育资源不足的薄弱地区,从而优化教育资源。
对于适龄学生和学位进行比对,并进行学位预警和生成报告,根据适龄人口及区域内学位分析,对教育资源紧张区域进行特殊预警,为教育资源规划及利用提供决策服务。如图5所示。
4.2.3 教育扶贫应用
利用异构数据采集技术对贫困户的主要劳动力信息、银行存款信息、房产信息、社保信息等数据进行采集,实现贫困户集中管理分析。根据扶贫对象的基础信息、指标数据,设立预警阈值,当相关数据超过阈值,系统自动发出预警,提醒相关人员进行特别关注。
4.2.4 “控辍保学”应用
(1)“控辍”分析
通过获取公安部门户籍人口信息,以及对各学校信息的采集获取,对各学区内所有适龄儿童、少年入学、辍学等情况进行全面的统计分析,建立义务教育阶段儿童、少年管理档案,做到底数清楚,为控辍提供准确的情况。
(2)贫困生辍学分析
针对在扶贫管理功能中建档立卡的贫困学生进行跟踪分析,以及辍学率的统计分析,避免学生因经济情况导致辍学。
4.2.5 学生/教师行为画像
基于用户特征分析与画像构建技术,对学生及教师进行行为画像。
学生行为画像包含:学生基本信息、学生个人简历、考试成绩、奖惩情况、家庭基本情况等。并在此基础之上将不同维度的信息关联分析,深度挖掘学生的兴趣爱好、优缺点等,实时展现学生的动态情况,为学生学业状态及行为轨迹分析提供支撑,有利于加强对学生的管理。
教师行为画像包含:教师基本信息、结合专业技能、科研成果、奖励荣誉、培训进修等几个方面特征样本,进行教师画像的标签化展示。实现以教师为主体的数据挖掘,对教师个体及群体进行精准刻画,服务于高校人事、科研管理。
5 结束语
教育大数据分布在包括教育教学、资源、教学评估等在内综合教育系统的始末。大数据的思维和理念可以为优化教育政策、创新教育教学模式、变革教育测量与评价方法等理论研究提供客观依据以及新的研究视角,能够更好地推动教育领域的变革。
图5 各市县适龄人口及学位情况
本文基于海南省教育现状,整合现有海南省教育厅政务信息系统的数据,按照标准规范进行数据治理,建立海南省政务大数据中心,将大数据技术应用于教育规划、教育扶贫、控辍保学、综合查询、人物画像等方面,完善教育信息管理服务能力,推动全省教育信息化的全面发展,帮助教育厅解决部分业务、管理、领导决策的需要;通过数据辅助决策,提供学位资源预警,为合理规划教育资源、分配师资资源提供数据依据。未来一方面将大数据有效植入了教、学、管、评、研的方方面面,力争促进教学质量提升、管理水平提升;另一方面将区块链技术引入教育大数据,为用户数据安全隐私保驾护航。