APP下载

基于大数据的教育决策研究

2019-04-25单莹杨圣洪朱承学

中国教育信息化·高教职教 2019年3期
关键词:支持系统大数据

单莹 杨圣洪 朱承学

摘   要:文章从教育大数据的视角,探索教育决策系统的建设架构和思路,并提出通过加强教育大数据标准化建设、提高教育决策主体的数据素养、建立教育大数据共享融合机制、培养教育大数据复合型人才、健全教育大数据安全保障体系等途径建立基于大数据的教育决策优化机制。

关键词:大数据;教育决策;支持系统

中图分类号:G40-058 文献标志码:A 文章编号:1673-8454(2019)05-0048-04

毋庸置疑,在所有教育管理活动中,教育决策是核心和关键所在。它不仅影响教育管理工作的效率和成效,更关乎小到学生、教师的个体发展,大到地区乃至国家教育事业的兴衰。在现今这个“自媒体”时代,教育由于关系每家每户、各色群体,也因此成为全社会关注的焦点和人人都可以谈论的热点——高考改革的一举一动、基础教育的备受诟病、地区差距及城乡差别带来的教育不均衡、农村教育与教师队伍的发展困境、学生的学习评价和教师的职业倦怠、学校的育人环境与校长的专业化……有关教育的任何一个决定、一条制度、一项法规,都有可能牵动无数人的目光,教育决策的环境变得前所未有的复杂,教育决策科学性、有效性的需求也日渐突出和迫切。

随着教育信息化的全面快速推进,海量的教育大数据为教育决策提供了充分的数据基础,而数据挖掘、商业智能、云计算、计算机模拟等信息技术的迅猛发展,又为基于教育大数据之上的智慧教育决策提供了有效手段。2014年3月,教育部印发的《2014年教育信息化工作要点》中提出:加强对动态监测、决策应用、教育预测等相关数据资源的整合与集成,为教育决策提供及时和准确的数据支持,推动教育基础数据在全国的共享。可见,告别“感觉”和“经验”,以数据驱动决策的能力已成为教育决策的方向和实践路径。

一、大数据和教育大数据

大数据这一詞汇从2009年开始流行,2012年成为时代发展的一个重要趋势,2013年被媒体称为中国大数据元年。

教育大数据是大数据的一个子集,特指教育领域的大数据,是整个教育活动过程中所产生的以及根据教育需要采集到的、一切用于教育发展并可创造巨大潜在价值的数据集合。

教育大数据主要分成两类:宏观数据,如国家、各省市的教育年鉴;过程数据,如各学生、各科目、各过程环节的成绩,据教育部2017年统计数据(http://www.chyxx.com/industry/201808/664173.html)显示,当年全国中小学在校生总数为18560.7万人,其中中职在校学生1592.5万、高中在校学生 2374.5万、初中在校学生 4442.1万、小学在校学生 10093.7万、特殊教育在校学生 57.9万,如果按每个学生一年10门学科记录期中、期末、小考分数,按5门过程成绩记录,就有92.80亿条数据,按平均每条数据5K计算,可能需4640175×5K=4.425216万TB=43PB数据,如果再加上本科学生数据,将达到100PB的惊人数据量,多年累积下来,这些数据的存贮与利用就是大数据研究的范围。

二、基于大数据的教育决策支持系统建设

早期数据处理采用“数据挖掘技术”,寻找数据之间的相关性,如“啤酒与婴儿尿片”,当数据达到海量,传统的数据挖掘技术需与云计算、超级计算结合起来,不仅要在海量数据中找出规律,而且将这种规律用某种方式表现出来,并应用在新数据新问题中,这便是机器学习等人工智能技术,尤其基于深度神经网络的机器学习即“深度学习”技术,在AlphaGo与AlphaGo Zero战胜人类顶尖围棋选手后,这种技术已经成为业界追捧的技术,因此教育大数据的处理应采用机器学习等人工智能技术。

1.机器学习处理教育大数据的基本框架

教育大数据处理的机器学习建模过程,一般分为七大步骤,分别是数据采集、数据清洗、预处理、特征选择、机器学习模型选择、模型效果评估和决策。如图1所示。

第一步,数据采集。把纸质的资料扫描为PDF形式,再把PDF形式转换为CSV文件,存储到云服务器上。

第二步,数据清洗。包括数据去重、字符串为空的统一标注等。

第三步,数据预处理。包括Y变量标注、训练样本和测试样本的筛选、正负样本比例的调整以及哑变量处理等。

第四歩,特征选择。包括Filter和Wrapper两种特征选择,特征降维、特征提升。

第五歩,模型选择。包括模型选择、参数设置以及评估指标选择。

第六步,模型效果评估。包括模型的ROC曲线、AUC面积、模型正则化、模型假设、超参数搜索等。

第七步,决策。把模型的输出概率转化为一个分数,对所有样本的分数进行区间统计,最后,选择一个分数阈值,把分数阈值以内的样本判断为坏样本,把分数阈值以外的样本判断为好样本。

2.教育机器学习的实例:教师教学与学生学习成效评价的机器学习

在教育大数据时代,将各学校、各教育的监控汇聚起来,将教学过程中教师板书、走动范围、教鞭、教具使用、形体动作、声音、语速、表情等言谈举止通过视频形体分析提取出来,将学生课堂表现——小动作、睡觉、全神贯注、互动情况等分析提取出来,还通过问卷调查等获取学习效果,通过机器学习,找出影响学习质量的因子。为此采用机器学习方法建立成效评价模型,确定关键特征,选择机器学习树模型,决策会反馈到数据采集阶段。此研究中最后采用随机森林和XGBOOST模型。基于机器学习方法的教师教学与学生学习成效评价模型如图2所示。

3.教育机器学习的实例:教育投入与教学质量成效评价的机器学习的研究

在大数据时代,机器学习应用在智能教学和智能学习中,收集湖南省教育年鉴的数据,将教育在校舍基本保障、教师绩效、教师培训、信息化教学、学生竞赛等方面的投入,与九年义务制教育的比例、初中升高中比率、初中升高职比率、高中升本科比率、高中升高职比率、当地GDP之间的相关性等进行分析,通过机器学习建模,找出影响教育质量的因子,哪些是正相关,哪些是互相关,找出投入与产出之间的关系,即模型,以确定最佳的教育投入模式,如投“砖头”即校舍及设备的硬件投资、投“人头”即教师待遇之间的比例是多大最合适等。

从教学管理的角度,收集每位学生、每科的各种过程数据,如入学考试、期中、期末、各种小考,小升初比率、初中升高中比率、初中升高职比率、高中升本科比率、高中升高职比率,各种竞赛获奖的情况,还有关于教学效果的各种问卷调查等,通过机器学习找出教学行为与学生学习效果正相关的因素。

4.基于以上分析建立验证系统

(1)平台功能及模块

①Web服务器

Web服务器,即平台前端,以Web浏览器的形式展现给用户。可以管理文件,包括上传、浏览、下载和删除文件。可以根据机器学习的建模过程,选择相应的脚本,创建一个任务压缩包,并储存起来。可以查看机器学习建模结果,浏览评估指标ROC曲线和AUC面积;可以依据自定义的评分策略做决策。

两个数据表:一个是mysql-文件信息数据表,记录用户的文件信息;另一个是mysql-任务信息数据表,记录用户的任务压缩包信息。

②文件系统

文件系统可以是一个服务器,也可以是一个Hadoop集群,存储用户上传的或者执行任务返回的结果文件。

③Zookeeper调度系统

基于Zookeeper分布式开源系统搭建的调度系统,用于管理用户创建的机器学习任务,并对相应的任务进行调度。

④任务执行集群

是一个服务器,也可以是基于Spark搭建的集群,用于执行用户创建的机器学习任务。

(2)基本架构,如图3所示

(3)基本架构中的逻辑关系

①用户上传文件,增加文件信息到mysql-文件信息数据表;用户选择机器学习处理脚本,创建机器学习任务压缩包,存储任务压缩包,增加压缩包信息到mysql-任务信息数据表。

②Zookeeper调度系统扫描mysql-任务信息数据表,发现有未执行的任务;根据任务相关信息从文件系统下载文件数据和从Web服务器下载任务压缩包。

③Zookeeeper调度系统根据mysql-任务信息数据表的相关信息,安排相应的机器学习任务包到集群执行。

④集群执行任务完毕,给文件系统返回结果文件,给调度系统返回任务执行结果信息,调度系统更新mysql-任务信息数据表的任务相关信息。

⑤在Web界面,根据mysql-任务信息数据表和mysql-文件信息数据表查看某任务的结果,包括评估指标ROC曲线和AUC面积等。

(4)系统运行界面(见图4a、b、c、d、e)

网址:http://apple41.com:2018/。

三、建立基于大数据的教育决策优化机制

大数据应用于教育决策包含大数据获取、挖掘、分析、应用等阶段,不同阶段面临着不同的挑战,需要不断地完善各阶段,形成整体机制,实现立体化的决策支撑。

1.加强教育大数据标准建设

数据的获取是大数据应用的源头,基于大数据的教育决策需要多来源、多类型的数据集合。数据的标准化、规范化是保证各教育部门数据资源共享和业务系统整合的关键,数据标准的缺失可能会導致数据获取不足、数据处理错误、无效信息冗余、有效信息遗漏,从而将教育决策的方向引入歧途,降低教育决策的可用性和科学性,增加教育决策的风险性。因此,制定统一的数据格式标准、数据采集标准和质量标准,构建清晰有效合理的教育数据管理战略、治理机制和处理流程,保障教育数据的规范化采集与汇聚共享,保证被采集数据的有效性、一致性和准确性,是开展基于大数据的教育决策工作的基础和前提。

2.提高教育决策主体的数据素养

大数据发展对教育决策者的数据素质提出了更高要求。一是要培养数据意识:决策者要“心中有数”,树立起数据驱动决策的管理意识,建立大数据思维,保持对数据的敏感性,认同教育数据的价值和意义,摆脱对旧有决策习惯的路径依赖,构建基于大数据决策的教育行政组织文化和制度。二是要提高数据能力:能够对管理决策所需要的数据进行大致定位;能够理解可视化数据模型等不同数据的表达形式;能够把握数据分析结果对教育决策的具体效用;能够通过数据处理呈现的结果对决策做出准确判断;能够反思数据对决策实施的效果,形成拓展性思维。三是要树立数据伦理观:教育管理者应重视数据安全与个人隐私的保护,提高数据使用的伦理道德。

3.建立教育大数据共享融合机制

大数据视角下的教育决策对数据来源提出了广泛性和全面性的要求,因此需要消灭现存的条块分割的数据孤岛,对各级各类教育部门的现有数据信息进行整体优化与有效清理,实现数据的规范化、模块化,打通教育部门纵向和横向业务数据的融合渠道,为建立数据共享机制提供平台支撑。

4.培养教育大数据复合型人才

教育大数据涵盖内容广泛,不同的教育决策需要不同的教育数据进行支撑,如何根据决策需求从海量数据源中判断数据的选择,如何将来源于各异构数据源的数据按照预先设计好的规则进行转化清洗,如何借助大数据进行数据建模或趋势预测分析,都迫切需要同时具有大数据领域和教育决策领域知识的复合型人才。因此,当务之急是加快教育大数据复合型人才的引进和培养,既要充分发挥高校在培养大数据专业人才方面的先天优势,合理调整教育资源分配,完善专业人才培养体系;同时,又要加强与互联网公司、数据技术企业资源合作,通过联合创建大数据技术研发中心及科研团队,快速培养满足需求的教育大数据复合型人才。

5.建立健全教育大数据安全保障体系

从国家层面看,教育数据的安全性可以比肩金融数据。从个人来看,庞大规模的受教育者与教育者群体,尤其是大量未成年学生,隐私保护至关重要。因此,应当出台教育大数据治理的法规条令,设立完善的教育大数据使用及监管机制,明确政府、学校、企业和个人在数据收集、处理、共享过程中的责任和义务,明确教育数据的开放程度、开放范围、开放对象,规范公开数据与私有数据的边界。同时,要建立教育大数据安全保障技术体系,通过开发新的数据安全监测工具,升级数据安全防护技术来保证数据不被窃取。在来源清晰、责权明确、应用有序的前提下,通过数据安全法规体系和技术保障体系的双重作用,共同维护教育大数据的信息安全,有效开展教育大数据研究与应用。

参考文献:

[1]彭红光,林君芬.迈向云时代的教育变革[M]北京:科学出版社,2012.8.

[2]单莹.基于教育信息化的数字化终身学习体系的构建[J].成人教育,2014(3).

[3]单莹.从幕课、微课看碎片化和娱乐化学习[J].中国教育信息化,2014(11).

[4]杨现民,王榴卉,唐斯斯.教育大数据的应用模式与政策建议[J].电化教育研究,2015(9).

(编辑:王天鹏)

猜你喜欢

支持系统大数据
心理健康支持系统对2~3岁听障儿童干预后的影响
“长征”五号地面发射支持系统短期快速恢复实践
大数据环境下基于移动客户端的传统媒体转型思路
复杂产品全生命周期服务支持系统需求分析
上海:精心构建医改社会支持系统
论高职院校贫困生社会支持系统的构建
人工肝支持系统临床应用的研究进展