浅谈教育大数据总体架构
2019-08-16姚中喜
姚中喜
摘要:大数据的发展为教学管理提供了更多的管理手段,加快推进教学活动与现代科技的融合。本文从大数据框架建设开始,介绍教学大数据建设的需要的底层平台,教学大数据的分析数据源和教学大数据的应用场景等。主要介绍教学数据的采集、治理、存储与检索,结合学校自身业务系统对教学大数据分析所需要的各种结构化和非结构化数据数据源分析,以及通过对业务系统梳理和对数据源的分析处理,通过大数据平台运用算法分析来实现对智慧教育模式的探索。
关键词 大数据 数据治理 个性化教学 智慧教育
在中国教育行业的发展形势上,自大数据的概念提出以来,中国大部分高校一直保持对其的高度关注。随着大数据技术的逐渐成熟,很多高校已经开始了接受并建设了大数据模型。除此之外,有部分高校已经开设了大数据相关的专业课程,同时部分高校也意识到了数据对于学校信息化建设的重要性,并建立了自己的大数据开发团队,对本校数据进行大数据分析及研发。
目前高校信息化建设都比较完善,包括“一卡通系统、教务系统、OA办公系统、学工系统、成人教育系统、网络教学平台、图书馆管理系统、人事系统、上网认证系统、资产管理系统、校园有线网、校园WiFi、数据交换平台、财务系统”等,而且大部分业务系统已经建设多年,并且學校目前已经对部分数据进行了整理及标准化。应该来说很多高校已经积累了海量的教育数据,即学生服务类数据、学校管理类、教学类的数据都比较丰富。但是学校还未有效利用相关数据进行挖掘分析,并没有能够运用已有的数据展现学校现状以及分析学校存在的风险,展示学生学习过程、老师教学模式等的相关信息。
1教育大数据平台框架
教育大数据平台需要能够有效采集和整合学校业务系统和硬件设备,建设学校统一的大数据管理平台,提供统一的接口开发应用,为校学生、教师、院领导提供大数据服务。
基于学校现有的数据源,构建统一的、分布式的教育大数据平台,主要分为大数据仓库建设和管理及大数据业务分析建设,首先,在数据仓库构建方面,通过采集数据源全量数据及增量数据,构建学校原始大数据仓库,从而更好的集中和积累校园应用数据,为教育大数据分析和校园信息化发展提供数据的备份和积累;在原始数据仓库的基础上对原始数据进行聚类分析和标准化处理,形成聚类数据仓库,标准化校园的业务数据,从而反推动校园业务系统的完善和标准化;分析校园大数据业务系统需求构建业务模型,根据模型对标准数据库进行分析和关联,形成应用模型主题库。并通过数据管理平台对整个数据采集、数据存储、数据标准化、数据建模清洗过程进行图形化配置、管理和应用。
2教育大数据数据源采集
数据采集是指通过业务系统数据、硬件设备数据等方式获得的各种类型的结构化、半结构化及非结构化的海量数据,是教育大数据分析服务模型的根本。采用分布式高速高可靠数据采集、高速数据全映像等大数据收集技术;高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术等。校内信息采集与集成,完成校内结构化数据,包括学校校务数据中心平台、各业务系统数据库;校内各类非结构化数据,包括校内各种互动教学网站内容、学生等各类文档、图片、业务系统日志等采集和集成。
实现教育大数据分析接入的数据类型包括业务系统、硬件两大类。学校现有数据源系统有:一卡通系统、教务系统、图书馆管理系统、人事系统、上网认证系统、资产管理系统、校园有线网、校园WiFi、财务系统、学工系统、成教系统、网络教学,通过对学校的数据源分析,设计大数据系统的数据采集方案。
通过数据采集ETL工具库,采集对数据中心内外的全量及新增数据源,可采集学校各种类型的软件、硬件设备数据和日志,教学平台数据等海量分散数据,具有集中度高、采集速率快、可分配数据访问权限、并具有详细的采集日志等特点。在采集过程中,支持Socket、webservice、数据库、FTP等常见对外接口。各采集频率需要根据业务需求、数据量大小等灵活制定,可采集的数据类型包括分布式数据信息、关系数据库中结构化数据、各类半结构、非结构化的数据、静态及高低频知识数据,互联网数据,以及第三方合作商提供的数据,并且能实现对数据质量进行监控和迭代优化。
3教育大数据数据智能存储及检索
智能存储及检索主要分为:数据的全量原始库建设、标准化数据仓库建设、应用模型主题库建设、数据管理及检索平台建设;针对采集的原始全量数据及增量数据构建原始数据仓库,实现业务系统原始数据和增量数据的全量数据备份,同时为校内数据积累提供数据存储;对原始数据仓库数据清洗及标准化处理,如一卡通数据、互动教学平台数据、教务系统是数据等海量分散数据进行清洗预处理,并分析适配,形成数据分析表、入库存储,对传统的关系型数据库,也包括XML等半结构化数据,以及以视频、音频、文本和其他形式存在的非结构化数据,将如残缺数据、错误数据和重复数据进行处理,把结果集入库,并记录清洗结果,形成标准化数据库仓库,最后通过建模分析,针对模型建立模型分析主题数据仓库。平台同时提供高效的数据管理及检索,可通过对数据平台的授权向外提供数据访问接口,实现订阅式的数据共享。
4教育大数据平台核心
教育行业大数据中的核心为算法的挖掘与应用,针对教育大数据平台,基于基础模型和应用模型采用类似机器学习算法、基础算法、聚类算法、实时流计算等算法,实现对数据的建模分析。在数据挖掘中,将整体的分析和计算的框架分为三个层次来设计,数据层、算法模型层、使用层。
在数据层中,主要解决了数据的采集、调度、存储等问题,采用了Hadoop框架搭建整体的计算、存储框架,保证系统的高效计算以及可靠存储,采用分布式框架,可保证系统的横向扩展和持久运行。Hadoop框架中特有的并行计算和调度能力,保证了整个平台的实现实时计算和实时交付的功能。
算法模型层主要功能在于积累了适合大数据不同功能以及实现不同计算效果,匹配不同模型的算法库。在整个大数据系统中,常见的需要用到的功能算法有时序分析、主成分分析、关联和推荐、深度机器学习、统计、分类、聚类、回归、特征工程、判别、信念网络、图计算等算法。
使用层主要针对前端业务应用效果,开发对应的开发和开放接口,对接响应的模型算法,计算和呈现对应的结果。提供机器学习算法库,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。通过大数据平台的深度挖掘和关联分析,为全校师生员工提供数据服务以及综合数据分析服务。
在设计数据模型之后,已经确定业务概念、变量、业务规则,选择合适的算法。数据挖掘中常见的算法有回归分析、关联分析、聚类分析、孤立点分析等。根据学校数据维度、业务逻辑开展为业务分析。
5教育大数据推动学校管理和教学走向智慧
智慧教育是当前教育信息化的发展方向,也是教育信息化的美好期望,但要实现教育中的智能支持,大数据是必不可少的。近几年以深度学习为代表的人工智能实现了突破,关键在于一方面是大规模并行计算能力的发展,另一方面是大数据的汇聚,通过深度人工神经网络学习大数据中蕴含的规律,从而获得了智能,如语音自动识别、语言精准翻译、计算机视觉等。在教育领域,如果要全面了解学生,必须全面采集学生学习过程的各种大数据,通过数据拟合,形成模型。教育大数据汇聚应用是智慧教育必经的前置阶段,依托大数据,逐步形成智能系统和智能装备,为智慧教育发展奠定基础。
教育大数据是在教育活动运行过程中的数据,它反映教育系统运行过程中实时、真实的运行状况,蕴含着教育系统运行的内在规律。通过数据挖掘,将这种规律及其演化趋势可视化展现出来,使教育决策部门可以预测到学校教育发展的需求趋势,从而进行科学的教育决策与教育资源配置,实现事前预警,使得教育资源配置过程更迅速,甚至达到实时与即时性。
教育大数据使得教育管理决策更加科学。利用大数据可以深度挖掘教育教学数据中的隐藏信息,可以发现教育过程中存在的问题和关键点,提供决策来优化教育管理。
教育大数据使得教育教学模式更加精准,在教育教学方面,将从数字化教育走向基于大数据分析的智慧教育。通过大数据的群体分析抓住关键特征,教育更加高效、开放和多元,教学活动参与者之间的沟通更加通畅,互动更加深入。教师对教育教学过程的掌握从依靠经验转向以教育数据分析为支撑。大数据分析还可以用于对教师的综合评估,在跟踪教学学情的过程中,用数据挖掘和分析等方法帮助教师分析教学方法和手段的有效性,使教师及时调整教学计划和方法,提升自身教育教学的基本功、教学技能和学科素养。
教育大数据使得学生学习方式更加个性化,通过大数据学情分析,学生在移动终端或软件等教学媒体上的数据可以被精确记录下来,如点击资源的时间、停留多久、问题回答正确率、回访率和其他资源信息,通过学情数据可以找到学生的学习特点、兴趣爱好和行为倾向。大数据学情分析使教育更加以学习者为中心,使集体教育转向个性教育。同时还伴随着教育者和学习者思维方式的改变,进一步使个性化教育成为可能。
教育大数据使得教育评价方法更加公平,大数据支持的教育评价正在从“经验主义”走向“数据主义”,不仅表现在评价思维上,还包括评价方法上。基于大数据的教育教学特别强调改变“唯成绩论”的做法,评估不再仅仅是由考试成绩、纪律评分、自评互评等手段的主观传统意义上的措施,而是由大量的过程数据感知得到,主客观结合,过程结果评价结合,为实现教学评价的公正提供了依据,优化了教学方向。
教育大数据使得科学研究路线更加客观,大数据应用强调自动的、连续的记录和搜集的数据流,这比传统调查数据更加客观和中立。大数据还将改变传统学术研究的过程,使得学术研究和信息技术、课题研究与实践联系在一起,让教育科学研究路线更丰富。
在大数据时代,教师的工作不再简单的是知识传授,而是将知识的输出形式变得多样化,关注学生的个性特征。将统一形式、集体化的教学转变为信息技术支持下的教学。也就是说在了解学生的认知能力和知识结构的前提下,将知识进行迁移、整合并进行传授。
互联网和大数据的发展,还给我们带来发展个性化教学的机会,可以说在教育学上是有非常大的意义的。大数据技术可以在教育平台上跟踪和关注老师和学生的教学、学习过程,记录老师和学生的课堂表现以及课下行为的数字化痕迹,通过在教育活动中点滴微观行为的捕捉,为教育管理机构、学校、老师和家长提供最直接、客观、准确的教育结果评价等。可以说,大数据在教育领域的运用是当代教育发展的必然趋势。
参考文献
[1] 教育部.關于印发《教育信息化2.0行动计划》的通知[EB/OL].http://www.moe.gov.cn/srcsite/A16/s3342/201804/t20180425_334188.html,2018-6-30.
[2] 王盛之,毛沛勇.基于数字化教学案的智慧课堂互动教学系统实践研究[J].教学月刊(教学管理)(中学版),2014(04):51-55.
[3] 陈池,王宇鹏,李超,张勇,邢春晓.面向在线教育领域的大数据研究及应用[J].计算机研究与发展,2014(51):67-71.
[4] 余胜泉,李晓庆.区域性教育大数据总体架构与应用模型[J].中国电化教育,2019(05):18-27.