教育大数据的数据挖掘分析及问题研究

2018-10-20王倩

中国教育信息化·高教职教 2018年7期

王倩

摘要：随着大数据技术应用到民生领域的方方面面，教育領域更应全面开展数据挖掘尝试。本文从教育大数据挖掘操作流程的角度出发，结合教育挖掘实例，阐述了教育大数据的挖掘路线、关键技术、当前教育数据所面临的问题以及解决方案，并为教育信息系统的完善建设、数据标准规范、数据管理体制提出建议。

关键词：教育大数据；数据挖掘；数据治理

中图分类号：G40-051 文献标志码：A 文章编号：1673-8454（2018）13-0007-03

一、引言

目前，我国教育大数据已在众多方向开展研究，文献[1]从教育业务需求的角度，分析了教育数据层次模型以及挖掘过程；文献[2]以教育大数据核心技术为切入点，阐述教育数据分析主要应用技术的发展现状以及与教学、教育规律、精准管理的结合点；文献[3]从教师信息能力的方向，探索教师信息化应用发展规划；文献[4-6]选择特定的教师或学生群体，进行群体基本特征或特定行为（如社交网络）的分析，了解群体现状，便于制定具有针对性的培养或管理方案。

本文从教育大数据关联群体的应用服务角度，研究教育大数据分析流程，以及各流程环节中涉及的核心数据挖掘技术，结合当前教育信息系统，分析数据挖掘中遇到的数据问题，并结合数据分析需求为教育信息系统的完善建设、数据标准规范、数据管理体制提出建议。

二、教育大数据主要服务群体

教育数据服务于教师、学生、教育管理者、家长及教育研究者，也来源于服务对象，其来源主要包括两个方面：一方面是服务对象在教育的过程中直接产生的数据，如学生基本信息、考试成绩、课堂情况等，教师的课堂行为、备课情况、评价等，家长的家校互动信息等，教育管理者的教育管理、评估等；另一方面是教育过程中的间接数据，就是对原数据进行加工并赋予意义的数据，如学校的成绩排名、及格率、优良率等。整体来说，教育大数据指整个教育活动过程中所产生的以及根据教育需要采集到的，一切用于教育发展并可创造巨大潜在价值的数据集合。

教育大数据对于学生来说，可清晰呈现学生的学习能力偏重、优势学科、擅长领域，便于学生全方位了解自身学习现状，合理规划学习侧重；对教师来说，通过大数据分析可了解到每个学校、每个学生的潜力和需求。根据每个学生学习的方式和学习的内容，对学生采取个性化的教学内容、教学服务以及教学方式；对家长来说，可根据大数据获知孩子在校的学习情况、心理健康状况等，及时发现问题，给予关爱和辅导；对教育管理者来说，可对教师专业发展情况进行分析，总结教师的教学优势和不足，对教师开展有针对性的培训，促进教师专业发展；对教育研究者来说，可从全局的角度把握当前教育的现状、问题，促使教育决策制定得更加精确与科学，以数据驱动将教育决策从经验型、粗放型向精细化、智能化转变。

三、教育大数据分析流程

教育数据来源多样、应用不同，其分析挖掘不仅需要数据分析专业人员，还需要教育行业人员的有效参与。教育人员提供数据挖掘需求及教育业务应用意义，数据分析人员提供数据挖掘方法支持，通过双方沟通明确挖掘的目的，有的放矢开展分析服务。整体来说教育大数据分析流程涉及样本选择、评估指标确定、梳理相关影响因子、样本数据筛选、清洗检验是否符合挖掘需求、试挖掘（运用回归算法、分类算法、聚类算法、关联算法等）、挖掘结果的其他基本性质的属性分析，最后，将数据以可视化的形式展现，并解释数据分析结果所代表的含义，便于后续评估、干预等。数据分析挖掘是一个迭代过程，可能在挖掘出的结果中发现新的需求，再进一步更新挖掘的结果关联挖掘。（见图1）

1.需求确定

在教育大数据挖掘启动前，首先要确认为什么要挖掘，是因为教育现状出现问题，还是需要提升或改革现有教育服务模式等，这个过程非常重要，既包含对教育现状的调研，又涉及教育未来需求的思考，是数据挖掘的驱动力。然后确认要挖掘什么，即想要通过数据挖掘得到什么样的数据结果，是影响教师的专业发展、学生群体学业质量的因素，还是了解教师、学生个体的发展轨迹，本过程是数据价值的最终体现。最后，根据需求所关注的点，安排参与数据挖掘的人员，从教育业务方面，可安排了解需求业务的教师或教研人员，以及相关业务信息系统开发人员，与数据分析人员共同组成团队。

2.样本选择

根据需求选择样本人群，再确定样本参数。其中样本人群在教师、学生的基础上，还包括区域（地域）、属性（空间）、年份（时间）等维度，这些维度由单个或多个条件组成。区域可包含全国、地域、集团、学校等，属性在教师方面可以是职称、学历、教龄、荣誉等，在学生方面包括成绩段、课堂表现等，年份可针对全学段贯通、某一学年、某一学段等。样本的参数确定是为分析样本人群的具体问题，需选择相关参数范围，如在教师方面，需要教师的相关参数有学历、教龄、职称、培训记录、所教学科以及所教授班级的学生情况、学业情况等。样本选择意义重大，选择需慎重，需要多方讨论，若选择不合理，直接造成分析结果失真，不能真实反映出教育的情况。

3.评估指标确定

本文所叙述的评估指标，不是指评价挖掘算法的指标，如正确率、错误率、灵敏率、精度等，而是指哪些数据参数可进行深度挖掘，即哪些参数能用于评估挖掘需求的度量标准。评估指标的确认是数据挖掘的切入点，即从哪个角度进行数据挖掘，是挖掘需求与现实信息数据对应的过程。在教育领域，对教师的评估指标可涉及教师的教学质量排名变化、教师自身的专业发展水平等方面，对学生的评估指标可涉及学业成绩变化等方面，对教育管理者，可涉及区域学业发展均衡程度等方面。评估指标的数据信息一般不从样本数据直接获取，可通过统计计算或初步数据分析得到。

4.影响因子梳理

影响因子根据评估指标进行梳理，评估指标不同所涉及的影响因子不同，但影响因子是被包含在样本数据中的，可直接从样本数据中获取，一般为样本人员的基本特性、行为等属性参数。影响因子前期的梳理一般是评估指标所涉及属性的最大集合，后期可根据分析结果确认主影响因子。如在学生学业成绩评估的要求下，影响因子可涉及学生课堂行为、体育评测、兴趣特长等；在教师教学质量水平评估的要求下，影响因子涉及教师学历、职称、教龄、培训课程、课堂类型等。

5.数据筛选与清洗

根据样本从各教育信息系统中抽取数据，并存放在新建的数据沙箱中，为下一步的数据清洗做好前期准备，数据的筛选抽取工作是为了避免数据分析过程中原信息系统数据的丢失，保障在数据分析过程中以及完成后原信息系统都能正常工作。

数据清洗工作在数据沙箱中完成，数据清洗的第一步是数据质量分析，根据业务流程判断数据是否完整、是否规范、是否具有连续性等；然后根据质量分析的结果，对筛选出的数据进行数据补充、数据修正、数据删除等系列操作，保证数据达到数据分析的基本要求。对于教育信息系统来说，在清洗的过程中还要确定可连接多信息系统的关键属性。

6.数据试挖掘

数据挖掘是指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。即数据挖掘包含统计分析和算法分析两个部分。

教育大数据试挖掘的统计分析，包括群体的基础属性统计分析和相关分析等。群体基础属性统计分析可帮助全面了解群体特征。包括教师、学生的个人信息属性统计分析，如年龄、性别、职称、学业成绩排名、职业专业发展情况统计、区（校）成绩水平、优势学科及考查知识模块等情况。相关分析主要是用于研究两个不同系统或属性之间的关系，如教师的教学质量与其教学形式或培训课程的关系等，通过分析确定不同属性对不同群体的影响性。

对教育信息常使用的算法分析包括聚类分析、判别分析（分类分析）、回归分析等文献。[7]聚类分析算法主要用在群体属性未知的情况下，通过聚类展现群体的不同级别，了解群体整体层次结构，以及人数占比，为后续进一步了解不同级别群体特征、制定具有针对性的教育培养方案提供数据支撑。判别分析（分类分析）是通过前期的数据记录和分析，确定不同群体的特征属性及其阈值，对新进个体进行类别判断时使用的分析算法。回归分析主要是进行预测，如学业成绩的整体趋势等。

7.结果再分析

结果再分析主要针对聚类分析的结果，用于观察不同群体的其他属性，比如群体分为学习成绩好的学生、学习成绩一般的学生，再对这两个级别的群体其他属性参数进行统计分析，比如学生年龄、课堂行为、性格特征等方面的占比，借此分析哪些因素可能是影响学业成绩的主要因子，并可进行下一轮的数据挖掘，分析相关性等，使分析结果更加清晰化。

8.最终呈现形式

數据挖掘的结果可选择多种呈现方式，就统计来说，一般为柱状图、曲线图、饼图、雷达图、箱形图等图表表现，算法分析呈现为散点图等。数据结果并不是数据挖掘的最终步骤，数据分析报告是数据挖掘的最终成果。在报告中，不仅需要对前面步骤的详细说明，还要对挖掘结果图表代表含义解释，让挖掘需求者能看懂、理解结果。

四、教育数据存在的问题及解决方案

1.信息系统孤岛

教育信息系统一般包括学生学业系统、家校互动、教师发展系统等系列业务系统，不同信息系统开发商不同，教育信息各自存储、管理，没有互联互通，且没有可连通的属性设置，如学生学业系统仅包含学生的相关信息，没有相关授课教师的信息数据，无法了解教师所教班级的学业成绩。解决这一问题可利用授权统一登录技术在教育各信息系统上层增加一个门户页面，并构建各系统信息连接对应表，实现各信息系统连接。

2.数据信息不完整

数据信息不完整体现在两个方面：一是有些关键属性没有数据，如学生性别、教师教授学科等；二是历史数据缺失，数据挖掘的关键是对历史数据的分析，但有些教育信息系统没有保留教学过程中的历史数据信息，如教师、学生只有当学年的基本信息，不包含历年教授（学习）的班级、学科等，这不利于对教师或学生做纵向追踪分析，以了解其整体发展过程。解决这个问题，首先要梳理出哪些属性是必要属性，系统页面输入功能更改设置，设定为必填项，并对历史数据进行补充。对于历史信息就需增加新的数据表进行数据采集、存储。

3.数据标准不规范

数据标准没有规范化，造成一个系统中一个信息属性采用多种存储形态，如学科语文，在数据库中存在形式可包括语文、11、语文11、初一语文等。数据标准不规范造成数据挖掘对数据属性判别不准确。数据采集的不规范需在系统上直接设置可选择的标准数据，避免其他违规操作，并对历史数据进行清洗，保证数据一致性。

4.数据管理混乱

区域（学校）的教育信息系统一般由系统开发商对数据进行管理，没有制定数据定期维护方案，且存在对数据更改随意现象，在领导对信息系统需求变动后，开发商没有整体分析其对业务流程、数据的影响，在没有对原数据备份的情况下，直接增、改、删相关功能模块及数据信息。如有些系统中保留了班级编码信息，但没有班级名称，而教师与班级的关联只有班级名称，造成了数据片断。

五、教育大数据发展建议

随着大数据和人工智能技术的不断成熟，教育全方位分析将逐步实现。技术将不再成为教育大数据挖掘的阻碍，数据本身将是核心、关键，如何建立完善的教育信息体系，实现对数据全维度的采集是各教育院所未来关注的重点。

通过详细梳理各教育业务系统流程及数据结构，结合教育全方位连通的思想，整体规划数据采集、存储和管理，建立数据治理机制，制定数据标准规范、质量评估指标、管理流程，设置专职数据管理人员，为教育大数据更好的发展提供前期机制和数据保障。

参考文献：

[1]杜婧敏，方海光，李维杨，仝赛赛.教育大数据研究综述[J].中国教育信息化，2016（19）：5-8.

[2]孙洪涛，郑勤华.教育大数据的核心技术、应用现状与发展趋势[J].远程教育杂志，2016（5）：41-49.

[3]张屹，陈蓓蕾，范福兰等.基于实证测评的教师信息技术应用能力提升发展规划研究——以广东省惠州市某区为例[J].中国电化教育，2017（4）：31-40.

[4]吴霞.基于社交网络的高校学生群体关系特征挖掘与分析[D].电子科技大学，2016.

[5]汪晓晖.高校新生群体特征分析及启示[J].中国职工教育，2013（12）：156.

[6]高八民.我国“211工程”大学高层领导群体特征的履历分析[J].重庆高教研究，2015（1）：52-58.

[7]傅德荣，章慧敏，刘清堂.教育信息处理（第2版）[M].北京：北京师范大学出版社，2011.

（编辑：王天鹏）