数据分析技术在基础教育中的应用实践研究
2022-12-13孙庆
孙 庆
上海市大数据中心
一、 引言
通过搭建先进的信息化环境、引用新技术新设备进课堂、开发使用众多的教育应用软件系统,高效支持教育教学业务活动的开展,的确是推动基础教育信息化建用发展的必要手段,更是基础教育信息化建设硬实力的重要体现。然而,随着教育信息化应用的持续深入,必然会形成大量的基于信息化的教育应用成果和大量的教育业务数据积累。汇集数量巨大、种类繁多的教育业务数据,形成教育数据资产并科学地加以利用,将会更好地支持教育教学工作的开展,有效推动教育教学的创新与发展。科学利用教育数据资源并有效促进教育事业发展,则是基础教育信息化建设应用软实力的一种重要体现。而利用数据分析技术,开展教育数据分析,从已有的教育数据中挖掘出更具价值的新的知识信息[1],用以支持教育教学业务的开展,正是实现数据赋能教育最重要的方法和途径。数据分析技术可以在教育质量监测分析、学生成长发展评价、教育管理决策支持等教育应用业务领域中发挥积极的作用。面向不同的教育应用场景及其具体的问题解决需求,我们应当合理选择数据分析技术来开展专门的教育数据分析,以确保最终能够获得并展示出富有价值的教育数据分析结果。当然,开展教育数据分析,要有完善的教育数据分析系统支持环境。在实施区域性教育行业云平台建设时,应当将教育数据分析系统的环境建设也一并纳入其中。
二、 数据分析技术的教育应用场景
(一) 数据分析技术在教学质量测评中的应用
就学科教学质量测评而言,基于考试成绩开展数据分析,就是要挖掘出隐藏在考试成绩背后的新的知识信息。利用这些被发现的新的知识信息,可以为教师有效地调整学科的教学策略和教学方法提供科学的决策依据。围绕教学质量测评实施的数据分析,很重要的一件事情就是要准确地展示出被试学生群体的学科考试成绩的分布状况和总体特征,并据此对区域内各所学校的学科教学质量进行深入分析与综合比较(同样,也可以对同一所学校某个年级的不同班级的学科教学质量进行分析与比较)。根据分析比较后反馈的信息,就可以全面了解区域内每所学校(或校内同年级各班)的学科教学质量表现的趋势特征,以及学校间(或校内各班级)在学科教学质量上存在的差异性,并据此对学校(或班级)的学科教学提出改进要求,从而为有效管控和提升学科教学质量的整体发展水平提供支撑。而描述性数据分析技术,就是实现上述教学质量测评管控最为常用的数据分析技术。
例如,通过计算获取学生群体的考试平均分、中位数等集中量数,就可以概括地了解被试学生群体考试情况的中心趋势。而对极差、标准差等差异量数计算分析,就可以度量出被试学生群体考试情况的离散趋势。利用计算得到的这些描述性度量数值,配以图形化展示(如盒装图)就可以准确、直观、清晰地将基于考试成绩分析的结果呈现给教研人员和教学管理者,从而为研究制定学科教学质量管控措施提供科学的决策依据。
(二) 数据分析技术在促进学生发展中的应用
加强“五育并举”,促进学生德智体美劳全面发展,是当前教育改革发展的重点。全面关注、综合评价学生在校学习期间各方面的表现,可以为有效地指导学生更好地成长发展提供价值参考和决策依据。我们可以从各类教育应用业务系统中,获取学生在各个方面的成长发展情况,如学科成绩、体测结果、社会实践情况、活动竞赛成果等,甚至还可以通过学生综合素质评价系统,同时获取由系统平台汇总的上述各类学生成长发展数据。这些数据分别记载着学生在不同成长领域内的发展信息。面向促进学生全面成长的教学和育人需求,研究评价模型,设计分析算法,对上述这些数据实施深度计算分析,从中挖掘出与学生成长发展相关的潜在规律或隐藏问题,将能为从教者调整教学策略、改变育人模式,更好地培养和促进学生的全面发展给予科学的参考依据和正确的教改导向。而这就是数据挖掘技术在基础教育中的具体应用体现。利用数据挖掘技术开展教育数据分析,可能是某一育人领域内,面向某种具体教育应用而开展的教育数据分析,也可能是面向学生综合发展而开展的跨领域教育数据分析。
比如,为了综合评估学生学业水平与体质健康的整体发展状况,深入探究两者间的发展变化是否存在着制约关系,从而为学校调整教学育人模式(甚至是教育理念)提供决策依据,就可能需要针对学生考试成绩和学生体测结果这两大不同领域的教育业务数据开展相关性分析。通过尝试挖掘出隐藏在这两大教育业务数据背后的,但还不为我们所知的有关影响学生成长发展的新的知识信息,便可以此为决策依据,更为科学、精准地来规划和推动学校在教学育人模式方面的变革与创新。
(三) 数据分析技术在教育管理工作中的应用
在教育管理业务活动中引入数据分析技术,可以为实施精准的教育管理与制定科学的教育发展规划提供源于数据实证的管理操作支持与规划决策参考。对于涉及人、财、物管理的行政性教育事务工作,制定并执行科学、规范、合理的管理制度与配套政策,是避免产生重大失误,确保工作有序开展和保障教育机构长期稳定运行的重要条件。相关工作制度和配套政策的研究与制定,需要基于具体的工作规则要求和与之相关的现状实情分析。特别是对于那些需要量化管理、精准施策、准确管控的行政性事务管理工作,在研究制定制度和策略的时候,往往先要按照具体的工作要求和相关的业务规则对大量的相关业务数据实施计算分析,而后用获取的精准的数据分析结果来支持制度及政策的制定、调整和执行。
例如,面对公办中小学教职工绩效工资计算的复杂构成因子,以及与这些构成因子所对应的大量的人员数据信息,我们可以利用规则性数据分析方法,计算分析得到教职人员绩效工资发放的最优基数,并以此为基准核算出每个人的月度绩效工资。在充分满足学校绩效工资分配方案的前提下,精确发放核定下拨的人员绩效工资,进而在确保绩效工资全年发放总量与年度下拨经费总量持平的同时,实现每一位教职人员的实际收入最大化。这个例子中提到的规则性数据分析方法,在基础教育管理工作中虽然很少被使用到,但它的确非常适合那些需要通过精确测算来对学校行政管理事务开展进行决策的教育应用场景。
三、 应用于教育的常用数据分析技术
(一) 数据分析技术的选用
数据分析可以应用于不同的行业领域,用以支撑行业相关业务活动的高效开展,并能为行业机构的事业发展和重大变革提供科学的决策依据。但是,在将数据分析应用于不同的行业时,应当基于各个行业的具体应用需求来选择不同的数据分析技术和实现方法,并形成具有行业特征的数据分析应用。就基础教育行业而言,数据分析技术的选型和使用,不但要符合基于教育数据开展测评分析(如教育统计、教育测量、教育评价等)的教育统计与教育测评理论[2],而且还要能够为教育用户(教师、教育管理者等)准确地解读数据分析结果,提供便捷有效的方式与途径。除此之外,如何基于量化方式深层次支持教育管理决策和教学改革实践,同样也需要选择适合可用的数据分析技术。而统计分析、数据挖掘和数据可视化这三种数据分析技术[3],在研判学校教学质量、促进学生成长发展、支持教育规划决策等方面发挥着积极的作用,是能够有效满足基础教育应用实际需求的三种常用数据分析技术。
(二) 统计分析技术
统计分析技术可以分为描述性统计分析、相关性统计分析等数据分析技术。描述性统计分析技术基于对数据的描述,开展数据趋势分析,展示数据特征。这种技术常用在学科教学质量测评分析之中。它将学科考试分数作为统计分析的数据对象,利用描述性分析汇总技术,挖掘分析隐藏在数据背后的与学科教学质量相关的知识信息,从而可以为学校、教师发现教学问题和调整教学策略提供数据支持。在基于考试分数开展描述性汇总分析时,通过计算获取用于展现考试分数中心趋势特征和离散趋势特征的度量值,就可以准确、有效地了解和把握同年级学生群体(学校、班级)的学科学业水平的总体定位和个体间差异状况,从而为教学管理部门在区域层面(或校级层面)针对性地实施教学质量管控提供决策依据。如表1所示,用于反映考试分数中心趋势特征的度量值,由平均分、中位数和众数三个集中量数构成;用于反映考试分数离散趋势特征的度量值,则由全距、标准差和中间四分位数极差三个差异量数构成。计算和分析这些描述性汇总统计量数,为实施区域性学科教学质量的测评管控提供数据支撑,是描述性统计分析技术在教育测评分析中的具体应用实践。
表1 考试分数描述性汇总统计分析统计量数
而相关性统计分析是用来衡量数据之间的密切相关程度的一种统计分析技术。在教育评价中,我们可以利用相关性统计分析技术,对不同教育业务数据系列之间的量化趋势关系实施计算分析,揭示出数据之间可能存在的潜在相关性规律,并借此形成面向特定教育研究主题的教育评价结论。例如, 在评估试卷的命题质量时,可以通过计算试题得分与试卷总分的相关系数,来评估每道试题对整份试卷测试目标达成度的贡献大小,并据此为有效地评估试卷命题质量提供科学的参照依据。如图1所示,在一次试卷命题质量分析过程中,以每个学生的试卷总分和某道试题的得分为两组不同的数据系列,通过计算这两组变量的相关系数(Pearson系数)后发现,有8道试题的得分与试卷总分的相关系数值达到了0.7以上,试题得分与试卷总分呈现出高度的正相关性。这说明了这些试题在评价(或说区分)学生的学业水平时,起到了积极的作用,可以认为这些试题的命题质量是相对较高的。
图1 试题得分与试卷总分的相关性分析(Pearson相关分析)
(三) 数据挖掘技术
数据挖掘从某种意义上说是一个知识发现的过程,也就是要从已有的数据中提取出新的知识信息。这个过程包括了挖掘前的数据准备,执行数据挖掘算法,评估挖掘(模式)结果,以及展示挖掘获取的知识信息[4]。面向教育应用而言,如果希望通过数据挖掘获取新的有价值的知识信息,并用以验证面向某类教育主题的经验性或研究性假设,或为相关教育业务活动的开展提供决策支持,那么可以考虑参照数据挖掘的实施过程,逐步执行各项技术操作,并最终获取经数据挖掘后得到的知识结果。然而,需要指出的是,单从技术实现的角度看,数据挖掘的技术与实现途径虽然有一套泛化而全能的方法和系统,以及与之配套的众多的软件工具(产品),但是其是否适合特定领域的挖掘需求是要视情况而定的。特别是针对基础教育行业、源于教育应用需求的数据挖掘任务,其实并没有现成的方法和系统可以直接加以引用。
单从面向教育需求开展数据分析的角度来看,如果想通过数据挖掘达到探寻教育潜在规律、解决教育实际问题和促进教育创新发展之目的,那么,如图2所示,至少要在三个方面做好数据挖掘的规划与实施。第一,确定教育主题。定位数据挖掘所面向的教育现实问题,明确实施数据挖掘的目的和教育意义所在。第二,挖掘模式选型。围绕面向教育主题开展数据挖掘所涉及的教育业务领域及其用于分析的相关数据来源,明确实施数据挖掘的兴趣点所在,规划设计好具体的挖掘分析业务模型,并为数据挖掘可能的结果设定预期。然后,在此基础上选择确定所要使用的挖掘技术和实现方法。第三,组织提供数据。从各教育业务领域的系统中抽取用于挖掘分析的源数据,形成面向挖掘分析的教育主题数据仓库或数据集市,继而基于确立的挖掘模式实施面向特定教育主题的数据挖掘分析。当然,在这三项工作完成之后,我们还需要用准确、有效的方式来展示挖掘分析的结果,清晰直观地呈现出通过数据挖掘所获取的新的知识信息,更加有效地支持教育教学应用。
图2 面向教育主题的数据挖掘分析实施过程
下面图3和图4所展示的是一个以面向学生全面发展为主题,研究学生学业水平与体质健康之间是否存在着内在关系的数据挖掘实验项目的挖掘成果。该项目以学科教学质量监测分析系统的学生考试成绩,以及体质健康监测管理系统的学生体测成绩作为分析数据。该项目的挖掘模式为通过排序学科考试成绩对学生进行分类,然后针对学业水平较高(成绩排名为前25%)和学业水平较低的两大学生群体(成绩排名为后25%),专门就学科考试成绩和体测成绩做关联性分析。按照设计的算法模型,开展挖掘分析后,发现了一个令人感兴趣的频繁模式(Frequent Pattern):就体测成绩优良率而言,学业水平较高的学生群体远高于学业水平较低的学生群体;反观体测成绩不合格率,学业水平较低的学生群体则明显高于学业水平较高的学生群体。该数据挖掘实验项目,对区域内初中和高中两个学段内的多个年级都分别进行了相同的挖掘分析,最后得到的结果都非常相似。从这个面向教育主题的数据挖掘实验项目中所提取到的知识信息,否定了所谓的“学习好的学生,体质健康差;学习差的学生,体质健康好”的主观经验性假设。同时,也给了学校和教师一个重要的提示,那就是在关注那些考试成绩较差的学生的学业水平的同时,不要忘记还应适当地关心一下他们的体质健康。
图3 学业成绩优良的学生的体测成绩分布
图4 学业成绩较差的学生的体测成绩分布
(四) 数据可视化技术
数据可视化技术就是通过绘制图形的方式,直观、清晰地展示数据信息,它可以帮助人们更加快速、准确地理解数据和数据分析结果所包含的信息。上文所述的学生学业水平与体质健康的数据挖掘项目就采用了数据可视化技术,用图表的方式直观、有效地呈现了挖掘的数据结果。传统的电子表格软件,如Excel,一般都具有图表制作的功能,可以将二维表格内的数据转换成各种类型的图表,用图形化的方式更加形象地向我们展示数据的总体特征、变化趋势和关键信息。但是,当数据量规模不断增大、数据可视化要求变得更加复杂时,受限于电子表格软件系统的处理能力,我们就需要选择使用专门的数据可视化工具软件,如Power BI、Tableau、Highcharts等来绘制数据图表,来完成处理更加复杂、呈现更为丰富的数据可视化操作。而这类专门的数据可视化软件都具有连接各类数据源(文件或数据库)的能力,并能快速分析和可视化数据,创建出我们所需要的图表。数据可视化技术是开展教育数据分析的一种特殊方式,它为进一步深入挖掘展示教育业务数据的内涵价值提供了新的途径。被可视化处理的教育数据,有时甚至还可以更直接、更深刻地揭示出隐藏在其后的教育现实问题。
图5是一张多年前,某地区域内的公办小学的师生配比统计分析图表。这是当时基于教师和学生管理系统的师生实时数据信息汇总分析得到的统计结果数据,并以可视化的方式用图表的形式展示出来。该图表清晰、直观地呈现出全区各所小学之间在师生配比上的差异,尤其是位于图表两端的学校的巨大差异,相当引人注目。经数据可视化后,透露出学校教师数量配备不平衡的问题,这种方式远比枯燥的统计数值来得更加直接与透彻,进而从坚持教育公平和推进优质教育均衡发展的观点来看,数据可视化后的这张统计图表所呈现出来的显著差别,也许还会给区域的教育行政管理部门提供更多的启示。
图5 学校师生比统计分析数据可视化展示
四、 构建教育数据分析的系统环境
(一) 如何搭建教育数据分析系统环境
数据分析技术应用于教育业务领域时,既要有可供计算分析的各类教育数据信息,也要有能够支持开展教育数据计算分析的技术环境[5]。为此,我们需要构建围绕不同教育主题的数据仓库,用于存储从不同数据源抽取、清理、加载的各种教育数据信息。同时,还要建设、部署各种数据查询、分析和展示系统(工具),支持基础教育用户开展基于教育数据信息、面向教育应用主题、引用不同数据分析技术的教育数据分析实践活动。如此,形成完善的教育数据分析系统环境,为有效运用数据分析技术、充分满足教育应用实际创设必要的条件。然而,教育数据分析系统环境的建设,具有一定的技术难度,系统构成也存在相当的复杂性。除去计算、存储等底层硬件资源的建设部署外,还要选型配置数据仓库工具,以及选购或设计开发相关的数据分析软件系统(工具)。因此,应当将其纳入区域性教育行业云平台体系的建设范畴,作为区教育云的数据中台加以建设,并整合嵌入至区教育行业云平台之中。
(二) 对接教育应用软件系统获取分析数据
值得一提的是,随着教育信息化的建用发展,越来越多的教育应用软件系统被建成并投入实际应用,而软件的运行又积累了大量的教育业务数据,这为开展教育数据分析提供了大量的源于教育教学实际的可用的分析数据。另外,通过常态化运行的教育软件系统,还能获取与之相关的业务领域的全量教育数据信息,甚至是实时的全量教育数据信息。这使得开展基于全部数据样本的数据分析及研究成为可能。毋庸置疑,这比传统的基于问卷调查(或填报数据报表)获取有限的抽样数据而开展的数据分析,在形成科学、全面、可信的分析结果上,将更具优势。当然,要达到这一目的,就一定要做好教育数据分析系统环境与教育行业云平台整合对接的设计和建设工作,以便在教育应用业务系统和数据分析系统之间建立起高效的数据交换通道,确保为教育数据分析的实施提供真实可用、标准规范、数量充足的分析数据。
五、 总结
在教育行业中,尤其是基础教育行业中,有众多的教育应用场景需要用到数据分析技术,如学科教育质量监测分析、中小学生成长发展评价,甚至是教育行政管理决策等。通过引用数据分析技术,不但可以有效地支持教学科研业务活动的开展,而且还可以科学有序地推动教育教学的创新与发展,更可以准确高效地提升教育管理工作的实效。针对教育应用而言,统计分析、数据挖掘、数据可视化是三种较为常用的数据分析技术。无论选用哪一种数据分析技术开展教育数据分析,都应当明确开展数据分析的目标定位和意义所在,应当规划设计出面向具体应用的教育数据分析模型,并基于应用实际选择适合的数据分析技术和具体的技术实现途径。除此之外,还应当有效地做好教育源数据信息的采集工作,务必确保用于分析的数据的质量与总量。需要再次强调的是,构建完善的教育数据分析系统环境,并将其整合进区域性教育行业云平台体系建设之中,这项工作也非常重要。其原因在于,这是推动教育数据分析技术进入常态化应用并确保顺利输出分析结果的重要基础性保障。
科学、合理地运用数据分析技术,使之与教育教学实现真正的融合,并向我们反馈未知但却富有价值的新的教育知识信息,继而为推动教育教学的创新与发展提供来自教育数据信息的原动力。运用数据分析技术,让数据赋能教育成为现实。用好数据分析技术,使教育数字化转型不再遥远。