基于学生成绩大数据的透视技术研究
2022-10-27吴军江苏省扬州市氾水高级中学
吴军 江苏省扬州市氾水高级中学
教育现代化的推进使得数字化设备、数字化教学平台、数字化管理系统等得到广泛运用,导致学校各个系统的数据激增,面对这些价值密度低的大数据,如何发现它们的价值,找到数据彼此之间的相关性呢?在学校各系统的大数据中,成绩大数据具有一定的代表性,下面,笔者试以学生历次成绩大数据为对象,通过数据透视技术来探讨成绩大数据处理的相关流程。
● 数据透视分析的概念
所谓数据透视分析,是指从数据列表、关系数据库文件等数据集的字段中总结信息的分析工具,“透视”可以理解为对原始数据的挖掘分析,也就是从大数据背后找到联系,从而将看似杂乱无章的数据转化为有价值的信息。数据透视分析综合了数据排序、筛选、分类汇总等功能,还可以计算平均数或标准差、建立列联表、计算百分比、建立新的数据子集等。因其具有强大的交互性,教师可以通过改变呈现字段,以达到全方位、多角度、动态地统计和分析数据,从而从大量数据中快速提取有价值信息。
● 将数据透视引入成绩分析的意义
1.变抽象为具体
图形是一种经典且强有力的展示数据及其内部关系的工具,它可以很好地帮助人们交流、理解现实世界和解决科学问题。通过数据透视技术可以将枯燥抽象的成绩数字转换为丰富直观的图形,便于学生及家长从图形的呈现中发现问题、预测趋势。
2.变感性为理性
教师习惯于通过感官的经验方式来与学生进行学业交流分析,导致往往只看到表象,而不能看到学生内在的真实状态。而基于成绩大数据的客观分析,可以拆线图的方式查看学科的历次名次变化、以柱形图的方式比较不同学生之间的差距、以雷达图的形式比较不同学科的优劣势等,客观的数据、动态的图形可更加真实全面地评估学生的学业发展。
3.变单一为多向
通过数据透视不仅可查看单一学生的成绩变化,还可以选择多个学生同时进行比较分析,从差异化中查找问题;通过对年级、班级、小组在某科目上进行多层次数据分析,逐层细化分析,探寻问题的根源,而不是停留在统计结果的表象;从原始的小题分维度,扩展到难度范围、知识点和考查能力,从多个维度上评估一个小组或班级的能力特征。总之,分析维度的变化,可以帮助教师多层次多维度地了解学生的学业发展,以及时改变教学策略。
4.变复杂为简洁
使用数据透视表,将原本需基于函数(如求和、平均值、最大值等)的操作演变为对“字段名”的拖拽操作,操作简单,结论明了,又可以根据需求快速切换与提取不同要素,以达到分析之目的。
● 数据透视分析的一般流程
1.成绩数据的采集
成绩数据产生于各种考试、练习、测评活动中。从数据产生时间上看,它可包含学生从高一至高三的历次考试成绩;从数据产生形式上看,既可以是平时班级组织的小测试,也可以是市县统一期末联考;从数据采集方式上看,既可以是教师手工批阅录入,也可以是通过数字化阅卷平台产生。但无论怎样,随着考试、练习次数的增多,历次产生的数据源表必然会遇到数据结构不一、数据类型差异、数据格式不同等问题,因此必须制订数据采集的规范格式。
正确规范的数据源表应该遵循一件事一张表(严禁随意分表)、一行一条记录(信息记录要完整)、一列一个属性(数据格式要规范)、同物名要统一(保证数据一致性)、不能有表格操作(禁止单元格的合并)等规定,教师在处理合并历次考试成绩时要遵循此规范,以达到数据记录清晰、数据透视结果准确的效果,报表可以自动生成。
2.成绩数据的清洗
数据清洗(Data cleaning)就是对数据进行重新审查和校验的过程,目的在于删除重复信息,纠正存在的错误,并提供数据一致性。对多次采集汇总形成的大数据,教师如果没有遵循规范格式录入,就需要进行数据清洗。
常见表格的不规范行为主要包含表格结构不规范和表格数据不规范。表格结构不规范主要指有多行或多列标题行、使用合并单元格、有空行空列、有小计合计行、单元格中数据类型不正确等,而表格数据不规范主要包含错误的日期、文本型数字、数据格式不统一、文本中有空格、数据中含有不可见字符等。对成绩大数据的清洗即是解决上述错误的过程。
3.成绩数据处理与呈现
如上图所示成绩分析看板(部分截图),可以直观反映某个班级或学生历次成绩情况、名次变化、差值分、学科贡献、发展趋势等,通过切片器的灵活运用可以多维度联动呈现,直接高效,具体操作可以通过四个步骤来完成:
①将二维数据转换为一维数据。
二维表就是纵向和横向相层叠的数据,而一维表则是没有层叠的数据,将二维数据转换成一维数据,一般采用Power Query较为方便。选中二维数据区域,点击“数据”菜单,从“获取和转换”功能中选择“从表格”启动Power Query编辑器,选择所需转换的数据列,点击菜单“转换”,选择“逆透视列”,点击菜单“文件”,选择“关闭并上载”即可将完成转换,同时,该表格将成为超级表。
②插入数据透视表。
选中整个数据区域(数据区域包含表头字段),在“插入”菜单栏中选中“数据透视表”,在弹出的“创建数据透视表”对话框中单击“确定”,对话框默认在新工作表中生成数据透视表,也可在本数据表中选定自定义区域生成。此时,在新的工作表中,会生成一块空白的数据透视表区域,右侧会自动弹出数据透视表字段。根据对数据分析的需求,将字段列表中的所需“字段名”拖拽到相应的位置即可。
“筛选器”“行”“列”“值”是任何一个数据透视表都必备的4个选项,通过改变这4个选项,就可以完成不同需求的统计分析。“行”一般是需要分类的要素,如学生姓名;“列”一般就是原始数据的列标题,如学科;“值”就是根据行与列的要求,进行统计计算得到的数据,如均分、求和、排序等;“筛选器”是用来对整个透视表进行相应类目的筛选,如考试类别、班级等。
③制作学生成绩单。
基于上述数据透视表,“行”选取考试时间和姓名,“列”选取学科,“值”选取成绩,即可以展示任何一个学生的成绩情况。为便于不同维度数据的呈现,可通过GETPIVOTDATA函数返回存储在数据透视表报表中的特定数据,如:以拆线图的形式可查看学科的纵向名次变化,发现学生进退步情况;以柱形图的方式可横向比较不同学生之间的差距,找到薄弱学科寻求解决方案;以雷达图的形式可比较不同学科的优劣势等,让学生强化优势学科,改进薄弱学科,以达到学科的均衡等。
④插入切片器多维度联动查询。
通过切片器与各个所需数据透视表的连接即为多维度联动查询各项数据的灵魂所在,插入切片器,可将表格中的列字段以按钮的形式加以呈现,如插入“班级”“姓名”“学科”等,并设置各个切片器与历次成绩情况、学生成绩纵向比较图表的连接关系。当选择“班级”与“姓名”后,下方的成绩表、历次名次变化、学科贡献情况、学科成绩纵向比较等均同步发生变化。如要结束本次查询,可以通过各个切片器右上角的“清除筛选器”按钮复原,继而再根据查询需要,选择各个切片器上的选项进行查询。
● 使用感触
该设计使用简单,灵活方便,图表分析更加直观、多维、联动,便于师生及时从成绩大数据中查找问题。如果提供给家长使用,家长则可以随时增加统计数据,及时更新图表呈现界面,了解学生学业状况。当然,如何选择恰当的分析维度,从繁杂巨量的数据中精准地呈现问题从而优化教学策略、改善教学行为,还值得教师深入探究。