面向课程教学数据的差异模式挖掘与讨论
2023-05-30吴军魏丹丹
吴军 魏丹丹
关键词:数据挖掘;教学数据分析;差异模式挖掘;确定置换检验
中图法分类号:TP391 文献标识码:A
1引言
大学教育的课程考核方式是与高中、初中、小学教育的一大区别点。除了设有高中、初中、小学教育相同的课程期末考试考核方式,大学课程考核还融入了学生在平时课程学习中的态度情况、表现情况和实践情况等。为了找到能够准确体现课程教学效果的考核方式,高校教师在课程考核方式问题上投入了大量研究。虽然各个课程的考核方式不尽相同,但课程成绩大体上均是由平时考核成绩和期末考核成绩按照一定的比例组合而成。平时考核成绩主要体现了学生在该课程的出勤情况、作业完成情况、课程表现情况、期中考试情况等,而期末考核成绩主要体现了学生在该课程中的期末考试情况或者期末考查情况。学生的课程学习效果与课程考核方式的一致性程度不仅影响高校教师的教学心态,也影响学生的学习心态。
模式发现任务是数据挖掘领域中的一个热门研究领域,该任务旨在发现能够体现数据有用特征的模式。在模式发现任务研究中,差异模式挖掘是一个十分有意义的研究方向。差异模式能够体现不同类别数据中难以用行业经验发现的差异特征,因此使用差异模式提供的信息能够帮助人们解决大量的应用问题。例如,对蘑菇特征数据集合利用差异模式挖掘技术,能够分析出有毒蘑菇和无毒蘑菇的差异特征,从而能够降低人类食用蘑菇中毒的概率。为了探索学生学习效果与课程考核方式的统一程度,使用差异模式挖掘技术对课程教学数据进行了分析,详细的研究步骤如图1所示。
2数据收集和预处理
实验所使用的数据集取自于近4年的“Python程序设计”课程的考核成绩,该课程的考核成绩由平时考核成绩和期末考核成绩构成,构成比例各为50%。具体而言,平时考核成绩中出勤情况占比5%;作业占比15%;小组作业占比5%;课堂表现占比10%;编程测试占比15%。期末考核方式为试卷考试形式,客观题和主观题各占一半。
由于差异模式挖掘技术无法处理连续型属性数据,需要对上述原始连续型属性数据使用离散化技术将其转换为离散型属性数据。实验所采用的离散化技术是Kmeans聚类算法。其中,K值设定为4,分别对应于成绩中的优、良、中、差。Kmeans算法离散化的步骤如下。
(1)对于每一个连续型属性,随机选择4个其中的值作为簇中心。
(2)计算该属性中的值与该簇中心的距离,并将其分配给距离最小的簇中心。
(3)计算每个簇的平均值,并将其作为新的簇中心。
(4)如果簇中心未发生改变则停止迭代,如果簇中心发生改变则跳到第(2)步。
(5)将属于同一个簇的属性值离散化为同一离散值。
3差异模式挖掘
差异模式指的是对于含有类别属性的数据集合而言,在不同类别属性的子数据集合中表现出较强差异性的模式。根据差异模式的定义,可知差异模式能够体现数据集合不同类别数据样本的特征差异性。差异模式常用的挖掘策略是“两步走”策略:第一步,使用频繁模式挖掘算法找到数据集合中满足最小支持度阈值β的频繁模式;第二步,选择一个能够刻画频繁模式差异性的度量,计算第一步中所有频繁模式的差异性度量值,如果该值超过了用户自定义的差异性阈值β,则该模式被认定为差异模式。
目前,已经提出了许多高效的频繁模式挖掘算法,并且这些算法都能挖掘出数据集合中满足β阈值的频繁模式,其不同之处主要体现在候选模式的生成方式、剪枝方式、数据表示方式上。实验讨论中使用的频繁模式挖掘算法是Eclat算法,该算法的步骤如下。
(1)遍历一次数据集合,将水平格式的数据转换成垂直格式。
(2)根据数据集合的具体情况,设置合适的最小支持度阈值β。
(3)令k表示模式长度,使用垂直格式中项的TID集找到k=1的频繁模式。
(4)从k=2开始,使用两个k-1频繁模式合并成k模式,其TID集为这两个k-1频繁模式TID集的交集。
(5)如果k模式的TID集满足β约束,则将其保存为频繁模式,否则,将其删除。
(6)重复(4)(5)两步过程,直到无法再通过合并生成k模式。
为了度量模式的差异性,研究人员陆续提出了许多差异性度量。实验中使用的差异性度量是优势率。设一个频繁模式被表示为p,数据集合根据类别属性划分为D+和D_子数据集合,则优势率的计算式为:式中,|D|和|D_|分别表示D和D_子数据集合的大小,s()函数表示p在相应数据集合中的支持度。为了便于计算,式(1)通常取对数得到:
LOR(p)= log(OR(p)) (2)
若LOR(p)为正值,则说明p模式在D+中出现的比较多;反之,若LOR(p)为負值,则说明p模式在D_中出现得比较多。
4确定置换检验
基于阈值约束的差异模式挖掘算法报告的结果中会存在一定数量的假阳性差异模式。假阳性差异模式指的是由于数据随机波动偶然产生的满足差异模式挖掘算法β阈值约束的模式。实践发现,假阳性差异模式没有正确地体现数据集合的差异特征,因此,根据假阳性差异模式提供的信息进行后续研究会有较大概率造成错误的决策。
统计显著性检验一种被广泛应用于模式发现任务中过滤假阳性差异模式的策略。在该策略中,标准置换检验是一种十分常用的方法。分析发现,使用标准置换检验过滤假阳性差异模式会存在如下4个问题。
(1)差异模式的统计度量值可能为0。
(2)差异模式的统计度量值均通过同一个零分布计算。
(3)重复运行标准置换检验,报告的统计显著差异模式数量不一致。
(4)挖掘标准置换检验生成的随机集合的计算开销很大。
导致上述4个问题的根本原因是标准置换检验使用了生成一定数量的随机数据集合,并从这些集合中挖掘统计值构建零分布的策略。该策略生成的零分布是一个近似零分布。由于没有均匀随机抽样方法的保证,标准置换检验生成的近似零分布不一定能够准确刻画确定零分布。因此,实验采用确定置换检验的方法为过滤假阳性差异模式,以确定置换检验构建的是确定零分布,所以其不存在标准置换检验中的4个问题。确定置换检验的流程如图2所示。
在图2中,差异模式优势率分布由差异模式各个数量分布和其对应的次数构成。具体而言,数量分布如表1所列。
实践发现,确定置换检验的运行时间要远远少于标准置换检验,其原因是确定置换检验不需要对随机集合进行挖掘。
5结果分析
通过确定置换检验保留下来的差异模式被称作统计显著的差异模式,其表达的差异信息更加真实可靠。将统计显著的差异模式包含的信息结合领域知识进行分析,可以发现许多有意义的教学现象,具体如下。
(1)编程测试成绩高的学生不一定在期末考试中取得较高的成绩。经过对其询问和分析发现,主要原因是在编程测试中可以使用调试和查询库函数等功能,但在期末试卷中无法使用这些功能。此外,期末试卷中的基础理论知识也占有一定的比例,而这些学生忽略了理论知识的识记。
(2)出勤情况和作业情况的好坏与编程测试和期末考试成绩毫不相关。虽然出勤情况能够体现一个学生的基本学习态度,但是无法决定该学生在课堂的学习效果。作业情况理论上应该体现学生对各个知识点的掌握理解程度,但一些学生为了拿到该项成绩选择了抄袭。
(3)课堂表现好的学生通常在期末考试中能够取得较高的成绩。课堂表现较好说明这些学生积极参与了课堂教学,能够体现出较好的课堂教学效果和学习态度。此外,通过询问发现这部分学生对待考试态度也比较认真。
根据上述信息,教师可以进行教学方法和考核方式的调整,如Python是一门实践比理论更加重要的课程,可以在期末试卷中适当降低理论知识的分数;出勤情况和作业情况对教学效果的体现不明显,可以适当减少或者调整方式以调动学生的学习主动性。通过这样的改进,能够在一定程度上促进教师教学水平的提升,也能够促进学生学习效果的提升。
6结束语
本文使用数据挖掘中的差异模式挖掘技术分析了教学数据。为了减少假阳性差异模式错误信息的误导,引入了确定置换检验保留统计显著的差異模式。统计显著差异模式提供的信息能够体现课程考核方式与教学效果的匹配情况,教师可以根据这些情况调整教学方法和考核方式,从而促进教学水平和能力的提升。同时,也能够促进学生学习积极性和学习效果的提升。后续研究还会使用更多的数据挖掘技术对教学数据进行分析。
作者简介:
吴军(1990—),硕士,讲师,研究方向:数据挖掘、深度学习、生物信息学。