基于关联规则Apriori算法的物理实验成绩分析研究
2019-09-10苗维诚朱文婕
苗维诚 朱文婕
摘要:目的:研究物理实验成绩的影响因素.方法:采用数据挖掘的方法,针对目前实验课教学现状进行了分析,找出可能与成绩有关的因素.应用Apriori算法对实验成绩和这些因素进行关联性挖掘,建立强关联规则,发现影响教学质量的关键因素.结果:通过数据挖掘发现教学评价、实验报告和实验成绩三者关联性最强.结论:通过提升教学水平,提高实验报告质量,可以促进实验成绩的提升,同时也为实验教学的改革提供了一条可行的思路.
关键词:实验成绩;关联规则;数据挖掘
中图分类号:G642;TP311 文献标识码:A 文章编号:1673-260X(2019)01-0014-03
1 引言
物理是一门以实验为基础的学科,物理实验是物理理论教学的重要补充.通过进行物理实验,可以让学生学会基本的实验方法;使学生对抽象的物理概念有直观的认识;同时可以锻炼提升学生的各种能力,比如观察能力、思维能力、创新能力、实践能力等.
蚌埠医学院开设医用物理学实验课程,每年实验课时数1000余学时.在教学中发现,学生的物理实验成绩往往会低于预期,教学效果无法达到满意.问题主要有:(1)学生缺乏独立完成实验操作的能力,对老师有很强的依赖性;(2)学生对实验的现象和结果缺乏必要的思考、分析,研究问题的主动性不高.学生的实验成绩一方面能够比较客观真实地体现学生实验课的学习效果,另一方面也能反映出老师实验课的教学质量[1].为了改善医用物理学实验的教学现状,提高学生的实验成绩,运用Apriori算法对学生实验成绩进行关联规则挖掘,找出影响实验成绩的相关因素.
2 关联规则介绍
数据挖掘(Data Mining)是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,通过某种特定方式分析,发现一些潜在的有用的信息.大量的事实证明,任何事情的发生一定程度上都会存在一定的相关性.某件事的发生很有可能会引起其他事情的发生,类似于蝴蝶效应.通过对所有事物背后的数据进行分析挖掘,如果能够发现某些事情之间存在一种关联规则,那么在以后就可以由一件事情的发生预测出相互关联的其他事情的发生,这样就能更全面地掌握事物的发展方向,也就是探寻关联规则的意义所在[2].
关联规则挖掘是最常用的数据挖掘方法之一,通过挖掘试图从数据背后发现事物之间可能存在的关联或者联系.关联规则的算法主要有数据准备、数据挖掘和强规则描述三个步骤,其中消耗时间最多的是数据准备的步骤,数据准备步骤又可以划分为两个子阶段:选择获取数据和数据预处理.
2.1 关联规则定义
关联规则挖掘可以描述如下,设I={i1,i2,…,im}表示一个项集,D表示事务集,其中每一个事务t都表示一个项集,有t?哿I.每个事务都有一个唯一标识TID.如果X?哿t,就说事务t包括I的一个子集X.关联规则是一种蕴含形式X?圯Y,其中X?奂I,Y?奂I,且X∩Y=?覫[3].这里首先要知道两个概念:
(1)支持度(support):如果事务集D中,规则X?圯Y的支持度(0≤s≤1)指的是包含X∪Y的事务占全体事务的百分比.
(2)置信度(confidence):规则X?圯Y的置信度(0≤c≤1)指的是包含X∩Y的事务占项集X的百分比.
关联规则挖掘任务是产生所有不小于用户给定的最小支持度(minsup)和最小置信度(minconf)的关联规则.
2.2 Apriori算法介绍
寻找满足最小支持度阈值的所有项集,这些项集称作频繁项集(frequent itemset).假设一个频繁项集为L,如果频繁项集L的所有超集都是非频繁项集,那么称L为最大频繁项集(Maximal Frequent Itemset).由于最大频繁项集中隐含着全部的频繁项集,因此,可以将计算频繁项集的问题转化为计算最大频繁项集.
Apriori算法是关联规则挖掘的经典算法,算法的任务就是找出所有支持度不小于最小支持度的项集.Apriori算法挖掘项集可以分成两个子任务:
(1)Apriori算法会对数据集进行多次遍历,找出所有最大频繁项集.在遍历时遵循两个定律,定律1:如果一个集合是频繁项集,则它的所有子集都是频繁项集.定律2:如果一个集合不是频繁项集,则它的所有超集都不是频繁项集.
(2)根据最大频繁项集L,找出L的所有的非空集合.对于每个子集合a,生成如下规则a=>(L-a),然后根据最小支持度和置信度筛选所有规则[4].
3 Apriori算法在实验成绩分析中的运用
医用物理实验课包括预习、授课、实验操作、课后总结等部分,学期结束得到实验成绩.从实验课过程的这几个步骤中获取关联规则的数据,数据分为学生对实验的兴趣,实验预习情况,教师教学评分,实验仪器操作情况,实验报告书写情况五个部分.使用Apriori算法,挖掘這五个因素和学生实验成绩的关联性.
3.1 数据获取
从2016级临床专业的学生中随机选取100名学生作为数据采集的对象,实验兴趣、预习情况、仪器操作情况的数据从《医用物理学教学效果调查问卷》[5](问卷见参考文献[5])中获取,教师教学评价来自本学期学生对老师的教学测评分数,实验报告书写情况来自学生实验报告的打分,再获取学生本学期的实验成绩分数.
3.2 数据预处理及分析预测
由于Apriori算法只能针对布尔型数据进行分析,所以需要对获取的数据进行一定的处理,把五个因素和实验成绩都分成高低两个等级,处理得到100条数据,详见表1.
(1)实验兴趣记为“A”,分为“Ay”表示学生对实验有兴趣,“An”表示学生对实验缺乏兴趣.经过处理,得到“Ay”有63条数据,“An”有37条数据.
(2)预习情况记为“B”,分為“By”表示认真预习,“Bn”表示没认真预习.经过处理,得到“By”有40条数据,“Bn”有60条数据.
(3)教学评价记为“C”,分为“Cy”表示教学评价优秀,“Cn”表示教学评价一般.经过处理,得到“Cy”有71条数据,“Cn”有29条数据.
(4)仪器操作记为“D”,分为“Dy”表示仪器操作顺利,“Dn”仪器操作出现问题.经过处理,得到“Dy”有53条数据,“Dn”有47条数据.
(5)实验报告记为“E”,分为“Ey”表示实验报告优秀,“En”表示实验报告一般.经过处理,得到“Ey”有56条数据,“En”有44条数据.
(6)实验成绩记为“F”,分为“Fy”表示实验成绩优秀,“Fn”表示实验成绩一般.最终得到“Fy”有42条数据,“Fn”有58条数据.
根据B的比例4:6和F的比例4.2:5.8最接近,会认为学生预习的情况对最终的实验成绩影响最大.下面用Apriori算法去验证猜想.
3.3 数据挖掘
使用Apriori算法对处理后的数据进行分析,设最小支持度为0.3,最小置信度为0.5,挖掘得到包含“Fy”的最大频繁项集{Cy,Ey,Fy},和包含“Fn”的最大频繁项集{Bn,En,Fn},详见表2.再分别获取所有强规则,详见表3和表4[6].
3.4 结果分析
由表3得到一条强规则,对老师教学评价高,同时实验报告完成出色的学生里,有68.1%的学生实验成绩优秀.且实验成绩优秀,同时对老师教学评价高的学生里,有91.4%的学生实验报告完成出色.老师的教学和完成实验报告的情况,对取得优秀的实验成绩关联性较强.
由表4得到一条强规则,预习情况较差,同时实验报告完成较差的学生里,有94.6%的学生实验成绩较差.不认真预习和写实验报告,会导致较差的实验成绩.
通过Apriori算法可以发现,学生预习情况和成绩,两者之间关联性并不是最强的,教学评价,实验报告和成绩三者关联性最强,这说明我们之前的猜测是不准确的.
进一步调研发现,是否认真预习和实验成绩优秀之间关联性不强的原因在于,大学物理实验主要以演示型、验证型实验为主,这种实验普遍简单.学生上课认真听讲,课后注意对实验进行总结,不管是否预习,学生基本都能达到实验要求,实验成绩都在中等以上.学生不预习实验内容,又不认真写实验报告,多数情况下是学生对物理实验课不够重视,因此上课也不够专心,导致实验成绩偏低.
4 总结
实验教学面临的现实问题是学生普遍重理论轻实验,对物理实验不够重视,这直接制约了学生对实验课的学习积极性.以Apriori算法得到的结果分析,实验教学的改革可以从三方面入手:(1)教师提高教学水平,增加设计型、科研型实验;(2)改革实验报告书写模式,设计论文式、开放式等新型实验报告模式,从根本上提高学生书写实验报告的质量;(3)重视实验的预习环节,使学生增加对物理实验的兴趣.
实验课程的改革是一项系统工程,除了改善实验环境,引进先进的实验仪器,更要思考学生对于实验态度的转变,改革实验教学方法.让学生主导实验的方式,能使实验课的教学有更好的发展.
参考文献:
〔1〕吕道文.《医学物理实验》的课程建设与教学改革研究[J].中国医学物理学杂志,2009,26(6):1570-1572.
〔2〕冯俊,胥莉,闵兰.基于Apriori算法的高校学生考试作弊动机分析与应对[J].西南师范大学学报(自然科学版),2017,42(2):174-180.
〔3〕吴信东,库玛尔.数据挖掘十大算法[M].北京:清华大学出版社,2013.
〔4〕樊妍妍.Apriori算法在个性化教学辅助系统中的应用[J].新乡学院学报,2015,32(9):36-39.
〔5〕苗维诚.C4.5算法在提高物理实验教学效果中的应用[J].赤峰学院学报(自然科学版),2017,33(12):14-15.
〔6〕陈辉,向伟忠,单健.关联规则挖掘在教师教学评价系统中的应用[J].南华大学学报(自然科学版),2005,19(1):104-107,118.