关联规则挖掘下的作弊分析
2015-12-28朱红霞,王亚梅,游星
关联规则挖掘下的作弊分析
朱红霞 ,王亚梅,游星
(成都理工大学管理科学学院,四川成都610059)
摘要:考试行为是一个学校学风、校风、考风的体现,同时也是学生是否诚信的体现.在各类考试中,考试作弊的现象时常发生.运用数据挖掘中关联规则Apriori算法,对大学生考试作弊现象问卷调查进行分析,得到学生对考试作弊各方面认识的关联规则.从学生的视角看作弊问题,分析考试作弊的内因,以期能对高校管理者在制定管理方案时提供新的思路.
关键词:关联规则;Apriori算法;考试作弊
收稿日期:2015-04-19
作者简介:朱红霞(1990—),女,四川宜宾人.硕士研究生,主要从事统计分析模型及数据分析研究.
中图分类号:TP391.4文献标志码:A
0引言
陶行知先生曾说过一句话:“作弊不仅毁坏个人德性,而且欺亲师,违校章,辱国体,害子孙.作弊成风的民族是没有希望的民族.”[1]然而在最近的这些年,随着高校教育的发展与高校的扩张,老先生痛恨的作弊现象不但没有被控制住,反而更加的严重.作者在对成都理工大学管理科学学院500多名学生的问卷调查中发现,近九成的学生认为考试作弊不对但却是可以理解的,他们中的大多数都曾有过作弊的经历.这种近乎于让人不敢接受的作弊现象在大学里就如同人们的呼吸一样正常,大学生们都觉得是正常的,应该被理解的.[2]大多数的作弊类分析文章都是从教育者的视角看问题,这样不能准确地反映学生对作弊的认识与看法.本文对成都理工大学500多名学生的问卷调查进行分析,从学生的角度来看待作弊问题,呈现他们对待作弊的看法与态度,希望能对高校教育者有所启发.
1关联规则
1.1支持度
支持度是同时包含X于Y的项目集数与D中交易总数之比.支持度表示了某规则在所有事物中的代表性即支持度数值越高,关联规则越重要.[4]
1.2置信度
在给定的数据库事务D中,若支持X的事务中有c%也支持Y,关联规则X→Y的置信度为c%,置信度表示关联规则的强度.若某一关联规则P的支持度与置信度全都在最小范围以上,则称该关联规则是强关联规则.[5]关联规则挖掘的任务就是找出强关联规则,主要针对下面两个问题:
(1)找出交易数据库中频繁项集(大于或等于最小支持度);
(2)利用上一步中找出的频繁项集生成所需关联规则,再根据已定的最小置信度选出强关联.[6]
目前的关联规则挖掘主要是对找出频繁集进行研究(找出频繁集很困难).生成频繁集由Apriori算法来实现.[7]
2Apriori算法
Apriori算法描述如下:[5]
(2)L1={c∈C1|c.count≥minSupport};
(5)for all transactions t∈D // 办理处理;[8]
(7)for all candidates c∈Ct;
(8)c.count=c.count+1;
(9)next;
(10)Lk={c∈Ck|c.count≥minSuppor};;
(11)next
(12)resultset=resultset∪Lk
该算法的第一步是统计只含一个元素的项集出现的频率,从而确定最大的一维项目集.在第k步中,先用函数sc_candidate,通过(k-1)步中生成的Lk-1(最大项集)生成Ck(侯选项目集);再在数据库D中调用函数count_support计算Ck的支持度,其中, minsupport是最小支持度,resultset为所有的最大项目集.[9]
3应用实例
文章数据来源是对成都理工大学随机抽取的590名学生做的问卷调查,问卷调查采用不记名的方式.
3.1问卷调查的可信度
3.2调查问卷的有效度
有效度指测量结果的正确程度.在调查问卷中,有效度指问卷能够在多大程度上反映它所测量的理论概念.[10]根据分析目的的不同,有效度分为内容有效度与结构有效度.此次问卷一共有十三个问题,涉及学生对考试、考试作弊的一系列的理解.在抽样调查的过程中,个别能反应总体的特征,所有在内容上是有效的.在结构上,问卷的十三个问题包括了学生的特征,学生对作弊的理解、学生的态度以及学生觉得应该怎样去改进几个方面,在结构上能很好地反映学生对于作弊的一个态度,所以在结构上也是有效的.
3.3调查问卷内容分析
对学生的调查问卷进行数据的录入与整理,运用SPSS的统计方法,对每一个小问题进行具体的统计与分析.
表1
问题序号百分率(%)F适当调整试题难度48.6
从上表可以看出,男女生的比例是差不多的,有一半以上的学生没有担任任何班级或校级干部.超过一半的同学能很好的理解老师上课所讲的内容,只有4.9%的学生完全不懂.超过3/4的学生认为考试是对自己一个阶段的总结,只有小部分的人认为考试只要不挂科就可以了;将近80%的学生认为考试作弊不对但可以理解,有一成的学生认为考试作弊是一种正常的现象;在所有的调查问卷中,80%的学生有过考试作弊的行为,只有20%的学生从未有过作弊行为.大部分的学生会作弊的原因是不愿补考或重修、不愿辜负家长的期望以及迫于拿学位证与就业的压力;超过半数的学生常采用的作弊方式是带小抄;近七成的学生认为考试作弊学生(不诚信)是主要负责方.超过60%的学生认为学校对考试作弊的惩罚力度合适;超过3/4的学生觉得学校的考风一般;超过一半的学生认为诚信考试承诺书形同虚设,很多学生照常作弊;很多学生认为多注重实践能力考核、加强思想道德教育和适当调整试题难度能减少大学生考试作弊的现象.
3.4关联规则挖掘过程
由表1可以得到下面的事务数据库D.令TID={学生编号},项目集={处理后的数据},假设这一次关联规则挖掘的最小置信Cmin=50%,最小支持度Smin=40%.
表2 事务数据库 D
通过2所示的Apriori算法,将表五样式的事务数据库D中的590条记录进行运算,经过挖掘后得到的强关联规则如下:
1:support(3B⟹6A)=78%
2:support(6B⟹2D)=66%
3: support(6B⟹5B)=83%
4: support(6A⟹13BDH)=72%
3.5结果分析
通过对所有的数据进行挖掘,得到四条强关联规则:(1)能大部分的理解老师讲课内容依然会作弊的同学有78%;(2)考试没有作弊的人当中有66%不是班级或校级干部;(3)没有作弊但认为作弊不对却可以理解的同学有83%;(4)作弊的同学中有72%认为多注重对学生实践能力的考核、改革考试方法(如开卷)以及适当调整试题难度有利于减少大学生考试作弊现象.由这四点强关联规则得出,大部分同学虽然理解老师上课所讲内容却依然作弊,这是一个考风的问题,值得学校重视;没有作弊的人当中大部分不是班级或校级干部,说明了有些学生丰富课外生活与加强自身能力的同时不能很好兼顾学业;大部分的学生认为作弊不对但可以理解,这是一个认识层面的问题,要想减少作弊的现象,首先要给学生树立正确的认识观.
参考文献:
[1] 王云峰.大学生作弊心理的调查研究与教育策略[J].高校辅导员学刊,2011(12):62-67
[2] 尤兰芳.大学生考试作弊研究—基于某高校2001-2009年356名作弊大学生处分档案资料的分析[J].法制与社会,2011(5):230-235.
[3] 陈辉.关联规则挖掘在教师教学评价系统中的应用[J].华南大学学报,2005(3):105-107.
[4] 崔建.一种针对大型事务数据库的关联规则挖掘算法[J].空军雷达学院学报,2011(3): 205-207.
[5] 毛宇星.一种高效的多层和概化关联规则挖掘方法[J].软件学报,2011(3):2965-2980.
[6] 杨秀萍.大数据下关联规则算法的改进及应用[J].计算机与现代化,2014(12):23-26.
[7] 赵洪英.关联规则挖掘的Apriori算法综述[J].四川理工学院学报,2011(1): 66-70.
[8] 孟海东.基于数据场的量化关联规则挖掘方法设计[J].计算机与现代化,2013(1): 8-11.
[9] 邢东旭,申海涛.基于距离的关联规则挖掘算法研究[J].内蒙古大学学报,2010(6): 703-706.
[10]曾五一,黄炳艺.调查问卷的可信度和有效度分析[J]. 统计与信息论坛,2005(6):11-15.
[责任编辑范藻]
Analysis of Cheating under the Association Rule
ZHU Hongxia, WANG Yamei, YOU Xing
(Management Science School of Chengdu University of Technology, Chengdu Sichuan 610059, China)
Abstract:The conduct of examinations is a manifestation of learning behavior, school spirit and exam habit. At the same time it reflects the integrity of the students. In all kinds of examinations, cheating phenomena often occurs. Apriori algorithm in data mining association rules is used to analyze the phenomenon of college students' cheating in the exam questionnaire and gets all aspects of association rules which are understood by students. From the perspective of the students, the paper analyzes the internal cause of cheating in the exam in order to provide new ideas for managers when making management scheme in colleges and universities
Key words:association rule; Apriori algorithm; cheating