基于考生在线行为的互抄袭作弊检测算法研究*
2016-06-03常永虎李虎阳
常永虎, 罗 旭, 李虎阳**
(遵义医学院 医学信息工程系,贵州 遵义 563000)
基于考生在线行为的互抄袭作弊检测算法研究*
常永虎1, 罗旭2, 李虎阳1**
(遵义医学院 医学信息工程系,贵州 遵义 563000)
摘要:基于考生在网络考试过程中的行为数据,分析了有抄袭行为和无抄袭行为的学生在考试过程中所记录的各种数据之间的差别;数据主要包括每个学生对每个题目的答题开始时间、答题结束时间、答题时长、答案、答题次数、答案修改次数等;最终发现两个有抄袭嫌疑的学生在答题的时间和答案上具有极高的相似度;通过两个学生答题的时间重叠度和答案的汉明距离两个因素建立模型,证明模型所给出的数值能够反映考生的抄袭嫌疑,具有一定的实践意义。
关键词:网络考试;人工智能;行为检测
随着现代互联网技术与软件技术的迅速发展,各行各业都已进入一个高速飞跃的信息化时代。传统教育模式和考试方法也受到其剧烈影响。网络考试由于其能够自动组卷,自动选题、自动评分且无需打印试卷等优势已经开始逐渐替代传统的考试[1]。与传统考试相比,网络考试系统在很大程度上提高了工作效率,节约了人力物力,降低了考试成本,同时,还使得考试结果能够更加标准且全面的反应教学效果[2-3]。
目前的网络考试系统虽然在一定程度上弥补了传统考试的一些不足,但还是无法避免学生抄袭的问题。大多数在线考试系统为了避免学生抄袭的问题,都不约而同的将题目顺序打乱,使相邻两个座位的考生在同一时间所做题目不同。但发现,相邻两个考生可以通过题目浏览找到相同题目,就可以实现抄袭的目的。在这种情况下,在线考试系统无法避免学生抄袭。
为了解决上述问题,提出一种监测模型,当学生抄袭的时候,模型可以自动监测学生考试行为。此时,考试系统可以实时获得考生是否抄袭的状态信息,并作出自动警告、自动调还座位等动作,及时制止作弊行为,保证考试的公平性与真实性。因此,研究对改进现有网络考试系统具有重要意义。
目前,网络考试作弊行为检测方面的研究非常少,但日本京都大学助教大关真知率领的研究小组利用机器学习技术检测考生作弊行为,但方法有多方面的不足:依靠考生答案的重叠程度不足以证明考生有作弊嫌疑;大关真知小组的方法无法实现实时检测作弊行为,也就无法及时发现并制止作弊行为[4]。
借助于网络考试系统能够很方便的收集到能够反映考生考试行为数据的特点,利用这些考试数据能够推算出每个考生在每一秒所做的或正在做的考试题目。而由于网络考试系统对于每个考生所生成的试题编号和顺序是随机的,两个考生在同一时间做同一题目的几率非常小。所以,将通过答题时间重叠度推测学生的互抄袭嫌疑度和答案相似度两个指标推测学生的互抄袭行为。
1模型建立
1.1数据准备
分析以学生的考试数据作为分析对象。为了还原考生的行为,考试软件将在考试过程中尽可能多的收集考生信息。为了使对比样本更加均衡,在测试过程中,研究小组设定的条件为30人的班级内有10%的人互相偷看答案[4]。考试软件记录了每个考生的学号、姓名、系统生成的出题顺序、答案、进入题目时间、离开题目的时间等信息。由于研究不涉及缺考和漏答题的情况,为了避免无答案数据对分类结果的影响,在分析之前约定考生数据中每个题目都有一个默认的答案“NULL”,且此答案不是每个题目的正确答案[2]。
1.2数据分析
由于原始数据以每个考生每个题目作为一条记录,不便于理解数据的规律。将原始考生数据按照考生分类并按照时间排序,然后使用堆积条形图显示如图1所示。由于篇幅所限,图1中只显示了部分具有代表性的考生数据但足以显现数据规律。
图1 题目浏览时间序列图Fig.1 Sequence chart of scanning time
图1中横坐标代表答题时间,纵坐标代表学生代号。学生代号使用Si(i=1,2,…,n)表示,Si代表第i个学生。图中截取了7个学生在500 s时的答题记录,每一行代表一个学生的答题记录,每行的每个单元代表考生在题目上的停留时间。每个单元上的数据标签使用m-n表示,其中m表示考生当前正在做第m题,n表示考生的答案。
从图1中可以看出S1和S2的两位考生的做题顺序在一段时间内非常相近,而网络考试系统给每位考生生成的答题顺序是随机的,所以S1和S2的这种相似程度只有通过考生手动选择题目才能实现。除此之外,两位考生的题目答案都非常相近甚至相同,S5和S6也同样具有以上特征。通过实际监考情况已经发现S1与S2具有作弊嫌疑,S5和S6具有作弊行为。因此认为作弊考生的作弊行为可以通过考生的做题顺序、答题时间和题目答案推断出。
通过对考生数据的分析极其与作弊记录的对照,发现考试作弊的考生数据具有两个特点:
(1) 发生抄袭行为的两名考生的做题顺序及做题的时间具有极高的相似度。
(2) 发生抄袭行为的两名考生的答案具有极高的相似度。
因此,将通过时间相似度和答案相似度衡量学生的作弊行为。
1.3答案相似度计算方法
为了方便描述,使用X表示学生集合,xi表示学生集合中的每一个学生,其中i表示学生的编号,n表示学生总数。则有:
其中i=1,2,3,…,n。集合X中的每一个元素xi都有一个答案集合Y,Y中的每一个元素yj代表当前学生的第n个答案,m表示题目的总个数。则有:
其中j=1,2,3,…,m。因此,每个学生xi都有一个答案集合Yi。
衡量两个学生的答案相似度就是计算向量Yi之间的相似度,目前比较流行的相似度计算方法有向量空间余弦相似度(Cosine Similarity),方法通过两个向量的余弦值作为衡量两个个体间差异的大小。在此基础上改进的方法还有皮尔森相关系数(Pearson Correlation Coefficient)、Jaccard相似系数(Jaccard Coefficient)。计算方法都是要求向量空间中的每个值之间可以计算大小,但由于学生的答案空间由{A、B、C、D}组成,它们是一组符号量,且符号与符号之间没有大小关系,只有相同与不相同。因此余弦相似度及其改进方法都不适用于计算答案向量的相识度。汉明距离(Hamming distance)可以通过将其中一个向量变为两外一个所需要的最小替换次数[5-7]。例如:
AABCDC与AABCCD之间的汉明距离是2;
AABCDC与DABCDA之间的汉明距离是2。
因此,汉明距离可以衡量两个答案向量的距离。因此,可以用如下公式计算两个答案序列的汉明距离
(1)
式(1)中Xi表示第i个同学的答案序列,Xj表示第j个同学的答案序列。Xin表示第i个同学的答案序列中第n个答案,Xjn表示第j个同学的答案序列中的第n个答案。由于备选答案A与备选答案B的差值、备选答案A与备选答案C的差值、备选答案A与备选答案D的差值分别是1,2,3。但在研究中,只关心两个答案是否相同,不关心两个答案的距离。所以在公式中使用min函数,如果第i个同学的答案和第j个同学的答案有差异,则只在累计一个差异点。为了让最终的汉明距离保持在0到1之间的一个数,将累计的差异综合除以题量总数N,则0表示两个学生的答案完全不重复,1表示两个学生的答案完全重复,答案越相似,其Hamming值越大。
1.4答题时间重叠度计算方法
在考试过程中,学生的答案相似度是非常高的。因为对于一个班级的学生来说,每道题目的难度系数基本相同。认为只通过答案相似度难以确定学生是否抄袭。不考虑学生通过夹带的方式作弊,只认为学生的作弊行为是通过学生之间互相抄袭而导致的。在这个前提下,如果两个学生发生作弊行为,那么这两个学生在抄袭的过程中的当前题目必然是同一个。网络考试系统一般每次只出现一个题目,做完一个题目后可跳转到下一题,当前题目指学生正在浏览的题目。所以,还需要通过学生的浏览题目相似度以确定学生的作弊行为。
假设一场考试使用Mmin,每个学生在每一分钟都有一个浏览的题目,这个题目称之为当前题目,当前题目使用Q表示,学生A在第s秒的当前题目编号使用QAs表示。如果学生提前交卷,则交卷后到交卷过程中的当前题目编号使用NA表示,且规定每个NA之间不相等。即,如果考生提前交卷,则在交卷后的时间段内,此考生的当前题目与其它考生的不同。假设考生A和考生B的答题时间重叠度用D表示,则有
(2)
从式(2)中可以看出,两个考生的答题时间重叠度计算方法可以分为3个步骤:
(1) 统计两个考生的有多少秒的当前时间是重复的。统计方法是假设两个考生在第s秒的当前题号相减并取绝对值,然后和1比较并取最小值。计算后可得到1或者0两种结果,1表示当前题号不同,0表示当前题号相同。然后将每一秒的结果累加求和得到两个考生题目不重叠的秒数。
(2) 用总时间M减去第一步的计算结果得到题目重叠的秒数。
(3) 重叠时间归一化处理。每次考试的考试时间有可能不重复。所以,用题目重叠的秒数和考试总时间的比值作为两个考生的答题时间重叠率。
1.5计算两个考生之间作弊的可信度
所设计的网络考试作弊检测模型是通过答案的相似度和答题时间的重叠度这两个维度衡量两个学生之间是否具有作弊嫌疑,但是这两个维度对于学生最终的作弊可能性的贡献度是不一样的,所以,为这两个维度分别增加了权重W1和W2。W1代表答案相似度的权重,W2代表时间重叠度的权重。W1和W2的和为1,则A、B两个学生的作弊嫌疑为可以用式(3)计算得到:
C(A,B)=W1×Hamming(Xi,Xj)+W2×DAB
(3)
2实验结果
在1.2节中给出了所使用的数据集,数据集的分布情况也已经通过图1展示。通过算法,学生之间的作弊嫌疑由一个大于0小于1的值表示。值越大,作弊嫌疑越高。作弊嫌疑检测值如表1所示。
表1 部分学生互抄袭嫌疑检测值
从表1中可以看出学生S1和S2的嫌疑值和学生S5和S6的嫌疑值均超过0.5。而其他考生之间的作弊嫌疑值都非常低,由此可判定这两组学生在考试过程中有作弊行为。而此结果也与实际监考过程中所得结果一致,因此算法对于网络考生作弊检测是有效的。
参考文献(References):
[1] 夏一名.基于Web的在线考试系统的设计与实现[D].成都:电子科技大学,2012
XIA Y M.The Design and Realization of the On-line Examination System Based on Web[D].Chengdu: UEST C,2012
[2] 徐文亮.在线考试系统的研究与实现[D].云南:云南大学,2012
XU W L.The Research and Implementation of the On-line Examination System Based on Web[D].Yunnan: Yunan University,2012
[3] VISHWANATH B,VINAY K,PINKI K,et al.KNN Based Machine Learning Approach for Text and Document Mining[J].Internation Journal of Database Theory and Application,2014,1(7):61-70
[4] 蓝建中.人工智能使作弊无处可逃[EB/OL].http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2015-02/26/content_293884.htm?div=-1,2015-02-26
LAN J Z.Artificial Intelligence Make Cheating No Escape [EB/OL].http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2015-02/26/content_293884.htm?div=-1,2015-2-26
[5] CHRISTOPHE A,NANDO D F.An Introduction to MCMC for Machine Learning[M].Machine Learning,2003 4(5):5-43
[6] YANN L,YOSHUA B,GEOFFREY H.Deep Learning[J].Nature Insight Machine Intelligence,2015,28(5):436-444
[7] 黄震.在线考试系统分析与设计[D].北京:北京邮电大学,2012
HUANG Z.The Analysis and Design of the On-line Examination System Based on Web[D].Beijing:BUPT,2012
[8] 宋红文.在线考试阅卷系统的设计与实现[D].成都:电子科技大学,2012
SONG H W.The Design and Realization of the Online Exam Marking System[D].Chengdu:UEST C,2012
[9] XIONG F,ZHAO ZH M.Machine Learning-based Prediction of Drug-drug Interactions by Integrating drug Phenotypic[G]∥Therapeutic Chemical and Genomic Properties,Boston iHealth 2015 Conference,2015
[10] PETER H.机器学习实战[M].北京:人民邮电出版社,2013
PETER HARRINGTON.Machine Learning in Action[M].Beijing:Posts & Telecom Press,2013
[11] 杨永,梁金铃.基于B/S模式的通用试题库系统的设计与实现[J].计算机工程与科学,2009 31(4):144-148
YANG Y,LIANG J L.Design and Implementation of a General Examination Question Database System Based on the B/S Scheme[J].Computer Engineering MYM Science,2009 31(4):144-148
[12] 陈茂建.浅析网上阅卷[J].福建教育学院学报,2002 (7):17-19
CHEN M J.Analysis of Online Marking[J].Journal of Fujian College of Education,2002(7):17-19
[13] 李佳林.在线考试系统中主观题目自动阅卷的设计[J].中国教育技术装备,2008,19(24),243-245
LI J L.The Design of Automatic Marking of Subjective Questions in the Online Examination System[J].Educational technology and equipment in China,2008,19(24),243-245
[14] 董春燕.基于Web的远程考试系统的设计与实现[J].成都大学学报,2008,22(6):33-35
DONG C Y.Design and Implementation of Remote Examination System based on Web[J].Journal of Chengdu University,2008,22(6):33-35
[15] 孙杰远.教育统计学[M].北京:高等教育出版社,2010
SUN J Y.Education Statistics[M].Beijing:CHEP,2010
[16] 曾静.智能化在线考试系统的研究与实践[D].南京:南京理工大学,2008
ZHEN J.Research and Practice of Intelligent Online Examination System[D].Nanjing:NUST,2008
责任编辑:田静
Research on the Mutual Plagiarism Detection AlgorithmBased on the Online Behavior of the Examinees
CHANG Yong-hu1, LUO Xu2, LI Hu-yang1
(Medical Information Engineering Department, Zunyi Medical University, Guizhou Zunyi 563000,China)
Abstract:Based on the behavioral data of the students in the process of network test, this paper analyzes the differences between various data from students who have plagiarism and non plagiarism in the test process. The data mainly include the start time, the end time, the time length and the times of answering, the answers and the times of modifing answers from each student’s answer to each question. Finally we found a very high similarity of answers and the time length of answering between two suspected plagiarism students in answering question. Therefore, this paper establishes a model based on the two factors that the two students’ answer time overlap and hamming distance of answers. The experimental results show that the numerical results given by the model can reflect the suspicion of plagiarism and the model has some practical significance.
Key words:online examination; artificial intelligence; behavior monitoring
中图分类号:TP181
文献标志码:A
文章编号:1672-058X(2016)03-0051-05
作者简介:常永虎(1986-),男,甘肃敦煌人,讲师,硕士,从事计算智能与智能控制研究.
*基金项目:国家自然科学基金(61463053).
收稿日期:2015-09-22;修回日期:2015-11-10.
doi:10.16055/j.issn.1672-058X.2016.0003.011
**通讯作者:罗旭(1986-),男,湖北孝感人,副教授,博士,从事无线传感器网络研究.E-mail:407114469@qq.com.