基于谱聚类的网上阅卷质量控制研究
2014-04-29贾志先
摘 要:在网上评分过程中,存在着评分员给分偏高、偏低和趋中等问题。对于评分员的评分结果,可从用平均分、标准差、离差、阅卷量、问题卷等维度进行评价。给出了评分员的评分测量对象、距离和相似度的定义。结合评分员的评分结果度量维度参数,利用谱聚类算法可以有效地检测出评分员在主观评分过程中存在的一些问题。以维吾尔语水平测试中口试的评分结果,进行了网上阅卷质量检测的研究。实验表明,检测方法有效。
关键词:网上阅卷;阅卷质量控制;谱聚类
中图分类号:TP301.6 文献标识码:A 文章编号:2095-2163(2014)05-
Research on Quality Control of Online Marking based on Spectral Clustering
JIA Zhixian
(Network and Experimental Teaching Center, Xinjiang University of Finance and Economics, Urumqi 830012, China)
Abstract:In the online marking process, there are some problems that the scores given by exam markers may be too high, too low, or too trending to the central, overall. For these marking results, the researchers can evaluate it from some dimensions as average, standard deviation, deviation, quantity of marking and quantity of error marking. This article has given the definition of the marking measurement object, the distance and the similarity of that. Using the spectral clustering algorithm, the paper can effectively estimate some problems existing in marking of subjective. According to the marking results of oral examination in Uyghur proficiency test, the paper also has done some research on quality control of online marking. The experimental results show that the method is effective.
Key words:Online Marking; Quality Control of Online Marking; Spectral Clustering
0 引 言
主观题的评分依赖于评分员的主观判断,容易受到评分员的知识水平、综合能力、爱好、情绪、疲劳等主观因素的影响。不同评分员之间存在着主观差异,同一个评分员在不同的时间也具有主观不稳定性。这将导致评分员自身信度(intra-judge reliability)和评分员之间信度(inter-judge reliability)的降低,从而降低评分结果的信度[1]。
在评分的准确性(Accuracy/Inaccuracy)、严厉度(Harshness/Leniency)和集中度(Centrality/Extremism)等三个方面,评分员自身在多次评分时难以保持一致,不同评分员对于相同被试的评分也难以相同[1]。评分员在评分过程中存在的主要问题有:1)给分偏高;2)给分偏低;3)给分趋中,呈现“趋中评分”现象[2],即评分员较少给高分、低分,分数集中在中间段。在大多数考试的主观题评分中,普遍存在着这种现象。
在评卷过程中,有效地检测出评分员网上阅卷的质量问题,对于改进评分员的评卷水平,消除各个方面的因素作用于评分结果的影响,并且提高评分结果的信度,均有着难以估量的重要意义。
在维吾尔语水平测试口试网上阅卷过程中,利用谱聚类算法,可以有效地求解主观评分中存在的一些问题。下面即展开具体论述与分析。
1 评分员的评分结果评价维度
评分员给分偏高、偏低或趋中,在一定程度上与人格特质、思维风格以及思维定势等都有关系[3]。
设被试S的真分数为T。对于被试S,评分员X给出的分数为x,评分员Y给出的分数为y。分数x、y和T之间的关系可能有:1)T≤x 对于被试S,评分员X和Y理想的评分结果是T=x=y。实际上,被试S的真分数T是未知的,评分员的阅卷水平之间存在着一定的差异,评分过程中存在的问题是难以确定的。 可以从下面几个不同的维度,对评分员的阅卷水平进行度量[3-5]。具体表述为: 1)离差(deviation) 指一个观测值或测验分数与特定的参照点(如平均数、中数等)之间的差距。一个评分员评分分值的正离差值偏大,说明该评分员对评分标准的把握可能过宽。反之,一个评分员评分分值的负离差值偏大,则说明该评分员对评分标准的把握可能过严。 2)平均分 依据平均分可以从整体上估计评分员评分的宽严程度。 3)标准差(或方差) 评分员评分的标准差(或方差)偏小,有可能出现“趋中评分”现象。评分员评分的标准差(或方差)过大,其评分结果可能不够稳定。
4)峰度 可以用峰度(Kurtosis)来衡量数据在中心聚集的程度[2]。利用峰度值,即可确定评分员的“趋中评分”情况。
5)评分速度 评分员的评分速度过快,超出了正常值范围,就有可能出现“趋中评分”现象。
以上每一个维度,都很难真实地反映出评分员的评卷水平,为此需要从多个维度来综合评价一个评分员的评卷水平。例如,对于同一个被试,如果两个评分员在评分上出现了离差,则其中一个评分员为正离差,另一个评分员为负离差。评分的结果可能是其中一个评分员偏离了被试的得分真值,也可能是两个评分员都偏离了被试的得分真值。因此,不能完全根据离差来判别一个评分员的评卷水平。
基于此,将引入评分员的评分测量对象的概念,并利用谱聚类算法对评分测量对象进行聚类分析,从而区分出存在给分偏高、偏低和趋中等问题的评分员。
2 评分员的评分测量对象
定义1:评分员的评分测量对象a为一个l维数组:
a=(a1,a2,a3,…,al)
其中,l为评分员的评分结果评价维度的个数,ai为评分结果中第i个评价维度的值[6]。
定义2:评分员的评分测量对象x和y之间的距离d为:
(1)
其中,系数 。
定义3:评分员的评分测量对象x和y之间的相似度(similarity) s为:
(2)
其中, 为高斯核函数[14], 为高斯核参数。一般情况下, 。
3 谱聚类
聚类是把含有n个对象的集合划分成k个不相交的部分,称之为聚类块或聚类簇。即给定一个数据集X={x1,x2,…,xn},将其划分为k个子集类C1,C2,…,Ck, ,且满足条件[8]:
(3)
与传统的聚类算法相比,谱聚类能够在任意形状的样本空间上实现聚类,并且均可收敛于全局最优解[9-10]。
3.1 谱聚类算法
谱聚类算法有许多不同的实现算法[10-12],算法描述为:
给定一个数据集X={x1,x2,…,xn}, 。根据数据集X建立加权图G=(V,E)。其中V={vi,i=1,2,…,n}是顶点的集合,E={eij}是连接顶点(vi, vj)的边。图中每一个节点vi与数据集X中的xi相关。采用一个相似度准则构造图G的顶点之间的相似度矩阵(similarity matrix)W, 。其实现的主要步骤为:
步骤1 根据式(2)中的相似度定义,建立数据集X={x1,x2,…,xn}, 的相似度矩阵W;
步骤2 计算拉普拉斯矩阵L的特征值和特征向量,并选择前k个特征向量u1,u2,…,uk;
步骤3 对特征向量u1,u2,…,uk,应用k均值聚类算法进行聚类;
步骤4 根据xi和特征向量之间的对应关系,确定数据集X的聚类结果。
在谱聚类算法中,为了使特征值大于等于0,需对相似度矩阵进行拉普拉斯变换,由此而使得拉普拉斯矩阵L成为半正定的。
n阶矩阵W的非规格化拉普拉斯矩阵L可由
L=D-W (4)
定义,其中D是元素为 的对角矩阵[12]。
3.2 谱聚类算法的复杂度
在谱聚类算法中,还需要计算图G的顶点之间的相似度矩阵以及拉普拉斯矩阵的特征值和特征向量,并且其空间复杂度为O(n2),而时间复杂度则为O(n3)。
谱聚类算法的空间复杂度和时间复杂度均呈现较高量级,这是实际应用中的一个瓶颈问题。当数据集较大时,相应地会出现内存不足和运行时间过长的问题。
4 谱聚类在阅卷质量控制中的应用
下面以维吾尔语水平测试中口试的评分结果为例,利用谱聚类算法对评分员的阅卷水平进行聚类分析。
维吾尔语水平测试口试试题包括:朗读题、回答问题1和回答问题2。每部分试题满分为100分,评分等级分为5、5-、4+、4、4-、3+、3、3-、2+、2、2-、1和0,共有13个级别,每道小题由两位评分员(随机)进行评分。如果两位评分员的评分结果在两个级差范围内,取其平均值作为被试的成绩。如果两位评分员的评分结果在两个级差以上,则由第三位评分员进行评分。在三个评分结果中,取相近的两个评分结果的平均值作为被试的成绩。
以下研究数据为2014年在新疆举行的维吾尔语水平测试中口试的评分结果。参加这次考试的评分员共59人,主要来自高校的教师和研究生。评分员的评分参数如表1所示。
评分员的评分结果评价维度选定为8种,分别是:平均分、标准差、正离差、负离差、离差、阅卷量、问题卷和问题卷离差。
评分员的评分测量对象x和y之间的距离d为
(5)
其中,系数ki(i=1,2,...,8)分别为:1/max(:,1)、3/max(:,2)、1/max(:,3)、1/max(:,4)、1/max(:,5)、2/max(:,6)、2/max(:,7)、1/max(:,8)。max(:,i)表示第i维度的绝对值的最大值。
在式(5)中,标准差的权重最大,其次是阅卷量和问题卷的权重。
经过仿真计算,将各位评分员的评分参数列于表1。但由于篇幅所限,在表1中略去了问题卷离差评价维度和部分评分员的评分参数。
利用谱聚类算法,对59个评分员的评分测量对象进行聚类,聚类个数为4,聚类的结果如表2所示。
为了确定各聚类中的评分员阅卷水平的类型,计算出与表2相对应的,各聚类中评分员的评分测量对象与其他评分员的评分测量对象之间距离的平均值和标准差,其结果如表3和表4所示。
假定在评分过程中,少数评分员存在着评卷质量问题。在这一假定条件下,存在评卷质量问题的评分员的评分测量对象,可将其看作评分员的评分测量对象中的孤立点(outlier) [13],这些评分测量对象则远离其他评分测量对象 [14]。利用评分员的评分测量对象与其他评分员的评分测量对象之间距离的平均值和标准差,可以确定得到存在评分质量问题的评分员的所在类。
评分员阅卷水平的谱聚类结果类型可以用四值逻辑真值[15]来表示,即t表示很稳定,?表示稳定,f表示不稳定,⊥表示不确定。将其列成表格,具体如表5所示。
在聚类1中,评分员评卷结果的平均分在3到3.5之间,标准差在3.5~8之间,离差小于0.6,问题卷率小于0.1,这些评分员的评卷结果可识别为是很稳定(t)的。
在聚类2中,评分员评卷结果的平均分在2.7~3.8之间,标准差在3~10之间,离差小于0.8,问题卷率小平0.12,这些评分员的评卷结果则识别为是稳定(?)的。
从表4和表5可以看出,聚类3中大部分评分员的评分测量对象与其他评分员的评分测量对象之间距离的平均值和标准差较其它类大,由此可知这些评分员的评卷结果即是不稳定(f)的。
从表1评分员评分参数表中,可以看出这些评分员的评卷问题:
N_06、 N_17 和 N_45三位评分员的评分速度快,评分结果标准差小、问题卷多,具有明显的“趋中评分”特征。
N_23评分员的评分结果中,负离差大,平均分低,具有评分过严的特征。
N_39、 N_49、 N_50、 N_51、 N_54和 N_57六位评分员的评分结果的标准差偏大,评分结果不够稳定。
N_56 和 N_59二位评分员的问题卷较多,评分结果不稳定。
在聚类4中,评分员评卷量较小,这些评分员的评卷结果即识别为是不确定(⊥)的。
因此,在谱聚类结果中,可以得出评分员的阅卷水平情况,具体如表6所示。
5 结束语
利用谱聚类算法,对所有评分员的评分测量对象进行聚类后,可以对评分员的评分结果进行分类,从而为分析评分员的评分质量提供了一种可行的方法和手段,同时又结合评分员的评分结果度量维度参数,可以进一步有效地检测出主观题评分中存在的一些问题。
参考文献:
[1] 田清源.主观评分中多面Rasch模型的应用[J].心理学探新,2006,26(1):70-73.
[2] 俞韫烨,谢小庆.基于多面Rasch模型的作文网上评分“趋中评分”判定研究[J].中国考试,2012(1):6-13.
[3] 赵海燕,芮南.双评作文题网上阅卷评卷教师评卷水平评价维度的确定[J].中国考试,2009(2):12-17.
[4] 顾海根.心理与教育测量[M].北京:北京大学出版社,2008.
[5] 雷新勇.考试数据的统计分析和解释[M].上海:华东师范大学出版社,2007.
[6]贾志先.基于聚类分析的锚测验等值样本选取方法研究[J].控制工程,2012,19(6):1015-1018.
[7]Taylor J S, Cristianini N. Kernel Methods for Pattern Analysis [M]. Cambridge University Press, Cambridge, England, 2004.
[8]史忠植.知识发现(第二版)[M].北京:清华大学出版社,2011.
[9]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48-61.
[10]蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学,2008,35(7):14-l8.
[11]D J Higham,M Kibble.A Unified View of Spectral Clustering [M]. England: Department of Mathematics, University of Strathclyde, 2004.
[12]von LUXBURG U. A tutorial on spectral clustering [J]. Statistics and Computing, 2007, (17)4:395-416.
[13]S. Theodoridis, K. Koutroumbas. Pattern Recognition, 4th edition [M]. Elsevier Publishers, 2009.
[14]贾志先.考试数据分析及孤立点检测的谱聚类方法[J].计算机技术与发展,2013,23(1):103-106.
[15]BELNAP N D. A useful four-valued logic [A].// EPSTEIN G, DUMM J, editors, Modern Uses of Multiple-Valued Logic [M]. D. Reidel Publishing Company, Boston, 1977: 8-37.