主观题型竞赛梅西评分法及排名的优化模型

2022-03-06郭东威

周口师范学院学报 2022年5期

郭东威

(周口师范学院数学与统计学院，河南周口 466000)

主观题型是现代考试和竞赛中常见的题型，由于其能够考查学生的综合能力而备受欢迎。然而对主观题的评分却较为复杂，难以把握。本文以大学生数学建模竞赛为例探讨主观题型竞赛评分和排名的优化模型。大学生数学建模竞赛是一项能够检测大学生综合能力的竞技活动，也是我国高等院校规模最大的科技活动之一。数学建模竞赛论文的评阅问题是一个典型的群组决策问题，即每个参赛队最终提交一篇论文，由专家评委组按百分制评阅打分。而建模题目比较灵活，参赛队提交的论文对问题的分析及建立的模型也具有多样性，因此对论文质量的评价没有确切客观的标准，在一定程度上受主观因素的影响。比如对同一篇论文有的评委可能认为对问题的分析合理、模型建立准确、具有一定的创新等，而另一个评委可能认为分析不够合理、创新性也很一般等。由于每年参赛队众多，比如2014年共有25 347个队参赛，而评委数量及评阅时间都有限制，因此每篇论文不能由每个评委逐一评阅打分。实际采用的办法是每篇论文只随机分配给某几个评委分别进行评阅打分，通常是每篇论文随机分配给其中的三个评委。但是，不同的评委打分的习惯有所不同，有的评委打分普遍偏低，而有的评委打分普遍偏高，如果直接取论文得分的均分进行排名就会出现严重的偏差。为了减小偏差，目前采用的处理方法是标准分法[1]。我国专家学者易昆南等提出了根据相关度或线性回归理论对残缺评分矩阵填补的方法[2-3]。文献[4]和[5]分别根据成对比较矩阵和逼近理想点法及误差平方和最小模型确定了评委的权重，对T分数加权排名。文献[6]应用无偏方法“科利法”研究了主观评分型竞赛排名问题，结果表明科利法的评判结果受系统误差及个别异常分数的影响较小，具有较高的稳定性。为了保证评委打分的信度，近年来兴起了网上评卷方式，该方式可以实时监控评委打分的情况，比如均分、方差及分布等。网评模式在一定程度上控制了评委打分的系统误差，提高了打分的一致性，但是也导致了评委打分保守的负面影响[7]。本文首先建立论文分配的数学模型，其次借鉴梅西评分法原理[8-9]，建立一个矛盾的线性评分系统，最后求该线性系统的最佳逼近解作为论文的广义评分进行排名。

1 论文分配的原则及数学模型

为了公平起见，对参赛论文进行密封、编号，并遵循以下分配原则：

(1)每篇论文分配给3个评委分别独立打分；

(2)各评委不得评阅其所在学校的论文；

(3)论文的分配尽可能均匀，即每个学校的论文尽可能分给多个评委；

(4)评委之间尽可能有交叉评阅论文。

变量符号说明：

xsri=0 or 1，若评委i评阅了来自第s号学校的r(r=1,2,…,Ns)号论文，则xsri=1，否则xsri=0；

ui、di分别表示评委i能够评阅论文数量的上、下界；

mi∧mj=0 or 1，若评委i与评委j评阅的论文有交叉，则mi∧mj=1，否则，mi∧mj=0。

论文分配的多目标数学模型[10]：

目标函数说明：(1)分配给各个评委的论文数量极差最小，即要求分配给各个评委的论文数量尽可能接近；(2)有交叉评阅论文的评委组合(每两位评委视为一个组合)数最大，即要求评委之间尽可能有交叉评阅论文。

约束条件及说明：

约束条件1：xiri=0，表示评委不得评阅来自其所在学校的论文；

约束条件6：xsri=0 or 1，mi∧mj=0 or 1。

2 论文的广义评分及排名

2.1 最佳逼近解理论

由于下文建立的模型是一个矛盾方程组，需要用到其最佳逼近解，因此我们有必要在此对最佳逼近解理论做简单介绍。

定义设A∈Rm×n，若有X∈Rn×m满足：(1)AXA=A；(2)XAX=X；(3)(AX)T=AX；(4)(XA)T=XA。则称X为矩阵A的广义逆，记为A+。

定义当方程组Ax=b(A∈Rm×n,b∈Rm)无解时，如何确定xLS∈Rn，使得

称这样的xLS为方程组Ax=b(A∈Rm×n,b∈Rm)的最佳逼近解或极小范数最小二乘解，简记为LNLS解。

定理如果线性方程组Ax=b(A∈Rm×n,b∈Rm)无解，则它的极小范数最小二乘解xLS唯一，并且xLS=A+b。

式中U=(u1,u2,…,um)和V=(v1,v2,…,vn)为正交矩阵；Σr=diag{σ1,σ2,…,σr}，σ1≥σ2≥…≥σr>0。则

2.2 基于最佳逼近解的排名

不失一般性，我们将所有论文依次编号为1,2,…,N，所有评委依次编号为1,2,…,M，记bik表示k号评委对i号论文的原始评分。模型假设如下：

(1)每个评委都具有很高的水平且评分公平公正，即如果论文i不比论文j质量差，且都被评委k评阅，则bik≥bjk；

(2)不考虑评委误判的情况；

(3)论文的客观水平及各评委的评分服从正态分布。

根据梅西评分法[8-9]的思想建立如下评分系统：

ri-rj=yk=zik-zjk，

(1)

yk=zik-zjk表示在k号评委的打分中，论文i,j的分差，ri和rj是论文i,j的广义上的未知评分。

Xr=y，

(2)

其中，系数矩阵X中的每一行有N-2个元素为0，只有在位置i上有一个1，而在位置j上有一个-1。对(2)式两边同时左乘XT，就得到含有N个未知量N个方程的线性方程组(3)。

XTXr=XTy，

(3)

令M=XTX，p=XTy，则线性方程组(3)变为

Mr=p，

(4)

(4)中，M是N×N系数矩阵，其对角线元素Mii表示论文i和其它论文进行比较的次数，非对角线元素Mij(i≠j)表示论文i与论文j比较次数的相反数，即论文i与论文j被|Mij|个评委共同评阅过。由于每篇论文只有三个评委评阅，因此非对角线元素Mij(i≠j)只能取0、-1、-2、-3中的某一个数，即任意两篇论文可能没有共同的评委、只有一个共同评委、有两个共同评或三个评委都一样。显然M矩阵每行的和为0，因此rank(M)

(5)

3 模拟试验及比较分析

3.1 成绩的生成

统计资料表明，在大型竞赛或考试中，考生总体成绩及评委评分的分布一般呈正态分布或偏态分布[11-13]，因此在本文所做的模拟试验中，论文的客观成绩及各评委所打的分数均服从正态分布，具体操作如下。

3.2 检验排名结果好坏的指标

本文采用文献[9]中的检验排名结果好坏的指标。

定义1 导出分：根据一定的方法将原始分变异得到的分数称为导出分。如熟知的“标准分”“T分数”等都是导出分。

定义2 主观名次：依据原始评分或导出分得到的参赛对象的名次称为主观名次。

定义3 重合度：主观名次与客观名次相同的个数称为重合度。

定义4 乱序度：主观名次与客观名次差的绝对值的和称为乱序度。

不难理解，重合度越大、乱序度越小时表示排名越科学合理，差异度β越小说明主观名次与客观名次越一致。

3.3 仿真实验及分析

取参赛论文数量N=100，评委数M分别取5、8、12、20四中情况，客观成绩均服从正态分布N(50,12)，分别进行模拟试验100次，并将本文方法的排名结果与标准分法做比较，具体结果见下表1，表中方法1指标准分法，方法2指本文方法。

表1 实验结果

根据实验结果的对比分析可以得出以下结论：

(1)无论评委数量多少，从检验排名效果的三个指标重合度、乱序度、差异度看，本文方法排名结果都远比标准分方法的排名结果优良；

(2)从各指标的标准差来看，本文方法重合度的标准差比标准分法略高，乱序度及差异度的标准差均比标准分法小很多，这就说明本文方法的排名效果较标准分法更加稳定；

(3)当参赛论文数量一定时，评委的数量越多，残缺评分的排名效果越差。因此在保证完成评阅工作的同时，要尽可能的减少评委数量，以提高排名质量。

限于篇幅，下表2给出评委数为M=5，论文数为100的某次具体实验的数据。表中传统方法指直接取原始评分的均分，方法1指T分数法(标准分法)，方法2指本文方法。方法2使用公式(5)时参数设置为σ=10及u=60。

由表2可知，方法2的乱序度、差异度都明显优于传统方法和方法1，说明本文方法的排名结果较传统方法和T分数法都要科学合理。

表2 分数与名次

续表

4 结束语

群组决策旨在对所评价对象做出相对公正准确的评价，但是即便各个评委都是水平很高、公正无私的，由于评分习惯的不同，也会因系统误差带来最终排名结果的误差，尤其是像大学生数学建模竞赛类的缺损评分，如果直接取原始评分的均值排名(传统方法)就会造成较大的误差。标准分法减小了评委打分的系统误差，因此其排名效果要比传统方法好很多。但是标准分法对于残缺评分矩阵也有不妥之处，即标准分法统一了每个评委所评阅的论文的平均分和方差，而事实上每个评委评阅的论文整体水平是有差异的。本文先用标准分减小系统误差，再利用梅西评分理论建立一个矛盾评分系统，通过求解最佳逼近解作为论文的广义评分进行排名，改善了单单使用标准分法的排名效果，使排名结果更科学合理。

对于主观型评分的竞赛，为了使排名更加科学准确，笔者提出以下建议。

第一，阅卷前对评委进行统一培训，讨论并掌握各个主观题的评分标准。

第二，正式阅卷前试评。抽取一定数量的论文，有每个评委对这些论文分别打分排名，比较每个评委的排名结果是否相差较大。如果某评委的排名结果与其他评委的结果相差太大，及时对该评委进行培训或调整。

第三，强化排名结果的一致性。注重排名结果的一致性可以避免评委打分保守的现象。在试评中如果每个评委的排名结果均相差不大(可以用重合度、乱序度、差异度来衡量)，那么可以认为每个评委的打分都是有效的。

主观题型的客观评判是一项复杂的系统问题，本文所用梅西评分法主要降低了评分打分的系统误差，从而提高了对参赛论文综合评价及排名的科学性。但是，没有考虑评委打分的随机误差及误判。因此，进一步提高评判的科学性，可以从降低随机误差和识别评委误判等方面考虑。当然，系统误差是影响残缺型评分准确性的主要原因，研究如何进一步降低系统误差是该课题需要解决的关键问题。