面试评分标准化的模型建立及实践探索

2012-11-08张亚权

中国考试 2012年12期

孔敏张亚权沈群潘柏

1 面试评分标准化必要性

2003年，教育部首次批准部分高校开展自主选拔录取试点工作，自此，逐步打破了高考一考定终身的局面。自主招生考试更多地关注学生的应用能力、思维能力、反应能力、表达能力等综合素质以及学生的发展潜力。为此，试点学校探索了自主招生考试的多种形式，其中，面试往往成为首选的考量方式。

在面试过程中，通常将所有参加面试的学生分成若干组，每组有若干评委，每位评委根据学生的表现，各自进行独立评分（我们称之为“原始分”），学生的最终成绩来自各组评委的算术平均值，最终，学校对所有学生的成绩进行排序，以此表征学生水平的高低，择优录取。这种做法经实践证明存在一定问题：

1.1 “原始分”不具有可比性

同组学生面临相同评委，可比性尚好；不同组学生面临不同评委，难以保证其可比性。例如，某组评委评分比较紧，该组平均分相对偏低；反之，如果评委评分比较宽松，该组平均分相对偏高。若有A、B两组，A组平均分比较低，B组平均分比较高，那么，在最后排序时B组学生位于前列的可能性就比A组大，从而B组学生的总的排名靠前，其录取率也会较高。因此，不同组学生所得成绩并不能客观地反映考生实际水平，即“原始分”不具有可比性。

1.2 “原始分”不具有可加性

尽管面试有其评分原则和评分标准，但每个评委对标准的理解不尽相同。事实上，面对同一批学生，评分宽松的评委所给成绩相对较高，严格苛刻的评委所给成绩相对较低，即把同样的分数映射到不同评委的价值坐标系中，所反映的水平不相一致，甚至相差甚远。例如，同一组中的两个评委，一个评分比较集中，在65～85分，另一个评分比较分散，在45～90分，那么，如果把两个评委的评分作简单算术平均，就会造成两个考官所给分数在学生成绩中所占的比重不同，结果不尽合理，即“原始分”不具有可加性。

2 面试评分标准化方法及性质

2.1 面试评分标准化方法

设参加面试学生的总数为n，将他们分成m个组，每个组中面试学生的人数为ni（i=1，2，…，m），则n1+n2+…+nm=n。

类似地，假定参加面试的评委总数为p个，设每个组有pj（j=1，2，…，m）个评委，则p1+p2+…+pm=p。

设第k组的面试学生人数为nk，评委人数为pk（k=1，2，…，m）。

第一步：面试成绩标准化

最后，求出每个面试学生面试的标准分

2.2 面试评分标准化性质

一组数据的平均分（均值）是这组数据中最有代表性的数值，它表示了这组数据的集中趋势，平均分是计算标准分的重要参数，它是对整体水平的一个度量。

平均分受到多种因素的影响。首先，学生素质的高低是影响平均分的一个重要因素，如果学生的总体素质较高，平均分就较高；如果学生的总体素质较低，平均分也就较低。其次，每个面试考官不同的衡量标准也有较大的影响，如果评委对面试学生的要求比较严格，平均分就会较低；反之，如果考官对考生的要求比较宽松，平均分就会较高。

一组数据的标准差反映了这组数据的离散程度（或区分度）的差异情况，标准差也是计算标准分的重要参数。

标准差也受到多种因素的影响。首先，学生自身的情况对标准差有较大的影响，学生素质水平的差异，即优劣生在分组的分配比例在很大程度上影响差值，此外，面试中随机的干扰因素也影响标准差。其次，评委所给分数集中情况对标准差也有着较大的影响。

标准分具有可比性，这是最重要的特性。因为标准分的单位相同，标准分是以标准差为单位来度量每个学生的考分与平均分之间的距离，无论每个评委给出的平均分、标准差存在多少差异，经转换为标准分后，都是以1为单位来度量学生的考分与0之间的距离，因此标准分具有可比性。

其次，标准分具有可加性。因为标准分的单位一致，同是平均数为0，标准差为1的统一的度量标准，同为以1为单位来度量，从而具有可加性。据此，比较学生成绩时，只要将每个评委的评分的标准分相加，比较其标准分的总和（标准总分）即可。

原始分不能直接表示出考生在团体中的位置。例如，两个参加面试的学生甲、学生乙分配在不同的组，其面试的原始分均为75分，但学生甲可能位于其所在组中前几名，而学生乙却位于其所在组中最末几名。标准分恰恰克服了以上的缺点，明确了一个面试学生在总体中的名次位置。

3 面试成绩的原始分、标准分数据分析及排名变化

我们就评委对面试学生给出的成绩标准化前后进行数据分析（数据来源于历史真实资料，共有A、B、C、D、E、F 六组，对比数据详见以表1～表6），所提及的面试学生成绩是指标准化前所有评委给出分数的算术平均。

对面试学生的成绩进行标准化后，我们发现A组的所有人名次均提前，B组除两个人以外，所有人名次均后退，C组的所有人名次均提前，D组所有人名次均后退，E组的所有人名次均提前，F组除一人以外，所有人名次均后退。

产生上述结果的原因主要是由于A、C、E组评委所给出的均值较小，其均值分别为54.1，56.2和56.01；而D、F、B组评委所给出的均值较大，分别是66.46、65.42和64.23，总的均值为60.41，所以在标准化后，那些原来均值大的组名次会后退，而均值小的组名次会提前。

再则，名次变化大的人均分布在A、D、F组中。这是因为，A组是均值最小的组，所以原来处于A组前面的人，在标准化前排名靠后，而标准化后排名自然前进了很多，D、F组分别为均值最大和第二大的组，而且这两组的均值大小差不多，所以这两组中原来名次靠后的人在原来的排名中，名次并没有排在后面，但是标准化后，这些人的名次大大后退了。

我们将六组的面试成绩在标准化前后排名变化最大的列表如表1～表6所示：

表1 A组标准化前后差异最大的5个数据

表2 B组标准化前后差异最大的5个数据

表3 C组标准化前后差异最大的5个数据

表4 D组标准化前后差异最大的5个数据

表5 E组标准化前后差异最大的5个数据

表6 F组标准化前后差异最大的5个数据

下面，我们对上述变化进行分析说明。

首先看A组中排名第一的学生A10。在标准化之前，他的排名是64，标准化之后是第4。由于假设每组考生具有同质性，所以，每组考生的平均分应该相差不大，所以每组中处于相同位置的考生在总体中所处的位置不会有太大差距，那么A组中排名第一的A10，但在总体中排第64名肯定是有问题的。原因就在于A组的平均分是所有组中最低的，而且和最高分（D组）相差12分，也就是差了15%，所以即使是A组排在第一的人在原始排名中也只排到了64，但是标准化克服了组与组之间平均分差异的影响，A10自然可以排到第4名了。像这样的例子还有A27、A24 、A05、A23、A02。

再看D组，D04在原来的排名中排在40，而在标准化后的排名是146，相差了106名。这是因为D组的平均分是六组中最高的，所以，未标准化前，即使那些在组里排在后面的考生也在总排名中排在了靠前的位置。

由于A组评委所给出的均值最小，而D组最大所以在标准化后，那些原来均值小的组名次会提前，而均值大的组名次则会退后。表7给出这两组中各组前3名在标准化前后的对比。

表7 A组和D组前3名在标准化前后的对比

与上面分析的原理相同，A组前4名的排名在标准化后有很大的提升，而D组的前4名在标准化后的排名退后，尤其是A组面试学生成绩在标准化前后的排名变化较大。

在同一组中，因评委评分的均值不同产生的差异，取E组的6个样本如表8所示。

表8 E组的6个样本

表中数据有一个共同特征：第一个评委给的分数较大，而第四个评委给的分数较低，而且两个评委所给分数差距较大。这是因为第一个评委的均值在这五个评委中最大（62.1分），而第四个评委的均值最小（48.6分），这样第一个评委在学生分数中所占比重就会大，而第四个评委所占比重就会小。如果把评委所给分数和平均分的差值与标准差的比看成评委对这个学生的真实评价，那么，就会发现，虽然第一个评委给出的分数较高，但不代表这个评委对该考生的评价较高，例如E31的第一个分数显然低于均分，第二、三、五的分数却高于均分很多，简单的算术平均并未体现出这一点。另外，E18的第四个分数也高出均值很多，第五个分数低于均值很多，而且第四个高出的远远大于第五个低于均值的分数，也没有体现出来。

4 对总分标准化、加权标准化和分项标准化的进一步讨论

我们以C组的数据为样本，先添加C39、C40两个样本，C39的数据为原数据每列的均值（四舍五入为整数），而C40的数据由五个评委给出，每个评委给3项分数。相对于C39、C40的每个评委的第一项分数不变，第二项减少4分，第三项增加4分，这样每个评委给C40的总分与C39的相同，只是第二、三项存在差异。然后再在下面添加C41、C42两个样本，这两行第一个评委的三项分数分别取其所在列的最大值和最小值，而后面四个评委的数据与C39均相同，如表9所列（每个评委分三项分别评判计分，三项分数总和即为该评委对考生的面试成绩）。

表9 评委给出C组考生样本的面试成绩

运行结果如表10所示。

表10 C组考生样本所得的原始分及名次

数据结果分析：

（1）我们知道，C39的各项分数为原数据的平均值，也就是说处于所有学生的平均水平，不存在“偏项”现象；而每个评委给C40的总分与C39相同，但第二项明显低于平均水平，而第三项高于平均水平，处于优秀行列，故C40存在较为明显的“偏项”。从运行结果可以看出，无论是“加权标准化”还是“分项标准化”，所得结果均表明C39领先C40。从此例可以得出结论：我们的这两种标准化方法都使各项分数较为均衡的学生最终能获得较高的分数，也就是说这两种方法对于那些全面发展的学生更有利。

（2）C41、C42的后面四个评委给的分数较为一致，都是所有学生的平均分，但第一个评委的分数与其他评委差距较大，他给C41所有学生的最高分，C42所有学生的最低分。由于五个评委中有四个对这两名学生的评价一致，因此我们有理由怀疑这名评委对C41有“特殊照顾”，但对有C42“持有偏见”。如果评委一给C41较为客观一点的评价，即像其他四个评委一样给C41的分数是所有学生的平均分，那么C41的排名应为19名（按原始分数计算）；但因为C41受到这种“特殊照顾”致使他的名次升到了第11名（按原始分数计算），但经过评分标准化的处理，他的名次为13名，相比原始名次退后两位。这种分数处理方法削弱了“特殊照顾”的作用。同理分析C42，可以得出相同的结论。由此得出，尽管异常分数的影响客观存在，但这种方法可以大大地降低这种影响的作用。

[1]孙荣平.成绩统计分析中的数据预处理研究[J].黑龙江教育（高教研究与评估），2006（9）:67-68.

[2]叶宗裕.高考成绩综合时的标准分研究[J].统计与决策，2005（3）：25-26.

[3]孙国耀，黄廼本.用标准分评定考试成绩[J].中山大学学报论丛，2004，24（5）：13-15.

[4]郑群.标准分数在考试成绩评价中的应用[J].浙江统计，2004（9）：24-25.

[5]彭成奖.标准分的应用[J].暨南学报（哲学社会科学），1999（21）：138-142.

[6]张亚萍，谢家功.建立高考标准分制度的思考[J].上海高教研究，1998（3）：42-44.