大学英语口语测试中评分员效度研究

2016-11-07王显涛

文教资料 2016年19期

王显涛

摘要：在大学英语配对口语测试过程当中，有关评分宽严度与一致性常会受到多面Rasch模型（MFRM）的影响，发挥出一定作用。本次研究通过SPSS与MFRM分析的方法，将10对考生作为研究对象，依靠4名经验评分员对口试加以有效评价。结果显示，具有各异性格特点的评分员对宽严度方面的评价是不同的，相较于外向型评分员，内向型更加严格;表现在一致性方面的差异却微乎其微。

关键词：多面Rasch模型评分员效度宽严度一致性

作为口试中的重要目标，口语评分是其中主要的测试环节。在我国现有外语考试当中，口语方面的测验必不可少，旨在对学生的口语表达水平加以检验。在这过程当中，在评分的信度、合理性、公平性方面的问题可谓教学研究的焦点和关键。以当前情况来看，一般超过3人的小组形式测试最为常见，而专门的双人配对口语测试却十分稀少，并将个性因素作为影响评分方面的探究重点。本文基于我国高校英语课程公共必修的属性特征，与新建应用型本科院校特征紧密联系，以实证方式研究在双人配对的口语测试中，评分员表现出的倾向行为。

1.研究英语口语测试当中评分员效度的重要价值意义

充分利用《大学英语课程教学要求（试行）》中的规定，在学生口语能力训练方面有如下规定，包括语音和语调、表达连续性、沟通交流技能等几点。在借鉴和利用以往实践研究经验和环境条件的基础上，能够实现的任务内容涵盖了：①短文的朗诵、②情节的复述、③依图讲话、④结合视频短片的要求、⑤即兴演讲、⑥沟通交流、⑦分组探讨。

显然，①②显示出较弱的交际特征，以考查学生语音语调为目的;而③④⑤目标的交际性特征也不显著，着重对学生连续性表达技能加以考察;最后两个则显示出很强的交际性特征，依照准备的情节与内容进行表达和反应。所以，本次研究测试可以将这三个方面划分成三类：依次为A、B、C，便于比较不同目标下的测试效度差异情况，从而找到能够对学生语音语调、表达连续性、沟通交流技能均予以检验的口语测试任务设定，并予以推广。

1.1研究价值意义

作为一类主观性评分，口语评分旨在引导学生按照一定指标要求完成相应任务，将其中表现全部显示出来，了解具有的分析、判断及表达能力，随后依靠评分员实施综合分数评价。在此过程中，参与评分人员具有的个人特点非常重要，比如：经验情况、文化水平、情绪态度及疲劳状况等因素，在评分信度、效度当中均会有所干扰[1]，由此造成测试中产生评分偏差。学者Skehan指出，造成配对口语评分产生偏差的原因主要为多重因素互相影响造成，其中涵盖任务目标特征、考生、评分员各自间及评分要求的差异影响。

回顾以往二十多年，来自国外的Iwashita，Orr，Lyn May等专家都对配对模式各异、外语水平、性格差异及学生爱好、语言类型等方面给口语造成的影响情况加以研究，而我国则起步较晚，主要包括目前大学英语四、六级考试、英语专业四、八级考试等，并没有将口语测试纳入其中。直到1994年的英语专业四级考试中，口语录音测试首次执行（文秋芳），1999年，大学英语的四、六级考试内容中包含口语测试[2]。纵观口语测试的研究范围，以国外相关研究启示与我国口语测验实践为主，其中存在形式测验、（盛越，管博），基于真实性的口试（邹申）、大学英语口试测验（熊敦礼等）及英语专业的四级考试效度研究等。（文秋芳）

1.2概念辨析

1.2.1表面效度

表面效度在指从测试的表面来看的可信度，不过在实际应用中具有较大的争议，有一部专家学者认为表面效度并没有实际意义，而且在测试衡量上并不科学，和测试效果没有直接联系。也有部分专家学者认为，表面效度是测试的基础，只有从表面测试为有效之后，才能进行下一步测试，发挥出更好的水平，从测试角度做出更为合适的反应。如果被测试人员面对测试态度不端正，那么这一态度势必会影响其在测试中的发挥，并且对测试结果造成不必要的干扰。这一问题需要将被测试人员的感受作为衡量标准，明确他们对测试的态度和反应，这样才能取得最为合理的表面效度数据资料。

1.2.2结构效度

结构效度是衡量被测试人员在表现上的特征和素质上的体现，是测试的内部关联性的一种重要的衡量方式。具体来说，测试的内部关联性是指在测试过程中，其中各个组成成分之间相互关联，组成了不同的组成结构，并且形成了不同的素质体现，这些不同的素质体现在一定程度上会影响受测试人员的语言能力。如果结构的各个组成部分的相关系数较低，那么证明测试项目可行，能准确衡量受测试者的技能水平，而如果相关系数较高，那么可以认为这两个测试项目在实质上是同样的测试项目，并不用区分考虑，那么测试的时候可以选择去掉其中一个测试项目，留下一个测试项目保证测试的准确性、合理性和科学性[3]。

1.2.3并存效度

并存效度属于测试的外部效度，可以通过某个测试项目的规律总结分析其效度，如对固定测试分数和同类型的受测试者在同一时间所做出的其他结果进行衡量，这也是可以体现不同的测试样本和版本的比较过程[4]。另一种测试方式是受测试者对自身语言能力进行自我评价，然后教师对受测试者的相关能力进行评价，两个评价结果进行对比，保证其并存效度的相关系数在0.5到0.7之间。

2.大学英语口语测试中评分员效度实验分析

2.1测试对象

本文提出的大学英语口语测试中评分员效度实验选择了经管学院一年级的学生，学生平均年龄为20岁，共20名，从花名册中随机挑选出来。

测试任务主要是经管学院英语期末考试的口语部分。

受测试学生共分为十组，每组成员都从15个备选题目中抽选测试试题，经过三分钟的准备时间按照顺序在3～5分钟之内完成口语对话，学生的测试口语由计算机识别录音保存，全部十组学生的录音作为音频文件保存[5]。

2.2评分

本次大学英语口语测试中评分员效度实验测试选择的评分人员是四位有着丰富的口语评分经验的大学英语专业教师，并且具有副教授级职称。在四位评分教师评分之前对其进行性格测试，保证性格的取向偏内向和偏外向的各两名。

评分标准是受测试人员的口语表达准确性，包括词汇的运用、语言的连贯性、语言的实用性、语言的灵活性和两人之间的交流状况，对十组受测试人员进行评分。

3.大学英语口语测试中评分员效度研究结果

本次实验采用SPSS和Rasch模型（Linacre）对评分结果进行分析，Rasch模型是由丹麦数学家Rasch提出的数据处理模型，主要是分析受测试人员的能力和项目的难易程度之间的双层模型，在数据统计和参数估计上优势明显，并且在数据处理上极为简单，得到了较为广泛的应用。多面Rasch模型可以独立分析评分人员的性格导致的宽严度，并且和受测试人员的能力和项目的难易程度相结合，对其中误差加以校正，尤其主观印象对评分结果的影响，有效地消除误差，减少评分结果的不合理之处，提高评分结果的准确度和可信度。本次实验的数据处理模型上都有独立的参数设定，以logits（洛基量尺）作为衡量单位[6]。本次研究主要是采取Rasch模型，准确分析在分组口语测试中，评分人员性格特点对评分过程宽严度的影响，找出一致性，找出影响评分人员评分偏差的因素。一般来说，评分的宽严度在-2～+2之间属于正常误差，不会影响结果的准确性。Rasch模型评分人员宽严度估计见表1。

表1 Rasch模型评分人员宽严度估计表

3.1评分员宽严度分析

从表1可以看出，本次实验选择的四位评分人员是评分宽严度都在误差可以接收的范围内，可以证明本次实验评分结果的准确性[7]。系统分析四个评分人员的宽严度可以看出，评分人员D的宽严度数值为-0.39，属于四位评分者中最为宽松的评分人员，而评分者B是宽严度数值为0.88，是四位评分者中最为严厉的评分人员，评分员B和评分员D之间相差了1.27洛基量尺，从第五列的内适合度均方来看，评分员的评分宽严度和自身的特点相一致。一般来说，Rasch模型允许评分者的一致性在一定范围内上下浮动，但是如果某个评分者的上下浮动幅度过大，那么说明该名评分者评分的稳定性较差，缺乏一致性，一般来说浮动范围是在0.8～1.2之间[8]。适合度小于0.8或者适合度大于1.2的评分者可以认为在评分过程中受到主观印象和性格的影响较大，并不稳定，没有按照评分标准完成评分过程，缺乏一致性。从表1可以看出，评分员A的适合度值小于0.8，说明评分者A在评分过程中采取的测量的安全策略，变化幅度过小，一致性过高，并没有根据受测试人员的表现进行合理的区别和区分;而评分员C的适合度值为1.44，说明评分员C在评分时受到自身性格和主观的影响较大，自身缺乏一致性，评分标准并不稳定，可以说评分员A和评分员C在评分过程中都缺乏一致性，而评分员B和评分员D的适合度都在0.8～1.2的范围之内，一致性较好。最后一列是标准差，是评分者宽严度估计值的标准差，都为0.10，表现了这一宽严度估计值的准确。

3.2评分偏差

表2主要体现了四位评分人员对受测试人员口语能力测试的评分和学生实际口语能力之间的偏差，为了观察和研究方便，本文只选择前五名和后五名进行研究。

表2 偏差分析表

从表2来看，第三列为受测人员的口语能力，第四列为受测试人员实际得到的分数，第五列是根据系统模型分析得出受测试人员的应得分数，第六列是均值，第七列是偏差值，第八列是误差值，最后一列是偏差度的Z分数。上文提到过偏差度的合理范围是-2～+2，如果偏差度大于+2，则说明评分员在评分过程中过于严格，如评分员A在评论受试者5号的时候，偏差度为2.07，大于2，证明这次评分过于严格，偏差过大，本次评分不合理，不能作为最终评价结果。除了这一结果之外，所有评价结果都属于有效评价，具有一定的统计学意义。另外，从表2中可以看出，前五位受试者是期望值大于实际得分值，也就是说这五名受测试人员的实际口语能力大于他们获得的评分，评分员对他们的评分过于严格，导致评分偏低[9]。而后五名受测试人员的期望值低于评分值，说明这五名受测试人员的实际口语能力不够他们获得的评分，评分员对他们的评价过于宽松，存在一定的偏差。总之，通过这一分析可以看出，评分员的性格特征会对评分结果造成影响，而内向性格的评分员严格程度要高于外向性格的评分员，在评分一致性上，内向性格和外向性格对评分结果没有明显的差别影响。

4.总结

国家教育部最新《课程要求》针对非英语专业大学生的外语素质训练宗旨更为明确和系统，以听说技能为培养重点，其中提到“大学英语的教学目的是培养学生英语综合应用能力，进而帮助其更好地适应与应对未来的工作任务，可以熟练地使用英语予以口头及书面沟通[10]”。强调教学过程中准确评估的作用价值所在，不仅要认真执行终结性的评估模式，还要注重对学生实践能力的考察、指导与评测，使其具备高水平的口语及书面表述技能[11]。为了对学生学习成效加以检测，推行大学英语口语测试不失为一种好方法，当可以在考试中保证一定的科学严谨性，以合理的考察方式，严格的考场纪律的时候，最终形成的考试结果便可以对学生知识掌握程度做出真实反映，进而提高学生的实践能力，让其可以从中清晰地了解到学习内容的重点，帮助校方老师及时对学生的情况加以掌握，方便有针对性地对教学内容和方案进行优化调整。显然，推进大学生的英语口语测试，不但是在落实教育部《课程要求》，完成对大学生英语口语能力的提升任务，而且有助于学生及时纠正错误的学习方法。然而鉴于大学英语口语测试开展过程中存在诸多困难[12]，比如：涉及范围广泛、执行复杂、耗时多等弊端，因而想要达成设计合理、树立一定的规范性、确保结果的准确性等方面是非常困难的。本次研究以具体的大学英语口语测试案例为研究对象，加以分析，参照考察后的结果，做出多维判断，权衡利弊，完成有关展望和设想，以便提供给相关部门及人员更多的指导和帮助。

在本次针对配对口语评分的研究当中，有效引入多面Rasch模型，分别对内外向型评分员处于评分当中的表现加以分析，包括评分偏差、宽严度和一致性等，进而提供给后续研究和实践更多的启示，尤其对于那些具有不同评分偏差评分员来说，可以起到良好的反馈与训练作用。当然，评分员自身的认知程度研究不容忽视，评分员应对参考的那些评分规定和其他无关信息进行细致的分析，这样便能够运用有声思维方式对信息方面的问题加以合理处置，以便进一步探究完善。

参考文献：

[1]徐坤银.计算机辅助口语测试的真实性分析[J].科技信息，2010（11）：18-19.

[2]阎艳琳.口语测试研究综述[J].山西煤炭管理干部学院学报，2009，26（4）：58-59.

[3]景恒伟，马丽玲.英语口语测试任务与类型及其对测试表现影响的研究述评[J].甘肃高师学报，2015，20（1）：45-49.

[4]周小琴，李欣.任务型口语测试与大学英语口语教学改革[J].吉林省教育学院学报，2010（02）.

[5]薛荣.论交际口语测试及其评分方法[J].外语教学.2009，30（6）.

[6]沈淼.口语测试及评价[J].科技信息，2008（15）.

[7]丁爱云.形成性口语评价——激发学生学习热情的口语测试新模式[J].天津工程师范学院学报，2007，17（2）：

70-74.

[8]高见.论影响口语测试的相关重要因素[J].科技信息（科学教研），2007（22）：215-215，224.

[9]张云梯.基于计算机的口语考试中的一些问题的分析及改进方案[D].中国科学技术大学，2008.

[10]宁见红.大学英语期末面试口试与机助口试的对比研究[D].广西师范大学，2009.