高校外语教师语言测评素养研究：以一次校本测试为例

2020-07-21展素贤段翠霞

考试研究 2020年3期

展素贤段翠霞

一、引言

语言测评素养源于教育测评中的“测评素养[1]”，是一个复杂的抽象概念。尽管国内外众多学者从多角度对语言测评素养做出了不同阐述[2-8]，但学界基本达成共识：语言测评素养是指外语教师对语言测评知识和技能的理解和掌握，是外语教师素养的重要指标之一[9，10]。其中，语言测评知识包括对语言测试理论、测量概念，如测试信度和效度、试题难度和区分度等的理解；语言测评技能包括测试开发、试题质量分析、测试成绩解释与报道能力等。

在当下所倡导的“以评促教、以评促学”的测评实践中[11]，更需我国外语教师具有较高的语言测评素养，以开发较高信度、合适难度和良好区分度的外语测试题，使之有效反馈外语教与学，保障教育评估的合理性和公正性[12]。因此，探究高校外语教师语言测评素养，有助于了解我国高校外语教师语言测评素养现状，促进外语教师发展。

文献梳理发现，我国已有的外语教师语言测评素养研究中，研究者多聚焦于中小学英语教师测评素养[13，14]，而针对高校外语教师的研究相对较少[15]；在有关高校外语教师语言测评素养的研究中，研究者多采用自编问卷调查高校外语教师语言测评素养的现状[16-18]，鲜有针对测试开发实践，如大型校本外语测试，来考察外语教师语言测评素养现状的研究。

一般情况下，大型校本外语测试开发实践中，大部分试题由本校外语教师自行开发，其各项质量指标，如信度、难度、区分度等，则取决于本校外语教师是否具有较高的语言测评素养。因此，通过分析校本外语测试题的信度、各项目难度和区分度等指标，可探究外语教师语言测评素养。本研究以某高校一次校本英语测试客观题为例，通过对试卷信度、各项目难度及区分度分析，并结合对命题教师的半开放式访谈，回答两个研究问题：

（1）本次校本英语测试客观题的信度、各项目难度和区分度是否达到质量指标？

（2）命题教师对语言测评知识和技能的理解和掌握情况如何？

二、数据采集与分析过程

（一）数据采集

数据采集主要分为以下两个步骤。

首先采用方便抽样，从某高校参加大型校本英语测试，即入学英语摸底测试的5000 多名新生答题样本中，抽取了1423 个客观题答题样本，采集了相关定量数据。在每份客观题答题样本中，有25 道听力题，包括3 篇短篇新闻、2 篇长对话和3 篇听力篇章，以及15 道阅读理解题，包括3 篇文章，每篇文章各有5 小题，试题均为四选一客观选择题。

随后，从此次入学测试的听力命题组和阅读命题组中，选取两位英语教师自愿参加了半开放式访谈，采集了相关定性数据。在半开放式访谈中，围绕受访者的“语言测评学习经历”和“语言测评实践经历”，分别进行了大约20 分钟的访谈。经受访者同意，对访谈进行了录音，并将录音资料转化为文本，转写文本5490 字。

（二）数据分析

数据采集结束后，分别对定量和定性数据进行了统计与分析。

在对1423 份客观题答题样本的定量数据统计中，基于经典测试理论[19]，采用EXCEL 2010 和SPSS 22.0，对测试信度及各试题项目的难度、区分度等三项指标进行了评估。首先，采用克隆巴赫α信度系数与试题内部相关系数，对本次测试客观题的信度进行了评估；随后，从听力和阅读试题中各选取一道质量不够理想的试题，分别计算被试通过率和点二列相关系数（point-biserial correlation，Rpb），对试题项目进行了难度（difficulty，p）和区分度（discrimination，Rpb）分析。

在定性访谈数据分析中，主要采用了质性研究的类属分析方法[20]，对访谈数据的原始材料进行编码、分析和提炼，得到命题教师对语言测评知识与技能的掌握概况，以补充和解释定量数据分析结果。

三、结果与讨论

（一）定量数据统计结果

通过定量数据统计以及项目个案分析，评估此次大型入学英语测试客观题的信度、难度和区分度是否达到所要求的质量指标，以回答本研究的第一个问题。

本次入学测试的听力、阅读客观题各小题分值1 分，共计40 分。描述性统计分析结果表明（见表1），随机抽取的答题样本平均分为14.13，全距为28，标准差为3.796，说明被试学生分数普遍较低；但由于Skewness（0.391）和Kurtosis（0.381）系数的绝对值均小于1.96，测试结果分数呈正态分布。

表1 描述性分析结果

1.信度分析结果

在心理计量学中，一般认为，当克隆巴赫系数α＞0.7 时，测试可被接受；而当α＜0.5 时，测试不可接受。从表1 可见，本次客观题克隆巴赫系数为α=0.445，听力题和阅读题分别为α=0.325 和α=0.401，表明客观题总体信度及听力题、阅读题信度均未达到质量标准，试题信度较低。

此外，试题内部相关系数也是判断一套试题信度高低的重要评估手段。从统计学角度，一套较高信度的试题其内部相关系数至少应在0.5-0.7 之间。但通过进一步对试题内部听力、阅读、总分三者相关性分析发现（见表2），尽管听力题和阅读题与客观题总分相关性系数达到0.7 以上，但试题内部相关性系数仅有0.176，远未达到0.7 的理想质量标准。

综上，无论从克隆巴赫系数还是试题内部相关性系数分析，均发现本次入学测试的客观题部分信度较低。

表2 试题内部相关性分析结果

2.项目难度和区分度分析结果

难度（difficulty，p）和区分度（discrimination，Rpb）是评估试题项目质量高低的重要特征参数[21]。难度指答对该题人数占总人数的百分比，即通过率。难度值p 值越小，说明试题难度越大。对于本次研究中的摸底测试，目的是掌握新生的英语水平，试题难度需要有梯度，因此，本研究设定难度值可接受范围为0.3＜p＜0.7。区分度则指试题项目能区分不同水平被试的程度，当区分度Rpb ＜0.2 时，说明项目区分度较差；当0.3 ＜Rpb ＜0.4 时，区分度较好；当Rpb ＞0.4 时，区分度比较理想[22]。

通过对试题项目的难度和区分度评估发现（见表3），客观题总体难度值p=0.35，听力与阅读分别为p=0.34 和p=0.38，难度值普遍偏低。其中，14 个题项难度值小于0.3（p＜0.3），且有6 个题项（第7、14、18、27、30 和38 题）难度值低于0.2（p＜0.2），表明过难试题数量较多，并对试题平均难度值产生影响；第31 题（p=0.89）难度值大于0.7（p＞0.7）；其余题项（共25 个，占总题量62.5%）的难度值均在可接受范围内（0.3＜p＜0.7），数量偏低。

难度值的高低势必影响区分度的理想程度。换言之，过难试题和过易试题均会导致试题鉴别力过小，致使区分度不理想。

从表3 可见，客观题总体区分度仅为Rpb=0.2，表明试题鉴别力较小。其中有16 个题项区分度Rpb＜0.2，5 个题项（第7、14、18、27 和38 题）区分度Rpb＜0.1；而区分度较好即Rpb＞0.3 的题项仅有4 个，分别为第8、15、29 和39 题，其中仅第39题（Rpb=0.41）区分度达到理想程度。

综上，通过难度和区分度值评估试题项目质量可以发现，试题难度和区分度值均未达到理想指标，试题过难，区分度较差。

3.项目难度及区分度个案分析

为进一步探究试题开发过程中出现的试题难度大和区分度较差等问题，又分别从听力题和阅读题各抽取一个难度、区分度不够理想的试题进行个案分析。

首先，从听力题中抽取了第7 题（p=0.11，Rpb=-0.01），划线部分为答题依据（见图1）。

表4 第7 题各选项答题情况统计

通过初步统计发现（见表4），选择D 项的学生人数最多，占比38.72%，这可能是由于该项复现了原文中的“cellphone”（与“phone”同义）和“school”，提高了其干扰强度；B 项选择人数占28.67%，但选项内容明显与问题不匹配；A 项选择人数占21.36%，该选项错误较明显，A、B 项干扰性不强，但选择的人数仍然占到近50%，而正确选项C 所占人数仅为11.17%。通过深入分析，笔者发现，C选项在语言内容上存在用词不当情况，即：“can”在本试题中是“有可能”之意，但“can”还可表示“能，可以”之义，致使命题教师设定的正确答案出现“如

果学校禁止使用手机，学生们可以私底下用”还是“如果学校禁止使用手机，学生们可能私底下用”的歧义，进而导致学生在答题时避开该选项而择其它选项。

表3 各试题难度和区分度统计结果

图1 第7 题听力试题原文、问题与选项

从阅读题中又抽了第31 题（p=0.89，Rpb=0.22），答题依据见图2。

图2 第31 题阅读试题原文、问题与选项

通过初步统计发现（见表5），正确答案C 的选择人数高达89.04%；A 项选择人数最少，仅占0.98%，该项几乎不具有干扰性；B 项与D 项选择人数分别占5.27%和4.71%，干扰性也较弱。该题需要学生思考试题中原文作者引用 “一日一苹果，医生远离我”这个谚语的目的，要解答该题，首先要理解该谚语本身含义，再联系下文，而该谚语含义对当前受试学生的英语水平来说难度并不高，答案C中的“diet”又与下文划线部分的内容相呼应，因此，学生普遍能够精准地定位该正确选项；而A 项“为了建议人们多吃苹果”，D 项“为了强调苹果对保持健康至关重要”，与谚语本身含义直接相关，但没有联系下文内容，能够轻易被排除，干扰性极弱；B 项“…is particularly true” 与原文内容 “…may hold some truth”不符，错误较明显，几乎不具有干扰性。从以上分析可知，命题教师在试题开发过程中存在对当前受试英语水平把握不足和对干扰项标准把握不当等问题。

综合试题信度、各项目难度和区分度量化分析以及试题个案分析发现，本次入学测试客观题质量较低，信度、难度和区分度均未达到理想标准，且试题开发问题较多，折射出命题教师高质量测试开发能力不足，语言测评素养有待提高。

表5 第31 题的被试各选项答题情况统计

（二）定性数据分析结论

为进一步补充和解释定量数据分析结果，了解命题教师对语言测评知识和技能的理解与掌握情况，以全面考察命题教师的语言测评素养，笔者从命题教师中抽取两名教师自愿参加了半开放式访谈，得出如下相关定性分析结论，以回答第二个研究问题。

（1）语言测评知识和技能匮乏

在访谈中，两位教师谈到语言测评知识和技能时仅涉及测量概念，如测试信度与效度、试题难度和区分度，而从两位教师对测量概念的阐述中，甲教师对某些测量概念缺乏基本了解。

“对难度和区分度有一定了解，对信度、效度还不是很清楚……难度就是看学生这个答对题的这个情况，如果答对的学生少的话呢，这个难度应该是偏高，就是正确率吧……区分度的话应该是有专业的软件来分析”（甲教师）

为了解受访教师对语言测评技能的掌握情况，结合入学测试，邀请两位教师谈谈试题质量评价与分析方法。而从访谈结果看，甲教师仅提到测评理论与工具，乙教师具体提到信度和效度，但均未进一步阐述质量分析过程，且两位教师未从测试开发角度对校本测试信度和效度、试题难度和区分度进行质量分析，可见两位命题教师缺乏必要的试题质量分析能力。

“试卷的质量应该有一些测评方面的专业的分析试卷的一些理论和方法……本次的测试结果，就是做过一般的那个正确率、及格率、然后各个分数段的那个比例这些分析。”（甲教师）

“质量分析看信度和效度吧……开学测试（本次测试）是分两次进行的，开学只测了听力和阅读两项，开学后又测试了翻译和作文，老师没有所有学生成绩。”（乙教师）

通过进一步分析发现，两位教师在任教前欠缺必要的语言测评学习经历。尽管甲教师毕业于师范院校，但在师范阶段学习期间，并未学习语言测评相关课程，导致对语言测评知识缺乏必要的了解；而乙教师尽管在硕士研究生阶段学习过语言测试相关课程，对语言测评知识和技能有一定了解，但对试题质量评价与分析方法缺乏必要的掌握和应用。

此外，访谈中两位教师均反映，毕业从教后，参加的语言测评知识和技能培训很少。甲、乙教师均明确或间接表示学校未对教师进行过语言测评岗前培训和在职培训。

“我是师范毕业的，以前没有开设过语言测评类的课程……（任教后）学校有岗前培训，但是岗前培训中有没有语言测试培训这不清楚，在职没有这方面的培训，……有参加过测试工作坊，学校派去的……”（甲教师）

“我之前在硕士研究所，研究生阶段有测试学这门课程…… （任教后）学校没有这方面的培训……有委派过出去参加外研社的讲座和黄教授的工作坊……”（乙教师）

综上，由于两位命题教师任教前后缺乏必要的语言测评学习与培训，没有掌握系统的语言测评知识和技能，导致两位教师语言测评知识和技能相对匮乏，这也可能是命题教师语言测评素养较低的原因之一。

（2）语言测评知识和技能运用不足

访谈中，两位教师也分享了自己参加语言测试实践的经历，主要谈及“期末测试出题”和“撰写成绩分析报告”两个方面。

在“期末测试出题”方面，甲教师谈到此次入学测试，相比之前的期末测试更为专业。之前的校本测试倾向于教师“凑题”，而不是以“开发”方式完成试题命制，进而折射出两位教师在测试开发方面实践经验不足。

“这种（本次入学测试）要专业水平的出题，是第一次。以前出题……就是我们一部分是课外题目……四级水平的题，然后一部分是课内的题……比如说课后的练习啊，或者是那个课文里边的一些知识点。”（甲教师）

在“撰写成绩分析报告”方面，乙教师表示学校每个学期要求写成绩分析报告，包括学生成绩分段统计百分比、不及格率、测试结果中发现的薄弱环节以及对今后教学反思等，但有关试题质量分析较少，可见两位命题教师对试题质量分析的相关实践存在不足。

“每个学期都要写成绩分析报告，学生成绩分段统计百分比，不及格率等等，以及某些测试显现的薄弱环节，对今后教学的反思……对试题质量分析的较少。”（乙教师）

综上，尽管受访教师每学期均有机会参加相关语言测试活动，如“期末测试出题”以及“撰写成绩分析报告”，但教师运用语言测评知识和技能的实践经历明显不足，折射出两位教师语言测评素养有待提高。

四、结语

本研究以某高校一次大型校本英语测试客观题为例，对试题质量进行了分析。结果表明，本次测试试题质量不高，反映出部分高校外语教师测试开发能力较弱的问题；通过进一步半开放式访谈发现，命题教师对语言测评知识和技能的理解与掌握情况不容乐观，进一步折射出我国部分高校外语教师语言测评素养有待进一步提升。为此，作者提出如下建议。

首先，本科师范院校或有外国语言学及应用语言学硕士点的高校，应开设相关语言测评课程，为岗前外语教师提供必需的语言测评知识和技能学习机会，夯实外语教师必备的语言测评理论与知识体系。

其次，外语教师所在高校教师发展中心或所在院、系应在外语教师任职前或任教期间，提供必要的语言测评知识和技能的培训，鼓励教师参与校内外测评实践，以提升其语言测评素养，助力教师专业发展，促进高校外语教学。为此，建议高校应针对高校外语教师的语言测评素养需求开展调查，并针对教师语言测评素养需求，邀请国内外测评专家，开展针对性强的语言测评知识和技能讲座、工作坊，建立相应的院、系语言测评团队或成立测评学习共同体，以合作交流等途径共同探究求知，提高外语教师队伍的语言测评素养。同时，通过政策导向，引导高校外语教师将测评知识和技能应用到测试开发、试题质量分析（如测试信度和效度、难度和区分度评估）和测试成绩解释与报道等校本测试实践中。此外，高校还应鼓励外语教师积极参加大规模外语测试开发、阅卷与评估等工作，通过与校内外语言测评专家和测评者的互动交流与合作，提升测评实践能力。

更为重要的是，高校外语教师应积极发挥自身主观能动性，创造机会，不断学习语言测评知识，掌握语言测评技能，并努力将语言测评知识和技能应用到自己的日常教学中，以不断增加语言测评实践经验，努力提高自身语言测评素养。

由于本文只分析了某高校一次校本测试的命题质量，考察了同一所高校的外语教师，研究结果缺乏一定普遍性。建议未来研究者在我国其他地区选择更多高校，对其校本测试试题质量进行评估分析，以实现对命题教师语言测评素养多方位、多角度的考察，促进我国高校外语教师发展，从而开发高信度、高效度的外语测试题，保障外语教育评估的合理性和公平性，真正起到以评促教，以评促学。