APP下载

军事英语课程考试的信度和效度个案研究

2020-10-10高黎黄珊

文教资料 2020年20期
关键词:效度信度英语课程

高黎 黄珊

(陆军工程大学 基础部,江苏 南京210002)

军队院校外语教学新大纲要求,军队院校大学英语课程包括通用英语和军事英语两部分,本科生军官学员在完成通用英语阶段学习后继续学习军事英语,并达到军事英语能力分级培养与考核二级标准的要求。新大纲还规定终结性考核为课终考试,考试不及格则课程成绩记为不及格。然而,虽然有了明确的考核标准,军队院校尚未建立军事英语试题库,也没有标准化的军事英语考试可供参考。在缺乏统一题库和标准卷作为参考的情况下,课程组自行命题的试卷是否覆盖了教学大纲所规定的内容?能否准确、科学地评价教学效果,形成良好的反拨作用?有必要对考试的信度和效度进行研究。

近年来有不少研究检验了不同层次、不同类型考试的效度,其中涉及大学英语的典型研究有大学英语四六级考试(杨惠中,1998)[1](55-184)、大学英语口语考试(杨惠中,1999)[2](48-57)、大学英语六级考试阅读理解(刘娜,2014)[3](113-116)和大学英语课程期末考试(王天发等,2006[4](274-280);王笃勤,2010[5](13-20))等。但这些研究都围绕通用英语考试而开展,鲜有涉及军事英语课程考核的项目,更缺乏结合新大纲课程考核相关要求开展的研究,无法为军事英语课程考核提供借鉴和指导。

一、信度和效度

信度指测试分数的可靠性,即测试结果是否反映了测试对象的实际语言水平[6](36-37)。测试的信度主要受试题本身的可靠性和评分的可靠性两个因素的影响。试题本身是否可靠主要取决于试题的覆盖面、数量和区分度等因素;评分是否可靠则看评分标准是否准确客观。

效度,即语言测试的有效性,指一套测试是否达到了预定的目的及是否测量了要测量的内容[6](38)。李筱菊将语言测试的效度分为内在效度、外在效度、使用效度和超考试效度4大类[7](38-43),其中,内在效度即测试本身的效度,包括结构效度和内容效度。本文主要分析考试的内在效度。

二、研究方法

(一)研究对象

某军校大二年级共计1236名学员参加了大学英语III期末考试,大学英语III为军事英语教学阶段。本研究随机抽取了全校7个专业217个学员的期末考试成绩作为研究样本。

(二)试卷介绍

研究试卷为该校二年级学员于2019年1月使用的一套期末考试卷。该试卷的目的主要是考查通用军事英语知识和技能,具体包括:写作、听力、词汇、阅读和翻译水平。题型与权重参考但不同于大学英语四级考试,包括五项测试任务:写作15%、听力理解25%、词汇25%、阅读理解25%和翻译10%。其中客观题70道,占75%。主观题6道,占25%。每份试卷都配有专用答题纸,客观题采用机器阅卷,主观题由教员通过网上阅卷系统集中批改。

(三)研究工具

研究工具包括数据统计软件SPSS 26.0、Microsoft Word 2007和Flesch易读度美国参考量表。

三、研究结果

(一)信度

测试信度的系数以0.7—0.8之间为可接受性系数,用SPSS 26.0计算出本套测试卷的Cronbachα值为0.757,达到可接受标准。

表1测试成绩描述统计

图1总分正态分布图

从图1可以看出,标准差小,总分偏度值-1.253,在正态分布图上偏向右边,说明结果偏易。总分峰值为1.883,曲线分布过尖,分数集中在某些分数段,与听力、词汇两项的分数分布情况有关(见下图)。

图2听力题正态分布图

图3词汇题正态分布图

(二)结构效度

结构效度是所有效度之本[7](38-43),核心是显示分数意义及解释的可靠性。结构效度的高低可通过计算测试卷中各个项目的关联性检验。本套期末测试卷的相关系数如表2所示:

表2 Pearson相关系数

根据经典测试理论,因为总分是对语言能力的综合测量[8](184),各题与总分的相关系数可能达到0.7或更高。从表2可看出这套试卷中各大题与总分在0.01水平上相关性显著,相关系数分别为0.591、0.830、0.778、0.824和0.638,基本达到或接近经典测试理论期望的指标。听力、阅读与总分之间相关性达到0.830和0.824,属于高相关,说明这两项的得分情况最能体现学员的军事英语水平。

测试项目之间的相关系数如果在0.9—1,说明相关性很高,0.7—0.9相关性高,0.4—0.7相关性中等,0.2—0.4相关性低,0.2以下则相关性可以置之不顾[9](191)。如两题之间的相关系数过高,表明考查的是同一能力,保留一个即可。如两题相关系数过低,则说明可能有语言之外的其他因素在起作用。本套试卷中各大题都在0.01水平上相关,相关系数大都在0.4以上。写作与词汇、阅读低相关,分别为0.352和0.335,但与翻译(0.426)的相关性有实质意义,说明写作任务完成得好的学员翻译能力相应更高。听力与翻译(0.393)低相关,但与词汇(0.575)和阅读理解(0.520)实质相关,说明听力水平与军事词汇和术语的积累量、语言理解能力相关度高。翻译除与写作相关,与词汇(0.479)、和阅读理解(0.437)有实质性关系,反映了翻译这一综合度高的语言能力与其他要素的关系。各大项之间的相关性较为理想。

(三)内容效度

内容效度指测试内容是否反映了既定的测试目的,测试内容是否具有代表性,能否达到预期效果。内容效度包括内容的关联性和内容的覆盖范围两个方面[9](114),因此可以教学大纲为依据,检验测试的内容效度。新大纲要求大学英语课程军事英语教学阶段按照军事英语能力分级培养与考核要求的一级、二级标准实施。本学期是军事英语学习的第一学期,期末时学员应该达到一级标准的要求。

测试卷第一项是短文写作。大纲的军事英语能力分级培养与考核一级标准要求学员能就简单的军事话题在半小时内写出120词的短文。试卷第一部分是写作,要求学员针对“战场上影响指挥官决策的因素”在30分钟内写一篇不少于120字的文章。该题与军事话题相关,字数要求符合一级要求的标准。

军事英语一级标准要求能听懂语速较慢的军事主题类谈话,明确大致的思想和主要支撑性事实,语速为每分钟90词左右。试卷第二项听力理解包括单选、判断正误和听写三种题型。第一题是一篇关于巡逻路线和任务部署的短文,语速为每分钟122词,题型为单项选择。第二题是一段关于联合国维和任务发展历程的介绍,语速为每分钟102字,题型为判断正误。第三题是听三段短文或对话完成单词听写,分别是一段介绍一项名为Bright Star的国际联合军演的短文、一段巡逻过程中发生的电台通信对话和一段维和人员在护送过程中被身份不明人员拦截后产生的对话,语速分别为每分钟110字、95字、204字。内容上符合大纲关于“军事背景下日常生活、训练相关”的要求,但语速远超一级标准要求的每分钟90词的标准,接近甚至达到了二级标准的每分钟120词,最后一个对话甚至远超四级要求每分钟160词—180词的标准。但因为所有听力材料均来源于教材,甚至为课堂讲授过的听力材料,而且听写任务中考生可以听三次短文或对话,语速过快造成的困扰可以得到缓解。虽然课程考试题较之教材原题做了一定的改编,但使用教材听力内容作为试题导致测试受记忆干扰过大,导致该题区分度小,影响全卷成绩的正态分布。

试卷第三项是词汇,包括根据缩略语默写术语和术语中译英两部分,考查的均为军事核心词汇和术语,内容符合新大纲的要求。但两道题都只考察了词汇和术语的拼写,不能测试学习者能否正确使用核心词汇和短语,结果偏易,区分度过低,导致正态分布负偏态向右偏移。

试卷第四项是阅读理解。考生需要阅读三篇短文,分别关于护送任务中指挥官的职责、战争原因、维和任务基本原则,长度分别为177词、348词和155词,分别采取选词填空、常规仔细阅读和简答题的形式。测试目标符合新大纲对“掌握中心大意、理解主要事实和重要细节”的要求。三篇短文的体裁包括叙述文、说明文和议论文,话题涉及军事背景的不同主题,符合大纲要求。为测定语篇的易读度,本文参考了Flesch易读度指数(Flesch Reading Ease)公式和易读度美国参考量表,三篇短文的易读度分别为40.7、61.3和35.8。根据Flesch易读度参考量表[10](211-233),分值为60—70的是“标准”阅读材料,有该等级阅读能力的人相当于美国7年级—8年级的学员,在美国成年人中所占比例为80%;30—50是“难”的阅读材料,有该等级阅读能力的人相当于美国大学生的阅读水平,只有24%的美国成年人具备该等级阅读能力。由此可见,此次测试的语篇对大二学员偏难。10道考题中,考查主旨大意1题,作者态度1题,推测判断2题,猜测词义1题,事实细节5题,覆盖了不同阅读技能。但是其中3题只考单句理解能力,另有2题只需依赖寻读(scanning)就能迅速找到答案,使得考生在不需理解文章的情况下就能完成试题,影响该项目的效度。

表3 Flesch易读参考量表[8](184)

四、结语

语言测试的基本要求就是保证信度和效度。这套军事英语课程考试卷的信度和效度虽然基本符合要求,但是存在一些问题。一是部分项目未能考查受试者的实际语言能力,测试成绩受到非语言因素影响,区分度不高。二是个别项目难度设置不符合要求,影响测试的效度。

导致试卷信度和效度受影响的因素比较复杂。一方面,军队院校大学英语课程内容的改革实践过程较短,教学团队尚未积累足够的军事英语教学资源。通用英语教学中,得益于长期教学的丰富积累,教学团队可以根据需要选取资源,满足日常教学与测试的需要。各课程团队军事英语教学时间较短,教师经验不足,教学资源短缺,团队在教学中经常面临“巧妇难为无米之炊”的窘境,导致考试命题选材难度不当的问题。另一方面,由于尚未形成军事英语课程试题库,缺乏标准卷作为参考,课程考试依赖教学团队自行命题,质量受到命题人语言测试研究水平、对课程大纲考核要求理解偏差等因素的影响,在测试内容、题型的选择上,未能有效检测考生的军事英语应用能力,干扰考试信度和效度。

为了解决上述问题,需要课程团队重视语言测试理论研究,做好相应的预测和调研工作,遵循语言测试的命题原则,把握好课程考试的信度和效度,不断提高测试质量,使测试结果能够准确评价学员的军事英语能力,科学地反馈教学效果,对教学形成良好的反拨作用。与此同时,建立军事英语课程试题库的任务刻不容缓。课程组要以语言测试理论为指导,根据教学大纲建立重点突出、难度分级,覆盖面、题型、题量满足课程考核要求的试题库,为规范化、标准化的课程考试提供保障。

猜你喜欢

效度信度英语课程
《广东地区儿童中医体质辨识量表》的信度和效度研究
线上线下混合式教学模式构建——以高级英语课程为例
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
论高职高专英语课程改革中存在的问题
金融英语课程教学改革探析
大学英语课程委婉语教学研究
科技成果评价的信度分析及模型优化
耳鸣残疾问卷中文版的信度和效度检验及其临床应用
被看重感指数在中国大学生中的构念效度
外语形成性评估的效度验证框架