计算机辅助语言测试的优势与挑战<br/>——基于对新托福考试的研究

计算机辅助语言测试的优势与挑战
——基于对新托福考试的研究

2019-03-27

福建质量管理 2019年18期

(东北大学外国语学院辽宁沈阳 110819)

一、引言

一直以来，我国的研究者们都在不断地对计算机辅助语言测试的历史和现状进行研究，一方面是对计算机辅助语言测试在国内外的发展追踪研究，另一方面也试图结合中国教育和测试的实际情况，顺应语言测试今后在互联网、大数据、人工智能等高新技术的发展趋势，努力冲破传统考试的缺点和局限，为我国的语言测试发展做出不懈努力。

从周珊珊(2018)对2011-2015年国外语言测试研究热点的综述中发现，近几年国外对计算机辅助语言测试的研究逐渐减少，说明在新托福(网考)改革的风浪过后，学者们对计算机辅助语言的研究热度大幅下降。但尽管如此，国外对计算机辅助语言测试的研究取得了十分显著的成效。计算机辅助语言测试打破传统书面测试的时间和空间的限制，发挥其巨大的互联互通、及时可控的优势，成为语言测试研究的未来式。相对地，在我国计算机辅助语言测试研究现状中，张艳和张俊(2017)对1999-2015年我国外语类主要核心期刊上发表的相关研究论文为主要依据，对我国计算机辅助语言测试研究的进行概括和总结，并对取得的成就和存在的问题进行思考和分析。同时随着新托福考试在全世界范围的传播和认可，其测试的信度和效度也成为许多学者研究的重点，无论是从考试形式，还是从信效度分析，对我国英语教学和考试改革都具有重要而深刻的启示。

在我国，每年都有庞大的学生群体参加中国设置的语言测试，这些考试均采用书面答题的形式。而对于一些有出国留学打算和工作目的的学生们来说，托福、雅思、GMAT等国外设置的考试也逐渐走入学习生活。但目前来讲，在众多的语言测试中，托福考试实现完全的网考，成为计算机辅助语言测试的典型代表，这无疑是一项重大的测试改革。现如今，国内外对计算机辅助语言测试的研究正在不断地更新和深入，对新托福的测试信效度也从未停止脚步，但对计算机辅助语言测试和新托福(网考)两者的相互关系进行的深刻讨论和研究却不算多。

二、计算机辅助语言测试的理论依据

计算机技术对语言测试与评估越来越产生着巨大的影响。特别在测试管理、试题设计编写、任务呈现、评分、成绩分析与报道等方面,计算机的高效率受到越来越多大规模语言测试开发和管理者的青睐(Alderson&Banerjee 2002)。计算机辅助语言测试是指受试者直接在计算机上操作进行的语言测试；还可指教师在计算机上对扫描到计算机里的试题进行批阅，并对测试的结果进行数据统计分析或形成成绩报表。新托福考试便是受试者直接在计算机上进行语言测试，而我国目前大多数的考试采取网上阅卷的形式，都是计算机辅助语言测试的范畴。现代语言测试的语言学基础经历了数次革新,测量学理论由经典测试理论(Classical Test Theory)发展到概化理论(Generalizability Theory)和项目反应理论(Item Response Theory,IRT)(李清华 2006)。

提到计算机辅助语言测试的同时，有必要对计算机自适应性语言测试进行解释和说明，新托福便是基于这样的系统环境。计算机自适应性语言测试是基于项目反应理论(Item Response Theory or IRT)的一种测试，它又被称作“量体裁衣测试”(Tailor Test)，是一种基于具备大容量和大跨度的题库运行的计算机测试系统。在这种系统的运作模式下，通过实时网络传输监控受试者的具体答题情况，同步地进行试题难度调整,最后自动生成一套与测试者语言能力对等的试题，并对受试者的答题情况给予相应的考量和评估。

网络化语言测试只是在计算机辅助测试(CAT)单机测试的基础上发展出来的，基于网络的语言测试，IBT最理想的形式仍然是自适应性的语言测试，被称为基于网络的个性化适应性语言测试。新托福考试是这种形式的典型模式。这种测试可增强语言测试的真实性，对试题题目给出详细的分析，并为考生提供人性化的成绩报告单。

三、基于计算机辅助语言测试理论对托福考试的分析

(一)从语言能力

TOEFL意识到语言能力是一个连续的、动态的、不断变化发展的过程。TOEFL IBT 考试方式充分应用了听后再说(1isten to speak)、读后再说(read to speak)、听读后再说(1isten and read to speak)、听读后再写(1isten and read to write)的创新模式，对语言技能进行综合测试，同时更为全面地对考生的语言能力进行测评。Bachman(1990)提出交际语言能力(CLA，Communicative Language Ability)，由语言能力(language competence)、策略能力(strategic competence) 和心理生理机制( psycho-physiological mechanisms)三部分组成。它的这一模式有两个显著的特点，一是对语言交际能力的认识更为全面、深刻，二是指出了测试工具与目标语言情境的关系。此外，他还提出了语言测试的“真实性程度”( degree of authenticity) 问题，把它作为开发、评价一项测试时的标准(李清华2006)。

TOEFL考试比较彻底地从重视语言形式转向重视语言运用，主要体现在从语法和词汇到组句成章，从语法能力到语言能力，从语言能力到交际能力，从交际能力到语用能力到跨文化交际能力。但由于TOEFL考试对语法功能的削弱，也会使一些学生对语法等基础语言知识的忽略，这也是在语言教育和学习中需要提起重视的一点，无论是语言基础知识还是语言应用能力都是同等重要的。

(二)从考试内容

托福考试要求考生依次完成读、听、说、写四个部分的测试，每个部分满分30 分，总120分。阅读、听力、口语、写作四个部分各有侧重，话题涉及文学、政治、经济、科学、艺术等多个学科，甚至创设了真实的校园生活、学术报告等客观情境，但是难度分寸又恰到好处，并不要求考生能对专业领域进行深入研究，对专业词汇的掌握也不做过多的要求。

同时，根据计算机辅助语言测试的特点，考生所获取的试卷题目决不仅仅是若干试题的简单组合，这就需要一个强大的试题库。试题库的创建需要对试题进行分析和管理，试题库中的试题不仅需要考虑题目的难度值，还须考虑区分度和答案的可猜测度以及使用历史及行为特征(使用次数，被高分及低分学生答对的次数)等。这就需要题库数据库的建设紧跟时代的步伐，不断更新题库的内容和形式相应地调整数据库。在建设中需要投入大量的人力和物力对计算机辅助语言测试，还需计算机辅助语言测试工作者不断优化和完善。

(三)从考试形式

计算机辅助语言测试使呈现方式从通过传统的纸张、答题卡演变到电脑显示屏，答题方式也从纸笔、橡皮演变到鼠标和键盘。在传统的纸笔测试中，受试者只能看到静态的文字图画等输入，并以同样的方式输出答案。而计算机辅助语言测试使试卷呈现方式更加多样化。

一方面，计算机辅助语言测试提高了语言测试的真实性，但另一方面也对受试者提出了新的挑战。在这种新的测试方式下，受试者能否发挥出真实的语言水平受到广泛质疑。在新托福考试中，变化最大的部分要属写作部分，从过去的纸笔写作完全演变成使用计算机打字。受试者很有可能因为试题表现方式的不同而有不同的考试表现，比如针对那些并不经常使用计算机的考生，对计算机的基本操作不熟练或者打字速度太慢的话，势必会影响考试的心态和成绩，这也在一定程度上影响了计算机语言测试的效度。甚至有学生对使用计算机考试显示出更强烈的焦虑感，比如在TOEFL的口语考试中，声音洪亮清晰势必会有优势，但这对一些内向害羞的考生势必造成无形的压力，他们很可能在这种情境中无法发挥出他自己正常的语言水平。而由考试成绩带来的挫败感也无益于那些原本自信心不强的考生，而那些试图不断刷分的同学也未必能支付起高昂的考试费用，这无疑是计算机辅助语言测试面对的最巨大的挑战。

(四)硬件设备和评分系统

在硬件设备方面，计算机的硬件设备更新换代的速度也无比之快，在众多的托福考场中，谁都无法预料自己将会和哪一台计算机结缘，因此考生很有可能会面临考场中所使用的计算机状况糟糕的问题，也可能在考试时计算机软件和硬件发生故障，受试者的心态容易受到影响，如果无法及时调整的话，发挥失常也极为可能，甚至有的考生会因为考试中使用的计算机“用不习惯”而影响考试成绩。

在评分系统方面，托福考试主要是在口语部分和写作部分的评价方面进行了巨大转变。在TOEFL口语考试中，由于计算机评价系统的客观化，对考生的口音或者是感冒的鼻音也会做出判断，而考生是否能克服这些主观因素发挥出真实的水。写作考试的评价要求评分系统根据受试者的综合写作能力比如语法、句法、词汇和修辞的综合运用能力进行酌情打分，这对于用计算机评分软件进行评分是一种巨大的挑战，预示着在保证计算机辅助语言测试的评价效度方面仍然需要不断地完善。

四、结论

本文简要论述了计算机辅助语言测试的定义和其理论依据，并以新托福考试为例，分析了计算机辅助语言测试的优势和其在语言测试中存在着的不够完善的因素。在目前的计算机以及信息技术发展环境下，CAT还不能完全取代人工，成为英语语言测试的主体。尤其在考生量极大的中国，以当前的发展水平和实力，我们尚无法建造庞大数量的语言实验室，更无法创设优质的试题数据库。

但CAT的交互性测试方面存在问题，但是并不影响人机协作式的英语语言测试模式的不断发展。随着大数据采集、语音识别、计算机人工智能等技术的不断完善，计算机辅助语言测试的前景必将更为广阔，翻译、写作等主观题评分的信度和效度必将不断提高，同时为语言测试提供更为客观、经济、高效的评价方式。