中国语言测试之源与流

2019-01-04何莲珍

浙江大学学报(人文社会科学版)预印本 2019年10期

何莲珍张娟

(浙江大学语言与翻译系，浙江杭州 310058)

现代意义上的语言测试于20世纪60年代初被确立为应用语言学的分支学科[1]，是语言教学活动的重要环节之一[2]。在中国，外国语言学及应用语言学的创立要归功于学界泰斗桂诗春。凭借其敏锐的学科洞察力和前瞻力，桂诗春牢牢把住了应用语言学在我国发展的时效性和必要性，王宗炎称他为“不知疲倦的开山大力士、不言歇息的开路领航人”[3]4。随着应用语言学在中国的兴起，语言测试这一分支得以开花、结果。自桂诗春主持开发我国首个英语水平考试(English Proficiency Test，EPT)以来，我国的语言测试在其指引下不断在现代化道路上前进。桂诗春作为我国引进标准化考试的第一人，被誉为“中国语言测试之父”[4]359。

新中国成立以来，理论、技术、方法的引介和创新为我国语言测试的发展持续注入了生命力。本文着眼于语言测试在我国的发源、实践与走向，尝试在新中国成立七十年，尤其是改革开放四十年的历史画卷中，描绘我国语言测试学者所做出的有益探索，提出三个值得进一步研究的方向，以促进我国测试研究的科学化、系统化。

一、中国语言测试之源

高考制度的恢复为我国语言测试的发展提供了契机。囿于我国当时教育测量学基本理论及研究方法不足，科学的考试几乎无法有效开展。桂诗春积极引入国际主流的测试理论，为标准化考试的自主研发提供理论支持。1978年对我国语言测试领域而言具有里程碑式的意义，主要体现在四个方面：第一，我国第一个应用语言学硕士点在广州外国语学院设立；第二，我国第一份外国语言学及应用语言学学术刊物《现代外语》在广州外国语学院创刊；第三，全国首届外语教育座谈会在京召开[5]；第四，由桂诗春主持、我国自主设计的EPT项目启动[4]。

EPT是中国有史以来第一次引进国际现代考试科学理论，把考试作为一门科学建立起来的全国性考试，也是我国首次取得国际承认的考试，其连年举办为我国哺育和造就了第一批考试科学人才[3]3。EPT最初用于测量出国留学人员的英语水平，其目的是预测考生的托福纸笔考试成绩，避免其因英语尚未达到一定水平，在正式托福考试中得不到理想分数而造成外汇浪费。EPT与托福纸笔考试成绩的相关系数高达0.86[6]。EPT的设计与开发为我国标准化考试改革积累了宝贵经验。

我国另一项早期的语言测试实践是高等学校入学英语考试(The Matriculation English Test，MET)。20世纪80年代初，我国的英语教学观严重滞后，从中学到大学，几乎无一例外地将语言作为知识而非能力来学习。对此，李筱菊首先撰文介绍了“交际能力”这一概念及与之相对应的交际教学法，即同时注重语言知识、技巧和能力的培养[7]，并于1987年出版了《交际英语教程》[8]。然而，要想从整体上改变中国的语言教学观，写文章、出版教材对教学的影响远不及考试。意识到这一问题后，“广外双杰”桂诗春与李筱菊决定从考试入手，改变我国外语教学“重知识、轻能力”的教学观，通过考试的正面反拨效应推动外语教学改革。1982年，桂诗春及其团队开发了MET，引进了第一台光电阅读器，研发了我国第一个题项分析软件GITEST。1985年，广东省高考标准化改革试验开始，拉开了我国考试现代化改革的序幕[9]。1989年，MET推广至全国，并更名为National Matriculation English Test(NMET)。结合我国考生规模大、水平差异大的特点，桂诗春等摸索出了符合中国国情的标准化考试改革的基本经验[10]。MET坚持在现代教育测量学和教育统计学的理论指导下进行统计分析，试验期间，桂诗春团队对MET的成绩分布、题项分析、评卷误差控制、标准分及常模等进行了逐项报告[11]。这项改革于国内而言，“创建了我国有史以来第一个全国规模的标准化考试，使我国考试科学从理论到实践都开创了一个新纪元”[3]3；于国际而言，在超大规模选拔性考试的标准化方面，测试理论、技术难题均实现了突破。

伴随着EPT、(N)MET等测试实践的开展，桂诗春结合标准化考试的设计和组织经验，从以下四个方面提出了一系列观点和主张，为语言测试学科的发展筑路铺石。第一，呼吁学界开展教育测量学研究，鼓励学界用不同的测试手段和统计方法检验教学效果，实现考试领导体制上的制度化、组织上的专业化、方向上的标准化和技术上的电脑化[12]。此外，桂诗春身体力行，在引介项目反应理论(Item Response Theory，IRT)的同时，倡导并实践计算机技术在语言测试中的应用[13]。第二，将认知科学引入语言测试，提出了以认知信息处理模型(Cognitive Information-Processing Models,CIP)为基础的语言测试，并尝试在阅读测试及评分中应用该模型[14]。第三，呼吁制定亚洲统一的英语语言能力等级量表，促进亚洲地区语言教学和语言测试的发展[15]。第四，关注语言测试的多维性，发挥考试的正面反拨效应。考试的优劣取决于内部和外部双重因素。内部因素主要指考试本身的质量，包括考试的信度、效度及区分度等；外部因素则主要指考试管理的公平性、考试结果使用的正确性及考试结果误用的可能性[16]。相应地，建立考试的黄金法则须从内部、外部两方面入手[17]。桂诗春为我国外语考试建基立业，为我国语言测试与教学的良性发展开拓疆域，更为我国的测试从业人员留下了一座巨大的宝库。

二、中国语言测试之实践

(一) 考试的内部因素

我国的语言测试学者探索了一系列新理论、新技术与新方法，从测试内部问题入手，稳步提升语言测试的科学性。

语言测试在理论层面的研究呈现出明显的跨学科特征，认知科学、教育测量学、心理学及隶属于应用语言学范畴的二语习得均为测试的研究与实践提供了思路。自桂诗春引介IRT,阐明其相较于经典测量理论的优点[13]之后，多层面Rasch模型(MFRM)作为项目反应理论的延伸被广泛应用于评分的信度研究。何莲珍、张洁对某次大学英语四、六级口语考试的成绩进行分析，运用MFRM明确了测量误差的来源及其大小，对提高评分信度具有一定参考价值[18]。借鉴二语习得的最新研究成果，韩宝成撰文介绍了动态评价(Dynamic Assessment，DA)理论，DA视域下的测评将教学、评估、干预、诊断、培训等环节有机结合，更加关注学习者未来的发展，不失为“以评促学”的有效实现手段[19]。此外，“续理论”与心理学领域的互动协同模型一脉相承，推动了语言测试新题型的设计[20]。

技术的进步改变了传统的施考方式，使考试形式、内容、评分、统计及成绩报告体系日臻完善，在大规模和个性化测试中均有广阔的应用前景。大规模测试中，各次考试分数的等值是标准化考试的基本要求之一。为建立稳定标准，结合我国高考考情，桂诗春等在广东省率先应用(N)MET等值统计模型，通过在固定观察点考同一套平衡试题的方法，考查考生水平、题目难度与历年相比有无较大变化，为成绩的纵向对比提供有效参考[10]。另外，教育部高等教育司于2007年5月启动了基于计算机和网络的全国大学英语四、六级考试项目(CET)，初步探索了我国大规模考试实施网考的设计原则[21]，并验证了网考效度[22]。继CET主观题自动评分系统投入使用后，翻译和写作人工智能评分系统的开发极大地提升了阅卷效率[23]。一些大规模考试开始采用计算机辅助口语考试形式以避免考官因素对口语考试构念的影响，如NMET[24]、全国英语等级考试(PETS)[25]。与之相适应，智能化口语评分技术应运而生，弥补了人工评分主观性强、成本高、阅卷人员易疲劳等劣势，在复述题[26]、朗读题[27]等题型的自动评分中均得到了应用。在个性化测试中，曾用强关注测试过程及考生个体心理差异，探究了个性化自适应测试模型，并在题项选择标准中引入自信心这一认知因素，使测试过程更加个性化[28]。黄妍、何莲珍开创性地使用三参数多级评分等级模型拟合题组，开发了自适应听力测试系统，测试效率及信度均大幅提升[29]。

新方法的应用拓宽了语言测试学科的疆域。基于语料库的研究方法为效度验证和自动评分系统的研发提供了有效手段。在建立英语专业写作教学语料库的基础上，曾用强尝试用语料库方法开发诊断评估系统，开展个性化教学[30]。He和Dai运用语料库方法，辅以会话分析手段，考查了大学英语四、六级口语考试中小组讨论题型的效度[31]。此外，新的统计方法和工具也不断涌现，如结构方程模型[32]和Coh-Metrix文本分析工具[33]。

(二) 考试的外部因素

进入21世纪，学界开始转向对语言测试外部因素的关注。一方面，语言测评是检测语言学习、提供教学反馈的有效手段；另一方面，测试成绩常被用作决策依据，决策风险高低有别，高风险测试的结果会影响考生、相关机构乃至整个社会[34]。杨惠中和桂诗春将考试置于社会环境中加以审视[16]；何莲珍和吕洲洋认为，批判语言测试视角下的测试在教育领域实质上变成了控制测试利益相关者行为的有效工具，渗透着浓重的权力色彩[35]。

考试反拨效应是考试效度不可分割的一部分[36]，李筱菊将其归为超考试效度[37]。我国学者从考试与教学的关系入手，开展考试反拨效应研究，为测试形式与内容改革及语言教学提供了有效反馈。亓鲁霞深入高中英语课堂进行观摩，并通过问卷调查与访谈，发现中学英语教学并不能有效提升学生的英语交际能力。该研究对NMET和外语教学改革具有重要的参考价值[38]。

三、中国语言测试之走向

回顾过去七十年语言测试在我国的实践，笔者认为在深度融合教学与评价的过程中，学界需要继续探究如何提升考试的科学性、如何有效应用《中国英语能力等级量表》(简称《量表》)以及如何对考试的社会性予以关切。

(一) 稳步提升语言测试的科学性

社会呼吁完善的外语能力测评体系。我国现存外语考试项目众多、标准各异，考查内容或重复，或断档，直接导致试题本身的科学性存疑，评分、成绩解释等方面存在的问题更是不一而足。2014年，国务院颁发《关于深化考试招生制度改革的实施意见》，第一次从国家层面明确提出要加强“外语能力测评体系建设”。自2015年起，“国家英语能力等级考试”研发团队从我国教学与测评现状、能力需求、对外语考试改革的建议三个方面入手，进行了大规模调研，发现我国的外语测试缺乏统一标准，考查内容及反馈不足，对教学的反拨效应不佳，且国际认可度不高[39]。因此，科学的考试体系需以先进的理论为指导，以常态化的效度验证作支撑，以促学为宗旨。

一项科学的语言测试必须有科学的测试理论作支撑。纵观我国几大高风险语言测试的题型改革，我们可以清晰地看到这一点。(N)MET、CET及英语专业等级考试(TEM)的题型改革体现了三个“注重”：注重考生的语言综合应用能力，注重测试任务的真实性，注重考生的语言交际能力。1978—1988年，(N)MET的考查重点为语法、词汇等语言知识，听力、阅读、写作能力的考查严重缺位；1989年，启用了书面表达题；2003年起，全国开始统一使用含听力考试的英语试卷；2016年，新研发的读后续写和概要写作替代了原短文改错，读写结合，旨在考查学生获取信息、处理信息及英语书面表达的综合能力[9]。CET自1999年开始实行口试，体现了大学英语教学对学生英语口头交际能力的基本要求；2005年的改革提高了听力理解分值，并强调听力材料来源于真实语料；2013、2016年的题型改革对听力与阅读题型进行了微调，注重考查学生的篇章理解能力。类似地，TEM-8阅读理解部分在2015年的题型改革后新增了简答题，写作部分由原来以议论文体裁为主的话题作文改为材料作文，要求考生在总结阅读材料的基础上，撰文发表自己的看法。以上高风险测试中题型的调整均以先进的测试理论为依据，考试的科学性也得以稳步提升。

贯穿测试开发、实施和使用过程的是效度验证[34,40]。Oller认为，没有效度的考试不能称其为考试[41]。Messick将分数解释的有效性和测试结果的使用纳入统一框架进行考量，认为考试的效度不仅关乎分数解释，更关乎使用考试结果带来的社会影响[36]。“评估使用论证”(Assessment Use Argument，AUA)不失为一个理想的、具有极强操作性的效度验证框架。该框架几经修订，于2010年正式问世[34]。AUA提倡通过四条主张收集效度证据：(1)测试结果的使用对所有涉考者有益；(2)基于测试所做的决定需考虑现有的教育及社会价值观和相关法律法规，且对受决定影响的涉考者而言是均等的；(3)对学生语言能力的解读需有意义、公平，且能够为决策提供足够信息；(4)即使测试任务、测试过程和被测试者不同，测试记录仍需具有一致性。效度验证在一项考试开考之前就应被纳入考量范围，开考后，需建立常态化的效度验证机制，为考试科学性提供保障，为分数的解释和使用保驾护航。

考试应产生积极的导向作用，服务教学。学界可以从评价方式、新题型研发与测试反馈等方面着手，发挥考试的促学功能。其一，以更加个性化的评价方式促学。认知诊断测试能够对学生语言学习过程中的问题进行诊断，教师能够利用诊断信息及时调整教学内容和教学方式，提供个性化教学，从而发挥教师的中介作用以达到有效促学的目的。自桂诗春提出以CIP为基础的语言测试[14]以来，学界对测试过程给予了更多关注。我国语言测试学者承袭了桂诗春的观点，尝试将IRT与CIP相结合，聚焦计算机认知自适应语言测试，使我国的语言测试研究与国际接轨[42-43]。认知诊断测试充分体现了以评促学这一理念，有助于教师诊断考生的语言能力，及时有效地提供补偿性干预。然而，目前认知诊断测试研究多集中于阅读技能，听力方面的研究凤毛麟角，口语、写作方面的研究更是鲜有涉足，基于网络的认知诊断测试模型及其实证研究目前尚无人问津。鉴于我国考生群体基数大的国情，开展这方面的研究具有极大的理论价值与实践意义。其二，以新题型的设计与应用促进学生语言综合运用能力的提升。诸多研究表明，随着考试风险的提升，备考实践强度也会增强[44-45]。我们期待通过对新题型的备考，发挥考试的正面反拨效应，为学生今后的学术生涯打下良好基础。其三，以丰富和完善的评价反馈体系促进学习。我国多数语言测试项目的成绩报告比较单一，不利于成绩的有效使用。未来的语言测试项目在成绩报告中需兼顾总分与分项分，兼顾量化及质性分数解读，兼顾不同分数使用者的多元化需求。

(二) 积极探索《量表》的应用

对于如何在外语学习、教学与测评之间架起一座桥梁，国家层面及测试学界均给予了热切关注。《量表》的研制正是为了解决我国教育体系中存在的教学与测试目标分离、考试标准不一、英语学习不连贯、语言能力等级划分模糊等问题。学界对《量表》的研究基本围绕本体规划展开，集中在《量表》研制的理论基础[46]、总体原则[47]、内在结构[48]、效度验证[49]等方面。

经过三年多的研发，《量表》于2018年2月由教育部、国家语言文字工作委员会正式发布,国际重要语言考试与《量表》的对接研究随之展开。国内外学界对《量表》及相关研究均给予了高度关注。

我国的考试项目众多，考试与《量表》的对接研究及效度验证在近期也成为一大研究热点。然而，目前的对接研究中，证据搜集缺乏系统性，且未考虑对接结果使用的后效是否有益。为解决上述难题，基于AUA框架，何莲珍提出了对接使用论证(Linking Use Argument，LUA)框架，主张从对接后效、对接决策制定、对接结果解释和对接记录等方面收集证据，为开展规范的对接效度验证提供了理论指导[50]。此外，已有学者基于LUA进行了接受型语言考试与语言标准对接[51-52]、产出型语言考试与语言标准对接[53]的研究，对后续的相关研究提供了有效的方法参考。

除对接研究外，《量表》的应用潜力有待进一步挖掘，包括考试研发与改进、英语教学、教纲编写、课程设计、教材开发等多个领域。测试研究人员应同广大教育工作者一起用好《量表》，保证考试质量，促进多元评价体系的建立，培养高素质外语人才。

(三) 持续关注考试的社会性

目前多数语言测试研究聚焦考试的内部因素，对测试产生的反拨效应及社会影响关注不足。在有关反拨效应的研究中，较少关注NMET、考研英语等高风险测试。此外，多数研究仅关注测试、教学、学习之间的线性关系，忽略了其中错综复杂的动态变化。未来的研究可从动态系统理论视角入手[54]，重新审视测试的反拨效应。我们必须清醒地认识到，考试正面反拨效应的强化和负面反拨效应的弱化并不是语言测试工作者单凭一己之力就可以做到的，需要社会各方面的协同努力[55]。

此外，语言测试道德准则和行为规范的制定是测试专业化的重要标志，也是实现公平测试的重要途径[56]，国际语言测试学会已经制定了道德规范与行为准则。在此背景下，国内已有学者提出制定我国语言测试的行业标准[57]。如何保证测试的公平性，提升利益相关群体的测评素养，减少对测试的误用、滥用，回归测试开发的初衷，仍然是值得继续深究的主题，我们期待更多关于语言测试社会性的理论研究与实证研究。

本文聚焦新中国成立以来，尤其是改革开放以来，语言测试在我国的发端与发展，结合我国语言测试领域的研究与实践，提出了三个值得进一步研究的方向，以期实现测试与教学的深度融合，提升涉考者的测评素养，并呼吁社会各界关注语言测试的社会性。我国外语能力测评体系建设关乎教育政策的落实，关乎英语课程与考试改革的成败，需要相关领域的专家学者与教育行政部门、教育机构共同努力，携手推进我国外语教育事业的蓬勃发展。