第二届语言测试与评价国际研讨会述评

2017-01-27张俊

中国考试 2017年8期

关键词：外语量表考试

张俊

（四川外国语大学，重庆 400031）

第二届语言测试与评价国际研讨会述评

张俊

（四川外国语大学，重庆 400031）

第二届语言测试与评价国际研讨会是由教育部考试中心和浙江大学共同主办的高规格语言测试会议。会上，专家学者围绕会议主题——“外语考试改革与发展”进行了深入交流和探讨。本文从我国英语能力等级量表研发、外语考试改革、人工智能在语言测试中的应用和各类语言测试与评价研究4个方面对会议进行综述，旨在及时传递国内外语言测试领域的最新研究成果、研究动态和发展趋势。最后，本文对我国语言测试研究和发展现状进行了简要评述。

语言测试；外语考试；英语能力等级量表；人工智能

第二届语言测试与评价国际研讨会（The Sec⁃ond International Conference on Language Testing and Assessment）于2016年11月11日至13日在杭州举行，会议主题为“外语考试改革与发展”。本届研讨会由教育部考试中心和浙江大学共同主办，高等教育出版社、外语教学与研究出版社以及《中国考试》杂志社协办。国内外高校、科研机构以及科技和信息技术公司的200余位专家学者和技术人员参加了此次研讨会，其中包括美国、英国、加拿大以及新西兰等国际知名高校和教育机构的20余位专家。

在会议开幕式上，教育部副部长林蕙青就我国外语能力测评体系建设做了重要讲话。她指出，我国外语能力测评体系建设的主要目标是，在建立国家外语测评标准的基础上，推动考试内容和形式的改革，完善开发系统性的考试项目，推动形成性评价与终结性评价结合的研究，到2020年，基本建成标准统一、功能多元的现代化外语测评体系。她还指出，我国外语能力测评体系建设已取得显著成果。第一，我国英语能力等级量表主体研制工作已经完成，计划于2017年正式对外公布。第二，国家英语能力等级考试的研发工作进展顺利，并将于2020年前逐步推出。第三，高考外语科目改革不断深化。2017年高考有26个省份使用全国统一命制的英语试卷，考试内容改革不断深化，将有利于增强高考外语科目的基础性、综合性、应用性和创新性。

本次研讨会包括1场特邀发言、5场主旨发言、4场专题研讨以及18场分会场报告。专家学者主要从我国英语能力等级量表研发、外语考试改革、人工智能在语言测试中的应用以及各类语言测试与评价研究4个方面进行了深入交流与探讨。

1 中国英语能力等级量表

中国英语能力等级量表（China’s Standards of English，以下简称“CSE”）研发是外语能力测评体系建设的重要组成部分，是一个庞大的系统工程，涉及各阶段英语教学、学习与测评。专家学者围绕CSE的宏观建设与构架、CSE与《欧洲语言共同参考框架》（Common European Framework of Reference for Languages，以下简称“CEFR”）的对接以及听力、口语、阅读、写作和翻译等能力子量表开发等问题进行了报告与交流。

刘建达教授和何莲珍教授在题为“中国英语能力等级量表及其应用”的主旨发言中表示，我国目前亟需开发针对我国英语学习者的英语能力等级量表，该量表有助于实现我国各阶段英语考试和教学的衔接与连贯。同时，他们还介绍了CSE的理论基础、研发过程以及基于CSE的国家英语测试体系。

剑桥大学英语考试部（Cambridge English Lan⁃guage Assessment）Nick Saville博士以欧洲语言测试委员会（Association of Language Testers in Europe，简称“ALTE”）CEFR的开发为例，详细介绍了作为CEFR重要组成部分的《语言测试开发手册》（Manual for Language Test Development and Examining）中的语言测试开发原则，以期为我国外语能力测评体系的开发与建设提供参考。

何莲珍教授主持了题为“中国英语能力等级量表之听力子量表的开发”的专题研讨。课题组成员主要从以下4个方面对相关研究进行了报告：第一，听力子量表的研发过程；第二，CSE听力描述语的效度验证；第三，听力能力描述语的内部结构研究；第四，从学生视角探究师生对听力能力描述语理解存在显著差异的潜在原因。听力能力子量表作为CSE不可或缺的部分，对于我国英语学习者听力能力描述、相关考试开发以及听力教学具有重要作用。

在英语写作能力等级子量表研究方面，邹申教授带领的团队作了题为“迈向统一的中国英语写作能力等级量表：原因、方法与指向”的主题研讨。课题组成员分别从写作策略子量表的开发和初步效度验证、系统功能语言学文本类型视角下的样本写作活动对英语写作能力描述语构建的作用、CEFR写作描述语在我国英语专业学生写作能力等级子量表构建中的适应性以及英语写作能力和英语写作教学的界面研究等方面进行了报告交流。相关研究对英语作为外语的写作能力模型进行了探索，旨在为我国英语学习者的写作能力描述语构建提供理论基础。

此外，有学者对CSE与CEFR的对接问题进行了探讨。他们认为，CSE与CEFR的对接十分必要，同时需要注意三个问题：第一，CSE和CEFR如何关联；第二，CEFR在多大程度上适用于我国的具体情况；第三，CSE 9个等级和CEFR 6个等级间的关系如何确定。还有一些学者对写作元认知策略能力等级量表、口语能力等级量表以及语言能力描述等问题进行了交流探讨。

2 外语考试改革

外语考试改革是本次会议关注的另一焦点。教育部考试中心以及广东省、上海市和北京市教育考试院的相关人员主要探讨了中考、高考改革，尤其是高考外语一年两考的实践。高校语言测试领域的学者主要围绕外语考试现状和改革需求、大学英语四、六级考试和专业英语四、八级考试等的反拨作用以及考试改革中的教师态度等问题进行了研讨。

教育部考试中心乔辉就高考外语科一年两考改革的研究与实践进行了报告。他介绍了高考外语科一年两考的新题型、考试模式以及在浙江省的首次落地实施，认为高考外语科一年两考有利于降低考试风险，减轻测试对教学的负面影响。教育部考试中心章建石从技术角度探讨了高考外语科一年两考如何科学落地，认为在我国高考中应用西方现代测评技术，应该对其进行创造性改造，不能生搬硬套。广东省教育考试院黄友文从背景、实践和成效三个方面总结了广东省英语听说考试改革的经验，以期为其他地区的考试改革提供借鉴。

张文霞教授带领的研究团队作了题为“中国外语测试现状与改革需求的调查”的专题报告。该团队对我国高考英语一年两考改革的态度、本科阶段外语能力测评现状与需求、高等职业教育分类英语考试的必要性进行了调查，并就硕士研究生招生英语考试改革和国外教育机构对中国学生外语能力及其测试需求进行了研究，旨在为国家外语能力评价体系的构建奠定基础，同时也为国家外语教学提供指导。此外，还有学者报告了英语专业八级考试改革中教师态度的调查结果、大学英语四级新闻听力考试对学生学习的反拨作用以及大学英语A、B级考试对高职英语教学的影响。

3 新技术在语言测试中的应用

人工智能在语言测试中的应用是本次会议的一大亮点。有关专家学者以及科技公司的技术人员共同参与相关研讨。他们围绕技术手段在语言测试中的应用和意义、基于手写识别和语音识别的自动评分以及自适应考试等问题开展研讨。

美国教育考试服务中心（Educational Testing Service）的习小明博士作了题为“运用技术改善语言学习与评价体验：前景与挑战”的主旨发言。她详细论述了技术在拓展测试构念和改善测试设计方面的重要作用，并就新技术如何挑战传统语言能力评价方式并促成更具真实性的评价体验这一问题进行了分析。

英国文化委员会高级研究员Vivien Berry博士就视频会议和面对面两种口语测试模式对外语测试构念的影响开展了研究，以了解两种模式在考试结果、语言产出和考生与考官行为方面的异同。据此，她作了题为“外语考试在中国的创新：面对面口语测试与视频会议口语测试的对比研究”的发言。

科大讯飞股份有限公司汪张龙介绍了中英文语音合成、语音识别、手写识别和评测技术在语言测试中的应用。海云天科技股份有限公司游忠惠和陈光斌在报告中指出，中国是考试大国，尤其是对大学英语四、六级这种大规模考试来说，在评分上需要巨大的投入，因而自动评分系统的开发和应用在中国具有广阔的前景，对教学成果提升也有诸多裨益。上海流利说信息技术有限公司Lance Knowles介绍了适应性和语音识别技术在分班测试中的应用。

4 有关语言测评的其他研究

加拿大多伦多大学Alister Cumming教授作了题为“连接写作评价与教学：区分不同目的”的主旨发言。他认为，常模测试、诊断测试、形成性评价以及终结性评价有助于连接写作测试与教学和学习；这4类测试的常规评价活动分别是水平测试与课程标准、诊断测试与动态评估、对学生写作的反馈、课程期末分数或终结性评价。北京师范大学武尊民教授带领的测试团队就“高中生英语成长诊断系统”课题的相关研究进行了专题报告，介绍了该诊断系统的意义和贡献、效度验证、后效研究以及在高中英语课堂教学中的应用模式。

其他测试与评价研究还有：（1）诊断性测试中的认知诊断模型（Cognitive Diagnostic Model，简称“CDM”）研究，例如基于CDM的阅读测试研究和动态干预模式构建等。还有学者对中国高级英语学习者的接收型词汇和产出型词汇的诊断测试进行了研究。（2）形成性评价研究，主要涉及学习过程评价的理论与实践、我国高中和大学英语形成性评价以及我国大学英语形成性评价系统构建等。（3）同伴评价，主要涉及学生对同伴评价的认识与实践、基于同伴互评的专业英语演讲教学模式构建以及学生和教师对改进分数报告的认识等。（4）课堂评价，主要包括少儿英语课堂评价、自主学习课堂评价、教师主导的课堂评价以及课堂评价模式构建等。（5）中国少数民族汉语水平等级考试（MHK），主要涉及MHK口语考试自动评分的信度、效度以及可行性、MHK考生分数的历时分析、题库建设和汉语能力与测评研究。（6）专门用途英语（ESP）测试，主要涉及学术英语和商务英语测试的信度和效度、与ESP课程相关的测试以及专门用途英语能力模型。

5 小结

通过会上各位专家学者的发言，可以看出我国外语考试与评价研究已经进入新的发展时期。首先，英语能力等级量表的研发对于促进我国外语教学与测试实现“车同轨，量同衡”具有重要作用[1，2-4]，这也是我国首次制定覆盖各教育阶段英语教学、学习与测评的能力标准，有利于解决目前各项英语考试标准各异、教学与测试目标分离、各阶段教学目标不连贯等问题，从而实现英语教学“一条龙”和多种学习成果的沟通互认[5]。其次，外语考试体系日趋科学和完善，考试设置和安排也愈发系统和合理。高考一年两考的实施将有助于降低考试风险，减轻原来“一考定终身”的负面效应。即将推出的国家英语能力等级考试以及其他类型的英语考试改革都反映出我国外语考试正朝着更加科学和完善的方向发展。林蕙青指出，国家英语能力等级考试对于增强我国主要教育阶段英语考试的科学性、系统性和选择性具有积极作用，为学生外语能力的发展提供了一个连贯有序的阶梯，避免了目前外语教学和考试的重复性和无同一参考标准的盲目性[5]。再次，人工智能技术在语言测试中的应用对于推动语言测试方法和测试模式的创新具有积极作用，有助于全面提升测试的信度和效度。同时，相关技术的应用还有助于减少从出题到评分过程中的物质和人力资源消耗。刘建达就此也曾指出，现代技术的发展使考试内容、考试实施以及评卷等方面都发生了十分重要且积极的变化[6]。最后，对各类型测试和评价活动的探讨，尤其是对新的评价模式的研究，有助于提高我国外语教学与学习的质量，促进我国外语教学健康发展。

中国英语能力等级量表和国家英语等级考试的研发表明，语言测试与评价研究已经在我国结出丰硕果实。但这些成果主要还是在借鉴国外的一些理论基础上产生的，在形成我国本土化的语言测试理论方面，国内语言测试界仍然需要付出更多努力，需要进一步加强语言测试理论的创新。同时，语言测试作为一门跨学科研究，需要多学科的交叉与融合，不仅需要依靠语言学的最新研究成果，还需要融入教育学的理念和借助计算机信息技术的强有力支持。计算机技术在语言测试中的应用将成为今后语言测试研究的一个重点课题。

[1]林蕙青.深化考试招生制度改革加强国家外语能力测评体系建设[J].中国考试,2015（1）:3-6.

[2]刘建达.我国英语能力等级量表研制的基本思路[J].中国考试,2015（1）.

[3]刘建达.基于标准的外语评价探索[J].外语教学与研究,2015（3）:417-425.

[4]杨惠中.关于我国外语能力测评体系建设的几点思考[J].中国考试,2015（1）:12-15.

[5]林蕙青.建立国家外语测评体系提升国民语言能力[J].中国考试,2016（12）:3-4.

[6]刘建达.现代技术与语言测试——应用、影响及发展方向[J].外语电化教学,2013（4）:46-51.

Review of the Second International Conference on Language Testing and Assessment

ZHANG Jun
（Sichuan International Studies University，Chongqing 400031，China）

The Second International Conference on Language Testing and Assessment is a high-level language testing conference co-sponsored by the National Education Examinations Authority and Zhejiang University.Participating experts and scholars had in-depth exchanges and discussions around the theme of this meeting-“Foreign Language Examination Reform and Development”.This paper reviews the conference from four major aspects:the development of China’s Standards of English,the foreign language examination reform,the application of artificial intelligence in language testing and the research of various kinds of language testing and assessment.The paper also introduces the latest research results,research trends and development trends of language testing and assessment at home and abroad.In the end,this paper makes comments on the current situation of language testing research and development in China.

Language Testing;Foreign Language Test;English Language Ability Scale;Artificial Intelligence

G405

1005-8427（2017）08-0066-5

10.19360/j.cnki.11-3303/g4.2017.08.012

张俊（1991—），男，四川外国语大学，在读硕士。

（责任编辑：陈宁）