汉语能力测试采用计算机情境命题的实践研究<br/>——兼与剑桥英语考试若干项目比较

汉语能力测试采用计算机情境命题的实践研究
——兼与剑桥英语考试若干项目比较

2014-11-28孙显福

中国考试 2014年5期

孙显福

汉语能力测试采用计算机情境命题的实践研究
——兼与剑桥英语考试若干项目比较

孙显福

文章阐述了汉语能力测试的特点和采用计算机情境命题的必要性，探讨了计算机情境命题实践中遇到的挑战。通过与剑桥大学举办的若干语言类考试项目在标准、情景设计、题型设计、测试方式、分数报告等方面进行对比分析，对汉语能力测试情景命题如何应对这些挑战进行了有益探索。

情境命题；汉语能力测试；实践研究

1 汉语能力测试采用计算机情境命题的必要性和挑战

1.1 汉语能力测试的背景和特点

汉语能力测试是由教育部和国家语言文字工作委员会推出、教育部考试中心设计与实施的国家级汉语综合应用能力测试与评价服务项目。测试对象是生活、工作、学习中以汉语为基本用语的人群。举办汉语能力测试的目的是：为社会提供衡量国民汉语听说读写综合应用能力的标准和工具；帮助国民有针对性地提高汉语应用能力；引导学校语文教育从知识体系向能力体系转化，推进学校教育由知识学习向能力培养转化。教育部考试中心致力于提供权威、专业化的测试平台，坚持非选拨性、非强制性、非营利性的原则，试点考试已于2011年12月在七个省市举行。

汉语能力测试在四个方面对传统考试进行了重大创新，具有四个方面的特点。一是在测试内容方面，坚持实践导向、坚持综合应用导向，不指定统一教材、不考死记硬背的内容。二是在测试形式方面，通过计算机和多媒体技术呈现鲜活的语言实际应用情境，有效评估应试者的实际能力。三是在测试管理方面，通过建立网上报名、网络考试、网上阅卷、网站服务统筹的工作平台，提供方便、高效的专业化服务。四是在测试成绩报告方面，为每一位考生提供个性化的成绩评价报告，指出考生在听说读写各方面的长处和不足，为考生进一步提高提供针对性指导。

1.2 计算机情境命题的必要性和面临的挑战

采用机考方式，利用计算机和多媒体技术实现计算机情境命题，是汉语能力测试的最佳选择。汉语能力测试的对象主要是母语人群，与外语考试相比，除了语言的交际功能之外，母语测试更加重视文化内涵，比如，有时候同样的语言在不同在情境、场合中意义差别很大，甚至完全相反。对于母语水平考察来说这些都是基本要求。语言是鲜活的，对母语来说，除了准确以外，还需要表达得体、生动、文雅等，母语测试在这方面应该体现出与第二语言的区别。要体现母语的这些要求，在实际语言活动情境中考察是最合适的。随着当今计算机和多媒体技术的发展，采用机考方式呈现实际语言活动情境，在技术上已没有太大障碍。但汉语能力测试是新项目，又要采用计算机情境命题，对命题工作提出了新的挑战。

第一个挑战是如何准确把握标准？2010年12月，教育部语言文字应用管理司与教育部考试中心联合召开会议，审议通过了《汉语能力标准（试行）》，这是我国首个对国民汉语应用能力进行分级别界定与描述的文件，是汉语能力测试命题的依据，但这个文件比较宏观。汉语能力测试定位于能力导向，不指定统一教材，不考死记硬背的内容，与传统考试围绕知识的掌握与运用来编写大纲、教材以及命题不同，在计算机情境测试中如何把握标准？不同级别听说读写各方面如何确定各自典型的语言活动情境？这是一个新的课题。

第二个挑战是如何通过情境来考能力？汉语能力测试机考不是把纸笔考试直接搬到计算机上来，它是一种基于情境的计算机化考试，在实践中遇到一系列问题，比如，什么样的题型能够更加有效地评估能力？评分维度如何设计？与传统考试方式的关系怎样等，都需要深入研究。

剑桥大学考试委员会在英语考试（尤其英语作为第二语言测试方面）有很多经验，虽然母语与第二语言的要求不同，机考与纸笔考试方式也不一样，但同样是语言类测试，很可能存在互通与借鉴之处。带着上述问题，于2011年10月下旬至11月中旬随考试中心赴剑桥大学培训团进行了为期三周的学习培训。回国之后，继续对感兴趣的问题，对剑桥英语考试多个项目的情况做了进一步了解。

通过学习、交流和进一步研究，发现剑桥英语考试某些项目在评估交流能力方面，也是通过设置情境实现的，只是没有将情境计算机化，直接搬到考场屏幕中；剑桥英语考试对不同级别能力的具体要求、设置的具体场景等情况与汉语能力测试采用计算机情境命题遇到的问题相似，研究与借鉴颇有价值。为了能够深入分析、探讨、借鉴，以下结合剑桥英语考试若干项目的具体情况，按标准和大纲、题型、测试方式与评分、分数报告方式、当前英国考试界对计算机化考试的主要观点等不同方面，尝试与汉语能力测试进行对比分析。

2 与剑桥若干考试项目的比较

2.1 标准与大纲（以PET为例）

PET（Preliminary English Test）是剑桥通用英语五级系列英语证书考试的第二级，PET考核考生的实用英语技能，适合与在日常生活中具有中等读写水平的考生。PET考试涵盖听说读写四项语言基本技能，反映了在真实环境中使用英语的能力，被许多企业雇主看作秘书、助理等职位所应具备的英语水平。目前PET考试共推出两个版本-PET及校园版KET。两种版本都遵循同样的考试形式和试卷题目等级。唯一的区别是校园版PET的试题内容和语言环境的设置是围绕在校学生的兴趣和生活经历。

该考试在标准描述方面非常清晰，值得借鉴。在总体水平描述方面是这么界定的:“PET考试达到了欧洲委员会制定的欧洲语言教学大纲的A2水平。在此阶段考生能够:1.用清楚及标准的语言阐述有关工作、学习或爱好等熟悉话题。2.自如应对在英语国家旅行时可能发生的一般情况。3.讲述经历事件或描述梦想、希望和目标。4.阐述和论证计划。”并对听说读写每一部分的能力做了具体描述，如表1所示。

上述能力如何通过命题来具体把握呢？考试大纲中进一步对阅读、写作、听力、口语的范围进行了细化，尤其是口语表达方面，规定非常细致，这对命题准确体现大纲要求以及试卷难度水平的稳定均有帮助。

同样是语言类考试的命题范围，汉语能力测试也应该逐步细化，设计出类似表格。但是需要根据中国人使用语言的情况，并且按照母语的要求进行设计。

2.2 题型对比分析（以A-level为例）

什么样的题型有利于评估应试者的汉语实际应用能力？一般来说，客观题擅长于考察对知识点的掌握，但考察综合能力是弱点。汉语能力测试是能力导向的考试，所以本文关注的重点是主观题题型，并以考试中比较多采用主观题的A-level考试的题型为例。

目前，A-level的纸笔考试中采用多种题型，对汉语能力测试具有较大参考意义的有结构性评论题（structured essays）、案例题（case studies）2种。虽然是纸笔考试的题型，但也类似情境试题，只是汉语能力测试的情境通过多媒体呈现，来源于日常生活、工作、学习中，而A-level的非客观性试题的背景围绕教学大纲，具体内容来源于知识点和生活的结合。

2.2.1 案例分析题（case studies）

A-level考试中的案例分析题通常是一个很大的题目，先给出背景资料，后有两个部分试题需要作答。特点是覆盖面非常广，涉及考核目标中大部分考点。汉语能力测试也使用类似题型，如四级的考试中给考生一份图表和材料，要求考生根据这些资料自拟题目写一篇分析文章。这是一道案例分析作文题，试题特点是开放性大，除了字数外几乎没有太多限制。差异在于对大纲的覆盖面方面不如英国的全面，从中启发我们需要对某些方面做进一步改进和明确，包括作文题的题型、材料类别与深度等，通过材料类别与深度的平衡，保证同一个级别作文题难度、内容、结构等方面平衡和稳定，并体现该级别作文的要求。

2.2.2 结构性试题（structured essays）

结构性试题类似于论述题，区别是它把几个具有内在联系的试题组合在一个特定材料中，材料与课程联系紧密。汉语能力测试的材料性试题的不同点在于：汉语能力测试不指定统一教材，国家语委发布的《国民汉语能力标准（试行）》中也没有对知识点的描述。同样是对能力的考察，前者是通过对所学知识在实践中的运用能力，后者是脱离教材的对实际生活情境中的应用能力。可以借鉴之处：汉语能力测试既然不按知识点考核，而是情境考试，则需要对每一个级别听说读写的典型的语言情境要求进行标示。例如，一级考试合格者具有独立到超市购物的语言能力，超市购物可以作为一级考试的一个典型情境。要把各个级别听说读写四个方面语言活动的典型情境按照和生活、学习、工作的典型场景列示，并且明确在这些情境中的语言要求，是一个具有挑战性的研究课题。

表1 PET考生能力描述

表2 PET考试命题范围

2.3 测试方式与评分

汉语能力测试采用计算机多媒体技术，可以很好呈现语言实际生活和工作的情境，更加真实反应语言应用的实际场景。剑桥目前的语言类考试，除了雅思考试在某些国家尝试建立机考中心外，大多数项目还没有采用计算机上呈现和作答的方式。但经细致分析，发现还是有不少可以借鉴之处。由于汉语能力测试使用情境最典型的主要在说话和写作部分，所以对所选择剑桥语言考试项目中口语和写作，对其考试方式和评分模式做些比较。

2.3.1 口语考试（以BEC为例）

BEC口试主要考查考生商务交往过程中运用英文的能力。具体测试内容包括：建立和保持商务联络、谈论工作、制定计划与安排工作三个部分。测试分两个阶段：第一阶段：考官与考生交流，时间约为4～5分钟。考官所提问题主要针对商务交往的具体内容。第二阶段：考生与考生交流，时间约为3～4分钟。每组考生抽去两组卡片，每组卡片为两张，一张卡片上描述具体内容，另一张卡片是针对其内容的问题。评分维度包括发音（声音大小、重音、语调、语气）、准确性（语法、用词及说话方式）、流利程度（语速、长短句搭配）以及交流能力（独立性、灵活性以及对谈话方式的把握）四个部分，各分为3个等级。

这种考试方式的好处：有考官互动、考生互动。但是考试成本更高。汉语能力测试目前是给一个场景，由考生来描述与评论。一个方面可以减少考官成本，另外对于母语使用者来说，能否互动交流不是问题，不需要在考试中考查，说话部分关键是考察语言是否得体、逻辑是否清晰等，所以说话部分的设计，汉语能力测试现在的测试方式应该是合适的。但在场景设计方面，可以看到BEC的口语考试是规范化的，这方面值得我们学习。

2.3.2 写作部分（以PET和BEC为例）

PET考试的写作方式比较丰富：包含3个部分，要求考生完成句型转换、填充表格、提供信息、报告事件、描述情境、表达观点等任务。汉语能力测试目前开考的四级和五级中，写作题题型是蛮新颖的，如微小说续写，写答谢信要求嵌入某人的姓名等。但是PET丰富的写作方式，对汉语能力测试将来要开考的低级别有一定的借鉴意义。

BEC（以中级为例）要求考生写两篇短文：第一部分要求考生写一个40～50字的便条、留言、备忘录或电子邮件，具体内容在试卷中有明确要求。第二部分要求考生写120～140字的商务函件、短篇报告或建议。试卷中有提示说明和一篇或多篇的材料，包括图画或图表。汉语能力测试可以受启发之处是该项考试的标准维度：包括内容、组织、语域、格式和对目标读者的影响五方面，另外每篇作文都需给印象分，印象分给分依据欧洲委员会制定的语言标准（B2级）。

2.4 分数报告方式（以A-level和GCSE为例）

A-Level的成绩分为A、B、C、D、E、U六个等级，A为最优，E为通过，U为不及格。与我国传统考试60分合格的习惯不同，A-Level考试的及格等级E相当于百分制40分。学生达到及格成绩，就可以申请国外的大学。具体的等级与分制之间的关系是：A：80～100，B：70～80，C：60～70，D：50～60，E：40～50，U：40以下。

GCSE的分数报告则将等级划分得更细，包括A到G、U八个等级，具体情况如表3所示。

无论A-level还是GCSE，都不设置及格线，而是分成若干等级，由不同学校选择使用需要的等级。不设置及格线的做法对于汉语能力测试有借鉴意义，如果将汉语能力测试分数报告的重点放在报告语言水平等级区分方面，而不是放在及格与否方面，对于母语人群更加合适。但是国人习惯于参加考试之后知道自己是否及格，及格者乐于获得权威机构颁发的证书，这是现实，是否也可以尝试改一改呢？

2.5 当前英国考试界对计算机化考试的主要观点

英格兰资格及考试监督办公室（Ofqual）称，在现在的数字时代，传统的纸笔答卷考试应该被计算机化考试取代。Ofqual首席执行官尼斯贝特（Isabel Nisbet）表示，当今依然依赖纸笔作业，再这样下去“行不通”。不过一些学校的校长说，计算机化考试现在面临最大的问题是资源不足。目前英国只有一小部分的试卷形式可以被计算机代替。但尼斯贝特称现行的测试系统“即将失效”，因为纸笔不是现在这一代的年轻人使用的学习媒介。“现在的年轻人对科技产品越来越精通，IT是他们学习和识别最新资讯的自然工具，利用科技他们学习的快速高效。”虽然目前大量采用的方式还是纸笔答卷，不过学生交上的考卷则是采用“机器作业”，将试卷扫描进计算机，在屏幕上批改。

英国爱德思国家职业学历与学术考试机构（Edexcel）总监利亚夸特（ZiggyLiaquat）认为：“信息技术有改变教育形式的潜能，它让教学变得更加保险透明，又高效互动。”

英国资格评估与认证联合会（AQA）负责人安德鲁·霍尔（Andrew Hall）同样也表示对这一提议的支持。他还建议，学习与考试应该采用同样的媒介，当学生准备充分时，我们就可以对他们进行测试，未来甚至有可能让同一级的学生分开时间段进行考试。

牛津、剑桥和RSA考试局（OCR）总监马克·道厄（Mark Dawe）则认为，把考试从纸上挪之屏幕上是“真正的挑战”，因为要保证各个学校都有公平的计算机资源并非易事。

英国全国校长协会(NAHT)的政策顾问汉弗莱斯（Sion Humphreys）也感到关注，说他并不同意Ofqual负责人“纸质考卷未来行不通”言论。他承认学生在学校用科技产品作为新型媒介来学习，但说：“学生们依然使用纸和笔，因此书面考试仍应保留一定地位。”

测试汉语能力采用机考方式，原因不是要在技术方面赶时髦，而是机考方式可以再现语言活动情境，最有利于考察实际应用能力。另外，机考在国内多项大规模考试中有多年成功的先例，国内组织机考的软硬件环境具备。汉语能力测试在开考之前举行了四次内部试测均采用机考方式，每次我们都设计调查问卷，并与组织者和部分高校教师座谈，考生普遍接受机考的方式。实践表明采用机考的方式测试国人汉语能力是可行的。存在的问题是考试成本比较高，前期投入较大，但这个问题将可以随着考试规模的扩大，通过合理收费解决。

表3 GCSE的评分等级

3 展望

汉语能力测试已正式开考，此前进行了四次试考，在这五次考试实践中，我们遇到了上述挑战，对一些问题也作出了初步回答，但需要进一步研究与指导，本文通过对英国剑桥大学语言类考试若干项目的对比分析，对汉语能力测试后期命题实践以及相关研究工作提供了有益的启示。

本文的研究只是一个开头，一些问题只是有了思路还没有结论，需要在实践中探索完善的地方还有很多，比如研究不同级别听说读写典型情境表、计算机情境命题的技术标准、纸笔作文与计算机写作的比较等。希望本文能够抛砖引玉，引起更多人对汉语能力测试命题工作进行关注与指导，将汉语能力测试这个承载着教育部和国家语委殷切希望的项目工作做好。不当之处恳请批评指正。

A Practice Research of Computrized Situational Item Development in Chinese Proficiency Test

SUN Xianfu

This paper described the specific characteristics of Chinese Proficiency Test.The author claimed that computerized situational item development method is needed in this test and discussed the main challenges in the practice.By comparing with some language tests administrated by Cambridge University in areas such as criteria,situation setting,item types and score reporting scales,The author made helpful suggestions as to how to deal with those challenges.

Situational Item Development;Chinese Proficiency Test;Practical Research

G405

1005-8427(2014)05-0026-7

本文系国家语委“十二五”科研规划重大项目“国民语言文字能力标准与测评体系研究”（课题批准号ZDA125-1）的研究成果之一。

孙显福，男，教育部考试中心，副研究员（北京100084）