关于普通话水平测试现代化的思考

2017-06-23周梅

宿州学院学报 2017年4期

关键词：普通话计算机测试

周梅

安徽警官职业学院基础部，合肥，230031

关于普通话水平测试现代化的思考

周梅

安徽警官职业学院基础部，合肥，230031

基于计算机的语言测试的发展状况，着重分析了普通话水平测试手段现代化的特征。通过对比分析发现，计算机辅助普通话水平测试还处于基于计算机的语言测试发展的初期阶段，计算机技术对普通话水平测试的影响主要体现在两个方面：一是呈现测试任务的介质由纸张转变为计算机显示屏，二是推进了普通话水平测试评分的客观性。同时指出技术的应用对测试理论进一步发展提出了新的要求，信息技术对未来的普通话水平测试将会产生更为深刻的影响，应用创新性题型、提供诊断服务以及远程培训、测试一体化将是普通话水平测试未来发展的方向。

普通话水平测试；语言测试；计算机辅助普通话水平测试；测试理论与技术

2007年，经教育部语言文字应用管理司批准，计算机辅助普通话水平测试(“机辅测试”)在安徽和上海开始试点，标志着普通话水平测试手段进入现代化发展阶段。历经十年推广应用，目前，“机辅测试”已在全国各省市自治区得到普遍采用，据统计，2015年全国“机辅测试”量为480万人次，人工测试36万人次，“机辅测试”人次在全年测试工作量中比例已达93%，以计算机为主要技术手段的评测方式已经基本取代早期面对面评测方式。同时，新的测试方式对普通话水平测试的影响也受到了研究人员的关注，丁觐靓等讨论了测试员对应试人的影响，分析了两种模式下的环境和应试状态[1]。科大讯飞公司的测试报告，安徽省的试点报告以及韩玉华对计算机辅助普通话水平测试试点地区的调研[2]等文献，反映了计算机评测技术总体上的稳定可靠，肯定了计算机评分的信度。但是，雷峻、姜岚通过实证提出，计算机对普通话水平较低的人的评测误差较大[3-4]。也有研究证明一级甲等是计算机评测的盲区。这些研究指出了计算机辅助普通话水平测试的问题所在，但是由于研究的问题比较零散，且缺乏后续性，对计算机辅助普通话水平测试的认识难免只见树木不见森林。在新的环境背景下，普通话水平测试(PSC)所呈现的技术特征和未来发展方向，需要进一步系统总结、分析与认识。

1 信息技术条件下的语言测试发展状况

可以说，信息技术的介入使语言测试出现了传统与现代之分。传统的语言测试是基于纸笔的考试(Paper-and-Pencil Based Language Testing)，以经典测试理论为理论基础，采用纸笔作答。经典测试理论建立于较简单的数学模型之上，适用范围较广，但也存在缺陷：对测试得分的解释不够合理，无法实现即时评分和反馈，而且因为包含了所有难度的试题，测试长度不能因人而异等[5]。

计算机对语言测试的最早介入是用于测试分数的计算。据有关文献记载，1935年引进的IBM805模型测试评分机，已经可以以10倍于人类的速度为客观的测试进行更为精确的评分。大型计算机开始应用于语言测试、测试数据的分析、数据库的资料储存、为测试使用者提供测试结果分析报告等，始于20世纪60年代。而八、九十年代微型计算机广泛应用，使信息技术对语言测试的影响越来越深广，从试题设计、任务呈现、自动评分，到测试结果分析和测试管理等，越来越多的语言测试开发者和管理者开始通过计算机来实现这些工作目标[6]。

在语言测试的研究领域，计算机技术介入之后的语言测试被称为基于计算机的语言测试(Computer-Based Language Testing)，也称为计算机化语言测试，泛指在测试过程中使用计算机的任何语言测试。根据计算机技术介入测试的不同层面，大致可以分为计算机辅助语言测试(Computer Assisted Language Testing)和计算机自适应性语言测试(Computerized Adaptive Language Testing)两类[7]。随着网络技术的发展，基于计算机的语言测试还出现了新的分支——基于网络的语言测试(Internet-Based Language Testing)。

计算机辅助语言测试是指在测试中利用计算机对测试进行管理，或者将试题通过计算机呈现，以机上作答来取代纸笔测试。虽然计算机辅助语言测试使测试介质发生了变化，并且利用计算机对测试进行管理或评分，但是和传统的纸笔测试一样，所依据的理论仍然是经典测试理论，实施方法同样是线性的，即对所有的被试展示相同数目、相同顺序的试题，对被试个体的能力差异不作关注，在测试结果方面并没有优于传统的人工测试。目前的计算机辅助普通话水平测试就属于此类。

计算机自适应性语言测试的理论基础是教育测量学项目反应理论。与计算机辅助语言测试不同，模仿人类智能评估行为是计算机自适应性语言测试的基本思想。具体而言，计算机首先将中等难度的试题分配给考生，如果考生回答正确，下一题的难度将有所提高，反之，则降低。计算机通过统计考生在不同难度试题上的反应，来估算考生的能力水平，因此，自适应性测试也被称为“量体裁衣”式的测试，其优点是更为灵活，非线性的试题编排避免了测试长度的固定化问题，和传统测试相比，“测试长度可减少高达50%以上”[8]。此外，良好的反馈作用，测试的个性化、人性化加强，安全性提高等优势也是传统测试所不具备的[9]。其缺点是：(1)理论基础复杂，开发难度大；(2)需要大量的、经过试用和校准的题项，题库的建立成本高，代价大，周期长；(3)多局限于评估考生的知识与技能，不适宜评估语言应用能力[10]。

基于网络的语言测试是相对于单机软件测试而言的一种测试形式，其主要特征是以网络作为平台，以计算机作为网络终端，通过网络传送相关测试数据，从而实现测试。网络在线测试既可以是线性的计算机辅助测试，也可以是非线性的计算机自适应性测试。网络在线考试需建立特定网络，硬件设备要求高，主要适用于大规模考试，如美国的新托福考试就是基于网络的语言测试。计算机辅助普通话水平测试目前已经实现了网络传送。表1揭示了使用不同测试手段的语言测试的基本特征。

表1 不同形式的语言测试比较

总之，科学技术的进步为语言测试的飞跃发展提供了物质基础，不论是试卷传送途径、呈现介质、评分和测试管理，还是试题的组织编排，计算机等现代信息技术所发挥的作用都是无与伦比的。基于计算机的语言测试已经成为“专业学科内容和科学技术手段有机结合的产品”[11]。有了科学技术这一物质基础，语言测试迅速走向现代化、信息化，自20世纪90年代以来，基于计算机的语言测试越来越广泛运用于考试实践。20多年来，一些大型语言测试已经从传统的纸笔测试转换为基于计算机的语言测试，详见表2。

表2 基于计算机的语言测试实践发展概览

不同的测试目的和不同的区域条件，决定了语言测试手段的多样性，基于纸笔的传统语言测试、计算机辅助语言测试、计算机自适应性语言测试以及网络在线语言测试将会长期共存。但是，日新月异的计算机技术在未来将促使更多的语言测试实现手段现代化，测试形式的变化与测试内容的变革会彼此促进、相辅相成，共同推动语言测试的发展。

2 普通话水平测试手段现代化特征

从题库建设，到试题传送、测试实施以及测试管理等环节，计算机技术贯穿了PSC测试活动的始终。就施测环节而言，目前普通话水平测试手段现代化特征主要表现为呈现测试任务的介质的变化和测试评分的客观性。

2.1 呈现测试任务的介质不同

PSC是口语测试，口语测试任务规定了考生语言产出的内容。和人工测试相比，“机辅测试”对测试任务的改变主要体现在试题呈现方式由纸张转为计算机显示屏，答题方式除了“口说”之外，还得辅之以鼠标、键盘的操作。也就是说，信息技术对普通话水平测试任务的影响主要在于任务传送和呈现的介质发生的变化，传统的纸笔测试试题“搬到”或者说“复制”到了计算机上，计算机逐项分屏呈现试题，应试人在计算机指令提示下通过相关按钮的操作完整呈现试卷。

“机辅测试”与人工测试并无测试原理上的区分。“机辅测试”研发以《普通话水平测试大纲》为理论框架和依据，沿用原来的试卷、题型、测试内容，尽量保留和遵从原评分标准的评测原则，是在原测试设计的基础上对普通话水平测试实施技术的进一步开发。图1所示的现代口语测试任务呈现的特征在计算机辅助普通话水平测试中得到的反映相当有限，主要体现在记录方式的变化，语言输入、语言输出、参与者、完成方式和完成条件与人工测试方式没有区别。

图1 口语考试的发展趋势

2.2 评分过程的客观性增强

作为主观性测试，PSC评分活动是一个复杂的主观认知活动过程。如图2所示，这个过程由三个方面构成：一是测试员对评分标准的理解过程，二是测试员对考生作答的接受过程，三是测试员根据评分标准和考生作答之间的吻合程度的评分决定过程。可见，与客观性测试不同，主观性测试对评分标准的解释不是唯一的、确定的，对考生作答表现的理解也会因人而异，因此，在人工测试方式中，测试员评分活动的个性差异成为测试评分误差的一个重要来源，测试员和评分方法对测试的信度具有举足轻重的影响。

PSC评分的理想目标是：分数可以无偏差地区分考生的普通话水平。但是，测试员的个性差异是一种客观存在，测试员对评分标准和应试人表现的认知处理不可能完全相同，测试员自身注意力集中程度也存在变化，因此，测试员之间以及测试员自身的评分误差是一种必然的客观存在。PSC的评分误差控制主要通过控制个性差异，在最大程度上使主观的评分过程保持客观，从而保证测试的信度。为了控制评分因素对测试信度的影响，PSC一直坚持两个原则：一是测试员评分一致性原则，二是测试员评分处理过程的独立性原则。评分一致性原则首先要求测试员通过培训学习正确理解评分标准，通过测试练习保证测试员之间对评分标准理解的一致、对考生作答表现的特征认知的一致。评分独立性原则要求测试员之间评分不受影响，测试员每次评分不受之前的评分影响。帮助测试员达到评分质量评价的标准，严明工作纪律，树立职业操守等成为测试评分信度的多重保障。

图2 普通话水平测试评分的认知处理过程

人工测试方式下，评分信度的追求主要是通过对测试员的控制来实现的；计算机辅助普通话水平测试方式下，技术的介入在很大程度上促进了评分的客观性，降低了评分误差，提升了测试评分信度。技术对评测的促进作用具体表现为三个方面：前三项评分自动化、评测分离和强化复审环节。

2.2.1 自动评分增强了评分的客观性

“机辅测试”已经实现了前三项评分的自动化，这是信息技术用于PSC的创新之处，也是普通话水平测试发展中的重大变化之处。计算机自动评分通过采用信号处理的原理来进行语音识别，使前三项评分与测试员评测结果实现基本一致。虽然计算机辅助评测原理和人类的听力理解以及大脑运算完全不同，对第三项的评分也并非按照大纲要求的维度进行针对性的识别，因而具有一定的局限性，但是客观的计算标准克服了评测活动中测试员之间个体差异性的弱点，使前三项评分最大限度实现了评分的一致性和客观性，总体评测结果比人工测试更加稳定、可靠。

2.2.2 测评分离保障了第四项评分的独立性

目前，普通话水平测试评分自动化对第四项命题说话这样的自主表达的评测尚未完全实现技术上的突破。但是，评测分离不仅使测试活动在时间上克服了实时实施的局限，而且任务的数字化传送使得测试员在各自空间评分成为可能。测试员搭配、评测任务分发等信息由测试中心管理人员单方统一掌握，测试员的评测活动失去了相互商量、彼此影响的条件，在网络终端背靠背的评测在客观上保障了测试员评分的完全独立。这样，第四项打分更加客观，测试信度得以有效提升。

2.2.3 完善的复审制度提高了评分的一致性

复审是语言测试保证评分信度的重要手段。合作判分对于有歧义的作答可以通过协商统一对评分标准、考生作答情况的认识，分数的决定过程可以吸收彼此的意见，从而降低测试员之间的评分差异性。机测方式下第四项评分误差控制是将人工评分与统计、现代技术相结合，对差异性较大、超出合理阈值(目前安徽省的规定是最大偏差≤3分)的作答，进行多次评分。这种偏差复审的方式通过程序设置弥补了测试的主观性缺陷，测试结果的公正性也得到有效保障。

普通话水平测试规模大，测试量高，而大多数地区测试主管部门人力与经费十分有限，因此复审制度的落实存在一定的困难。在工作实践中，除一级复审因为数量少、等级高、社会权重大，执行较为严格外，像抽查复审、偏差复审则因地而异。计算机辅助测试则通过系统功能的开发设计健全了复审制度。以安徽为例，安徽省普通话培训测试中心在开始进行计算机测试的同时，即建立起了较为完善的复审制度。第四项所有差异复审全面覆盖，一级复审按要求正常进行，三级甲等高分段、三级乙等低分段和不入级数据均为100%复审，二级数据为抽查复审，抽查复审率高达20%。

通过上述分析可知，计算机对PSC影响直接而显著。就测评环节而言，信息技术的介入，通过管理手段、技术手段和统计手段加强了对普通话水平测试的评分误差控制，保障了口语测试评分一致性原则和独立性原则的贯彻，强化了评分的客观性，提升了普通话水平测试的信度，评分更加客观，测试结果更加公正。就测试任务而言，“机辅测试”还停留于对传统测试任务的“复制”层面，数字化展示测试的方式并未触及测试的深层理论，计算机技术尚未深入测试任务的设计与测试构念的改进，因此在测量目标方面并不优于传统的纸笔测试。

3 普通话水平测试发展前瞻

信息社会以智能代替体能，大量人员所从事的大规模生产方式不再是主流。计算机化是语言测试的发展趋势，计算机测试代表着大规模语言测试的发展方向。现阶段计算机辅助普通话水平测试还处于语言测试计算机化的早期阶段，模拟人类智能评估行为的自适应性测试不仅开发难度大，题库建立代价大，且是否适用于普通话水平测试的目标尚需商榷，因此，计算机自适应性普通话水平测试目前还言之过早。展望未来普通话水平测试，可望亦可即的前景应该是改进题型，提供诊断服务，教学、测试相结合，进一步发挥计算机的优势与潜能，使技术和普通话水平测试本体理论相符相契、相互为用，共同促进普通话水平测试的发展与完善。

3.1 应用创新性题型

普通话水平测试的题型设计过程几经发展变化，最终从测试性质与目的出发，确立为读单音节字词、读多音节词语、选择判断、朗读短文和命题说话五种题型。效度是语言测试的永恒追求，有关如何进一步完善题型设计、更加有效实现测试目的的讨论也一直没有停止过。作为半直接式口语测试，普通话水平测试的缺陷在于缺乏互动和交际情境，计算机辅助普通话水平测试提升了评分信度，但是在某种程度上又强化了测试的单向性，“命题说话”项测试实践中大面积的“雷同”正是这一弱点的凸显。虽然为了适应测试手段的变革，及时调整测试依据，制订并颁布了《计算机辅助普通话水平评分试行办法》，但是“雷同”问题并没有得到有效控制，测试样本与所测量目标不匹配，势必对内容效度有所影响；同时，测试员对评分办法的执行有时会处于操作上的两难境地:一是举证增加了测试员的负担，二是对于有稿应试，测试员未必能找到内容证据，对语音形式的明确感知与判定又不能作为判别雷同的另外一重有效证据。因此，说话项评分信度也受到了一定的影响。此外，对应试人的应试策略也难以有正面反拨之效。

未来任务型话题题型是发展的一个趋势[12]157。王晖的论断是基于实践基础之上的对普通话水平测试发展的科学前瞻。技术的介入需要发展普通话水平测试的理论，探索出适合新的测试手段的测试项目，从而打破技术对测试本体的制约。同时，也应该看到，现代技术还具有强大的潜能可以为测试设计提供手段与帮助，技术为普通话水平测试效度的保障也提供了新的空间。

例如，2005年实施的新托福(NEW TOEFL)考试是一个成功转型的语言测试的范例。美国的托福(TOEFL)考试始于20世纪60年代，到90年代后期，固有的结构主义题型的效度受到了新的交际测试理论的挑战，实际测试中高分低能的测量结果使之越来越受到测试界的批评。新托福考试是基于网络的英语全面能力测试，整个考试过程都在计算机上完成。新托福的最大变化体现在题型设计上的重大突破，借助媒体引入，考试内容基于真实的语言环境，进行了多项考试题型创新，听、说、读、写四部分紧密结合，大大增强了考试的真实性和科学性。开发创新试题是计算机技术介入测试之后的一种优势，多媒体的使用是这种题型的重要特征，图形显示、声音播放、动画和视频等，测试中通过引入这些非文本媒体配合传统的考试题型，增加了情景的真实性和测试的效度，同时测试的内容也得到了扩展。

技术的介入要求重新评估测试的每一个环节。发挥信息技术的潜能，顺势而为，开发创新题型，是普通话水平测试的现实需要，也是现代语言测试理论发展的要求。

3.2 提供诊断服务

提供诊断服务体现了测试个性化的发展趋势。诊断评估和学习指导是语言教学的两个重要方面，在语言学习过程中，计算机可以通过测定学习者的语言能力分布情况，分析其学习过程中的强项与弱项，并为之提供诊断报告，帮助学习者了解语言学习中的具体困难，找到克服困难、解决问题的方法，明确学习方向。这种个性化的服务在最大程度上满足了语言学习者的个人需求，充分发挥了计算机的独特优势。

例如，现代语言测试系统DIALANG就是以欧洲语言共同框架(the Common European Framework of Reference, CEFR)为基础开发的、由计算机传输的大规模诊断性测试系统。DIALANG评估系统包括自我评估、语言测试和信息反馈三大板块，涵盖14种欧洲语言，通过对语言学习者的语言水平进行“诊断性”评价，旨在免费帮助他们了解自己的语言水平。该系统还能分析自我评估与测验结果之间存在差异的可能原因，就如何改进语言能力向学习者提供建议，并努力增强他们对语言学习与能力提高的意识[13]。

一般而言，理想的诊断报告在对被试的应试行为判别的基础上具有一定的预测性。通过判定被试的语言水平、学习心理和认知策略等，为语言教学或学习提供指导。一般的成绩报告重在对过去学习的总结，报告内容多为最后的成绩；而诊断报告的目的侧重于未来学习的方向，报告内容还包含成绩分布、过程参数和认知策略等。此外，诊断报告的个性化还体现为侧重于学习者自身能力的对比分析，将测试与学习融为一体，通过为每个受试者建立评估档案，详细记录每个受试者的每一次的评估结果，让学习者了解自己的学习进步过程，使测试能更好地为学习服务。

3.3 培训、测试一体化

教育因为互联网的日益渗透，形式开始逐步拓展，互联网上的远程学习因其快速、省时、投入少等诸多优点而日渐受到人们的青睐。远程学习中，必将出现基于计算机的远程考试，在这种模式下，基于标准的“机辅测试”将可以嵌入远程普通话学习的课程中使用。

语言测试与语言教学密不可分，普通话水平测试的最终目的是促进普通话的学习和普通话水平的提高，开展普通话水平测试的根本目的就是通过“以测促训”为推广和普及普通话服务。未来可以充分利用网络语音软件或者手机等移动智能终端进行普通话水平测试，利用计算机、网络等现代技术为远程学习者提供学习和培训服务，以更有效地将测试与培训结合起来，并结合诊断服务，对学习者学习过程实行跟踪服务，建立诊断档案，真正实现普通话学习的个性化。

4 结束语

计算机辅助普通话水平测试还处于基于计算机的语言测试发展的初期阶段。现代化成果主要体现为两个方面：一是呈现测试任务的介质由纸张转变为计算机显示屏，二是推进了普通话水平测试评分的客观性。虽然技术的介入使普通话水平测试发生了重大变化，但是现代信息技术还停留于测试形式与方法上的影响。计算机辅助普通话水平测试在应用创新性题型，提供诊断服务，培训、测试一体化等方面还应该有所作为。未来，计算机辅助普通话水平测试的发展取决于两个重要的因素：计算机技术和测试理论的发展。科学技术的进步可以更好地为普通话水平测试服务，但是，“被技术所驱动的语言测试，而不是为语言测试服务的技术，很可能会领我们踏上一条并不美好的旅途”[14]，这句话恰当地表达了现代技术与语言测试之间的关系。“相对于测试本体需求而言，技术永远是第二位的。”[12]157如果普通话水平测试削足适履，为了迎合测试技术的发展来确定测试任务，或者新瓶装旧酒，毫不关心新技术对测试本体的影响，在“语言测试测什么”这一问题的探索上裹足不前，现代化的测试手段反而会成为测试发展的桎梏。

[1]丁瑾靓.从心理学观点分析普通话水平智能测试[J].四川教育学院学报，2010(1)：57-58

[2]韩玉华.计算机辅助普通话水平测试试点地区的调查研究[J].首都师范大学学报：社会科学版，2009(S1)：29-33

[3]雷峻.计算机辅助普通话测试的问题思考及技术对策[J].武汉理工大学学报，2010(13)：160-163

[4]姜岚，张传东，刘洪超，等.PSC计算机评测与人工评测对比实验研究[C]//国家语言文字工作委员会普通话培训测试中心.第四届全国普通话培训测试学术研讨会论文集.北京：语文出版社，2012:214-218

[5]吴静.CTT、IRT和GT三种测验理论之比较[J].黑龙江教育学院学报,2008(12)：77-78

[6]AldersonJ C,Banerjee J.Language testing and assessment：Part Two[J].Language Teaching,2002，35：56-57

[7]张宝钧.简论计算机自适应语言测试的工作机制[J].语言教学与研究,2003(3)：18-24

[8]路鹏.计算机自适应若干关键技术研究[D].长春：东北师范大学理想信息技术研究院,2012:38-40

[9]李清华，孔文.基于计算机的语言测试及其效度验证[J].外语界,2009(3)：68-74

[10]曾用强.计算机化考试的设计模型[J].外语电化教学,2012(1)：26-31

[11]曾用强.计算机辅助英语口语考试研究[M].北京:科学出版社,2011：12

[12]王晖.普通话水平测试阐要[M].北京:商务印书馆,2013