普通话水平测试方法刍议

2017-07-18周梅

合肥学院学报(综合版) 2017年3期

关键词：应试者评测测试方法

周梅

(安徽警官职业学院基础部，合肥 230031)

普通话水平测试方法刍议

周梅

(安徽警官职业学院基础部，合肥 230031)

语言测试方法是实现语言测试目的的途径和手段，测试的有效性和可靠性要求不断改进测试的技术和方法。针对目前普通话水平测试方法的分析及其优点和缺点的探讨，提出在计算机辅助普通话水平测试的实施阶段，改进和发展普通话水平测试所使用的半直接式口试法，既存在现实必要性，也存在技术可行性，以期为保障普通话水平测试的公平有效提供理论支持。

普通话水平测试；计算机辅助普通话水平测试；半直接式口试法

普通话水平测试是一项针对以汉语为母语者的口语测试，主要测查应试者普通话口语应用的准确和熟练程度。普通话水平测试作为一项国家级的大规模的语言测试，也是国家推广普通话的重要举措。实施二十余年以来，测试人次已达5 900多万，为国家语言政策的落实做出了重要贡献。实践证明，普通话水平测试是一项科学的语言测试，其测试工具的有效性与可靠性是语言测试水平的可靠保证，也是永无止境的终极追求。有鉴于此，尝试从测试方法角度探索与分析普通话水平测试的发展方向，无疑具有现实意义。

1 口语测试方法

语言测试方法体现了测试活动对测试原理与原则的运用。一项语言测试的设计，首要问题是为什么测、测什么人、测什么以及如何测的问题。而解决“如何测”的问题，首先任务是确立测试方法，进而选择操作方式，提出相应的环境和设备要求，以及测试活动的组织管理模式，从而构成完备而有效的测试手段系统。

普通话水平测试作为一种口语测试，其方法具体可分为间接法、直接法、半直接法三种。所谓间接法，即笔试法，是通过笔试检测应试者语言运用能力的相关方面，借以间接推论应试者的口语水平。[1]Bachman,L.F.“Problems in Examining the Validity of the ACTFL Oral Proficiency Interview”,StudiesinSecondLanguageAcquisition,vol.10(2),1988:149-164. 例如用“给汉字注音”或“选择正确的读音”等题型对普通话掌握的水平进行测试就属于间接法。显然间接法只能作为辅助的手段，由于其难以检测应试者实际的口语能力，已经基本不再使用[2]柴省三.汉语水平口试信度的理论与实证研究[J].语言教学与研究，2003(4)：70. 。口语测试自然应该直接以口试为主，应试者通过“读”和“说”两种口头表达方式，测试者据以判定其口语的能力和水平。口语测试方法，又可细分为直接法和半直接法两种。直接法是测试者通过和应试者面对面的交流，对应试者的临场表现给予当场评分。半直接法通常借助文字、录音等手段，应试者根据所给出的文字或语音提示接受测试，所有的言语样本均被录音保存，再由测试者根据录音材料进行评分。直接法和半直接法作为口语测试方法，各有利弊，都经常被选择用于语言测试实践中，具体比较见下表1。

表1 口语测试直接法与半直接法的比较

有研究证明，直接法和半直接法两种测试方法具有高相关性，在一定条件下可以相互替代[3]Shohamy，E.，Gordon，D.，and Stansfild，C. 1989. The Development and Validation of a Semi-direct Test for Assessing Oral Proficiency in Hebrew.BulletinofHigherHebrewEducation(4)；Stansfield， C. W. & Kenyon， D. M. 1992. The Development and Validation of a Simulated Oral Proficiency Interview.TheModernLanguageJournal(76)；金艳，郭杰克.大学英语四、六级考试非面试型口语考试效度研究[J].外语界,2002 (5)：72-79.(转引自：王佶旻.汉语口语测试理论与实践[M].北京：北京师范大学出版社，2012：93-94) 。但是，这两种口语测试方法性质仍有所不同，双向互动的、直接式口语测试注重的是测试真实性，即以效度追求为第一位；单向的、半直接式口语测试则是以客观和公平为价值取向，在努力实现效度的前提下更加关注信度的保障。

2 半直接法在PSC中的应用

2.1 “人工测试”方式下对半直接法的选择

普通话水平测试方法属于半直接法，是半直接式口语测试[4]姚喜双，韩玉华，聂丹，黄霆玮，孟晖.普通话水平测试概论[M].北京：高等教育出版社，2011：67-68；聂丹.普通话水平测试研究概说[M].北京：语文出版社，2012：24-25；韩玉华.普通话水平测试发展历程研究[D].中国社会科学院研究生院，2012:34. 。尽管普通话水平测试方法的设计，是应试者直接面对测试员的、二对一(两个测试员面对一个应试者，测试前期也存在过三对一的形式)的口语测试，测试员当场评分，但仍然与直接式、面试型口语测试具有本质的不同。面试型口语测试要求测评人员与应试者共处同一空间环境并与之交谈，或者采取几名应试者互相交谈等方式；测评人员控制话题，在规定情境之下进行会话。而普通话水平测试的测试员实质上是一个虚拟的交际对象，在测试过程中一般不参与应试者的说话进程，只充当倾听者角色，不需要与应试者发生预设的、有目的的互动交际。非必要时(如应试者有背稿、离题或话题无法继续等表现)测试员不会对应试者说话进行主动干预，因此，基本属于单向的、半直接式口语测试。除人工测试外，普通话水平测试的另外两种方式——电脑录音测试和计算机辅助测试，更是体现为一种纯粹的半直接式口语测试。

半直接式口语测试方法是普通话水平测试的现实选择。普通话水平测试是一项规模大、风险高的国家级口语考试，应试人数众多。截至2011年末，年均测试量高达约240万人次；对测试员的需求也随之增加，全国测试员队伍已逐步壮大至5万多名，如此规模在世界测试史上也实属罕见。直接式口语测试虽然效度高，具有交际真实性、情景真实性和语言真实性的优点，但是评测主观性较强，对评测人员业务要求高，既要控制测试程序，又要扮演交际角色，还要担当评分员，身兼数职。因而对大规模的口语测试而言，直接式口语测试可操作性差，评分信度难以保障；同时测试信度的提高和维持也意味着测试人员的培训成本和实施测试的组织成本的增加，面对规模如此宏大的测试，测试方法的可操作性不可避免地成为一个逻辑上的前提。虽然说半直接式口试方法的表面效度不及直接式口试方法，但是其具有操作程序化、评分客观、相对公正等优点，尤其对采用快速评分方式的普通话水平测试而言，更加具有现实意义。

2.2 “机辅测试”方式半直接法的优劣

2007年计算机辅助普通话水平测试(下称“机辅测试”)在安徽、上海两地开始试点，历经10年，“机辅测试”工作已在全国范围内推广开来，人工测试方式基本被评测半自动化的“机辅测试”方式所取代。“机辅测试”以其现代化、信息化的优势扩大了测试规模，有效推进了普通话水平测试工作的进程。“机辅测试”是在普通话水平测试原来的构想框架之下对测试环境与评测工具的改进，只是测试题目的呈现介质由纸质试卷变成了计算机的电子显示，评分方法部分自动化。从语言测试本体的角度来看，人工测试与“机辅测试”两种方式都属于口语测试中的半直接法。

从测试方法角度看，普通话水平测试主要有三个特征：一是主观性。由评测人员对应试者的表现给出正确与否的判断，而这取决于他们对评分标准的主观解释[5]Bachman,L.F.FundamentalConsiderationsinlanguagetesting. Oxford:Oxford University Press，1990.(转引自：王佶旻.汉语口语测试理论与实践[M].北京：北京师范大学出版社，2012：132) 。对评分标准的解释因人而异，导致客观上存在评分的差异就势所难免了。二是序次性。每一次的测试只能针对一个应试者，应试者只能依次分别参加测试，不同的应试者不可能在同一时间、同一地点参加同一测试。三是单向性。进行普通话水平测试时，应试者单向表达，或朗读，或说话，测试者原则上不得参与交谈，只有在测试难以继续或者应试者出现方向性错误时，测试者才能进行适当干预。

2.2.1 “机辅测试”方式半直接法的优点

(1)主观评分客观化，改善了评测信度

口语测试因评分完全依赖于评测人员的主观判断，应试者的水平很难被客观准确地判定，信度保证一直是个难题。普通话水平测试是一项国家级考试，考试结果常常用于选拔人才，社会作用重大，且考试规模庞大，公平是首先要考虑的问题，因此主观性对评分人员、评分方法的稳定性和可靠性提出了挑战。“机辅测试”方式中，第一项“读单音节字词”、第二项“读多音节词语”和第三项“朗读短文”均由计算机自动判分，第四项“说话”题也实现了“测评分离”。计算机判分在某种程度上来说是将主观评分客观化，也就是说，计算机对前三项评分标准的把握是评分的唯一尺度，不再存在评分的差异；“测评分离”也避免了测试员判分因应试者的表现、同行判分结果以及其他环境因素的影响而产生分数波动。可以说，“机辅测试”在很大程度上提升了考试的信度，保障了普通话水平测试的公平与公正。

(2)打破序次性限制，降低了组织管理难度

有别于组队面试和小组面试，普通话水平的测试设计是个别面试。测试的序次性限制了测试的规模，带来了组织管理上的难度。普通话水平测试社会需求量大，全国各地不得不采用由测试中心施测，各应试单位自行组织管理的分工办法，根据应试单位的需求，常年不定期举行测试，并根据可抽派的评测人员的多少限定测试的规模。这种测试方法对测试活动的影响表现在多个方面，如评测效率与评测质量之间的矛盾，测试场地随机性和测试质量控制问题等。与其他考试相比，普通话水平测试无疑更加费时费力，测试管理工作非常艰巨。

而“机辅测试”考点固定，无需评测人员主持测试，测试席位不再受测试人员多少的限制，在很大程度上缓解了大规模测试带来的实施上的压力。同时，人工评测由四项任务减至一项任务，且不再现场评分，评分空间自由，评测人员的安排与组织简单易行，大大提高了测试的效率。

2.2.2 “机辅测试”方式半直接法的缺点

(1)固化了测试的单向性

口语测试的交际模式有多种：(a)单向表达——应试者单方面向测试员报告，测试员仅倾听，如朗读、补全对话、看图说话及口头报告。(b)双向单回合——测试员提问，应试者回答，一个回合一问一答，一个问题一个回合。(c)双向交互式——包括应试者之间的交流，应试者和测试员之间的交流。(d)多向交互式——多个应试者之间的交流。不同的交际模式体现了测试的不同构想和目的。普通话水平测试规模大，单向口试对评测人员而言评测难度相对较低，在测试员信度方面更容易得到保证。但由于主试者和应试者之间缺乏互动，测试的效度也一直存在争议。第三代语言测试建立在以社会语言学为理论的基础之上，“语境论”“功能学说”“语言交际能力”等现代语言观已经使人们逐步认识到，语言成分与语言外在情境越来越难以分离，语境是制约语言运用和语言处理的重要因素。语言无法脱离社会而存在，社会决定语言的变化和发展。语言的功能作用体现为，同一句话在不同的场合下会有不同的理解。交谈是话语的典型方式，互动中最能体现语言运用水平和能力。从某种程度上来说，单向说话是对普通话水平测试效度的制约。

“机辅测试”是将人工测试方式计算机化，试卷“复制”到计算机上，计算机代替了人的主试与部分评测功能，就测试方法而言，仍然是单向作答的半直接法。事实上，“机辅测试”更加固化了普通话水平测试的单向性，由于缺乏测试员面对面的引导，应试者在应试表现方面总体不及人工测试，如缺时、离题明显增多，还有大量考生因为缺乏交流感，或者难以驾驭话题，作答时得不到测试员相应的干预，答题时常常出现卡壳儿现象，难以引发应试者正常的语言表达，而给准确判定其普通话水平带来了难度，测试成绩也受到影响，在人工测试方式中，评测人员的引导在很大程度上可以使应试者避免这种异常的表现，而使得评测结果也更加有效。

(2)扩大了负面的反拨效应

任何一种考试都会产生反拨效应，考生会根据考试的特点采取相应的应试策略。就“机辅测试”而言，因其单向作答、缺乏人工干预等特点，应试者在作答第四项“命题说话”时往往采取很多消极的策略。诸如：有的应试者朗读或背诵事先准备好的文字稿件，而这些文字稿件可以通过网络轻松获取，导致多个应试者测试时说话内容的雷同。有的应试者故意转换或偷换话题，不按照命题的要求自由发挥。有的应试者说话时“字化”现象突出，而计算机目前尚无法识别自然语感，为了减少字音的失误，应试者故意放慢说话速度，以达到较好的评测效果。这些异常表现，无疑严重影响了测试的效度，降低了测试的质量，也对普通话的教学产生了负面作用，削弱了普通话水平测试“以测促学”的目的。为应对这些测试中所出现的负面影响，2009年PSC主管部门教育部语用司下发了《计算机辅助普通话水平测试评分试行办法》(教语用司函[2009]5号，下称《试行办法》)，调整评分标准，加大了对背稿、离题等作答行为的扣分值，藉此来抑制消极的应试策略，而问题并没有从根本上得到改善，种种消极应试现象仍然存在，其中最普遍的是备稿现象。对此，《试行办法》规定测试员应负有举证责任，即当测试员判定此应试者为备稿时，须提交网络地址以供查证。不过这种处理办法也存在疏漏：一是这种文字稿不见得直接复制于网络，而是应试者事先自拟的，即便从听感上可以判断应试者不是在“说话”，而是在“读”或“背”，测试员也无从查证，也只能酌情扣分。二是由测试员负责举证，可谓责任重大，困难重重，何必要迎难而上、知其不可而为之呢？可见半直接法在“机辅测试”中对第四项的评测未必行之有效。

3 普通话水平测试方法的改进策略

英国著名语言测试学家奥尔德森(Alderson)说过：“一切测试都是妥协(compromise)。”(见于其1988年在英国Lacaster大学一次语言测试研讨会上的发言)[6]桂诗春.语言测试：新技术与新理论[J].外语教学与研究，1989(3)：2；李筱菊.语言测试科学与艺术[M].长沙：湖南教育出版社，1997：47. 当然，妥协只是面对现实的一种无奈，是在选择上的折中，而并不意味着止步于此。比较、检验、选择和改进测量的技术和方法，是普通话水平测试的一个重要研究内容。随着现代信息技术的发展，越来越多的语言测试选择了计算机考试，是不是意味着在接受半直接法测试高效性的同时也不得不忍痛接受其效度的制约呢？事实并非如此悲观，我们既可以利用计算机自动评分、评测分离等的优势，也可以借助人机互动改进题型以规避其弱项。也就是说，计算机技术的进步，完全可以弥补传统考试单向性作答的缺点，从而进一步发展半直接式口语测试法。

对单向作答的改进，实质上是可以通过人机互动提高测试的真实性。“真实性”是语言测试的核心问题，是指“特定测试任务的特征与目标语使用任务特征的一致性程度”[7]Bachman L.F,Palmer A.S,LanguageTestinginPractice[M],Oxford: OUP,1996:43-59. 。因为应试者更愿意接受接近真实语境的语言测试，其应试表现与参与意愿会更为积极；测试与非测试语境一致性程度越高，得出的结果越有利于准确推测出被试的语言能力；同时真实的语言测试，对教学的反拨更有助于学生选择可以提高他们语言能力的真实的语言材料[8]李清华.论交际测试中的“真实性”[J].外语界，2001(6)：68. 。国际语言测试一致认为：真实性是保障一个好的考试的重要原则[9]汪顺玉，彭康洲.语言测试真实性维度的再认识——兼谈考试效度的诠释[J].重庆工学院学报，2009(8)：125. 。真实性并非要求测试情景与生活中使用语言的非测试情景完全一致，只要测试任务具有目的语使用的主要特征，测试就是真实的。试以下面这套剑桥英语水平考试的口试试题为例，来加以说明：

情景：

1.你的车拿去汽车修理站修了，第二天当你开出去的时候，同样的故障又发生了。回到修理店你会怎么说？

2.你正在观看一场精彩的足球比赛，在最令人激动的关头，一个大块头在你面前晃来晃去。你会对他怎么说？

3.你生病在家，朋友过来照看你，你非常感激，你会怎么说？

4.你答应了孩子们去野餐，可是到了那天你发现不可能去了。请向你的孩子们表达歉意并解释去不了的原因。

5.你买了一只宠物狗，因为它在商店橱窗里看着实在太可怜了，但是你知道你的丈夫或妻子不喜欢小狗。你回到家后怎么跟他(她)说呢？

这套题给应试者提供了5个不同场景，可以选择其中3个作答。5个场景，要求应试者扮演五种不同角色：顾客、观众、朋友、父母、夫妻。双方的关系有亲疏之别，说话的态度与目的也各有差异，涉及的话题也不同，因此交际策略也肯定不一样[10]刘润清,韩宝成.语言测试和它的方法[M].北京：外语教学与研究出版社，1991：166-167. 。这套题虽然采取单向陈述的形式，测试人员不参与交流(虽然这是一个直接式口试试题中的一部分)，但是应试者和话题之间的关联层次非常丰富，场景、角色、说话的目的等等共同构成了接近真实的生活情景，应试者和任务之间就产生了较强的互动作用，测试仍然具有真实性，效度也很高。

由此可见，通过试题的设计，可以较好地实现单向口试的真实性。计算机技术对试题的编制更是提供了更有力的条件，通过多媒体提供的声音和图像模拟交际语境，能够使应试者在仿真的交际环境中完成测试活动。2006年开始在我国实行的新托福网考，其口语测试就是一个成功的半直接式口语测试。新托福网考模拟了北美大学课堂活动与校园生活，测试任务分为：任务一，表达个人喜好和个人经历；任务二，阐述所选择的问题；任务三和任务四，结合设置语境的阅读材料和听力材料回答问题；任务五和任务六，以听力材料为基础，回答相关问题，听力内容一般与校园生活情境和课堂学术讲解有关。新托福口语测试的目的重在测试应试者在北美校园生活的语言能力，以及参与课堂学术活动能力，考试任务和应试者将要面对的真实语言生活一致性很高，和任务之间互动性很强。所以，新托福口试尽管是单向的半直接式口试，但借助于多媒体技术，成功地引出应试者有效的口语输出，大大提高了测试的真实性。

4 余论

关于普通话水平，学界存在不同理解。一种观点认为普通话水平是运用普通话口语形式进行交际的能力[11]李宇明.关于普通话测试的思考[G].上海市普通话培训测试中心.普通话水平测试研究.上海：上海教育出版社，2002 ：2-3；李海英.普通话水平测试(PSC)的社会语言学阐释[M].济南：齐鲁书社出版社，2005：72-84；朱丽红.PSC中“说话”项的题型分析和改进建议[G].国家语言文字工作委员会普通话培训测试中心.第二届全国普通话水平测试学术研讨会.北京：商务印书馆，2006：141-143. ，另一种观点偏向于普通话的规范度和标准度[12]仲哲明.普通话水平测试若干问题的讨论[J].语言文字应用，1997(3)：5；聂丹.普通话水平测试研究概说[M].北京：语文出版社，2012：167；刘慧英.普通话水平测试性质之我见[J].呼伦贝尔学院学报，2004(1)：71-72. 。对普通话水平的不同理解与测试目的息息相关，关乎测试的评价维度的设计与安排。但是，不管如何理解普通话水平的含义，用什么样的方法可以诱导出被试的真实的语言是测试的根本前提。客观的测量需要以真实的语言为样本，只有“活”的语言才能体现出被试语言能力的内化程度。“从考试的角度来讲,考试任务必须能够诱导出考生正常的、自然的语言行为,否则就不真实。”[13]Spolsky B.“The limits of authenticity in language testing”,LanguageTesting,vol. 2(1), 1985:31-40.

[责任编辑王玉宝] 双向会话或单向说话只是测试在表面效度上的差异，应试者和任务之间的互动程度对测试真实性的论证具有同等甚至更重要的价值。那么，在半直接式口语测试中，任务的设计就显得格外重要。良好的测试方法，应该包括两个方面的素质：一是能够测出想要测量的语言能力，二是切实可行。历经二十多年的实践检验，普通话水平测试在科学化、信息化、现代化的道路上稳步发展。计算机技术不仅为测试实施带来了极大的便利条件，对测试方法的改进也将大有作为。真实性应该是语言测试科学性的一方面反映。在普通话水平测试及其发展规律的研究中，需要站在更广阔的视角，借助语言观、语言学习观以及语言测试观的发展和语言测试理论的研究成果，进一步认识普通话水平测试。半直接式口语测试法对普通话水平测试而言，并非不合时宜。从测试任务着手，借助于现代技术完善题型设计，应该是解决目前测试形式对应试策略所带来的负面反拨作用、进一步提高测试效度的根本途径。

[1] Bachman,L.F.“Problems in Examining the Validity of the ACTFL Oral Proficiency Interview”,StudiesinSecondLanguageAcquisition,vol.10(2),1988:149-164.

[2] 柴省三.汉语水平口试信度的理论与实证研究[J].语言教学与研究，2003(4)：70.

[3] Shohamy E，Gordon D，and Stansfild C. The Development and Validation of a Semi-direct Test for Assessing Oral Proficiency in Hebrew[J].BulletinofHigherHebrewEducation,1989(4).

[4] 姚喜双，韩玉华，聂丹，黄霆玮，孟晖.普通话水平测试概论[M].北京：高等教育出版社，2011：67-68.

[5] Bachman,L.F.FundamentalConsiderationsinlanguagetesting. Oxford:Oxford University Press，1990.(转引自：王佶旻.汉语口语测试理论与实践[M].北京：北京师范大学出版社，2012：132)

[6] 李筱菊.语言测试科学与艺术[M].长沙：湖南教育出版社，1997：47.

[7] Bachman L F,Palmer A S,Language Testing in Practice [M],Oxford: OUP,1996:43-59.

[8] 李清华.论交际测试中的“真实性”[J].外语界，2001(6)：68.

[9] 汪顺玉，彭康洲.语言测试真实性维度的再认识——兼谈考试效度的诠释[J].重庆工学院学报，2009(8)：125.

[10] 刘润清,韩宝成.语言测试和它的方法[M].北京：外语教学与研究出版社，1991：166-167.

[11] 李宇明.关于普通话测试的思考[G].上海市普通话培训测试中心.普通话水平测试研究.上海：上海教育出版社，2002 ：2-3.

[12] 仲哲明.普通话水平测试若干问题的讨论[J].语言文字应用，1997(3)：5.

[13] Spolsky B.The Limits of Authenticity in Language Testing[J].Language Testing,vol. 2(1), 1985:31-40.

[责任编辑王玉宝]

On Measure of Putonghua Shuiping Ceshi (PSC)

ZHOU Mei

(Department of Basic Courses, Anhui Vocational College Of Police Officers, Hefei 230031, China)

Language testing measure is a mean for language testing. The validity and reliability require continuous improvement of technology and method. This paper discusses the advantages and disadvantages about measure of PSC. At the present stage of implementing computer-assisted PSC，there are necessity and feasibility for technology to improve semi-direct oral test and ensure its fairness and effectiveness, which will provide theoretical support for PSC.

Putonghua Shuiping Ceshi (PSC); computer-aided PSC; semi-direct oral test

2017-04-05

2017-05-05

国家社会科学基金青年项目“汉语口语测试任务难度研究”(11CYY027)。

周梅(1968— )，女，安徽蚌埠人，安徽警官职业学院基础部副教授，博士；研究方向：普通话培训与测试、媒体语言学。

H102

2096-2371(2017)03-0065-06