机辅测试对普通话测试活动的影响及发展方向探讨

2014-04-04朱丽红

三峡大学学报（人文社会科学版） 2014年1期

朱丽红

(教育部语言文字应用研究所，北京 100010)

一、计算机辅助普通话水平测试是自身发展需要与信息技术时代相结合的产物

从20世纪中叶开始，以计算机和互联网为代表的现代信息技术进入飞速发展时期，现代信息技术对语言测试与评估也产生了巨大影响。在语言测试领域，从20世纪60年代开始，大规模计算机已经用来对测试数据进行分析、保存测试题库以及提供测试结果报告。20世纪80年代以来，传统的基于纸笔的语言测试(Paper-and-Pencil Based Language Testing, PBLT)向基于计算机的语言测试(Computer-Based Language Testing, CBLT)迈进。CBLT由机助语言测试(Computer Assisted Language Testing)发展到计算机适应性语言测试(Computer Adaptive Language Testing, CALT)，并且向基于网络的个性化自适应性语言测试(Web-Based Individualized Self Adaptive Language Testing)发展[1]。

一些知名的大规模语言测试将传统的纸笔测试逐渐发展为电子化测试。托福(the Test of English as a Foreign Language，TOEFL)从1998年7月起逐渐从传统的纸笔方式转变成电脑方式，新TOEFL在2006年全面实行机考。2008年，全国大学英语考试首次采用和TOEFL一样的上机考试的形式。普通话水平测试(Putonghua Shuiping Ceshi，PSC)从1994年开始实施，其酝酿、产生、实施和发展的过程，正处在这样的技术条件和学科发展背景下。

普通话水平测试本身具有级别高(唯一的国家法定的语言测试)、规模大(已累计测试4000万人次)、风险高(测试结果影响到应试人的未来命运和发展)的特点，现代信息技术为测试工作的顺利、高效运转提供了技术保障。因此，与其说计算机辅助测试是信息化的时代特征和语言测试学科发展趋势的倒逼，倒不如说是普通话水平测试自身的需要与信息化时代的外部条件相互应和的良好结果。

2002年，“计算机辅助普通话水平测试”(以下简称“机辅测试”)作为重要的研究方向列入国家语委“十五”科研规划。经过不断的资源整合和技术改进，经教育部语言文字应用管理司批准，从2007年1月起，机辅测试及其信息管理系统应用于国家普通话水平测试的试点工作先后在安徽、上海等省(区、市)开展试点。至2011年底，全国已有28个省(区、市)开展了机辅测试试点工作，其中10个省份已经全部实行机测；全国通过机辅测试完成普通话水平测试的人员突破700万人次①。按照主管部门的工作计划，争取在2012年底国家普通话水平测试全部实行计算机辅助测试，测试信息全部实现计算机系统管理②。普通话水平测试信息化建设的步伐和成果可以说后来居上，不落后于大规模语言测试发展的潮流。目前所说的“计算机辅助普通话水平测试”包括了评测系统与信息管理系统两大部分。

二、计算机辅助普通话水平测试对测试活动带来的变化和影响

1.对效率与公平的保障

在普通话水平测试的人工测试阶段，测试现场一般有2-3位测试员与一名应试人面对面，现场录音、现场评分，一个应试人完成全部测试大约需要10-15分钟。这样的测试形式不可能有很高的效率，面对每年几百万人次的应试需求，提高效率仍是测试工作迫切需要解决的问题。采用机辅测试以后，信息管理系统实现了从考试报名到测试安排、证书方法、结果统计等全程的计算机化和网络化，大幅减少了考务管理的人力和物力，一个测试站一天最多可以完成800人次的测试，这在人工测试阶段是难以想象的。由于评测系统实现了对普通话水平测试读单音节字词、读多音节词语和朗读等三项测试内容的机器自动评分，测试员只需要对第四项进行评测，大大提高了整体评测效率。

有人把测试成绩的客观公正称为“语言测试的黄金法则”[2]，由于普通话水平测试的高风险性，对评测公平公正的追求就更为重要。为保证测试员评测信度，国家及各省级普通话培训测试机构已经培训了5万余名测试员。但是，不管这支队伍如何勤勉敬业、甘于奉献，远距离、长时间的人员调配对测试组织方来说仍然是一个难题。另外，普通话水平测试本身具有主观性测试特征，长时间的高强度工作造成精力下降、难以摆脱的人情世故等主客观因素使得测试员评分信度易受影响。采用机辅测试以后，测试员在网络环境下只对第四项进行评分，效率提高的同时也大大降低了劳动强度。计算机和网络化的匿名评测帮助测试员有效地抵制了人情风，更好地做到公正评测。

2.对测试工作相关要素的影响

姚喜双把普通话水平测试活动中的各种要素分为四大类：测试主体、测试对象、测试依据和测试手段[3]。测试活动的四要素是一个密切联系、相互作用的系统，机辅测试改变了普通话水平测试的测试手段，而测试手段作为测试活动中最为活跃的一个要素会直接影响到其他要素。

(1)对测试主体(测试员)的影响。一方面测试员工作量减少，劳动强度降低。机辅测试以后，测试员只需要对“命题说话”项进行评测，评测一个音档只需要3分钟，还可以相对自主地安排评测时间，这些都有利于降低疲劳效应，保证评测的准确性。另一方面，机辅测试对测试员提出了更高的要求。测试员必须具备一定的计算机操作能力和评测系统的应用能力，没有了应试人前三项成绩的参照、失去了与同组测试员现场讨论交流的机会，对测试员的独立作战能力要求更高。

(2)对测试对象(应试人)的影响。机辅测试以后，试题的呈现方式发生变化，由纸质试卷变成了计算机屏幕显示，还需要带着耳机对着话筒录音，应试人的视听感知能力差异可能导致测试时不同的焦虑水平。这就要求应试人具备一定的计算机操作能力，还要能有效地控制面对机器的心理焦虑水平。此外，在机辅测试中，由于缺少了测试员的现场干预，第一项(读单音节字词)和第二项(读多音节词语)的重复问题、说话过程中的无话可说、离题、背稿、时间不足等问题就没有人在现场提醒和干预，需要应试人测前更加全面地了解普通话水平测试的应试要求和评分标准。

(3)对测试依据的影响。机辅测试对现行《普通话水平测试大纲》(以下简称“大纲”)的影响最为明显。现行《大纲》于2003年颁布，机辅测试尚未开展试点，更没有形成今日的规模，关于机辅测试的内容并未写入其中。以评分标准为例，在机辅测试试点过程中发现，由于测试手段对测试对象的影响，应试人在“命题说话”中出现了背稿、内容雷同、无效话语等现象，这些项目并未体现在现行《大纲》的评分标准中，根据工作需要，主管部门另行制订颁布了《计算机辅助普通话水平测试评分试行办法》供各地执行③。机辅测试的推行对《大纲》以及相关的管理文件提出了配套的要求。

三、计算机辅助普通话水平测试仍需关注的几个方面

1.继续推动效率与公平

考务管理部门对信息管理系统提出了多样化的需求，比如有的测试站希望能直接使用学生管理系统或教务管理系统中的有关信息，有的管理机构希望增加财务管理方面的功能。在使用目前国家规定的信息管理的基础上，一些测试机构进行了报名程序、照片采集程序、监考程序、测前培训、语音信息库等软件系统的开发与建设。目前的系统是否可以在核心功能之外，给不同用户在一些边缘功能上预留比较方便的接口？一套系统满足所有用户的需求不太可能，也应当考虑在切实满足多样化需求的同时避免重复建设。

计算机自动评测是计算机辅助普通话水平测试真正的亮点和核心。从理论上说，只要测试程序正常，在0～100分范围内的成绩都能得到体现，但是目前普通话等级为一级甲等(97分)以上、三级乙等(60分)以下的分数段在机辅测试中几乎没有出现，其中的影响因素和具体原因虽然还有待深入分析，但也凸显了进一步改进机辅测试评测系统的必要性和紧迫性。

2.继续探索“朗读短文”和“命题说话”项的自动评测

“朗读短文”和“命题说话”两个测试项的分值分别为30分、40分，合起来占到总分的70%，是测试的重头戏。目前，机辅测试的评测系统在对“朗读短文”的评测中对普通话语调层面和流畅程度的评测基本没有涉及，而“命题说话”这一普通话水平测试中分值最重的测试项目，是目前唯一还在采用人工评分的测试项目。因此，目前机辅测试的评测系统只能说是实现了部分的智能化评测。

国外语言测试对说话和写作这类综合性主观题的机器自动评分有一些积极尝试和努力。为尽量保证测试评分的准确性和一致性，托福目前采用人工评分和自动评分相结合的办法，人工评分主要评测作文的内容和意义，自动评分主要对语言特征进行评分[4]。作为汉语母语的口语测试，普通话水平测试“命题说话”项的自动评测的必要性、可行性和技术手段也还值得探讨。

3.努力为改进普通话教学提供服务

在人工测试阶段，普通话水平测试的评分系统采用的是分离式评分，测试员对各测试项的各个评分项目分别进行评分，这样的评分结果能够反映应试人究竟在哪些测试项的哪些评分项目上存在不足，而机辅测试的评测系统目前只能提供前三项总体的得分，没有细化到各测试项，而且关于语调和流畅程度要素的评测是缺失的，对应试人准备下一次测试和真正改善学习情况来说，这些信息就显得非常有限了。

让学习者得到测试的反馈信息，能够帮助学习者有针对性地改进学习。在欧洲语言共同框架CEFR(the Common European Framework)的基础上开发的DIALANG是由计算机传输的大规模自我评估和诊断性测试，为语言学习者提供欧盟14种语言学习的自我评估和诊断结果[5]。我国也已经在技术上能够做到为应试人提供语音诊断信息，但是这套系统目前是独立于计算机辅助普通话水平测试系统之外运行的，如果应试人能够在参加完测试之后不仅拿到等级证书，还能拿到一份诊断说明，接下去的学习就有了更明确的方向，对学习者来说真是功莫大焉。

此外，测试手段的变化使得人们思考一个关于语言能力的理论问题。在信息化时代，计算机操作能力真的与语言能力无关吗？计算机作为交际活动的参与方，人与机器实现互动似乎也是大势所趋，交际语言能力是不是需要考虑到语言与技术的结合？在学习方面，“信息技术作为影响学生学习的重要因素，以一种具有时代特征的物化文明为实体而‘无缝嵌入’现代学习活动之中，是人类技术的外在表现，使现代学习的外在表现形态发生了不同以往的变化”[6]。因此，机辅测试带来的改变也许不仅是测试手段的现代化，还包括对语言能力的认识。

4.为整体上改进和完善普通话水平测试提供更多支持

普通话水平测试在实践中不断改进和完善，有些具体问题需要一些实证。比如，有人提出现有测试内容是否可以精简，因为这样可以缩短测试时间、降低测试成本。现在机辅测试的评测系统能否提供数据来证明根据多少测试内容就可以对应试人的普通话标准程度和规范程度做出准确的评测？再比如测试时间，普通话水平测试对每一个测试项都设置了时限。实际测试中，有人读得快，有人读得慢，网络环境下统一发放试卷的话就会存在等待现象，系统记录是否能够给出建议，这样可以把时限设在最合适的区间。

在语言测试的发展进程中，测量学上的项目反应理论(the Item Response Theory，IRT)与计算机技术的结合，催生了新一代语言测试形式——计算机自适应性测试(Computer Adaptive Testing, CAT)，这种测试形式基于应试人对当前问题的答题情况自动为每位应试人选择出下一道被认为是最适合其语言能力的试题，能够刺激应试人发挥最佳水平，从而更加准确地评测应试人的水平。如果按照这个方向发展，机辅测试应当另有一片天地。

四、结语

在第二届全国普通话水平测试学术研讨会上，时任教育部语言文字信息管理司司长的李宇明教授曾描绘了普通话培训测试现代化建设的蓝图，他指出：“普通话培训测试手段的现代化，就是利用计算机、互联网及相关的现代技术设备，使普通话培训测试工作从管理、测试、培训到研究都实现现代化。”[7]在这幅蓝图中，前两个方面已经在目前的计算机辅助普通话水平测试系统中基本实现，多媒体的远程培训课程还主要是自发的探索和小范围的应用，利用计算机建立关于普通话培训测试的知识库和用于普通话培训测试研究的语音数据库以及对这些数据库的开发利用更是有待加紧进行。

Carol. A. Chapelle & Dan Douglas指出，计算机辅助语言测试存在六个威胁：不同的测试表现(different of test performance)、新任务类型(new test types)、自适应题目选择的局限(limitations due to adaptive selections)、自动反应评分的非准确性(inaccurate automatic response scoring)、折中的安全性(compromised security)以及可能的负面效果(negative consequences)[8]。尽管存在这些威胁，现有的研究并没有发现因这些威胁不可克服而使得计算机辅助语言测试比其他测试更值得怀疑的证据。相反，一些由计算机辅助语言测试推动的研究领域可能反过来对语言测试产生有利的影响。换一个角度来说，越是高精尖的技术手段对人力素质的要求越高，要想利用先进的技术条件实现语言测试的目标，语言学(包括语言教学和语言测试)、测量学和技术等有关方面需要形成跨界联盟，共同实现语言测试的新进展。

注释：

① 数据来自教育部语言文字应用管理司发布的《语言文字工作十年成就》，见http://www.moe.edu.cn/publicfiles/business/htmlfiles/moe/moe_807/201301/146436.html。

② 教育部语言文字应用管理司函[2010]72号文件。

③ 教育部语言文字应用管理司函[2009]5号文件。

参考文献：

[1] 孔文，李清华．基于计算机的语言测试及其效度验证[J]．外语界，2009(3)：66-73．

[2] 桂诗春．语言测试的黄金法则[J]．外语测试与教学，2011(1)：6-8．

[3] 姚喜双，等．普通话水平测试概论[M]．北京：高等教育出版社，2011．

[4] TOEFL官方网站．TOEFLiBT：about the Test[EB/OL]．[2013-05-24]．http://www.ets.org/toefl．

[5] Council of Europe. Common European Framework of Reference for Languages: Learning Teaching, Assessment (CEFR)[EB/OL]．[2013-05-24]．http://www.coe.int/t/dg4/linguistic/CADRE_EN.asp．

[6] 李芒．学习生存性视域中的信息化学习方式[J]．北京师范大学学报：社会科学版，2007(5)： 38-43．

[7] 李宇明．论普通话培训测试手段的现代化[C]//第二届全国普通话水平测试学术研讨会论文集．北京：商务印书馆，2006：1-8．

[8] Carol. A. Chapelle，Dan Douglas．计算机技术条件下的语言评价[M]．北京：外语教学与研究出版社，2010．