从“人机共生”看PSC智能语音测试系统的信度、效度与影响

2013-03-07陈红燕

江淮论坛 2013年6期

关键词：语域评测人机

陈红燕

（合肥学院中文系，合肥 230061）

从“人机共生”看PSC智能语音测试系统的信度、效度与影响

陈红燕

（合肥学院中文系，合肥 230061）

2007年后PSC智能语音测试系统逐步推行，在各个方面取得了较大改善。但伴随推行范围进一步加大，其智能性、准确性与社会影响越来越激发业内深层思考。客观评价PSC智能语音测试系统；创造“人机共生”环境，人工参与语音测试，尽可能确保各级语音评测的精准度；普及汉语口语标准度和规范度的社会共识；建立动态发展的大容量语料库以资评分参考，不断提高母语测试系统的信度与效度，是完善汉语标准语语音测试系统的必经之路。

人机共生；智能语音；信度；语域；效度；动态语料库

一、“人机共生”与PSC智能语音测试系统

1．“人机共生”概念与研究现状

20世纪50年代，计算机开始被用于智能研究。1960年，美国科学家立克里德指出：“人机共生是人与电子计算机之间合作性交互被期盼的发展。它将涉及伙伴关系中人与电子成员之间非常密切的耦合。”与立克里德对人机交互关系的乐观态度相反，1960年，Bar-Hillel对理论基础项目强烈不满，特别是那些研究中间语的方法，他还证明了全自动高质量翻译（FAHQT）在原则上的不可行性。他拒绝所谓的FAHQT这样的理想目标，提倡开发基于计算机的翻译系统，为人类译员提供帮助，即所谓的“人机共生”环境，将机器发展为人工的最佳助手。

“人机共生”概念从出现至今，相关研究充分证明了Bar-Hillel主张的人工为主导、计算机为辅助这一观点的正确性和现实意义。立克里德盼望的人机之间密切耦合远未实现。以机器翻译为例，上世纪50年代和60年代，机器翻译研究者碰到的语言问题比他们预想的要多得多，研究结果令人失望。1966年美国语言自动处理咨询委员会建议有关FAHQT的机器翻译研究应该停止，研究人员的注意力应该转向为翻译人员提供水平比原来所定的高目标要低一些的辅助系统。上世纪90年代至今，机器翻译得到改善，但除天气预报、旅游等窄领域外，通用意义上的机器翻译产品仍不实用，译文质量远不能达标。目前，国内外自然语言翻译公司多数仍以人工翻译为主，机器为辅。

2O世纪末，语言测试越来越多地使用计算机技术，语言测试的方法和手段发生了根本性变化，计算机辅助教学以及电脑化测试手段开始逐步普及，并使得语言学习和语言测试的许多方面都得到了发展。计算机在语言测试中的应用主要体现在题库建设、计算机辅助语言测试以及计算机自适应语言测试等方面。然而，鉴于现阶段技术瓶颈，计算机给出的测评结果仅供参考，不能作为语言能力测评的唯一标准。

“人机共生”研究与应用，体现研究者致力于实现计算机技术的最大辅助功能、不断缩小人机之间差距的努力。自上世纪50、60年代以来，研究者和使用者对其应用价值的审视越来越客观，不再过度理想化设定目标，而是致力于人机交互应用性与科学性研究，研究的应用价值由误差率大小和使用者对误差的容忍度来决定。

2.PSC智能语音测试系统与应用现状

2004年11月安徽中科大讯飞信息科技有限公司承担“智能语音技术在普通话辅助学习中的应用研究”项目，研究目标为在普通话水平测试规程的指导下，建立实用化的计算机辅助智能测评系统，将计算机辅助测试和语言学习系统结合起来，初步建立比较完善的智能普通话口语学习系统，2006年1月18日项目通过国家鉴定。2007年普通话计算机智能化测试系统（以下简称“机测”）开始使用并逐步推行。以2010年为例，全年参加机测的人数逾160万人次，占当年测试总人数的50%以上。

机测系统承续了人工测试时期的目标，旨在以测促推，从测试过程、测试结果、成绩发布等各个方面试图以其高效、公正、客观促进普通话推广。“机测的推行使得普通话测试逐渐从繁重的人工劳动中解脱出来，从报名、评测到归档均大大提高了效率。机测也使得测试的公平性得到了极大保证，一定程度上也保证了结果的准确性。科大讯飞公司经过一年多的技术攻关，项目研究取得了突破性的进展，在全国主要方言区进行的现场人机测试对比结果表明，计算机测试的结果在分数和等级上已经达到了和高水平测试员高度一致的水平。 ”

机测从2007年推行至今，其成果有目共睹，但也存在许多值得业界探讨的问题。本文有鉴于PSC机测系统的应用与发展，从“人机共生”的角度分析该系统的信度、效度与深层影响。无论是人工还是机测时期，高校在校生都是受测主体，高校生的测试数据具有一定代表性，因而本文数据主要采用安徽某高校的大学生测试数据。

二、PSC智能语音测试系统的信度、效度与影响

2005年Bachman提出的 “评价使用论证”是测试学界非常有影响力的理论模式。 Bachman认为，有用性是测试的重要性质，包括信度、效度、真实性、交互作用、影响、可实践性六大属性。

1．信度与PSC智能语音测试系统

信度是指测试结果受随机误差影响程度的指标。高信度是高效度的前提。

目前，学界对PSC智能语音测试系统中高分段的机测结果存在较大争议，主要体现在：（1）等级越高，测试差异越大；（2）机测前三项对自然度、贴合度、表现力没有评价；（3）前三项与第四项评分割裂，导致第四项评分容易过细过严。这些因素都会直接导致一级以上的通过率很低。

笔者（国家语委普通话培训测试中心核定成绩为一级甲等）曾经上机测试前三项，机器给予的分数只有55分左右，如果结合第四项评分，最终成绩至多达到一级乙等中低分段。“从2008年11月到2009年2月期间，对该系统做过多次试验：请不同时期、不同年龄段、以及不同性别的已经获得过国家语委普通话培训测试中心认定的一级甲等成绩人员来进行试验测试。”“同时为了减少其他因素的影响，试验人员事先全部都对测试试卷前3题的正确读音进行过正音。结果前3题测试完之后，机器打出的分数最高的为57.2分，最低的为53.8分。按照这样的结果，即使应试人最后一题只扣一分，最终成绩都达不到一级甲等。”

由于测试结果与实际听感差异大，考生对考试结果质疑也越来越大。以表一、表二为例，无论是否接受过培训，一级乙等以上的通过率都极低。一级通过率严重影响应测者普通话学习的积极性，对普通话的使用和进一步推广很不利。

2．效度与PSC智能语音测试系统

效度是 “对测验分数所做的特定推论在恰当、有意义以及有实际实用价值几个方面的程度”。在语言测试领域，效度比较多地被理解为测量理论、构成和分数有效。

PSC智能语音测试系统重点测评受测人的语言标准度，涉及字音准、词音准、句音准、语篇音准。机测系统不仅测评音准，对词汇、语法、语用能力也有一定的要求。

PSC智能语音测试系统的效度主要体现在对受测人口语测验的分数推论较为妥当，在语言使用能力上也具有一定的促进作用。但值得斟酌探讨的是，当话语表达发展到语篇阶段时，语篇的语域风格与说话人的表达策略使得语流出现多种音变，停顿、重音、语气、连贯等均对音节音准产生较大影响。以第三项朗读的语篇为例，机器只能标注出显性音变，而对于因语域风格与表达策略造成的隐性音变不可能也无法处处设定评测标准。第四项说话题的语料则由于过于开放，机器无法完成评测，只能交给人工，而由于人工与机器测评的连贯性被切断，对有限语料的独立评测（说话项时长3分钟）容易造成评分过苛，影响总分的客观性。

3．真实性、交互作用与PSC智能语音测试系统

语言测试中的真实性是指受试者在测试中使用目标语完成测试任务与其在现实生活中使用语言进行交际活动的相似程度，也就是语言测试与语言交际的统一程度。交互作用是指受试者与测试内容和过程的关系。最主要的是受试者的语言能力、专门知识和情绪。

以PSC智能语音测试系统第四项评测为例，第四项主要测试完全独立的话题性单向口语表达，其特点为：单向表达、无人工引导与提示、围绕选定话题展开表述、表达流畅自然。以上与日常生活中的口语表达差异甚大。日常口语基本是双向或是多向交流，话题可以散漫无拘束，表达无需流畅性，达意即可。因而，评测出现以下几种现象：一是因不了解、不适应这种表达方式，受测人在第四项中会出现诸如缺语、重复、语言表现僵硬呆板等诸多问题，有些受测人因此错误使用背稿、朗诵、读秒等应试方式。二是受测内容与受测人日常交际口语内容相去甚远，受测人对语言标准与语言应用能力概念的认知与掌握存在较大差距。因此，近些年很多受测者表现出口语篇章能力薄弱，话题涣散、框架紊乱、词汇贫乏、言之无物。三是由于机测评分体系已经智能化，全程只由程序提醒受测人测试内容，受测人在测试过程中缺乏心理调适与语言引导，情绪容易紧张，不少测试点出现过很多受测人迟迟不能进入系统进行测试的情况。四是受测人因不了解评测方式，在各项中出现不同的问题。

4．影响、可实践性与PSC智能语音测试系统

“影响”指对社会、教育制度以及个人的影响。“可实践性”指测试付诸实施的方法。

PSC智能语音测试系统实施影响上文提及高效、公平、客观等积极效用，“系统基于国家普通话水平测试大纲，可准确地对考生命题说话之外的所有测试题型进行自动评测，并可以自动检测发音者存在的语音错误和缺陷，对使用者高效提升普通话口语水平具有积极的指导意义。该系统应用于国家普通话水平测试当中，不仅可以提高普通话水平测试效率、降低测试成本和组织难度，同时也可以开展目前无法开展的考前模拟测试，为考生提供针对性的考前指导。”

除却积极效用外，PSC智能语音测试系统也存在一些负面影响：

（1）评测研究趋弱，评测专家流失。一是机测前三项不需要测试员评分，使得第四项人工评分缺乏前后比对依据。二是测试员独立听测，又不能占有考生语料，因而无法就一个语料展开评测交流。三是因语料匮乏、研讨稀少，测试员尤其是专家测试员流失相当严重，对普通话测试研究是极大的损失。

（2）母语标准模糊，应试趋于功利。机测时期高校受测者语言标准度较人工测试时期明显提高。为便于考生参考，各省市级语言文字管理部门的网页上都对考试流程做了比较详细的说明。因而，主测单位、考生、考生所属单位都普遍认为考前培训并不重要。以安徽省某高校09年受测情况分析为例：

表一：受测总人数324人，教育系，未经考前培训

数据显示，在校大学生即使未经普通话培训，拿到合格证书也并非难事。因此，普通话培训工作难以得到考生重视，很多考生对标准母语的认知很模糊，仅凭语感应考。

Bachman提出“反溅作用”，指测试对教育、主管部门、社会评价及个人等的反作用力，比如以考试为准绳制定教育策略与评价标准等。由于机测系统测评语言标准化，对连续语流中的隐性音变无法逐一标注，语音的语用效果不能在成绩上有效体现，因而，部分受测人会放弃语用效果，刻意强调音准，追求分数最大化，部分受测人也会因追求表达的流畅、话题的完整性而背稿应试，这种现象屡禁而不能止。

近年来，市场在不断提高对人才能力的需求，在校大学生对语言沟通能力的重视程度也越来越高；考生也认识到普通话测试等级与语言能力并不构成正比关系，拿到了较好的普通话成绩，不一定就具备良好的自我表达和沟通能力。既然普通话考试并不能代表实际语言使用能力，受测者参考目的仅为获得证书，迎合体制，这种功利性应考趋势严重限制甚至削弱了普通话测试的社会影响力。

三、“人机共生”环境构成分析

鉴于上文对PSC信度、效度以及影响的分析，本文认为，理性评价PSC智能语音测试系统，建构“人机共生”测试环境，机测与人工相互辅助，是PSC测评系统进一步完善的必要途径。建构良好的“人机共生”环境，可由以下策略实现：

1．机测与人工分级并行。囿于现有技术水平，机测中高分段的测评结果存在较大争议，而在中低分段的争议较少。实行分级评测，高分段恢复人工测评，既弥补机测评分之不足，也可进一步完善考试体系。中低分段评分相对准确、高效，使用机测。因此，如考生已经取得二级甲等以上的证书，可以自己选择是否参加高分段的人工测评。分级测试可以进一步鼓励并促进普通话的高水平发展，培养更多的语言爱好者；分级测试也利于专家队伍建设，能够评测高分段的测试专家，不仅语言标准度高，还具有较高的语言专业分析与研究能力，专家队伍的建设可以进一步促进语言测试的发展，中高分段出现的存疑语料研讨也可以进一步丰富测试研究。因此，分级测试高分段人工测试可以弥补机测评分弱点，使考试机制进一步完善，实现更大的社会价值。

2．专家团队普及标准认识。现阶段母语标准度普遍提高，即使标准度很好，表达能力也未见得好。受测者认为普通话测试只是完成测试工作，对普通话水平测试的应试热情并不高。由于上文提及的诸多原因，目前高校对普通话培训重视程度很不够。但通过下表可见，经过相关课程培训后的考生，二级乙等以上的通过率合格率获得极大提高。

表二：培训后（2010年教育系整体受测情况，总培训34课时）

上表体现，一是总达标率为97%，较未培训前的92.8%有明显上升；二是二甲合格率达到了57.2%，大大高于未培训前的21.4%；三是培训后，二甲57.2%的比例大大高于38.5%的二乙比例。经过培训，语言质量得到了很大的提高。

因此，各省测试中心应存有高水平测试员组成的培训队伍，普及对标准母语规范的认识，端正考试目的，强调语言应用。指出并分析高分段考生的语言表达问题，在专业层面上做有针对性的指导，不仅可使高分段的受测者进一步提高普通话水平，还能纠正这类人群对普通话测试体系的错误认识，能够培养更多高分段高质量的语言爱好者。但普通话考试仅提供母语标准度的测试，不可能解决受测者语言交际问题。在语言标准度已经达到顺畅交流的基础上，受测者应进一步发展自身的语用能力。如无特殊目的（如志在向传媒业发展或将语言作为职业能力等），则不必将普通话高分段作为考试目标。

3．软件开发与语言专家合作，动态推进语料库的建设。现阶段机测前三项的封闭式评分与第四项的开放式评分既需要动态熟语料库，也需要测评者对动态的测评理论的把握，以及对语言动态发展的观察和正确评价。

机测封闭式评测软件所需的熟语料，还需要标注的进一步细化。动态语流中的隐性音变标注，尤其是第三项朗读语篇的处理，其标准需要与语言专家合作、研讨，不断细化、修正。只有如此，才能做到前三项对语音的语用能力的体现。

对第四项说话题的开放式语料的评分，则需要评测团队自身建立对语言发展与语言规范的动态认识。

首先是现时期语言规范中还存在大量需要细化并落实的工作。如书面语语篇的语域规范、语句衔接的规范、字词规范的动态考察等，辅助语言学习的工具如语音标注的方式也有待进一步严格界定、甄别，分属不同语域文本的语音标注（如普通话教材、儿童读物、汉语对外推广读物等）使用严式标音还是宽式标音，轻声、儿化、一和不等音变情况标注是否在同一文本注音中做到统一，编者是否要做出语域说明以更正确地指导言语发声等等。以上都需要评测者有一定的认识和评析能力。

其次是评判说话题中的言语规范需要建立以下两个认识：

一是分清“公众言语语域”和“个体言语语域”。本文把在考量公众接受度的前提下对语言的准确性、生动性、典雅性作出一定的调整的语域称为“公众言语语域”，说话题的语域趋于“公众言语语域”。相对的是“个体言语语域”，较多的语言表达者只存在非公众公开平台下的个体交际言语观念。个体言语只追求语用效果的最大化，私属领域里的言语交际往往不过度追求准确、生动、典雅，允许出现语用失当，其语域风格常常亲切、随和甚至使用俚俗。说话题项目的绝大多数语料处于“公众言语语域”和“个体言语语域”中间状态，如何评价并给出合理的分值，需要细心谨慎。

二是尊重并科学对待语言创新。“语言建立维持社会规则，包括由语言本身造成的交际角色……通过此功能……社会团体被划分，个人也得到识别与强调，因为通过人们之间的语言互动，自身人格得到了表达和发展。”语言创新突破交际常规，因其新颖而获得倾听、关注，因其语用效果良好而获得社会认同、赞赏，是凸显社会自我能力的标志之一。动态的语言创新既是语言发展的基础、语言发展的常态，也是语言发展的动力。语言创新的目的旨在凸显，为达到凸显的目的，言语主体往往突破常态表达，追求即时语境下的准确、生动的传达，使用创造新词新语、曲变惯用句式、悖逆惯常逻辑、违反语用常规等手段。

鉴别创新与谬误，需要树立说话题的良好样本。好样本不仅语音自然标准，有效传递语码信息，还能体现良好的语用效果，同时也遵循伦理规约。

标准与规范的认识、评价与执行为的是树立语言典范，提高全民的语言素质，构建良好的社会语境，这也是PSC智能语音测试系统推行的最终目的。