从教育测量学看全国职称外语考试改革

2014-04-15孔摇祥

济南大学学报(社会科学版) 2014年4期

关键词：计算机化级别外语

孔摇祥

（北京语言大学考试安全研究中心，北京100083）

从教育测量学看全国职称外语考试改革

孔摇祥

（北京语言大学考试安全研究中心，北京100083）

摘摇要：职称外语等级考试作为专业技术人员职称评定中的一个重要环节，在提高我国专业技术人员外语水平方面起到了重要作用。作为一项关系全国专业技术人员职称晋升的考试，近年来社会对职称外语考试进行改革的呼声越来越高。从教育测量学角度出发，探讨这项考试所考查的内容、考试形式以及在未来改革中需要注意的问题，以期更好地促进这项考试的发展，使职称外语考试更有利于我国专业技术人员外语能力水平的提高，更好地发挥其在职称评定中的作用。

职称外语考试；教育测量学；专业技术；改革

职称外语考试考生数量逐年大幅增长，说明了社会对职称外语考试有很大需求。社会对职称外语考试进行改革的呼声越来越高。本文从教育测量学角度出发，研究探讨进行职称外语改革需要考虑的问题及思路。

一、职称外语考试发展过程

国务院职改办在1992年发文首次提到职称外语考试的概念。1995年，原人事部再次提出“严格要求，实事求是，区别对待，逐步提高”的16字方针：“严格要求”是要求全国要统一标准推行职称外语考试；“实事求是”是要考虑全国各个地区外语水平参差不齐的现状；“区别对待”是对不同地区有不同的要求；“逐步提高”是随着全国统考的进行，职称外语考试的设计、难度、要求等要有所调整。初期的职称外语考试不分专业，只有英语考试，属于综合类考试，根据职称的系列分为A、B、C三个级别。1995年的题型包括“阅读理解”“完成句子”“概括大意”“完形填空”，这是最初的职称外语考试形式。考试以“阅读理解”为主，全部是主客观结合，题目数量总共50道题。第一次职称外语考试开展于1995年，主要进行了初步的全国性的考试试点和探索，经过1996年和1997年两年的推广，1998年原人事部下发了《关于专业技术人员职称外语统一考试的通知》的文件，当年各个省市基本停掉了省内组织的职称外语考试。同年，日语和西班牙语两个语种加入了职称外语考试，这两个考试也基本延续了英语考试的设计，各个语种均分为A、B、C三个级别。1998年全国职称外语统考有了正式的大纲，考试的设计和最初试点有所不同，分了四个专业类型，分别是综合与人文类、理工类、财经类和卫生类，各个级别对阅读量有不同的要求。2001年，职称外语考试大纲进行了修订，把四个专业类别整合为三个，综合与人文类和财经类合并为综合类，其他两个专业不变，同时考试还分为A、B、C三个级别。不难看出，职称外语考试从无到有经过了探索、实践、改革等阶段，从1995年到2001年，不断进行了调整。2001年至今，职称外语考试进入了一个比较平稳的发展阶段，考试形式和内容基本没有发生变化。从考试本身来看，也符合2001年确定的目标，并形成了自己的特色，考试全部实现了客观化，也减轻了全国每年大幅人数增长对考务带来的阅卷压力。由于考生群体是逐步变化的，考试难度也逐步提高，适应不同年代考生不同的外语基础水平，保证了当初国家制定的“区别对待，逐步提高”的公平原则。以上就是职称外语考试从1995年发展到现在的基本过程。［1］

一、考试的定位及考试级别划分

从整个的考试改革来看，是继续坚持目前的职称外语考试，还是将其彻底转化为外语应用能力考试，这是改革过程中首先需要考虑的问题。早期的职称外语考试，只要考生达到了一定的分数线，就可以参加职称的评定。而如果将其定义为一个外语应用能力类的考试，这个评定的弹性就非常大。在我国，与语言应用能力相对应的考试有中国汉语水平考试（HSK），这是一个主要考查汉语非第一语言的考生在生活、学习和工作中运用汉语进行交际的能力考试。根据考查对象汉语水平的高低，共分为6个等级，每个等级都对应不同的词汇量、阅读能力、口语能力等要求。另外，许多西方国家和地区都有自己统一的语言能力标准，比如欧洲语言共同参考框架CEF（A CommonEuropeanFrameworkofReferenceforLanguages：Learning，TeachingandAssessment）。CEF将语言的实际运用能力分成三等，共六个级别。加拿大CLB（TheCanadianLanguageBenchmarks）外语能力标准分了12个级别。美国政府推出的公务人员外语能力标准，一个是FSI（ForeignServiceInstitute）标准，一个是后来演变而成的ILR（InteragencyLanguageRoundtableScale）跨部门的圆桌会议量表标准。圆桌会议量表是美国国务院主持研发的，是为政府公务人员到国外去执行公务所设定的一个语言能力标准，标准分为5个大的级别，总的级别是11个，后来美国很多政府部门都采用这11个级别的标准。还有一些语言类考试，比如雅思考试，它是全球一个有影响力的考试，总共分了9个级别。［2］如果将职称外语考试定位为一个外语应用能力考试，就要解决级别划分的问题，也即确定为6个级别、12个级别或者其他级别的问题。从政策的角度来说，目前的问题是要选择保留现有的职称外语考试作为一个门槛来考，还是把它泛化为一个外语应用能力的测试；是在稳定职称外语考试的基础上做一个小的调整还是把它的考试功能放大。目前，无论是北美或欧洲的外语能力标准，还是我们熟悉的雅思、托福或托业考试，都将其泛化为一种语言应用能力的考试。因此，可以在应用能力里面包含一部分职称的要求，选取某些语言技能作为职称评定的参考。专业技术人员只要达到某个水平，就可以认为其达到了初级水平，然后依次设定中级和高级的标准。

二、考试内容

在明确了职称外语考试的定位后，接下来考虑的就是考试内容的问题，就是说这项考试的测试内容和范围应该包括什么。职称外语考试到目前为止，无论是形式的变化还是名称的变化，基本以书面语言的阅读为基础，包括从段落里面获取信息、对信息的加工概括，也包括考察一些考生对内容的延伸和扩展，但对考试本身的评价功能并没有特别涉及，基本上就是对阅读能力的测试。早期的阅读内容主要是一些典型的书面材料，而且通常以文本形式为主体。在下一步改革的阶段，是继续以阅读为基础来做，还是适当放大，使材料的形式和要求发生较大的变化还没有定论。从测试的结构来看，如果放大就必然牵扯到职称外语的定义，它到底需要达到什么样的要求。除了通常的阅读之外，还要考虑是否需要加一部分听力理解，如果把职称外语作为一种应用能力考试，口语、交际、表达这些都是最基本的考察内容，没有这些内容，考试也只是有大的架子，没有具体的细节。［3］从考试的结构、考试内容及范围来看，在阅读之外加入听力，这本身并不难，无论从教育类还是其他类型考试这都是一个非常常见的考试类型，更重要的是侧重听力以及口语是和外语教育的改革方向高度一致的。

三、考试标准的制定

从考试形式的角度来看，考试的标准化分为两个类型，一个是内容的标准，一个是表现形式的标准。［4］对于内容的标准，从教育测量学的角度，具体的标准如何制定是一个构念型的问题。而表现形式的标准化通常是指怎样在考生的成绩出来后，将这些成绩分等分类，分成不同的级别。在国内的一些考试中，经常将这两个标准混在一起，如果我们要更科学地进行职称外语改革，需要将这两个标准区分开，而从技术方面是完全可以实现的。只有在考试标准确定以后，题目的形式、题目的数量、考试的组织方式这些重要因素才能逐一解决。以考试题目为例，它可以直观地反映出到底要测什么。无论是怎样的测试，测的是什么内容，就像各个国家的语言能力标准，虽然各个等级表述不同，都是围绕着外语应用能力。［5］职称外语考试在内容上有些什么样的具体要求，需要考到什么程度，到底是像欧洲语言共同参考框架CEF划分为6个等级或是其他，根据考生的分数来判断达到了哪个标准，这些问题除了需要对考试技术加以考虑外，还受一些如考试组织等其他因素上的制约。

四、教育测量技术上需要注意的问题

（一）稳定性。从历年的考试题目来看，职称外语考试的难度和结构是有一定变化的。在经过多年的发展以后，未来测试的结构应该有一个相对的稳定性，只有这样才能更好地控制考试难度、区分度、信度和效度等测量学指标。目前，我国高等教育外语教学水平还是大体稳定的，职称外语的考生对象基本都是2000年以后的大学毕业生，大部分人有大学或研究生的学习背景，考生的外语水平应该是相对稳定的。因此，不管未来职称外语改革的内容如何调整，保持考试的结构和难度的相对稳定对职称外语未来的发展会非常有利。基于这样的考虑，如果把职称外语考试划分成十等，一张卷子很难解决问题。只有把职称外语考试泛化成外语应用能力考试，才可以分成难度由低到高的嵌套的卷子，在初级、中级、高级不同级别里分别划出等级，从而实现十等的划分，这样试卷的稳定性和误差就能得到很好的控制。

（二）等值。测验、考试被作为一种尺度来对人的心理特质进行测量。这种尺度应该具有稳定性，不同的考试版本之间应该具有一致性。对于同一个测量对象，不能用这个版本测量得到一个度量，用另一个版本测量却得到相差很大的另一个度量。尽管在命题过程中总是尽量保持考试难度的稳定性，但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免。这种差别不仅会影响到测验的质量，影响到评价标准的客观性，而且会使考生因为参加考试时间不同、使用试卷不同而受到不公平的对待。这样，就需要将具有不同难度、分数分布的试卷的分数转换到一个统一的量尺之上，采用统一的量尺对考生进行测量。这种将一个测验的不同版本的分数统一在一个量表上的过程即等值（equating）。如果不进行等值处理化，不同时间举行的考试的成绩之间不具备可比性，评价标准或证书授予标准会受到试卷难度起伏的影响。一些水平不高的考生可能会由于运气好遇到较容易的试卷而通过考试获得相应资格；一些水平较高的考生可能会由于运气不好遇到较难的试卷而未通过考试并未能获得相应资格。这种状况，不仅影响到选拔效率和人员素质，而且对考生也是很不公平的。等值研究的意义并不局限于保证考试公平，为了避免命题和试卷编制中的盲目性和偶然性，许多考试机构都在致力于建设题库。实现基于项目反应理论（ItemResponseTheory，简称IRT）的题目参数等值是建设科学化、大规模题库的前提。基于经典测验理论（ClassicalTesingTheory，简称CCT）之上的等值方法只能实现不同试卷之间的等值，满足“试卷库”建设的需要，很难实现在统一的量尺上标定试题难度和区分度的任务，很难满足大规模题库建设的需要。实现计算机化自适应性考试是许多考试的发展方向，也是摆在许多考试机构面前的重要课题。计算机化自适应性测验开发中的一个核心环节就是在统一的量表上标定试题参数，实现各个考生所回答的不同题目之间的等值。［6］

因此，对于多等级的考试和跨年度的考试，在考试技术上涉及到最核心的问题就是等值，这是任何考试都绕不开的。一个多等级的考试在设计初期，以及在判定考试的科学性的时候，等值都是一个关键因素。如何保证试卷具有等值性和分数的可比性是国内的大部分考试都存在的问题，比如今年难了，明年可能容易一点，后年又可能难了。因此，职称外语如果转变成外语应用能力考试，变成一个多个等级的测试，在试卷结构设计和等值等测量技术上还需要进一步的研究。

（三）计算机化考试。目前，从考试未来的发展来看，计算机化考试是各个国家级考试的基本的选择。首先，信息技术已经深刻影响了整个社会，给考试提供了很多便利条件，包括计算机化考试、网络考试等。考试不再需要纸质的试卷，成本大大降低，同时从技术上也防止了作弊，提高了安全性。90年代末期，ETS在全球采用了自适应考试，但后来这种考试形式又终止了，原因是在计算机化考试安全性上出现了问题。有些考试辅导公司可以把考试题库里面的题目都“偷”出来，因此考试已没有什么秘密可言。从近几年的考试组织来看，计算机化考试和网络考试在美国再次兴起，无论是考试机构还是考生都普遍认为这是一个最基本的考试方式。从职称外语考试以及其他人事考试来看，计算机化考试都是一个发展趋势。计算机化考试涉及到几个问题，其中关键问题就是计算机化的考试通常是以题库为基础支撑的，没有题库很难做成一个计算机化的考试。计算机化的考试从广义上可分为三个类型：一个是计算机化的多题本的考试，即考试是计算机实现的，呈现的题本是可以变化的多个题本，但不是自适应的，不能随着能力不同题目发生变化；另一个就是计算机自适应的考试，不同的考生考试题目是有变化的，根据考生前几道题的作答反应来调整下一道题目；还有一种是网上考试，网上考试是一个非常大的概念，包括未来在手机上考试，这些都是有可能实现的。要组成一个最优化的测量的试卷，需要的不仅是内容，还有一些其他参数，既有试题内容参数的设置问题，还有一些测量学上指标的要求，这就是美国教育服务中心（ETS）一道题的成本将近一千美元的原因。除了我们知道的通常意义上的成本，还由于美国的考试基本上都经过大范围的或者有代表性的预测，这个阶段的花费占总成本的比重很高。而国内大部分考试都不在考前进行预测，或者预测也只是对部分题目的表述进行微调。

（四）与其他外语考试的衔接。目前，与职称外语考试难度比较接近的是四六级考试和全国英语等级考试。由于现在参加职称外语考试的很大一部分考生是大学毕业生，这部分人需要通过参加职称外语考试来评职称，而目前我国大学基本都要求通过大学英语四级考试才能毕业，有的学校甚至要求必须通过六级。因此，职称外语考试是否需要考虑四六级考试的水平，这个问题直接牵扯到职称外语考试结构的稳定性，而应该稳定在什么水平，也是必须考虑的问题。全国英语等级考试（PublicEnglishTestSystem，简称PETS）是教育部考试中心设计并负责的全国性英语水平考试体系，级别划分为PETS－1至5级，有的单位规定PETS成绩达到某个级别可以代替职称外语考试，国外也有一些考试，技术方法也有借鉴性。［7］因此，在职称外语改革中要特别注意与国内外几个大型英语考试的衔接。

（五）职称外语考试的标准化。我国在测量理论应用上曾经出现过对标准化考试的误读，认为只要有符合标准化考试的题目就可以了。实际上，标准化考试应该是从开始设计到最后给分整个过程的严格标准化和程序化。考试其实应该被视为一个工程，工程中的每一个阶段都是一环接着一环的，如果有一环接不上就要断链，整个工程就会有问题。对于职称外语考试的标准化而言，从一开始确定试卷结构，包括题目的编写、分数的分布、分数的报告，等等，这些具体的工程环节就应实现它的基本的信度和效度。从这个角度来看，标准化是职称外语考试一个基本的要求。

五、结语

综上所述，从教育测量学的角度来看，下一步职称外语改革建议重点做四个方面的工作。第一，重新梳理确定专业技术人员外语等级考试的测量目标，对职称外语考试本身的测量目标做一些调整；第二，研究并开发符合本项考试测量目标的新的考试题型和测量技术；第三，根据本项考试的定位和测量目标，研究并调整各专业类别考试的相关内容，包括考试大纲所附的词汇表等；第四，参考并借鉴国际上大规模考试的新技术和新方法，改进职称外语考试的整体设计，进一步调整细化并明确不同等级考试的内容和要求。任何改革都不是一蹴而就的，职称外语考试的改革需要进行多方面的研究，同时需要遵循考试所属的教育测量学的相关规则，只有这样才能更好地体现这项考试的科学性。

［1］李敏．政府主导下的职称外语考试现状及对策研究［D］．长沙：中南大学，2011．

［2］谭习能．当前职称评聘中的弊端及改革建议［J］．人才资源开发，2012，（3）．

［3］王红昌，柴丽琴．职称英语考试中的阅读理解题型探究［J］．考试周刊，2013，（20）．

［4］熊丙奇．职称考试需要的不是改革而是取消［N］．第一财经日报，2013－03－14．

［5］郭磊．外语考试制度与人才培养模式研究［J］．现代商贸工业，2010，（11）．

［6］谢小庆．心理测量学讲义［M］．武汉：华中师范大学出版社，1988．

［7］蒲俊华．完善职称外语考试的探索与体会［J］．现代人才，2007，（4）．

责任编辑：杨摇旻

G642

1671－3842（2014）04－0065－04

10．3969／j．issn．1671－3842．2014．04．12

2014－04－01