记一次实证研究

2012-04-01杨惠中

当代外语研究 2012年11期

杨惠中

《中国语言能力等级共同量表研究——理论、方法与实验研究》终于在上个月由上海外语教育出版社出版，感谢外教社的支持和责编杨帆的辛苦工作。这是一本只有165页的书，但是题目很大。是不是故意戴上去的大帽子呢？倒不是，因为里面说的都是实事，另外，我们对于这项研究态度是认真的。

建立我国语言能力等级共同量表在我国有着十分迫切而重要的现实意义。我国是语言教学大国，只说英语教学，全国每年学英语的人数以亿万计，各种类型的英语课程不计其数。有教学就有测试，于是也就有了各种外语测试项目，纷繁复杂，林林总总，不一而足。这种局面还有愈演愈烈之势。由于我国一千三百年科举考试的传统，考试(包括教育考试)往往被看作是一种行政行为，而不是心理测量学范畴的独立的学术行为。凡行政主管部门，只要一纸红头文件就可以启动一项大规模考试，关起门来命题，试题未经预测就直接用于实际考试。在一般人的观念中，凡教师都能命题，打个分数就是考试，只要采用多项选择题，就是标准化考试。这样做，如果考试的结果决定学生一生命运的话，后果可能是很严重的。

我国的考试，考生人数往往达到每年数十万、数百万、甚至上千万，成为真正意义上的大规模考试。但是迄今为止，我国尚没有统一的语言能力等级共同量表，语言教学和语言测试没有共同的参照标准，甚至连等级的划分也相当混乱，有的语言测试项目分为2个等级，有的分为5个等级，有的9个等级，有的则只分初、中、高3个等级。不同测试的等级划分五花八门，不同测试报告的考生成绩根本缺乏可比性，完全不便于用户使用。这种缺乏统一尺度的做法，好比做买卖的都各自制作自己的磅秤，焉能不乱？对教学来说，没有统一的参照标准也不便于课程的组织和衔接，很容易造成课程的重复设置，根本谈不上外语教学实现“一条龙”。而且考试成绩互不承认，学生只好一次次参加考试，徒增学生学业和考试负担。语言测试领域乱象丛生，解决之道在哪里呢？我们认为，必须制定全国统一的语言能力等级量表，这是相当于“车同轨、量同衡”的大事。

国际上在这方面已有成熟的经验，其中最具影响力的当是欧洲语言能力等级共同量表(CEFR)。欧盟目前有27个国家，使用20多种不同的语言，怎样解决语言交际问题，在欧共体成立之初，成了促进一体化的重要课题。为此，欧洲委员会的语言政策部门(The Language Policy Division)提出了语言教学应当实现分级的要求，把漫长的语言教学过程划分成若干个较小的、能独立授予学分的单元，建立一个能得到欧洲各国相互承认和采用的共同的参照标准。自上世纪70年代以来就展开了欧洲语言能力共同量表的研究。经过二十多年的努力，最后形成了“欧洲语言能力等级共同量表”(CEFR)。欧洲语言能力等级共同量表共分六个等级(A1、A2、B1、B2、C1、C2)，每个等级都有明白、准确的语言能力描述，不论何种语言，不论是英语、法语、还是德语，学生只要达到某个等级，例如B2级，所反映的是相同的语言能力水平，也就是说语言能力的解释是统一的。这对于人员之间相互理解与沟通将会多么方便！CEFR自2001年11月发布以后，欧洲各国的语言教学和语言测试项目都实现了与CEFR的关联，使考试的分数获得统一的可解释性，大大提高了语言教学和语言测试过程的透明度，对促进人员往来与交流起到了很好的作用。

看来，制定统一的语言能力等级量表是一项重要的基础研究项目，涉及语言测试和语言教学的一切方面，与大纲设计、教学组织、教材开发、能力鉴定、甚至人才的合理使用无不密切相关。我们为此写过文章，呼吁有关方面组织人力物力开展相关研究。大概因为这样的研究未必能迅速带来看得见的“价值”，故迟迟未见动静。我们几位从事语言测试研究的普通工作者不免内心焦急，打算自己启动前期研究，正在这时候上海师范大学的方绪军老师来上海交通大学应用语言学博士后流动站进行博士后研究，他的加入加强了我们开展这项重要研究的决心和力量。方绪军博士长期从事对外汉语教学，在汉语水平考试方面也有丰富的实践经验，于是决定以语言能力等级量表作为研究方向，申请国家社科基金项目资助。幸运的是，申请很快得到了批准并立项。在整个研究过程中朱正才负责实验设计与数据分析，方绪军则在资料整理、文献分析、数据整理、报告起草等方面做了大量扎实的研究工作。现在，方绪军的博士后研究早已以优异成绩顺利完成，社科基金项目也早已经过鉴定结项，作为项目成果的《中国语言能力等级共同量表研究——理论、方法与实验研究》一书终于出版，这些都是值得高兴的。

考虑到研究经费一共只有区区几万元，只好集中力量，着眼在最重要的方面。于是课题组决定把研究重点放在制定我国统一的语言能力等级共同量表的理论、原则和方法上。我国现行的许多考试，对于语言能力的描述往往缺乏语言学的理论框架，对于等级的划分也缺乏心理测量学的支持，现有的一些量表或大纲在描述语言能力或设计考试分数体系方面存在经验性、相对性和任意性的问题。制定语言能力等级量表，必须立足于一定的理论基础和科学依据之上。课题组在全面分析文献的基础上，决定采用交际语言能力的理论模型作为制定我国统一的语言能力等级量表的语言学理论框架，采用定性和定量相结合的方法，对语言能力进行描述，整理和设计了一套“能做”描述语，对语言能力的各方面进行了分层次、分等级的描述。我们认为一套完善的语言能力描述语是语言测试和语言教学的基本操作工具，是语言能力理论的具体体现，将为语言测试和语言教学提供基本框架。

制定我国语言能力等级量表的工作不是纸上谈兵，所提出的理论、原则和方法以及具体的描述语是否具有可操作性，需要进行大规模调查实验来证明，这样的研究就是效度研究。由于条件限制，课题组决定采用上述原则和方法，对英语口语能力的描述和分级进行一次大规模实验研究，以验证其科学性和可行性，作为建立我国语言能力等级共同量表的一种先行性尝试。

课题组根据口语交际活动的特征，分不同的参数层级建立了一个包括65条描述语的中国学生英语口语能力描述语库。实证研究的操作是组织相当数量的有经验的教师，提供10位学生口语考试的实际视频样本，这些考生的能力必须覆盖设计中的能力量表的口语能力全距，请有经验的教师根据所提供的描述语对考生的口语能力水平逐条进行评价或描述。研究工作量很大。

本次调查研究得到了全国15所大学的大力支持，共有183位有丰富教学经验的教师参加了调查，一共生成了1830组数据，为本项研究的数据分析提供了坚实基础。通过对数据进行因子分析得到三个显著性突出的公因子，考察各因子所概括的具体描述语，发现这些描述语大体是从“语言使用的准确性和丰富性”和“口语交际的有效性”这两个侧面来描述和评价口语能力水平的，这些描述语都涉及使用话语参与或完成交际任务的有效程度，证明这些描述语能够充分准确地反映学生的英语口语能力。另外，聚类分析证实：65条描述语所描述的全部被试的口语能力水平，就本项研究所涉及的考生能力范围而言，可以划分为4个等距的能力等级。调查分析的数据为语言能力的等级划分提供了依据。

语言测试研究中最困难的部分是实证研究，研究结果是否有效，完全取决于参加者是否认真，规模越大越难保证研究的质量。这次研究规模比较大，但是数据检验证明参加实验研究的老师都非常认真。实验结果证明，本项研究所提出的理论和原则是有效的，方法是可行的，可以在将来开展大规模研究时采用。我们对于参加研究的学校和老师由衷地表示感谢，由于经费拮据，课题组无法为参加实验工作的老师提供分文报酬，连劳务费也没法支付。这些学校和老师在了解本项研究的重要性后，完全是出于对教育事业的奉献精神，认真地完成了工作。现在书出版了，我们将向每位参加实证研究的老师赠送一本，谨以此略表谢意。

这里想到一个问题：在当前商业大潮冲击下，语言测试被炒作为一个火红的“产业”，一个牵动人心的社会链接。它们既有许多利益相关者，还有更多的对英语赋予了许多附加值的社会关心者。

有人说，搞语言测试是利益驱动。这样说不对。搞语言测试只有风险，因为语言测试工作者处在矛盾冲突的交汇点上，他们的职业道德要求他们兢兢业业、恪尽职守，“精心设计、精心组织、精心施考”，但是他们的权益却很难得到保障。一方面，考试的专业质量越高，越可能被社会广泛使用而被赋于极大的社会权重，并由此产生巨大的他们无法控制的商业利益，这一切都对语言测试工作者造成压力，甚至使他们处于危险境地；另一方面，也是因为普通公众并不了解语言测试是一项高度专业性的工作。要说利益，恐怕只有编写出版模拟试题集可以迅速牟利，但是这种东西只是样子像多项选择题，跟标准化考试风马牛不相及，拿来考试毫无用处，拿来教学完全无助于提高学生语言能力，相反只会坑害学生，完全是教育领域中的伪劣商品。严肃的语言测试工作者都有道德规范进行自律，从来不去编写出版模拟试题集之类的东西去轻松牟利。因此可以说，在我国目前的实际情况下，语言测试是一项专业要求高、风险大、零“回报”的工作，没有这个思想准备的人，并不适合从事专门的语言测试工作。

制定我国语言能力等级共同量表是一项浩大的工程，不是几个人的绵薄之力就能完成的，必须从实际出发，考虑我国目前语言教学和测试实际需求的迫切性和可行性，协调各不同语种、不同规模、不同层次的教学和测试机构，组织全国有关力量，才能实现制定全国语言能力等级共同量表这一总目标。我们所做的只是前期的先行性研究。

把考试看作一种行政行为而不是学术行为的后果是政学不分(也是一种政企不分的表现)，考试的用户和考试的组织者合而为一，缺乏社会监督。其实考试仅仅是一种测量工具，是一种专业性服务。教育考试是实现教育公平公正的社会道德底线，为此必须保证教育考试的专业质量。把大规模考试的实践从行政行为转变为学术行为，最好的办法是承认考试的心理测量学与教育测量学的专业性质，成立非盈利的专业机构，聚集专业人才，潜心进行研究，来从事各种考试项目的设计、开发与实施，保证考试的专业质量，供社会使用。政府部门则起监管作用，政府的行政力量应用来制定并颁布“教育测量与心理测量国家标准”，制定并颁布“中国语言能力等级共同量表”，制定并颁布教育考试法以保护语言测试工作者的权益和考试知识产权、对考试结果的正确使用进行监管等等。这些重要措施都将有利于教育考试事业的健康发展，最终造福千百万莘莘学子。

这是我们的愿望和期盼。