多题多卷模式下的四级写作测试等效性验证

2016-03-23王茹茹

淮北师范大学学报(哲学社会科学版) 2016年1期

关键词：验证

王茹茹

（安徽科技学院外国语学院，安徽凤阳233100）

多题多卷模式下的四级写作测试等效性验证

王茹茹

（安徽科技学院外国语学院，安徽凤阳233100）

摘要:基于复本信度检验理论，采用MANOVA和CFA分析方法对多题多卷模式下的大学英语写作测试进行了复本信度检验。实验结果显示：平行四级写作测试在难度、区分度和构念上具有较强的一致性。本实验的价值在于，实践上消除四级考试相关方对多题多卷模式改革的疑虑，在理论上提供比较完善的复本信度检验框架和方法。

关键词：写作测试;等效;验证

一、研究背景

为了杜绝作弊行为，打击兜售答案牟利的不法行为，2012年12月起，大学英语四六级考试进行了“多题多卷”模式改革。所谓“多题多卷”，就是在同一个考场里同时使用多套试卷，每套试卷的考试时长、题目顺序设置、题目总量完全相同，但是题目不同。从语言测试社会学的角度审视，这次改革的实质就是运用平行卷命题技术来防止泄题等作弊问题，以保证测试的公平性。除了预防作弊，平行卷在挽救考试意外事故、测量学业进步等方面亦能发挥重要作用。

平行卷又叫复本卷、替代卷，指两份或者多份试卷如果能够互相替代，就可以称其为彼此的平行卷。平行卷的总体要求是彼此之间具有较高的一致性和可比性，这种一致性和可比性即为试卷的平行性。平行性是衡量平行卷一致性的重要标准，这种平行性指的是平行卷之间的同质性和等值性。具体而言，平行卷除了题目不同，其所测特质、内容范围、题量、题型结构、考查的能力层次、效度、难易度、区分度、测验的长度、测验时间、考查比例分布等方面要做到高度等值、同量、等效。“作为测量工具,一个测试要有效度,它首先必须可信”[1]。语言测试信度不高,其整体效度就难以保证。如果平行卷没有在上述指标上做到一致或至少大体一致，就会导致平行卷之间在难度、区分度、效度等方面存在较大差异，从而造成考试的不公平。

虽然平行卷的等效性如此重要，但是既有的研究对其关注却严重不足。国内的平行卷研究主要集中在高等教育自学考试方面，诸如，林文广先生研究了基于三段式命题和双审制身体的自考平行试卷库生成模式[2]；赵海燕和王桥影从理论和实践上探索了高等教育自学考试复本试卷的设计及其平行性控制、平行性的评价维度和平行性的试后初步评价等问题[3]；孙恒以浙江省高考中信息技术试卷为例，研究了大规模教育考试平行试卷的设计[4]。但，在外语平行卷研究方面，仅有张红霞和王同顺对TEM4平行模拟测试的信度检验进行了研究[5]及张颖、卢燕、冯攀、何佳就医师资格考试医学综合笔试“一卷多式”等效性问题进行了探索[6]。

在国外，平行卷研究主要出现在上个世纪。如Stansfield and Ross很早就从理论上指出，指出平行卷研究具有实践和理论价值，是语言测试研究的重要议题，平行卷研究可以从效度和信度两个方面开展[7]；Brown, Hilgers, & Marsella开展了对大学写作分班写作测试（Writing Placement Exam⁃inations）的平行性研究，发现某大学连续两年的分班写作测试并不平行，从而对该测试的效度和公平性造成威胁[8]；本世纪来，Breland, Lee, Najari⁃an, and Muraki分析了TOEFL CBT写作测试成绩在性别上的差异性，Weir and Wu调查了台湾普通英语能力测试（the General English Proficien⁃cy Test）中三份口语测试的信度和内容效度，认为该考试的信度和效度均不符合平行卷要求[9]。

由此可见，国内外对平行卷的研究严重不足，国外对平行卷的研究时间较早，国内对平行卷的研究虽然时间较近，但是主要集中于高度教育自学考试领域，对外语平行卷的研究几乎缺位。

大学英语四六级考试的多题多卷改革，目的是解决屡禁不绝的作弊问题，但是必须保证平行卷之间的较高的同质性和等值性，如果不能保证这一点，这个改革的危害远大于作弊所带来的危害。因为平行卷的不等值造成的不公具有全面性、系统性、公开性，作弊带来的不公平只具有局部性、偶然性、隐蔽性。因此，对多题多卷模式下的四六级考试信度进行检验，为提高平行卷的同质性和等值性提供借鉴和参考，已成当务之急。为此，本文通过对大学英语四级考试中的写作测试进行信度检验，借以考查多题多卷模式下的四六级考试平行卷质量。

二、平行卷等效性检验

因为平行试卷要求各子卷在内容、题量、难易度、权重、试卷格式、所测的能力水平方面高度一致，所以其考试结果也应该具有一致性，这种考试结果的一致性就是复本信度，也叫等效性。从理论上，McDonald认为，平行卷考试结果的真分数、误差分数应该具有一致性，各卷误差分数应该与真分数不相关，各误差分数之间也互不相关。事实上，我们只能获得观察分数，不可能获得真分数和误差分数，为此，Cronbach提出基于了观察分数的复本信度的估计方法：各平行卷考试分数或结果在平均值、方差和因子结构是否存在统计学上的显著差异，如果这些指标无显著差异，说明平行卷信度可靠，否则信度则不可靠。但是，在实际操作中，只有考试分数的平均值、方差被认为是平行卷检验的最重要指标，很少有人用因子结构恒等性对平行卷进行信度估计，这可能是因为因子结构检验的方法过于复杂所致。事实上，因子结构恒等性检验是更为严格的信度检验，它能够考察平行卷考查的写作能力数量、写作能力之间的相关、写作能力结构是否一致，作为信度检验方法更为令人信服。在实践中，学者张红霞、王同顺用spearman等级相关法对TEM4平行模拟试题进行复本信度检测，孙恒先生则用因子分析和难度比较法对高考试题信息技术试题进行复本信度检测，张颖、赵海燕、王桥影等学者以均值为难度指标，以方差为区分度指标，对医学专业考试的复本信度进行检验。观照复本信度估计理论，这些检验方法只涉及到复本信度估计的一个或几个方面，尚不全面。

三、研究假设

基于复本信度检验理论，本研究对2013年12月多题多卷模式下的大学英语四级考试中的3个平行写作测试成绩的内容、语法、连贯、长度等4个变量进行如下假设并对假设进行检验，其中Y1，Y2，Y3分别代表平行写作测试1-3：

（1）4个变量的方差一致，用公式表示如下：

（2）4个变量的平均值一致，用公式表示如下:

（3）3个平行卷考查的写作能力结构一致，用公式表示如下:ΛΨΛ′(Y1)=ΛΨΛ′(Y2)=ΛΨΛ′(Y3).如果假设成立，则复本信度达到要求，否则，复本信度不符合要求。

四、研究设计

（一）样本抽取和变量设定

样本是研究者所在大学（公立二本理工科院校）理工科和文科专业中随机抽取的大二上学期学生58人，为了保证样本的代表性，注意了样本学生的专业平衡和性别平衡，其中，文科、理科和工科学生分别为18人、20人和20人，男生和女生分别为30和28人。

（二）研究工具

四级写作测试题:2013年12月大学英语四级写作测试题。该次四级考试给出了3个平行写作测试，从测试形式上来看，均是提示性图画作文，题目给出一幅漫画，画面底下有话中人物的对话内容或漫画说明，要求考生对图画进行简单的描述，并且根据图画所表示的主题进行论述；从写作内容要求上来看，三个平行写作测试都是高度关注社会热点，作文的内容关于网络、关于手机、关于人际沟通等；从图画数量（1幅）、写作时长（30分钟）和写作长度（120-180词）来看，三个写作测试也都是保持一致。下面对三个写作测试题目进行简要描述，同时为了研究的方便，对其分别编码：

第一个题目(Y1)：图画表现的是一对夫妇正在通过网络与儿子交流，画面底部的英文提示是丈夫通过网络跟儿子的留言：“亲爱的Andy,你还好吗？我和你妈妈都还好，我和你妈妈都很想念你，希望你平安。希望下次你电脑坏了，下楼来找东西吃时，我们能见到你。爱你的爸爸和妈妈。”漫画的主题是网络对人们沟通的影响。

第二道题目(Y2)：图画中展现的是师生对话，一个学生拿着手机对父亲说：“如果我一旦掌握了谷歌搜索，这不就是所有我需要接受的教育了吗？”漫画的主题是网络对教育的影响。

第三道题目(Y3)：图片是一个漫画，漫画底部的英文提示是：很多人在过马路，过马路的时候，他们眼睛盯着自己的手机，却用拐杖来探路。漫画主题是手机对人们生活的影响。

图1四级写作测试图片

（三）实验程序

实施写作测试：平行卷写作测试分三场进行，每场测试30分钟，要求所有的样本学生都参加，并且在答题纸上标明真实的姓名；为了消除疲劳效应，测试为每天一场，每场一题。

评分：考试完毕后，对考生的写作成绩从内容、语法、连贯、长度等四个方面进行评分。内容指作文是否与主题相关，连贯是语篇的段落和思想在意义或功能上互相联系的程度，语法指的是词形、短语和句子是否符合规则，长度指除开标点外的词语数量。对内容、语法、连贯的评分基于0-4级量表评分，允许给0.5分，评分标准参照Bae and Bachman (2010)的研究成果,为了节省篇幅，这里不对评分标准进行阐述。为了保证评分的准确性，内容、语法、连贯等分别由两位高校教龄10年以上、副高职称以上老师评分，最终成绩为三个分数的平均值，正式评分之前进行评分培训和试评，在正式评分时，如果发现两位老师的评分等级差异超过1.5，则要求再评。作文长度由一个老师评分，最后把通过统计把每份作文的长度转换到5级量表中相应的级别。

数据收集和分析：考试完毕后，以内容、语法、连贯、长度为因变量，以平行卷编码为自变量，把数据输入SPSS16.0进行统计分析。对于假设1，采用多元方差分析（MANOVA）进行检验；对于假设2，采用方差齐性检验进行验证；对于假设3，采用验证性因子分析（CFA）进行检验。

五、结果分析

为了保证评分信度，本文用斯皮尔曼等级相关对评分信度进行了检验，检验结果显示，内容、连贯、语法等方面的评分者相关系数围分别为.801、.821和.952之间，说明评分信度很高，评分一致性较强，评分结果有效。剔除无效答卷5份，有效样本答卷为53份。表1显示，3份平行写作测试的各项成绩在均值和标准差等指标上的差异不是很大，内容分数的均值和标准差范围分别为1.88-2.02和0.71-0.77，连贯分数的均值和标准差范围分别为2.00-2.04和0.70-0.82，语法分数的均值和标准差范围分别为2.18-2.27和0.60-0.65，长度分数的均值和标准差范围分别为3.73-.95和 0.89-1.03，凭直觉判断，三份平行写作测试的内容、连贯、语法和长度等项目上的成绩似乎在均值和标准差方面无显著差异。下面采用单因素方差分析（One-way ANOVA）对假设1和假设2进行验证。

表1描述性统计

（一）假设1和假设2检验

单因素方差检验设计如下：以平行卷为自变量，自变量有三个水平，分别是平行卷1、平行卷2和平行卷3；以内容、语法、连贯、长度为因变量，多重比较方法为LSD（用T检验完成组间成对均值的比较）。如表2，Levene’s test方差齐性检验结果为：内容分数，p = .686；连贯分数，p = .512；语法分数，p = .765；长度分数，p = .068；df1 = 2, df2 = 50。方差齐性的差异性显著水平均大于.05,特别是内容、连贯、语法等变量的p值在.512-.765之间，远远大于.05的差异显著性水平，所以，四级平行写作卷内容、连贯、语法、长度成绩等4个指标方差齐性的假设不能被拒绝，可以认为4个指标的方差相等。

如表2，单因素方差分析结果也显示，内容分数、连贯分数、语法分数和长度分数等指标的均数在平行卷之间差异未达到不显著水平，其F值分别为1.432、1.233、1.533、1.823，都属于较低水平；P值在0.162-0.817之间，都大大高于0.05显著性水平。说明三份平行卷在内容、连贯、语法、长度成绩上的均值非常接近。原假设可以接受：内容、连贯、语法、等的长度成绩均数在平行卷间一致。

表2方差检验结果

（二）假设3检验

图2 英语写作能力结构模型

为了验证四级写作测试中的三份平行卷是否考查了相同的写作能力结构，本实验对考试成绩进行了结构恒等性检验。一般来说，外语写作能力结构由内容的切题性、命题的连贯性、语法的正确性、文本的长度等因素构成，且各个因素之间既有独立性，又存在相关性。据此，本文运用Amos软件绘制图1所示的写作能力结构模型，模型由潜变量（大圆圈）、观察变量（方框）、测量误差变量（小圆圈）构成，双箭头表示变量间的相关或协方差，单箭头表示潜变量对观察变量路径系数，单箭头出发端的变量是自变量，单箭头所指的变量为因变量。在本模型中，潜在变量分别为内容、连贯和语法，但是不包括长度因素，观察变量为两位评分老师对内容、连贯和语法的评分。

之所以把文本长度排除在结构方程模型的潜变量之外，是因为潜变量要求用至少2个观察变量来显示，而本实验中，考虑到长度评分比较客观，文本长度只由一人评分，意味文本长度因素只有一个观察变量，不符合建模要求；再者，在结构恒等性检验中，模型中的因素多少并不重要，重要的是能够验证纳入模型的协方差、方差、因素负荷等指标在各个群组之间具有恒等性。

本实验执行的是较为严格多群组结构恒等性检验，通过多群组分析(Multiple-Group Analysis)程序，设三个平行卷考试成绩的因素负荷、潜变量的协方差、方差相等。采用ML（最大似然）进行估计，估计的结果（表3）表明假设成立。表3显示：卡方值P=0.147,大于0.05显著性概率；Chisquare/df(卡方自由度比)=1.27，也在适配标准1-3之间；RMSEA=0.024,为良好水平；CFI、GFI分别为0.934和0.965，都大于0.90,符合适配标准。因此，主要适配指标全部达到模型适配标准，表明写作能力结构模型的因素符合、潜变量协方差、方差具有恒等性，假设3四级平行写作测试考查的写作能力结构相同成立。

表3模型适配度估计结果

六、讨论与启示

通过对假设1和假设2进行检验，没有发现内容、连贯、语法或长度等方面成绩的方差和均数在平行卷之间存在差异。语言测试理论认为，均数可以代表测试的难度，因此，均数一致就可以说明四级写作平行卷在内容、连贯、语法等方面的难度一致，能够使考生写出长度大致相等的文本。从考生立场上来说，难度相等也意味着考生展示写作能力的机会平等。

方差是表示成绩分数的离散程度，从语言测试学来看，它可以代表区分度。三份平行卷在内容、连贯、语法和长度上的方差齐性，说明四级写作平行测试在区分度上有较高的一致性。难度和区分度是评价试卷的重要指标，从难度和区分度来看，四级写作平行卷在设计上还是比较成功的。

运用结构恒等性检验，验证了假设3，三份四级写作卷写作能力结构模型中的潜变量因素负荷、潜变量之间的协方差、因变量的方差等都具有相等性，说明结构模型适用于每份平行卷。协方差用来测量因素之间的相关,协方差在三份写作平行卷之间具有恒等性，说明每份试卷的因素相关基本相同，平行卷考查了相同的写作能力：内容、连贯和语法；因素负荷具有恒等性，说明结构因素（内容、连贯和语法）对考生的成绩影响是相同的；方差具有恒等性，说明三份写作平行卷具有同样的区分度，这与假设1的中的One-way ANO⁃VA的方差齐性验证结构相吻合。以往的类似研究主要以因子分析（factor analysis）来检验平行卷结构的一致性[4]，因子分析只能比较平行卷的因子构成数量、因子负荷等系数，与之相比，结构恒等性检验照顾了因子负荷、因子之间的相关、因子的路径系数等、因子方差等等多重可比性指标，显得更为完善和科学，也更严格。

总之，从因子方差、均数、结构的一致性来说，多题多卷模式中的大学英语四级平行写作测试具有较高的复本信度，从难度、区分度、考查的写作能力等值方面来说，多题多卷模式中的写作测试命题是成功的。本次的研究对象是图画+提示型的写作题目，未来我们还可以对其它形式的四级写作平行卷进行检验。

本次实验的价值如下：（1）实践价值在于，检验了大学英语四级写作平行卷的信度，消除了大学英语四级考试相关方对多题多卷的疑虑；（2）理论价值在于，为平行卷等效检验提供了比较科学和周密的理论框架和检验方法。能够为其它题型（如完型填空、阅读理解、多项选择）或其它种类的外语测试平行卷信度检验提供理论方面的启示和实践方面的借鉴。过去的平行信度检验只顾及难度、区分度、结构等其中一个或两个方面，本实验则把这些因素全部纳入检验范围，并且采取了提供了的操作性较强的的方法。

平行卷具有多重功用，它不仅有杜绝作弊的功能，还可以在修补考试意外、准确评价学业进步评估中起到关键作用。如果一次外语考试因为地震、火灾等不可抗拒的意外事故失败，我们可以用其平行卷取而代之；在教学或科研中，如果想了解被试的学业进步情况，可以用平行卷进行前测和后测，再比较两者的差异。所以，对平行卷的命题和检验进行研究颇具重要性。

参考文献：

[1]Heaton, J. B. Writing English language tests[M]. Bei⁃jing: Foreign Language Teaching and Research Press, 2000.162—165.

[2]林文广.基于三段式命题和双审制审题的自考平行试卷库生成模式[J].中国考试,2006(8):26-33.

[3]赵海燕,王桥影.高等教育自学考试复本试卷平行性的试后初步评价[J].中国考试,2011(5):13-19.

[4]孙恒.大规模教育考试平行试卷的设计[J].教育科学,2011 (6):13-16.

[5]张红霞,王同顺.TEM4平行模拟测试信度及差异检验[J].教育与现代化,2003(4):23-29.

[6]张颖,卢燕,冯攀,何佳.医师资格考试医学综合笔试“一卷多式”等效性研究[J].中国考试,2012(2):44-49.

[7]Stansfield, C. W., & Ross, J. A long- term research agenda for the Test of Written English[J]. Language Test⁃ing, 1988(5): 160–186.

[8]Brown, J. D., Hilgers, T., & Marsella, J. Essay prompts and topics: Minimizing the effect of differences [J]. Written Communication, 1991( 8): 532–555.

[9]Weir, C. J., & Wu, J. R. W. Establishing test form and individual task comparability: A case study of a semi-direct speaking test[J]. Language Testing, 2006, 23: 167–197.

责任编校秋晨

作者简介：王茹茹（1984-），女，山东巨野人，安徽科技学院外国语学院助教。

基金项目：安徽省省级质量工程项目“大规模在线开放课程（MOOC）示范项目大学英语读写”（2014mooc037）

收稿日期：2015-12-18

中图分类号：H319

文献标识码：A

文章编号：2095-0683（2016）01-0146-06