大学英语机考条件下随机生成试卷的概化理论研究

2018-03-03王天剑

五邑大学学报（社会科学版） 2018年1期

王天剑

(贵州财经大学外国语学院，贵州贵阳 550004)

一、引言

随着四、六级英语机考的逐渐推广，大学英语学期考试方式也开始向无纸化方向转变。机考或者无纸化考试可以节约资源，节省阅卷工作量。借助题库和工具软件，计算机系统能够随机生成大量不同内容试卷，使学生难以在考场中抄袭他人答案。但机考也有潜在问题。例如机房软硬件的稳定性、学生对键盘操作的熟练度，以及对机考的心理反应(如焦虑、恐惧等)，都可能影响考试结果[1]。更主要的问题是试卷很难真正同质。无论什么样的题库，同类试题之间所谓的“同质”、“ 等值”仅是相对而言。据笔者调研，不少高校大学英语机考依托的是任课教师命题创建的题库。由于缺乏严格质量监控，这些题库在机考中随机组合生成的试卷，同质性尤其值得怀疑。试卷同质性越小，测试信度越低。考查同质性和信度，离不开现代高级测量理论。

概化理论是一种教育、心理和行为测量理论。它是在方差分析与经典测量技术基础上，逐步发展而来的理论体系[2]。按照经典测量理论，测量结果包括真分数与误差。利用方差分析，概化理论进一步将误差区分为不同来源成分，计算各自比重，并估算概化系数和可靠性指数。两种指标类似于经典测量的信度，其中概化系数旨在衡量，测量结果用于跟据某种特质将对象排序时的稳定性(相对测量信度)；可靠性指数旨在衡量，测量结果用于考查对象某种特质绝对水平时的可靠性(绝对测量信度)[3]。

概化分析包括G研究(概化研究)和D研究(决策研究)两部分。前者可在观测全域上展示各种方差来源及其比重；后者可在概化全域上，借助G研究的方差比重，通过调整测量条件(如样本、任务、评分员、侧面关系、权重等)，展示信度变化，从而提供优化测量设计的信息[4-5]。因其在测量中的重要价值，概化理论被誉为三大高级测量理论之一(另外两种是经典测量理论及项目反应理论)。概化分析可分为一元概化分析和多元概化分析。前者用于单变量(univariate)研究，后者用于多变量(multivariate)研究。

近年来，国外和国内有不少研究采用概化理论考查语言测试的质量[6-7]，但是以外语机考信度为对象的概化研究尚不多见。面对不断推广的机考，有必要对其进行概化分析，及时发现问题并予以解决。以下采用多元概化分析，考查大学英语机考的信度。

二、研究方法

研究数据为某校120名学生的大学英语读写机考成绩。每名学生的成绩包含两篇写作分数(每篇20分，共计40分)和三篇阅读理解分数(每篇20分，共计60分)。

由于试题包含写作和阅读两类题型，写作可视为一个变量(“因子”)，阅读可视为另一个变量(“因子”)。研究宜采用二因子、单侧面多元概化分析设计：p˙×iO，其中p代表考生，i代表试题(字母p的上标圆点表示每组数据中各个因子测量的对象相同，字母i的上标圆圈表示不同因子包含的项目不同)。分析借助mGENOVA 软件进行，该软件是Brennan开发的多元概化分析专用工具[8]。

三、研究结果

(一)成绩的分布特征

在进行概化分析前，对120名学生的机考分数进行了描述统计，以展示成绩的分布特征(表1)。

(二)多元概化分析结果

多元概化分析主要在两种试题变量(因子)上展开，分析包括G研究和D研究两部分。

1.G研究结果

借助G研究，可以获得各个效应(考生、试题、考生与试题的交互)在“写作”和“阅读”两个因子上的方差等指标，结果如表2所示。

注：各个效应矩阵中，主对角线上的数据是效应在对应因子上的方差估计，主对角线之下为因子间的协方差估计，主对角线之上为因子间的相关系数。

交互效应是指一个变量的不同水平对结果的影响趋势，在另一个变量的不同水平上呈现反差，在坐标系中表现为交叉直线。例如，学生和试题可视为两个变量，如有交互作用，会出现A生在第一题得分高、第二题得分低，而B生在第一题得分低、第二题得分高。在两道题上，两个学生的得分连线交叉。根据表2可知，交互效应在“写作”和“阅读”二因子上的方差，明显高于考生在二因子上的对应方差(6.16>3.10, 11.85> 4.23)。试题难度的方差也不容忽视(在阅读上的方差为3.41，接近考生的方差4.23)。交互效应和试题难度在“阅读”上的方差，高于其在“写作”上的对应方差(3.41>1.84, 11.85>6.16)。方差大小反映着一种效应对成绩影响的大小。交互效应方差较大，意味着不同学生在不同试题上，得分或失分的倾向存在明显反差(如A生在第一篇写作上得分很高，在第二篇上很低；B生在第一篇上很低，在第二篇上很高)。试题难度在“阅读”上的方差，与考生的对应方差相去不大，表明试题对“阅读”绝对测量信度的影响不能忽略(会导致低估或高估学生的绝对阅读水平)。考生对成绩影响不占优势，表明考试未能有效反映学生的写作和阅读水平。

2. D研究结果

(1)不同因子测量的信度。针对不同因子测量信度的D研究结果显示，“写作”因子的概化系数为0.50，可靠指数为0.44；“阅读”因子的概化系数为0.52，可靠性指数为0.45。所有信度指标都远远低于理想标准(0.80)。

(2)全域合成分测量信度。按照两因子所占比重(“写作”分值比重为40%，“阅读”为60%)，设定权重系数，对测量结果进行整合，可得全域合成分测量信度估计值。分析显示，全域合成分概化系数和可靠指数分别为0.63和0.56，与单个因子测量精确度相比有所提高。这表明，“写作”和“阅读”两个因子得分合并起来代表读写水平，具有一定的合理性。但是两个信度指标仍显著低于0.80。

(3)两因子对全域合成分的贡献。虽然两因子的赋分显示其权重分别为40%和60%，但两者对全域合成分方差的实际贡献如何仍需D研究检验。根据分析，“写作”对全域合成分方差的贡献(34%)明显低于其赋分，而“阅读”的贡献(66%)明显高于赋分。当然“阅读”的测量误差所占比重也较大(相对和绝对误差方差分别为74.25%和74.08%)。由此可见，“写作”和“阅读”的权重有待调整。

(4)权重优化后的全域合成分信度。鉴于“写作”和“阅读”赋分与实际贡献的差别，调整两因子权重，进一步分析信度变化。结果显示，在“写作”和“阅读”权重调整为45%与55%时，概化系数和可靠指数分别可提高到0.63与0.57；两权重各占50%时，两系数可提高到0.64与0.57。所以在可操作范围内，改变“写作”和“阅读”的权重，概化系数和可靠指数虽有提升趋势，但变化很慢。由于两个因子是读写课程测试的两个平行特质，不易进一步改变权重。

(5)试题数量优化后的全域合成分信度。改变试题数量是尝试调整信度的常用手段。在“写作”和“阅读”权重各保持50%的情况下，将“写作”变为3篇(或4篇)，“阅读”变为4篇(或5篇)，概化系数与可靠指数分别可提高到0.71(或0.76)与0.65(或0.71)。由此可见，在可操作范围内，合理增加任务数量能够提高信度，但是不能完全解决问题(信度仍未达到0.80)。

四、讨论

本研究采用多元概化分析，考查了机考大学英语读写成绩的信度。结果表明，对于成绩的影响，考生与试题的交互效应远远高于考生效应，试题难度效应也不容忽视。交互效应和试题难度效应的影响在“阅读”方面尤为突出。无论是在“写作”和“阅读”两个因子层面，还是在整个测试层面，测试的信度都未达到理想水平。在可操作范围内调整试题权重和题量，仅能在一定程度上提高信度，但不能使信度达到理想水平。

本研究与其他相关概化分析出入较大。Bae等对双语儿童不同语言、不同写作任务进行的概化分析中发现，考生是成绩变异的主要来源[9]。在一项综合研究中，In’nami等考查了17项写作概化研究(涉及22个数据集)。结果发现，平均而言考生是成绩变异的主要来源，其次是考生与试题的交互效应，试题效应是比较微小的变异来源[10]。Huang在元分析中，综合了9项外语测试，发现任务与考生的交互效应方差比重平均为15.06%，试题效应的方差比重平均为0.04%[11]。由此可见，一般语言测试中，考生是成绩的主要影响因素，交互效应、试题等属于次要影响因素。这是因为一般测试具有效度信度，成绩主要反映的是考生的相关特质(知识、技能、能力)水平。

本研究发现，交互效应对于成绩的影响远远高于考生效应，试题难度效应不容忽视。其原因很可能在于机考时计算机系统随机生成的试卷缺乏同质性。在同一道试题中，不同考生遇到的具体任务难度忽高忽低，不同试卷难度波动较大。

试题难度的影响，主要表现在绝对测量信度上；考生与试题交互效应的影响，同时表现在相对测量和绝对测量信度上。当成绩不能较好地反映个人在特定方面的绝对水平和名次时，不仅考试信度较低，而且效度也值得怀疑。

由于随机组卷依托的是题库，本研究发现的机考问题，其深层原因可能是题库质量不稳定、各题的难度差异太大。在缺乏可操作的标准以及必要的技术条件下，任课教师集体构建的题库很容易出现同类任务难度不同的情况。这样的题库未经严格质量鉴定和审核，直接用于机考组卷，导致异质试卷及较低的考试信度和效度也就不足为奇了。

此外，本研究也发现，试题难度、交互效应对成绩的影响在“阅读”上较为突出，这可能是因为：“阅读”是客观题，系统自动评分，难度差别会不折不扣地反映在分数上；“写作”是主观题，教师在改卷时会根据经验，对难度较大的“写作”放宽标准评分，因此缩小了不同“写作”任务之间的分数差别。此外，一个教师要对同一个学生两篇作文评分，晕轮效应(Halo effect)也会降低分数的差别。由于试题难度、交互效应对“写作”成绩的影响相对较小，因此提升“写作”并降低“阅读”赋分权重可以缓解信度危机。

考试信度不仅关系到结果的稳定性，也涉及公平性问题。提高机考信度，需要创建优质题库。为了测量写作和阅读，命题者应查阅相关文献，全面理解两者的发展规律。不少研究显示，学生对不同体裁(genre)任务的写作能力发展是不平衡的，一种体裁的写作能力，不能预测另一种体裁的水平[12]，因为不同体裁文章需要不同的修辞结构、基本语言成分、甚至单词类型。一般学生会对某些体裁的写作擅长，对另一些则生疏[13]。全面衡量写作水平，需要多篇不同作文测试任务[14]。

对于阅读，在命题时不仅应考虑体裁问题，也应考虑文本的其他特征(如风格、可读性、篇长、句长、词长、词汇级别、词汇密度等)[15]，并通过实测建立文本特征与难度级别之间的对应关系，以便使同类任务逼近同质。

五、结论

本研究考查了某高校大学英语读写机考的信度，结论如下：在缺乏同质题库条件下，大学英语机考中采用随机组卷会导致信度不足，甚至扭曲考试结果，无法真正客观、公平地反映学生的真实英语水平；在缺乏同质题库条件下，调整试题数量和赋分权重、适当增加主观题分量，可以在一定程度上缓解信度危机。

为从根本上解决机考信度危机问题，随机组卷需要以同质题库为基础。建议在建立大学英语读写题库时，命题者要根据学生写作和阅读发展规律，采用定性、定量、实证研究结合的方法，对试题进行分析和研究，对难度进行准确评定。在无法保证试题同质条件下，不宜采用随机组卷，而应采用相同试卷，这样至少可以在一定程度上减少考生与试题交互作用的影响。