以过程分析法研究TEM-4完型填空测试的结构效度

2013-11-29包蕾

浙江外国语学院学报 2013年3期

包蕾

(湛江师范学院基础教育学院，广东湛江524300)

一、引言

任何语言测试都必须考量其效度与信度。按照Henning的解释，测试的有效程度依赖其在多大程度上测出了预期测量的东西［1］89。此外，Bachman提到，测试效度关心的问题是“测试的分数在多大程度上反映被测试者的语言能力”［2］161。而且在众多的测试效度中，Bachman认为结构效度最为核心，因为它回答了一个测试最基本的问题，即该测试所要测量的能力。而结构效度的高低意味着测试结果能多大程度上揭示受试者的语言能力以及与语言能力相关的心理特征。这一点也体现了它在语言测试中相当重要的地位［3］26。

但在国内外语言测试效度研究中，绝大多数都采用了因子分析(factor analysis)、多特征多方法设计(multitrait-multimethod design)和差异组设计(group difference design)，从统计学的角度收集相关证据和实验证据。尽管这些研究方法各有其优点，但却存在着共同的问题。Bachman认为这些研究方法只关注了测试的结果——分数，而忽略了验证测试效度最为重要的部分，即受试者的思维过程，也就是无法直接证明测试结果与受试者在测试中认知活动正确程度的关系［2］。仅仅通过对测试所得分数的分析，是无法揭示受试者在答题过程中是通过什么途径、以什么方式、经过什么步骤获取正确答案的。而最为直接的验证测试结构效度的研究方法是过程分析法(process approach)。

Bachman提出Cohen最先采用口陈报告(verbal report)来研究受试者在语言测试中所采用的策略［2］269［4］。该研究利用自我口陈报告的数据来揭示受试者在进行完型填空和单项选择的阅读测试中所使用的各种阅读和应试策略。为了研究这一思维过程，国内外许多研究［5-8］都采用了即时内省法(immediate introspection)的方式来验证阅读测试的结构效度。但这种即时作出口陈报告的方法会打断阅读时连续的思维过程，受试者需要同时兼顾测试和报告两项任务，使得数据的可靠性受到质疑。Alavi提出回顾报告(retrospective report)可以弥补即时内省法的不足［9］。同样要求受试者报告其在测试中的思维过程，前者是与测试同时进行，而后者则在测试完成后回顾答题时的思考过程再作报告。基于此，本研究使用回顾报告的方式对完型填空的结构效度进行验证。

二、研究目的

完型填空一直是大学英语考试和专业英语考试中常见的题型，除了涉及语法和词汇知识之外，还需对短文进行阅读理解。它要求受试者根据文章结构和上下文意思推测所缺信息并选择适当的单词来填补，与单项选择的阅读理解题相比，完型填空考察了受试者对文章的综合理解程度，包括词义的理解、句子的理解和语篇的理解等。对于受试者来说，并不仅仅依靠阅读理解能力就能完成试题，同时需要依靠逻辑推理、猜测等应试技巧或策略。有些应试策略的使用并不是试题设计者所希望考察的语言能力，但却可以帮助受试者完成试题。为了了解受试者在完型填空测试中所使用的阅读和应试策略，在前人的研究基础上，本文采用回顾报告的研究方法，通过对受试者真实答题过程与预期答题过程一致性的分析，来检验TEM-4完型填空测试的结构效度。本研究将主要探讨以下两个问题:(1)受试者在TEM-4完型填空测试中采用了哪些阅读和应试策略?(2)受试者在测试中的实际答题过程与命题者设计的预期答题行为是否相符?

三、研究方法

(一)研究对象

参加实验的调查对象来自湛江师范学院基础教育学院2010级英语专业二年级近200名学生中随机抽取的30名学生。经过预测，他们的英语水平总体上接近TEM-4的考试群体，可以反映备考学生的基本水平。实验前，我们将此实验的目的、程序及时间告诉了受试者，以期获得他们最大限度的合作。

(二)实验设计

实验材料为2011年TEM-4完型填空试题。该部分由一篇224个单词的阅读材料和20个单项选择题(第31题至第50题)构成。受试者须在15分钟内完成试题，并将答案填在答题卡上。

为了了解调查对象在阅读测试中的行为和思维过程，我们采用了阅读和应试策略列表的方法，在受试者完成测试后立即根据答题时的思维过程给每一题选择出所使用的阅读策略和应试技巧。阅读和应试策略列表的制订以Weir和Khalifa提出的阅读模式［10］为理论依据，并以Weir等人在其研究中所用的阅读策略列表［11］为蓝本，根据中国学生的实际情况和语言习惯作了修改。该阅读和应试策略列表包括两个主要部分:阅读前的策略、阅读和应试策略。阅读前的策略主要指阅读技巧中的快速阅读(expeditious reading)和仔细阅读(careful reading)两种模式。目的是查看受试者在处理一篇阅读材料时，会用何种方式预览文章大致的意思。而阅读和应试策略部分则根据Weir和Khalifa阅读模式中的核心部分设计，包括四个主要方面:词汇层面(第5至8项策略)、句子层面(第9至12项策略)、段落层面(第13至15项策略)和应试技巧(第16至20项策略)。经过筛选和修改，最终的阅读和应试策略列表包括4项阅读前策略和16项阅读和应试策略，见表1。

表1 阅读和应试策略列表

四、实验结果与分析

(一)测试的结果

实验的所有数据都采用统计软件SPSS10.0进行分析。图1中显示了受试者在模拟测试中得分的分布情况。总分为20分，每小题1分，平均分为11.2分，平均得分率略高于50%。最高分为18.0分，而最低分为7.0分。

图2显示了每小题的正确率。根据该柱形图可见第37小题正确率最高;第41小题正确率最低，不足20%;有50%的受试者可以答对12题或以上。

图1 模拟测试得分分布图

图2 每小题正确率统计图

(二)阅读和应试策略列表的结果分析

在阅读前策略运用部分，受试者需要在四个读前策略选项中选择一个。其选择表明受试者在进行完型填空每小题的选择之前，是如何对完型填空阅读材料预先进行处理的，表2显示了统计的结果。

表2 阅读前部分数据统计

21名受试者采用了第1项和第2项快速阅读的技巧，其中30名受试者的50%选择了第2项策略，这表明受试者更关注阅读材料大意，认为掌握文章主旨比细节的斟酌更为重要。

为了显示读前策略与分数之间的关系，图3显示了各分数层阅读前策略运用的调查数据对比，图中平均值为某一分数层中选用某一策略的总次数与该分数层的总数的比值，图4和图5也是如此。因为平均分为11.2分，所以分数层次的划分包括低分层(≤9)，中分层(10—12)和高分层(≥13)。

图3 各分数层读前策略运用情况对比

各个分数层的受试者都倾向于使用第2项策略，快速阅读并获取文章大意。但高分层和低分层的受试者都完全没有采用第3项策略，即仔细阅读。为此，笔者特意对部分受试者进行访问。多数高分层的受试者认为没有必要花过多时间在细节上，阅读材料并不是很难理解，答案也较容易确定。而且，他们对于第2项和第4项策略的使用率比较高，表明高分层的受试者并不需要花较多时间在预先阅读材料上就能理解文章并选出正确的答案。而低分层的受试者则认为要理解每一个单词的意思很难，他们也没有足够的时间逐字逐句地看。因此，他们大部分选择第2项策略，通过快速浏览获取文章大意。而对于中层的受试者来说，他们竟然都没有使用第4项策略，即不读而直接看选项。他们认为还是需要花时间对阅读材料有基本的认识，才能更好地理解文章，更肯定每小题的答案。

表3为第5项至第20项阅读和应试策略运用的统计，表中平均值为某一策略30名学生选用的总次数与总人数30的比值。根据表3的数据，不难看出:就平均值来言，第5—20项阅读和应试策略中平均使用次数在2 次及以上的有第 5、7、8、9、11 项阅读策略;不足 1 次的有第 6、13、14、15、16、17、18和20项阅读和应试策略。

表3 阅读和应试策略列表调查统计结果(N=30)

在阅读和应试策略的调查中，受试者对于每小题的策略选用可以多选，不局限在一种策略的使用上，而各个层次的策略与分数之间的关系反映在图4、图5中。按照前一节所介绍，分数层的划分包括低分层(≤9)，中分层(10—12)和高分层(≥13)，而策略的分层则包括词汇层面(第5至8项策略)、句子层面(第9至12项策略)、段落层面(第13至15项策略)和应试技巧(第16至20项策略)。

图4 各分数层受试者阅读和应试策略使用情况(一)

图5 各分数层受试者阅读和应试策略使用情况(二)

如图4显示，与其他词汇层面的策略相比，高分层受试者较多地使用第5项策略(运用词汇知识)，而第7和第8项策略的使用情况，各分数层受试者运用情况相似，说明对于选项和阅读材料的理解都需要运用词汇和语法的基础知识进行分析。在句子层面策略的使用方面，分数的提高与第9、10和11项策略使用的增加相一致，说明分数越高的受试者越倾向采用这三项句子层面的策略，对于句子的分析所获得的信息更容易帮助受试者确定正确的答案。

如图5显示，与其他段落层面的策略对比，使用频率较高的策略为第13项(理解该段的大意)，但是该项策略使用的多少与得分的高低却是负相关。经过事后的访问得知，相对其他分数层受试者来说，高分层的受试者相对少地使用该项策略的原因主要是他们在理解文章段落上没有太大的困难，同时也印证了他们几乎不需要使用第14项策略的原因，即他们没有必要在已经理解文章的基础上再回顾整个段落来找答案。

第16至20项为应试策略。猜测、推理和对选项的排除等方法都不是试题设计者设计完型填空时想要测试的技巧。而高分层的受试者对于这五项应试策略相对于其他受试者运用得较少，平均不足一次。第18项策略，高分层和低分层的使用情况相似，结合访问所得，受试者都认为在阅读和理解文章的过程中，都需要结合一定的常识，这是该策略在各分数层运用情况差异不大的主要原因。而低分层的受试者运用第19项策略(用排除法来选出可能的选项)的平均次数则约为高分层的近3倍。这意味着他们在四个选项的辨析上存在较大的困难，无法直接准确地选出正确的答案。

(三)测试结果与阅读和应试策略之间的相关分析

对阅读和应试策略的使用和测试分数进行相关性分析，可以显示出策略与分数之间的相关性。在表4中，只列出有显著相关的策略，即第10、11、12、16和17项。其中第12、11和10项策略与测试分数之间有着显著正相关，而第16和17项策略则与分数呈现显著负相关，说明较多地使用猜测的应试策略反而不容易选中正确的答案。

表4 策略与分数的相关数据

策略与策略之间的相关性分析也同样印证了前一节的分析结论。根据各分数层和各层次策略的对比分析，第5项策略是高分层受试者使用率最高的阅读策略，而第19和20项应试策略被认为是不能提高答题正确率的，同时也不是试题设计者期望受试者使用的应试技巧。在表5中列出这三项策略与其他策略使用情况的相关数据。第5项策略与第11项策略之间呈显著正相关，与第20项策略之间呈负相关。这说明高分的受试者倾向于使用第5和11项策略组合，选择答案的过程基于对词汇意思的理解和句子之间的联系，而不能通过猜测将正确的答案选出。对词汇和句子层面策略的集中使用与TEM-4完型填空试题设计的预期答题思路相一致。在对第19和20项策略进行分析时，同样发现其与词汇和句子层面的阅读策略有较显著的负相关，说明该应试技巧并不是试题测试者希望受试者采用的策略，而采用这些策略也反映了受试者在对某些考察的词汇和句子的理解上有缺失。排除法和猜测法这些常用的应试技巧并不能提高受试者的答题正确率，这也说明其题目的设计能够考察受试者的语言和阅读能力，具有一定的测试效度。

表5 策略之间的相关数据

但是要通过过程分析法来回答受试者在测试中的实际答题过程与命题者设计的预期答题行为是否相符这一问题，还需要对策略的正确使用率作统计和分析。基于之前的文献综述和研究方法的分析，对于结构效度的验证过程需要对受试者的分数和策略的正确使用次数作对比。根据该试题提供的参考答案和分析，对比受试者测试后完成的阅读与应试策略调查表，将受试者使用策略的数据采用SPSS10.0进行分析，受试者的分数与策略的正确使用次数之间明显正相关，相关系数为0.682。可是这只是结论的一部分，而通过统计数据的整体情况来看，30名受试者的总得分为335，意味着一共答对的题目数量为335题，而其中完全正确地使用阅读策略的题目只有137题，只是占了全部的41%，还有超过一半的题没有完全使用正确的策略或还用了其他应试策略来完成的。因此，受试者在接受2011年TEM-4的完型填空测试时，并没有在很大程度上展现试题设计者期望受试者展现的语言和阅读能力。综合多方面的研究数据，不能绝对地认为该完型填空测试具有非常高的结构效度。

五、结论

本调查旨在从一个新的角度对英语专业四级(TEM-4)中的完型填空题目进行结构效度的检验。与之前的研究多采用的口陈报告或即时内省等方法不同，本次研究采用回顾报告的方法，结合阅读和应试策略列表的使用，对30名备考TEM-4的学生作调查，调查结果主要有以下几个方面:

(1)高分层的受试者较多地采用快速阅读的策略对材料作初步了解，中分层在选择答案前则需要仔细阅读整篇文章，而低分层未掌握足量词汇，无足够时间仔细阅读。这表明不同分数层的受试者由于词汇量和阅读理解能力的差异，对阅读前策略的应用有所不同。

(2)在阅读和应试策略中，使用频率最高的是第5和第9项，这两项策略主要是对词汇和句子层面知识的运用，并且他们的使用多少与分数的高低有着明显的正相关。而与分数有着明显负相关的则是第19和20项策略，也就是猜测和排除法等应试技巧。这说明该完型填空的测试构念在于考察受试者的词汇和句子策略的运用和阅读能力，而不是纯粹应试技巧的使用。

(3)相关分析显示受试者较多地使用词汇、句子、段落层面的阅读策略，表明TEM-4完型填空试题确实达到预期测试目标:考察受试者的语言和阅读能力。同时，考纲所要求的阅读策略在数据检验中呈现显著性。但是在对比答题正确数据和正确使用策略的数据时，发现阅读策略的正确使用率却不如预期中的高，说明试题的设计仍需要不断完善和改进以达到较高的结构效度。

本调查是了解TEM-4备考学生在完型填空测试中的阅读和思维过程的初步尝试，同时也采用了不同的实验方法验证了前人所做的一些研究。由于样本量的限制，结论并不能全面地体现其对TEM-4完型填空试题结构效度的验证，但本次调查还是对于保证测试的科学性和合理性有着一定的理论和实际意义的。

［1］Henning G.A Guide to Language Testing:Development，Evaluation and Research［M］.Beijing:Foreign Language Teaching and Researching Press，2001.

［2］Bachman L F.Fundamental Considerations in Language Testing［M］.上海:上海外语教育出版社，1999.

［3］Hughes A.Testing for Language Teachers［M］.2nd Edition.Cambridge:Cambridge University Press，2003.

［4］Cohen A D.On taking language tests:What the students report［J］.Language Testing，1984(1):70-81.

［5］Anderson N，Bachman L，Perkins K，etc.An exploratory study into the construct validity of a reading comprehension test:Triangulation of data sources［J］.Language Testing，1991，8(1):41-66.

［6］金艳，吴江.以“内省法”检验CET阅读理解测试的效度［J］.外语界，1998(2):47-52.

［7］张文霞，付琼.试用口陈报告验证CET-6阅读理解测试结构效度［J］.中国英语教学，2002(4):2-5.

［8］陈晓扣，李绍山.TEM-4完型填空测试结构效度研究——答题过程分析法［J］.现代外语，2006(1):71-77.

［9］Alavi S M.On the adequacy of verbal protocols in examining an underlying construct of a test［J］.Studies in Educational E-valuation，2005(31):1-26.

［10］Weir C，Khalifa H.A cognitive processing approach towards defining reading comprehension［J］.Cambridge ESOL:Research notes，2008(31):2-10.

［11］Weir C，Hawkey R，Green A，etc.The cognitive processes underlying the reading construct as measured by IELTS［J］.IELTS Research Reports，2006(9):157-189.