国内语言测试构念效度验证研究近十年来的发展
2014-04-26张春青
张春青
摘 要:近十年来,构念效度验证理论和实践在我国有较大发展,如量化构念效化验证和质性构念效化验证研究等。就语言测试领域最新发展情况看,国内研究在构念效度验证方面还存在很多不足,有待测试研究人员进一步论证和发展。
关键词:构念效度验证;因子分析;口陈报告
一、构念效度验证理论
在语言测试中,专业化和效度研究是现在和未来研究的两个重点领域(Bachman, 2000)。构念效度研究又处于效度研究的核心地位。构念是测验所要测量的概念或特性。构念效度是测验代表语言学习基本理论程度的指标。构念效度验证研究测试所测量的能力,为测试提供理论基础。构念效度证据的来源包括考试内容、反应过程、内部结构、与其他变量之间关系和测验影响,这反映了从多种渠道积累效度证据的重要性。效度证据的不断积累有益于使用和解释分数、完善测验构念和测验本身、提出新的研究问题。精心编制的测验、命题的理论框架、测验的实施和计分过程、分数等值、及时纠正测验过程中的不公平因素等是构念效度得以实现的根本保证。
但是,作为构念效度验证基础的构念难以确定(Chapelle et al., 2010),收集的各种证据也没有连续性,基于论证的效度验证模式(Bachman, 2010)应运而生。在该模式中,测试的发展形成了一个推论链,每一个论证会形成下一个论证的出发点,第二个论点会成为第三个论点的出发点,每个论点都要有条件支撑,最后效度验证研究人员得出效度验证的结论。在这个连续统一体中,每一部分都需要收集多种证据,而每一种证据,都会对构念效度产生影响,各种证据成为了一个整体中的部分。
二、国内的构念效度验证实践
1.量化的构念效度验证研究
量化的构念效度研究主要运用结构方程模型、因子分析、多质多法分析、问卷等工具进行。其中因子分析包括探索性因子分析和验证性因子分析。
结构方程模型能够帮助测量构念的解释力。例如,为计算机自动评分的前期人工评分提供较为精确的“作文内容”分项指标及其评定标准,文秋芳(2007)运用结构方程模型检验了限时英语议论文“内容”的构念效度。她发现,代表“内容”构念的四个观测变量:文章切题性、观点明确性、说理透彻性与篇章连贯性能够解释作文质量56%的差异。运用同样的过程,高霄(2009)发现,由同样四项指标反映的“写作内容”能够直接解释“写作质量”成绩变异的46.2%;由流利性、准确性与复杂性反映的“写作形式”能够直接解释“写作质量”成绩变异的39.7%,总和为85.9%,说明“写作内容”与“写作形式”能够有效预测“写作质量”,这证实了该研究所提出的“写作质量”构念效度比较好。研究结果对二语写作评估标准的改进具有一定的启发意义。
验证性因子分析是在已知测试的理论假设的因子构成的情况下,来分析数据是否与理论假设的因子结构拟合。例如,邹申等研究者(2009)发现,英语专业八级试题中二阶单因子模型的拟合数据可以用于解释人文知识项目的构念以及内部各因子间关系:社会文化知识、文学知识和语言学知识反映了人文知识构念;同时,三个因子之间的关联也较紧密。因子负荷值也说明这些题目对其相应的因子都有显著贡献。也就是说,题目成功测试了考试规定的知识结构。
多质多法分析旨在确定在多大程度上测试结果是考生的能力所致还是测试方法所致。陈慧麟(2009)通过英语国家概况测试的案例研究,使用多质多法验证了基于纸笔的测试和基于计算机的测试所考查的构念的对等性。结果表明,纯文字的纸笔测试和相应的纯文字的基于计算机的测试具有几乎相同的能力结构。
探索性因子分析一般在未知所测构念因子结构的情况下探索实际数据的因子结构。刘国忠和秦晓晴(2010)随机抽取的英语专业四个年级320名学生的240篇限时作文,按15个指标评分后,将15个判断写作准确性的指标通过探索性因子分析缩减为12个,然后提取了三个主因子,这三个主因子初始特征值都超过了1.0的可接受值,累计方差解释率达到了71.36%。因此,这12个变量有较好的结构效度。他们得出结论:二语写作的准确性是可测的。贺莉(2012)结合语言测试的构念效度对测试结果所体现出的性别差异现象进行研究,作者运用了探索性因子分析发现,该测试对于男生概念效度较好,而对女生来说构念效度较差,作者从“构念体现不足”和“构念无关因素”两个方面对原因进行了解释。
采用多种问卷调查的方式可以调查在何种程度上考试考查了欲测的构念。基于构念整体观和建构主义对读写构念的描述,张新玲和曾用强(2009)从构念效度入手对读写结合写作任务在广东省高考英语考试中所得分数进行效度验证,运用专家预测、教师备考过程调查和考生应考过程调查,分析考生对考试过程应答数据。发现所取样本考生的读写结合写作测试应答数据和构念理论拟合,相关证据能够较充分、适当地支持基于该考试分数的大学录取决策。
2.质性构念效度验证研究
针对构念效度研究的质性研究方法主要集中在专家判断、口陈报告和语料库研究。
邹申等研究者(2009)在研究大学英语专业八级考试人文知识测试的构念效度时,首先参照《高校英语专业八级考试大纲》分析了2005年考试中的人文知识题部分的关联性和代表性。分析结果表明,该题涉及了社会文化、文学和语言学三个方面。考查内容与大纲有较强的关联性。张新玲和曾用强(2009)请25位写作教育专家做了读写任务质量判断,结果显示,绝大多数专家都认为该试题能够考查学生完成任务所需的元认知和认知能力。
口陈报告是当前构念效度验证中使用的最广泛的质性研究方法。高怀勇等研究者(2011)使用口陈法检验了PETS的口语评分,研究者让评分员听口试现场录音,听完录音后尽可能地说出评分时的真实想法和心理活动,回忆当前考生在内容、语法与词汇上的表现,加以口头评论。研究者对口头报告进行录音,之后进行文字整理和定性分析,看给考生口语的评分是基于构念有关因素还是基于构念无关因素。李绍山和陈晓扣(2006)从考生答题过程的角度对TEM—4完型填空测试进行结构效度研究。学生每做完一题后,立即口头陈述选择某一选项的理由。然后研究者分析考生是否通过正确理解短文和四个选项正确地回答了题目,而不是靠猜测正确地回答了题目,从而判断试题是否考查了打算考查的能力。
潘鸣威和徐欣幸(2010)运用语料库的分析手段,借助语言测试构念效度的验证模式,从考生所反映出的问题中研究了上海高考英语测试汉英单句翻译的构念效度。翻译测试的构念应包含对语言本身的掌握以及对于源语和目标语之间存在不对应处的切换意识。对于第一点,研究者观察语言错误类型;第二点观察汉英切换中的汉语冗余信息和汉英不对等性的处理。然后研究者列出了符合高考实际情况的各项验证指标。据此研究者提出了三个问题,汉英单句测试考察了什么内容?这些内容与构念的拟合度如何?汉英单句测试的总体构念如何?研究者为此建立了汉英句子翻译语料库,通过分析发现,考生在每句话中的出错点都可以分门别类地划归到汉英单句翻译测试构念的操作定义中去。换言之,高考中汉英单句翻译测试能较好地拟合衡量翻译任务所应具备的语言能力和翻译能力,因此具有较好的构念效度。但是,研究者只注意了一个方面,这类主观试题最致命的地方在于评分员,如果评分员信度低,那么其效度无论如何也不会高。
三、 结束语
本文仅综述了国内外语核心期刊上发表的关于构念效度验证的文章,没有涉及已出版的博士论文,所以还很不全面。但是,从现有的文献来看,我国语言测试学者还和国际语言测试领域构念效度验证的理论和实践有一定差距,例如,未见到利用语篇分析来进行构念效度验证的文章;现有的积累起来的针对某一测试构念效度的证据太单薄;未见到系统运用“以论证为基础的效度验证”理论的文章。在这些方面,国内的测试研究者可以做出自己的贡献。
参考文献:
[1] Bachman (2000). Modern language testing at the turn of the century: assuring that what we count counts. Language Testing 17.1: 1- 42.
[2] Bachman (2010). Language Assessment in Practice. Oxford: Oxford University Press.
[3]Chapelle, Enright, Jamieson (2010) Does an Argument-Based Approach to Validity Make a Difference? Educational Measurement: Issues and Practice Spring, 29. 1: 3–13
[4]陈慧麟. 基于纸笔的语言测试和基于计算机的语言测试之间效度对等性验证模式初探[J].外语界,2009(3).
[5]陈晓扣,李绍山. TEM-4完型填空测试结构效度研究—答题过程分析法[J].现代外语,2006 (1).
[6]高怀勇, 戢焕奇, 刘锋, 汪定明.基于试题内部结构和评分过程的口试构念效度研究——以PETS四级为例[J]. 山东外语教学, 2011(4).
[7]高霄. 二语写作质量构念效度的结构方程模型分析[J] . 山东外语教学, 2009(6).
[8]贺莉. 语言测试构念效度的性别差异研究[J] .解放军外国语学院学报,2012(9).
[9]刘国忠, 秦晓晴. 二语写作准确性结构效度研究[J] . 外语与外语教学, 2010(2).
[10]潘鸣威, 徐欣幸. 基于语料库汉英单句翻译测试的构念效度探究——以全国高考(上海卷)翻译题为例 [J] . 中小学英语教学与研究, 2010(4).
[11]文秋芳.“作文内容”的构念效度研究——运用结构方程模型软件AMOS 5的尝试[J] .外语研究,2007(3).
[12]张新玲, 曾用强. 读写结合写作测试任务在大型考试中的构念效度验证[J].解放军外国语学院学报,2009(1).
[13]邹申, 彭康洲, 孔文. 应用EQS和BILOG分析TEM8人文知识项目的构念效度[J].中国外语, 2009(1).