中国少数民族汉语水平考试三级笔试效标证据的效度研究<br/>——基于Toulmin 论证模型

中国少数民族汉语水平考试三级笔试效标证据的效度研究
——基于Toulmin 论证模型

2017-06-05张健任杰周成林

中国考试 2017年2期

关键词：理据效度测验

张健任杰周成林

（北京语言大学，北京 100083）

中国少数民族汉语水平考试三级笔试效标证据的效度研究
——基于Toulmin 论证模型

张健任杰周成林

（北京语言大学，北京 100083）

Toulmin效度论证是一个从考生表现到测验使用的系统化的过程,内部包含多个论证，前一个论证的终点同时又是下一个论证的起点，环环相扣，使效度论证对分数的解释更加合理，其中测验的外部效标证据主要适用于外推阶段的效度论证。本文首先从Toulmin效度论证模型的基本内容展开，结合新托福考试，介绍该模型的效度论证框架。其次，以某高校参加2016年5月少数民族汉语水平考试（MHK）三级笔试的261名考生的入学分班考试结果和学期期末成绩（汉语写作、汉语精读、汉语听力、数学）为效标证据，从不同角度对该证据进行分析。最后，将上述分析结果作为论证支撑，以Toulmin效度论证模型为理论框架，从实证角度对MHK三级笔试的外推阶段进行效度论证。

效度论证；MHK；效标证据；Toulmin模型

1 引言

关于效度（validity）和效度论证（validation），《教育与心理测量标准》开明宗义：效度指的是证据和理论支持测验的意向性用途所必然要求的测验分数解释的程度。因此，开发和评估测验时，效度是最根本的考量。效度论证过程涉及累积证据，为的是给意向性分数解释提供一个合理、科学的基础[1]。因此，如何为效度论证累积证据，如何为目标分数提供合理的解释是效度研究必须面对的问题。自20世纪80年代起，语言测试进入效度整体观的时代，在这一背景下，Kane提出的基于论证的效度验证模型将Toulmin逻辑论证模型引入效度论证研究，为解决上述问题提供了一个科学的论证框架，Chapelle等人将这一框架应用于实践，利用Toulmin模型率先为新托福考试进行效度论证[2]。在这一方面，我国国内研究目前还处于理论引进和探索阶段，如谢小庆、陈宁、孙晓敏、胥云、李智、邓杰等详细介绍和分析了基于论证的Toulmin效度论证模型，但尚无实证研究[3-8]。本文将以Toulmin效度论证模型为基础，对收集的少数民族汉语水平考试（MHK）三级笔试的效标证据进行效度论证，以期为目标分数提供合理解释。

2 Toulmin效度论证模型的基本内容

2.1 Toulmin逻辑模型

Toulmin在其著作《论证的使用》一书中提出了一个由主张（claim）、资料（data）、理据（warrants）、支撑（backing）、限定词（qualifier）和反驳（rebut⁃tal）6个要素所组成的论证模式[9]。6个要素的具体关系如下：

图1 Toulmin逻辑论证模型

图2 Kane的基于论证的效度验证模型[10]

其中，主张是说话者试图在论证中证明为正当的结论；资料是提出“主张”的事实依据；理据是从“资料”过渡到“主张”提供的“保障”。当由“资料”到“主张”的推论收到质疑时，需要用“理据”来证明由“资料”到“主张”的推论是合法的。支撑是对理据的支援性陈述，这种支援可以是一个事实性的陈述，也可以是一个包含、主张和理据的完整论证。限定词是理据能够在多大程度上保证从资料到达主张的合理程度。反驳从资料顺利到达主张的不能成立特殊的情况。

2.2 基于Toulmin模型的效度论证框架

Kane在1992年提出了基于论证的效度论证方法，后来该方法被不断地完善，逐渐形成了一种比较成熟的基于论证的效度论证模型。在Kane提出的效度论证方法中，区分了两种不同的论证，即解释性论证和效度论证。效度论证是在解释性论证基础上进一步累积搜集证据，检验解释性论证结论的合理性。其模型结构如图2。

通过观察考生测验表现得到考生的观察分数，即考生的考试分数，这一过程称为评估，评估的结果作为下一个推论的起点；第二轮推论将考生的观察分数作为起点，进一步概化得到期望分数，所谓期望分数，就是根据考生这一次的表现，来推导出考生在不同时间、地点，且评分人员不同时做相似测试应该得到的分数；第三轮推论以期望分数为起点，通过外推得到考生在目标情景或者非考试情景中的目标分数。经过层层推论，将考生的考试成绩这一资料和考生日后在目标情景中能否顺利完成目标任务的主张联系了起来，每一个论证的终点又作为下一个论证的起点，环环相扣，形成完整的效度论证框架。

Chapelle等人把这一理论应用于新托福考试，从实证角度对新托福考试进行效度论证。Chapelle进行效度论证时，增加了目标域和构念两个环节（目标域指测验的测试范围和领域，构念主要回答测试“测什么”的问题），相应地也增加了“领域描述”和“解释”两个推论[11]。这一框架的主要贡献：一方面明确了测验的测量领域，保证效度论证不偏离测验欲测量的目标领域；另一方面，把构念作为连接期望分数和目标分数的桥梁，既回答了测验主要测什么的问题，也回答了期望分数能够被外推到目标分数的根本原因所在。

Chapelle等人运用Toulmin效度论证模型对新托福考试进行的效度论证在学界影响巨大，其原因不仅在于他是将新效度研究范式应用于大型标准化考试的先锋，还在于他对这一模型的完善和发展，更在于他从多方面搜集效度证据，用充分的实证数据验证理论，发展理论。在众多效度证据中，外部效标证据最为明显，通过搜集考生参加和新托福考试相似构念的其他测验成绩、考生的自我评价、教师给考生的评价等，建立起新托福成绩和其他测验之间的相关关系，这些效标证据作为资料主要用于外推阶段的效度论证。Chapelle等人对新托福的论证为我们研究MHK提供了很好的借鉴。比如，在MHK效度论证的外推阶段，我们可以提出主张：考生入学/期末成绩可以成为衡量MHK效度的证据，并对该主张进行论证。假设：考生在MHK的测验表现和判断汉语掌握情况的其他标准有关，不同类型的汉语考试在区分不同汉语能力考生方面具有一致性；考生的期末汉语考试是对考生本学期在校实际汉语能力表现的真实考察，成绩基本符合考生实际汉语能力。论证资料：参加MHK考试的考生期末成绩。理据是同一目标域中所测构念相似的考试应该是紧密相关的。研究表明MHK考试主要考察考生在未来在生活、学习和工作中能否使用汉语进行正常交际的听说读写能力，而入学分班考试是对学生入学前汉语听说读写能力的诊断，期末汉语考试是考察学生对本学期汉语知识的掌握情况和在本学期学习生活中使用汉语进行正常交际的听说读写能力的提升情况，三者虽然功能不同，但都包含对学生汉语听说读写能力的考察，所测构念相似。在这些前提下，基本可以推论出主张:考生入学/期末成绩可以成为衡量MHK效度的指标。反驳理由可以是：特殊情况如考生入学/期末考试作弊时，成绩不具有说服力。

3 MHK三级笔试效标证据的实证研究

MHK主要测试母语非汉语的少数民族汉语学习者汉语水平的国家级标准化考试。MHK包括4个等级，其中三级主要用于高考、预科结业以及中小学教师能力认定等领域，是参加考试人数最多的级别，考察考生未来在生活、学习和工作中能否使用汉语进行正常交际的汉语能力，三级笔试试卷主要包括3部分：听力、阅读、书面表达（分为客观书面表达和作文两部分）。本研究采用某高校参加2016年5月MHK三级的261名考生入学分班考试结果和学期期末成绩（汉语写作、汉语精读、汉语听力、数学）为效标证据，以Chapelle等修正后的Toulmin效度论证模型为基础对MHK三级笔试进行效度论证。该批考生参加MHK三级考试是在分班考试之后、期末考试之前，分班考试和期末考试是对考生汉语能力评价的其他有代表性的标准，为MHK效度验证提供了有力的效度证据。实际上，效度论证是一个完整的链条，效标证据主要适用于外推阶段的效度论证。

3.1 以不同测验相关关系为证据的效度论证

通过收集和MHK相似构念的考生期末汉语精读成绩、汉语写作成绩，并以此为效标，分别计算其和MHK阅读、MHK写作、MHK总分的相关。假设：考生在MHK的测验表现和判断汉语掌握情况的其他标准有关，同一群体内某一考生在判断汉语能力掌握情况的不同测验中的排名应该基本相同。故本文根据两个量表中变量的排名顺序采用斯皮尔曼等级相关计算不同测验的相关关系，具体结果详见表1～表2。

表1、表2表明：考生汉语阅读期末成绩和MHK阅读、MHK总分的相关系数在0.5左右，相关系数为0的概率小于0.01，因此为中度正相关。考生汉语精读期末成绩和MHK客观书面表达、MHK写作、MHK总分的相关系数在0.381～0.401，为中度正相关。这一结果可以作为效度论证的支撑，以不同测验间相关系数为证据的具体效度论证如下。

推论的假设:考生在MHK的表现和判断考生汉语能力的其他标准有关，测量同一构念的测验评分标准基本一致；相关系数可以作为一种效度验证方法；考生参加真实目标域和MHK相似构念的其他考试，测试结果应基本一致；该效度论证模型中期望成绩之前的论证均成立。

推论的论证：根据Toulmin模型，该论证的资料是考生的期望考试成绩。理据是由MHK所测量的语言能力的高低能反映考生在未来工作、学习、生活中运用汉语进行交际表现水平的高低。对理据的支撑为考生参加MHK的考试成绩和考生本学期汉语阅读、汉语写作期末成绩之间中度正相关。在这些前提下，基本可以推论出主张：目标分数代表了考生在日后汉语语言环境中的表现。反驳理由可以是中度正相关支持力度不够，相关系数不够高等。

表1 汉语精读和MHK阅读的相关

表2 汉语写作和MHK书面表达的相关

为了弥补中度正相关支持力度不够的问题，我们从反面入手，选取与本测验测量不同构念的测验——期末数学成绩，这一结果也是对MHK效度的支持，说明这个测验确实是一个“言语测验”而不是一个“逻辑推理测验”，这种证据被称为区分性证据。计算结果见表3。表3表明：考试数学成绩和MHK总分及各分测验的成绩相关系数在-0.021～ 0.100，相关系数为0的概率>0.389，因此二者基本不相关。该结果可作为上文理据的支撑。具体效度论证如下：假设考生在MHK的表现和判断考生数学推理能力的测试无关。根据Toulmin模型，该论证的资料是考生的期望考试成绩。理据是和MHK所测构念不同的考试不能反映考生在未来工作、学习、生活中运用汉语进行交际表现水平的高低。对理据的支撑为考生参加MHK的考试成绩和考生本学期数学成绩之间基本不相关。在这些前提下，基本可以推论出主张：目标分数代表了考生在日后汉语语言环境中的表现，而不是其数学逻辑能力。

3.2 以不同测验的组间比较结果为证据的效度论证

确定效标的另一途径是看测验分数是否可以区分以效标行为水平所定义的不同群体[12]。我们根据考生汉语精读期末成绩是否及格把考生划分为两类，看他们的MHK阅读成绩是否差异显著，该分析结果可以作为以不同测验间组间比较为证据的效度论证的支撑，具体结果见表4。

表4显示，根据考生汉语精读成绩是否及格把考生分为两组，方差齐性检验的F值为3.645，显著性概率P>0.05,因此两组方差差异显著，即方差齐。从t检验可得：P值为0.000<0.010，因此两组考生的MHK阅读成绩差异显著。我们把这一结果作为对理据的支撑进行效度论证，具体推论如下。

推论的假设:考生在MHK的表现和判断考生汉语能力的其他标准有关，测量同一构念的测验评分标准基本一致，考生参加和MHK同一目标域相似构念的其他考试，测试结果基本符合考生汉语能力且可以真实地将不同能力的考生分为是否及格两大类；不同测验的组间比较可以作为效度论证的证据；该效度论证模型中期望成绩之前的论证均成立等。

表3 考生期末数学成绩和MHK各分测验成绩的相关

表4 两组考生（汉语精读及格组与不及格组）MHK阅读成绩t检验

推论的论证：根据Toulmin模型，该论证的资料是考生的期望考试成绩。理据是由MHK所测量的语言能力的高低能反映考生在未来工作、学习、生活中运用汉语进行交际表现水平的高低，汉语能力不同的考生在MHK的考试成绩差异显著。对理据的支撑数据显示根据考生汉语精读期末成绩是否及格分成的两组不同汉语能力的考生，他们的MHK阅读成绩差异显著。在这些前提下，基本可以推论出主张：目标分数代表了考生在日后汉语语言环境中的表现，即MHK得分高的考生在日后汉语语言环境中表现较好，得分低的表现较差。反驳理由可以是当样本量足够大时，很小的差异都会造成差异显著。

同理，我们也可以分别根据考生汉语写作、汉语听力期末成绩是否及格把考生分为两组，依次分析这两类考生的MHK听力成绩、MHK书面表达成绩是否差异显著，分析结果见表5、表6。由表可知：根据考生汉语写作成绩是否及格把考生分为两组，方差齐性检验的F值为4.144，显著性概率为P> 0.050，因此两组方差差异显著，即方差齐。从t检验得P值为0.006<0.01，因此两组考生的MHK书面表达成绩差异显著；同理，根据考生汉语听力成绩是否及格把考生分为两组，F值为1.218，显著性概率为P>0.050，两组方差差异显著，即方差齐。t检验的P值为0.005<0.010可知，两组考生的MHK听力成绩差异显著。这些结果均可以作为效度论证的支撑。具体效度论证同上，本文不再赘述。

3.3 以不同班级成绩差异为证据的效度论证

本研究中的考生来自5个不同班级，班级划分是根据考生入学时在汉语能力分班考试中的成绩，因此各班考生汉语能力不同，从15E01班到15E05班，学生汉语能力依次增高。我们按班级将考生的MHK笔试总分进行分类，以班级为效标证据，对不同班级考生MHK考试成绩进行平均数差异显著性检验，计算结果如下。

表5 两组考生（汉语写作及格组与不及格组）MHK书面表达成绩t检验

表6 两组考生（汉语听力及格组与不及格组）MHK听力成绩t检验

表7 不同班级考生MHK笔试成绩的描述性统计

表7、表8显示，从1班到5班考生MHK笔试总分基本呈递增趋势，但15E03班平均分高于15E04班，F值等于69.177，显著性近似为0，组间均方远远大于组内均方，因此各班级考生的MHK考试成绩差异显著。我们将此结果作为对理据的支撑进行效度论证。

推论的假设:考生在MHK的表现和判断考生汉语能力的其他考试有关，考生汉语能力分班考试评分标准制定合理，入学分班情况基本符合考生实际汉语能力；汉语水平高的考生在不同类型的汉语考试中得分均相对较高；考生汉语能力短期内不会有太大变化；入学考试分班结果可以作为效度证据；该效度论证模型中期望成绩之前的论证成立等。

推论的论证：根据Toulmin模型，该论证的资料是考生的期望考试成绩。理据是由MHK所测量的语言能力的高低能反映汉语水平不同的班级学生在实际工作、学习、生活中运用汉语进行交际表现水平的高低。对理据的支撑是数据显示汉语水平不同的班级考生MHK笔试成绩平均数差异显著。在这些前提下，基本可以推论出主张:考生MHK考试目标分数基本代表考生实际目标域的表现。反驳理由可以是平均数易受极值影响，差异可能是由部分考生成绩凸显导致的。

表8 不同班级考生MHK成绩差异的方差分析表

4 结论

根据以上论证，本研究得出的结论如下：将考生入学分班结果和期末考生成绩作为衡量MHK效度论证的证据这一主张是基本成立的。将3类效度证据作为论证的支撑，根据Toulmin效度论证模型均可以基本推论出MHK考试目标分数代表了考生在日后汉语语言环境中的表现。因此，MHK考试效度论证的外推阶段基本成立。换句话说，考生的MHK三级笔试成绩可以反映考生在实际汉语交际环境中的表现，从这个角度来看，少数民族汉语水平考试三级笔试是有效的。

[1]American Educational Research Association,American Psychologi⁃cal Association,National Council on Measurement in Education. Standards for educational and psychological testing[M].Washington, DC:AERA,1999.

[2]BRENNAN R L.Educational measurement（4th edition）[M].Wash⁃ington,DC:American Council on Education/Praeger,2006.

[3]陈宁.Toulmin推断模型在考试效度论证中的应用[J].中国考试, 2012（4）.

[4]邓杰.论语言测试效度的辩论方法—辩论逻辑与效度解释[D].上海:上海外国语大学,2011.

[5]李智,肖云南.基于论证的测试效度验证与高考英语效度验证研究[J].考试与招生,2013（11）.

[6]孙晓敏,张厚粲.效度概念的演进及其新发展[J].心理科学,2004（1）.

[7]谢小庆.测验效度概念的新发展[J].考试研究,2013（3）.

[8]胥云.语言测试中基于论证的效度验证模式述评[J].外语教学理论与实践,2011（4）.

[9]斯蒂芬·图尔敏.论证的使用[M].谢小庆,王丽,译.北京:北京语言大学出版社,2016.

[10]KANE M T.An argument-based approach to validity[J].Psychologi⁃cal Bulletin,1992（112）：527-535.

[11]CHAPELLE C A,ENRIGHT M K,JAMIESON J M.Building a validity argument for the Test of English as a Foreign Language [M].New York:Routledge,2008.

[12]谢小庆.心理测量学讲义[M].武汉:华中师范大学出版社,1988.

Research of Validity Criterion Evidence for the MHK Writing Test: Based on the Toulmin’s Argument Model

ZHANG Jian,REN Jie,ZHOU Chenglin
（Beijing Education Examinations Authority,Beijing 100083,China）

Test validation of Toulmin’s Argument Model is a systematized process which is from examinee’s performance and to test use.A series of arguments are included and the terminal point of the former argument is the start of next argument,which makes the explanation of scores based on test validation more reasonable.The test’s external criterion evidence is mainly applied on the extrapolation state.This article,first of all,based on the argument of test validation of Toulmin’s Argument Model,combined with New TOFEL,introduces the framework of test validation of Toulmin’s Argument Model.For the second step,we collected the admission test scores and final exam results from 261 students who had attended the MHK level 3 writing test in May 2016.This judgement as an external criterion evidence,was analyzed from three angles.In the last step,the test validation of extrapolation state of MHK from empirical perspective would be done with the correlation result for backing and Toulmin’s Argument Model for framework.

Validity Argument;MHK;Criterion Evidence;Toulmin Model

G405

1005-8427（2017）02-0040-7

10.19360/j.cnki.11-3303/g4.2017.02.006

（责任编辑：周黎明）

本文系北京语言大学院级科研项目（项目编号：16YJ050005）的研究成果。

张健（1992—）,男,北京语言大学，在读硕士；任杰（1964—）,女,北京语言大学，副教授；周成林（1993—）,女,北京语言大学，在读硕士。