APP下载

Rasch模型在中国应用研究回顾

2016-03-09李久亮

广东外语外贸大学学报 2016年2期
关键词:应用语言学研究方法

李久亮

(北京服装学院 外语系, 北京 100029)



Rasch模型在中国应用研究回顾

李久亮

(北京服装学院外语系, 北京100029)

摘要:自提出至今,Rasch模型已经历了半个多世纪的发展,在教育与心理测量学领域发挥着重要作用。通过对中国应用语言学界利用Rasch模型开展的相关研究进行回顾总结,发现该模型主要用于语言测试研究与应用,研究方向包括测验等值和测试信效度等。与国际同行相比,中国在Rasch模型的应用研究方面还存在一定差距。通过分析与总结该模型的应用研究现状,希望对中国应用语言学界有所启示,并为有兴趣利用Rasch模型开展研究的读者提供参考与借鉴。

关键词:Rasch模型; 应用语言学; 语言测试; 研究方法

引言

Rasch模型是项目反应理论的模型之一,是二参数、三参数模型的一个特例(刘建达、吕剑涛,2012)。在中国,罗冠中于1992年在《教育研究与实验》发表了一篇文章,对Rasch模型做了较为全面的介绍。此后,基于该模型的论著与研究报告逐渐开始在学界出现,并在多个研究领域内发挥着重要作用。该模型对中国应用语言学界也产生了深远的影响,尤其在新千年之后,与之相关的学术论文发表数量上升较快,而且总体来看呈逐年递增的趋势。鉴于该模型对学界的重要意义,有必要对中国应用语言学界的研究与应用进行回顾总结,以期对有兴趣采用Rasch模型开展相关研究的人员提供参考与借鉴。

一、Rasch模型基本理论及发展历程

起源于20世纪初的经典测试理论以真分数理论为基础建立数学模型,到目前已发展成为体系成熟的测试理论,在各行各业的应用取得了很大成功。但在实际测评过程中,研究人员发现其在理论假设和实际应用方面存在很多缺点,例如项目统计量严重依赖被试样本等,其理论最大的缺点在于对测量误差分析太过笼统。与经典真分数理论相比,项目反应理论(IRT)在模拟被试能力与测试题目之间的相互作用上有明显的优势,如样本独立性、多重信度评估等,因而能够在很大程度上弥补经典测试理论在测验信度和效度处理上的不足。

丹麦数学家George Rasch在1960年提出了单参数IRT模型,即Rasch模型。作为一种潜在特质模型, Rasch模型通过个体在题目上的表现(通常表示为原始分数)来测量不可直接观察的、潜在的变量。根据Rasch模型原理, 特定的个体对特定的题目作出特定反应的概率可以用个体能力与该题目难度的一个简单函数来表示。个体回答某一题目正确与否完全取决于个体能力和题目难度之间的比较。Rasch模型是一个理想化的数学模型。它要求所收集的实证数据必须满足事先规定的标准和结构, 才能实现客观测量。Rasch模型对于客观测量有两个要求,即: (1)对任何题目, 能力高的个体应该比能力低的个体有更大可能作出正确回答; (2)任何个体在容易题目上的表现应该始终好过在困难题目上的表现。Rasch分析提供的拟合度指标可以检验实证数据与Rasch模型的拟合程度。题目的拟合度指标不好, 说明可能存在目标特质之外的其他变量, 或者对所测量特质的定义不恰当。

在Rasch模型分析中,被试能力与试题参数完全独立,这是它区别并优于经典测量理论的突出特性。此外,它允许对类型选择进行评估,测量绝大部分类别是否得到了妥善利用。并且,Rasch模型不同于经典真分数理论和概化理论,具有可推翻性(何莲珍,等,2008)。自提出后,Rasch模型经历了快速发展,在教育与心理测量学领域有着深入、广泛的研究与应用。不过,也有学者指出Rasch模型存在不足(Hambleton, 1979)。例如,它只将项目难度这个因素考虑在内,不能解释多种误差的来源。而在含有主观评判的测试活动中,最终的分数会受到多方面因素的影响,如考官严厉度、任务难度、评分标准等。为了提高测试结果的公平与准确,就必须对影响测试结果的各种差异来源进行妥善处理。为了弥补项目反应理论及其模型的不足,Linacre(1989)在Rasch模型的基础上,提出了一个新的评估框架,将多个层面纳入分析中,即多层面Rasch模型(MFRM)。MFRM将考生能力、题目难度、评分员严厉度、评分量表中相邻等级的阶梯难度等多个层面纳入同一个数学模型,共同决定考生取得某一分值的概率大小。

这样做的优势是:1)分离其它层面(facet)的影响,用同一个洛基(logit)尺度来估算各层面(如考生能力、评分员严厉度、试题难度)的真实测量值;2)判断评分量表的准确性;3)判断层面内部成分之间是否有显著差异,例如,判断考生能力差异是否显著;4)检验各层面间是否有偏性交互作用,例如,检验评分员严厉度是否偏向于某一群体的考生;5)进行配对比较(paired comparison)。例如,比较两组考生对同一考试任务的表现。基于上述特点,MFRM非常适合用于研究写作评分、档案袋评估等其它类型的主观评判测试活动(Linacre,2011)。

二、Rasch模型在中国应用研究现状

本文主要基于中国已公开发表的Rasch模型应用研究报告,通过在中国知网进行文献搜索获得相关资料与数据。结果发现,国内对Rasch模型的应用研究主要集中在教育心理测量领域(曹亦薇,等,2008;常蕤,2008;徐思,等,2009)。在应用语言学界目前已发表了40余篇利用该模型开展研究的论文。经过总结归类,Rasch模型在学界的应用研究主要集中在测试等值研究、测试信效度研究、层面功能差异、题库建设、计算机自适应测试等。下面简要介绍这些领域的研究情况,对应用Rasch模型开展研究的思路、方法及实际操作进行梳理。

(一)测试等值研究

Rasch模型对中国应用语言学界做出的一项重要贡献是在大规模外语测试中(如高考英语、全国大学英语四、六级(CET4/6))的等值研究与应用。以CET4/6为例,自1987年第一次实施起,Rasch模型就已应用在该考试的分数等值研究中(朱正才,等,2003;朱正才、杨惠中,2004),并且取得了令人满意的效果。分数等值研究对大规模考试具有重要意义,这是因为大规模考试经常同时使用多套试卷。为保证考试的公平性与信效度,试卷之间的等值非常重要。而Rasch模型是开展分数等值研究的有效工具,这主要是因为该模型具有适合以上用途的特性。Rasch模型能够反映考生能力与题目难度之间的关系,这为分数等值研究提供了重要的数据。此外,该模型数学形式简洁,属标准指数族函数,因而数学基础更坚实;在参数估计过程中,由于有充分统计量的存在,计算结果稳定可靠。例如,刘建达、吕剑涛(2012)使用Rasch模型等值 10 套设有锚题的英语试卷。他们先将这10 套试卷通过NEAT(nonequivalent groups with an anchor test)设计衔接起来,再通过卡方检验和 mean/sigma 转换法算出的常数值剔除质量差的锚题,最后用保留的锚题确定等值函数。对Rasch模型的适用性检验表明,10 套试卷的数据符合Rasch模型的假设。等值结果分析显示,衔接各试卷的锚题在统计意义上均有效,基于Rasch模型的等值结果能校正试卷间的难度差异。除在大规模语言测试中的分数等值研究外,Rasch模型还用于香港中学会考中、英文科的水平参照等级评定(罗冠中,2008)。

(二)测试信效度研究

已公开发表的基于Rasch模型的学术论文大多探讨语言测试信效度问题(江进林,等,2010;王初明,等,2013)。彭康洲(2010)利用Rasch模型对2007年TEM4听力理解项目进行研究分析。作者首先确定题目的难度和考生的能力水平分布,建立TEM4听力行为锚定量表,从标准参照测试角度做项目分析和信度估算,以考察项目的标准参照属性。根据Rasch模型分析结果,作者得出结论,2007年TEM4听力理解项目难度分布较为均匀,题目总体难度处于中等水平,区分度也较为合理。

需要指出的是,Rasch模型应用研究中所指的效度并非广义上的,通常情况下它具有如下层面的意义:如果Rasch分析显示没有非拟合情况,那就证明某测试方法具有一定的构念效度(construct validity)(刘建达,2005)。例如,赵南、董燕萍(2013)对一次交替传译测试结果进行多面Rasch模型检验以验证测试的效度。拟合检验显示,模型中各个层面变量的拟合值都接近期望值1.00,而被试的平均拟合值更是达到了1.00的期望值,说明结果完全符合模型预测。作者因此得出结论,交替传译测试的效度得到了证实。

很多Rasch模型研究论文利用MFRM(多层面Rasch模型)开展主观测试题型的研究,主要涉及写作(李清华、孔文,2010;刘建达,2010)、口语(何莲珍,等,2008;白英,2009)、翻译(江进林,等,2010;江进林,等,2011)、话语填充语用测试(刘建达,2005,2007)等。这些MFRM研究大多采用四个层面的设计,即考生、评分员、任务、评分标准。通过相关数据观察各个层面因素与模型间的拟合情况,对考试的总体效度进行评价。例如张新玲等(2010)运用MFRM对广东省高考英语试卷中读写结合写作题型进行构念效度验证,目的是通过考察考试成绩中的异常数据,观察该任务能否有效测量考生的读写综合能力。在考生层面上,分隔指数信度和卡方检验结果表明,受试作文成绩存在显著差异,且该差异主要源自所测考生能力上的差别。因此,此类考试任务总体上能够有效区分考生这方面的能力水平。在任务层面上,概要和短文两项任务的难度有显著差异,且两者的InfitMnSq值都在可接受范围内。在评分员层面上,分隔信度和卡方检验说明评分员之间在严厉度上有显著差异,但他们的前后一致性较好。评分标准层面,内容、语言和连贯性的InfitMnsq值说明后两个子项与模型拟合较好。据此,研究者得出结论,该任务能够有效考察考生的读写综合技能,评分员总体宽严适度,评分量表使用合理。

对相关文献进行分析可以看出,MFRM在做事测试(performance test)领域的研究主要集中在以下两个方面:第一,评分标准和评分过程研究;第二,考试应答数据与模型拟合度的综合分析,以此进行效度验证。我国学者因此也利用Rasch模型开展考试评分质量控制(王跃武,等,2006)。MFRM对研究评分员效应十分有效(Xi, 2008),国内学者利用此法开展了多项研究(刘建达,2007,2010;戴朝晖,等,2010)。结果发现,评卷严厉度不一的问题普遍存在(谭智,2008;戴朝晖,2010),评分员和评分标准的各个方面相互影响显著(何莲珍,等,2008),等等。在评分员效应的讨论上,刘建达(2010)进一步拓展了研究思路,综合采用多种评价指标,从评卷人的总体严厉程度、集中趋势、随机效应、晕轮效应、区分性严厉度等多角度入手,探讨如何利用多层面Rasch模型来分析评分员效应。这些研究发现对评分质量控制、评分标准设计和评分员培训都很有意义。

须指出的是,MFRM并非是评分信度研究可使用的唯一方法,学界中的另外一个研究范式是采用概化理论,两者各有所长。MFRM比较适合研究个体评分员和任务,以及评分员、任务和考生不同组合方式对总体评分信度的影响,而对于整体层面以及层面间交互作用的研究则可采用概化理论(Xi,2008)。两种方法形成优势互补,因此研究者提议对二者进行综合应用(Bachman,1995;Lynch,1998)。国内也有学者同时采用这两种方法开展评分信度研究(李航,2011;孙海洋,2011)。李航采用概化理论和多层面Rasch模型对CET6作文评分信度进行了研究。概化理论的分析发现,评分员层面以及包含评分员与考生间交互作用的残差的方差在总方差中占有一定比重。而MFRM分析则发现评分员在严厉度上存在较大差异;评分员与考生间偏性交互分析表明,评分员对能力较高的考生标准偏严,而对能力较差的考生偏松。由此可见,概化理论和多层面Rasch模型具有良好的互补性,能对测试信度做出点面结合的丰富说明。

(三)层面功能差异(DFF)研究

利用MFRM还可以研究层面内个体特质对评分产生的影响,称为层面功能差异(differential facet functioning或DFF)研究(Engelhard,1992)。例如考生特质可以包括性别、年龄、民族、种族、社会阶层以及学习能力等。这些特质造成的偏差效应可待层面校标之后加以考察。DFF研究在概念上类似于当前研究项目功能差异(Differential Item Functioning或DIF)所使用的方法。例如,写作测试中考生这一层面可以分别为男性和女性校标,这些估算值之间的对应性就可以用来发现DFF。在做事测试中,层面之间的交互作用也可作为潜在的偏差来源加以检测。该测量模型还可拓展以分析为何评分员严厉度不一,以及为何题目难度不同等问题。DFF研究在我国应用语言学界开展的不多(刘洋,2008;白英,2009),且多是利用FACETS计算出的层面内个体能力或难度估值进行不同特质间的对比,很少从层面间的交互作用来观察偏差的来源。

白英(2009)研究了考生间熟识性对口语群测模式下考生成绩产生的影响。31位同学三人为一组,分成十组,分别参加两次口语群测考试。第一次口语考试中,同组有两人熟识,一人陌生;第二次口语考试中,同组三人彼此均不认识。结果发现,考生间熟识性对考生的成绩有正面影响,即熟人讨论组考生的成绩高于生人讨论组的,但两种情况下测试的难度差异并不显著。

除上述外,Rasch模型在学界其它领域的应用相对较少。在题库建设、计算机自适应测试方面,王蕾、黄晓婷(2006)提出利用该模型构建我国少儿英语远程计算机自适应测验题库的设想。此外,她们还尝试将该模型应用到量表编制过程中(王蕾、黄晓婷,2012)。

三、存在问题

Rasch模型为中国应用语言学界提供了有效的研究方法与手段,使我们对相关问题有了进一步的理解与认识。然而从本文所收集的论文资料来看,目前有关该模型的应用研究尚存在一些局限。首先在应用范围上,主要是从事语言测试专业的研究人员在利用它开展测试的信效度研究,在语言学的其它领域尚不多见。现有研究主要利用MFRM来分析主观测试题,其中绝大多数使用FACETS软件。其次,观察问题的角度也比较有限,涉及最多的是评分严厉度。模型中各层面间的偏性交互作用也多是局限于评分员和考生之间的,思路有待进一步拓展,比如观察考生和任务类型间的交互,以分析不同特征的任务是否、以及如何对考生构成不同的挑战(李久亮,2014)。从另一侧面来看,这也反映出我们对与Rasch模型有关应用还不够成熟。由于参数估计方法较为复杂,导致模型在使用中不甚方便,对于语言学研究人员有些数据甚至难以理解。欲善其事,先利其器,重视Rasch模型应用方面的学习与探索可以帮助我们全面而深入地了解研究问题中各个变量之间的关系,进而将我们的研究水平提升到更高的层次。另外,现有研究在方法上过于依赖定量方法,只有少数研究结合采用定性方法(张洁,2012)。今后的研究可考虑综合应用这两种研究范式,从多个角度研究测试信效度问题,比如利用有声思维剖析评分员的评判过程。在语言研究日趋多元化、综合化、科学化的今天,深入了解与应用各种研究方法对于中国应用语言学的发展有着深刻的意义。

四、前景展望

过去几十年里,教育与心理测量领域在理论与实践层面都经历了快速的发展,其中,Rasch模型的出现大大提高了研究人员对相关问题认识的广度与深度。其坚实的理论基础及简单的数学表述确保了它广泛的应用前景。在当今国际心理和教育测量学的舞台上,Rasch模型仍然扮演着十分重要的角色,帮助研究人员在各个领域开展广泛而深入的科学研究。同时,Rasch模型自身也有了新的发展。对于其在实现客观测量中的作用,除了持续不断的理论探讨之外, 也越来越多地得到了实际应用的佐证。此外,学界还创立了有关Rasch模型研究的专业性学术期刊TheJournalofAppliedMeasurement,并且每年在全球范围内举办以该模型为核心内容的论坛、研讨会。Rasch模型开辟了一片新的研究领域,也向我们提出了许多具有挑战性的课题,与之相关的研究在世界范围内蓬勃发展,并且加快了成果向实际转化的步伐。自引介以来,Rasch模型在中国应用语言学界产生了持续而深远的影响,使得学界在相关领域的研究取得了一定的成果。然而毋庸讳言,与世界同行相比,我们在应用该模型开展研究的理论和方法层面仍然存在一定差距和局限。但只要潜心钻研,刻苦学习,积极倡导国际、国内学术合作与交流,我们也一定能在这块充满机遇的领域里收获丰富的成果。

参考文献:

白英. 2009. 熟识性对口语群测模式的影响[J].Teaching English in China(2):114-125, 127.

曹亦薇,毛成美. 2008. 纵向Rasch模型在大学新生适应性追踪研究中的应用[J].心理学报,40(4): 427-435.

常蕤.2008.一种基于Rasch模型的Angoff方法及其应用[J].心理学探新(4):76-79.

戴朝晖,尤其达. 2010.大学英语计算机口语考试评分者偏差分析[J].外语界(5):87-95.

何莲珍,闵尚超.2008.写作测试的主要实证研究方法及其发展趋势[J].中国外语,5(6):42-46.

何莲珍,张洁. 2008.多层面Rasch模型下大学英语四、六级考试口语考试(CET-SET)信度研究[J].现代外语(4):388-398, 437.

江进林,文秋芳. 2010.基于Rasch模型的翻译测试效度研究[J].外语电化教学(1):14-18.

江进林,王立非,马晓雷. 2011.英译汉任务中的评分员效应研究[J].解放军外国语学院学报(6):97-101, 128.

李航. 2011.基于概化理论和多层面Rasch模型的CET-6作文评分信度研究[J].外语与外语教学(5):51-56.

李久亮. 2014. 不同文章体裁概要写作任务的Rasch模型分析[J].外语与外语教学(5):30-35.

李清华,孔文. 2010.TEM-4写作新分项式评分标准的多层面Rasch模型分析[J].外语电化教学(1):19-25.

刘建达. 2005.话语填充测试方法的多层面Rasch模型分析[J].现代外语(2):157-169, 220.

刘建达. 2007.语用能力测试的评卷对比研究[J].现代外语(4):395-404, 438.

刘建达. 2010.评卷人效应的多层面Rasch模型研究[J].现代外语(2):185-193, 220.

刘建达,吕剑涛. 2012.Rasch模型等值多套英语试卷的可行性研究[J].现代外语(4): 401-408.

刘洋.2008.测试方法对于写作的影响[J].Teaching English in China(4):50-65, 128.

罗冠中. 1992.Rasch模型及其发展[J].教育研究与实验(2):18-32.

罗冠中. 2008.Rasch模型及其在香港中学会考水平参照等级评定中的应用[J].考试研究(2):18-32.

彭康洲. 2010.TEM4听力理解项目的行为锚定分析及标准参照属性[J].外语电化教学(1):42-47.

彭康洲. 2011.竞教比赛的多层面Rasch模型分析[J].重庆邮电大学学报(社会科学版)(6):111-116.

孙海洋. 2011.概化理论和多层面Rasch模型在建立“职前中学英语教师口语考试模型”中的应用[J].外语与外语教学(5):57-62.

谭智. 2008.应用Rasch模型分析英语写作评分行为[J].外语教学理论与实践(1):26-31.

王初明,亓鲁霞. 2013. 读后续写题型研究[J].外语教学与研究(5):707-718.

王蕾,黄晓婷. 2006.构建我国少儿英语远程计算机自适应测验题库的设想[J].考试研究(3):72-86.

王蕾,黄晓婷. 2012.高中英语学习策略量表编制与Rasch多维度分析[J].心理学探新(1):72-76.

王跃武,朱正才,杨惠中. 2006.作文网上评分信度的多面Rasch测量分析[J].外语界(1):69-76.

张艳莉,彭康洲. 2012.TEM8写作考试评分员差异性研究[J].外语电化教学(1):42-46.

徐思,张敏强,黎光明. 2009.基于GT和多面Rasch模型的结构化面试分析[J].心理学探新(5):77-82.

张洁. 2012.PETS三级口语考试评分误差研究——结合定量统计和定性描述的方法[J].外语测试与教学(2):33-42.

张新玲,曾用强,张洁. 2010.对大规模读写结合写作任务的效度验证[J].解放军外国语学院学报(2):50-54, 128.

赵南,董燕萍. 2013.基于多面Rasch模型的交替传译测试效度验证[J].解放军外国语学院学报(1):86-90.

朱正才,杨惠中. 2004.大学英语四、六级考试分数的机助百分位等值研究[J].现代外语 (1):70-75.

朱正才,杨惠中,杨浩然. 2003.Rasch模型在CET考试分数等值中的应用[J]. 现代外语(1):69-75.

BACHMAN L F, LYNCH B K, MASON M. 1995. Investigating Variability in Tasks and Rater Judgments in a Performance Test of Foreign Language Speaking[J]. Language Testing, 12(2): 238-257.

ENGELHARD G. 1992. The Measurement of Writing Ability With a Many-Faceted Rasch Model[J].Applied Measurement in Education 5, (3): 171-191.

HAMBLETON R K. 1979.Latent Trait Models and Their Applications[C]∥TRAUB R (eds.). Computer-assisted Instruction, Testing, and Guidance. New York: Harper & Row.

LINACRE J M.1989. Many-facted Rasch Measurement[M].Chicago:MESA Press.

LINACRE J M. 2011. A User’s Guide to FACETS[Z].Computer Software Manual. Chicago: Winsteps. com.

LYNCH B K, MCNAMARA T F. 1998.Using G-theory and Many-facet Rasch Measurement in The Development of Performance Assessments of the ESL Speaking Skills of Immigrants[J]. Language Testing, 15(2): 158-180.

MCNAMARA T.1996.Measuring Second Language Performance[M]. New York: Addison Wesley Longman Limited.

XI X.2008.Methods of Test Validation[M].Encyclopedia of Language and Education: Vol. 7. Language Testing and Assessment(2nd ed.). New York: Springer Science+Business Media LLC:177-196.

[责任编辑:许莲华]

A Review of Rasch-based Applied Linguistics Research in China

LI Jiuliang

(DepartmentofForeignLanguages,BeijingInstituteofFashionTechnology,Beijing100029,China)

Abstract:It has been more than a half century since Rasch model had been developed. From then on, the model has exerted great impact on educational and psychometric research. This paper reviews Rasch-related studies completed by scholars in domestic applied linguistic circle. It is found that the said model has been mainly used for purposes of language testing practice and research in test equating, test validity and reliability, etc. Compared with the rest of the world, the domestic linguistic studies have some limitations in using this model. It is intended that this review would inform scholars who are interested in doing research with Rasch.

Key words:Rasch model; applied linguistics; language testing; research method

收稿日期:2015-09-24

基金项目:北京高等学校教育教学改革重点联合委托项目“三位一体市属高校大学英语教育改革模式研究”(2014-Ih03)。

作者简介:李久亮(1975-),男,北京人,博士,北京服装学院外语系副教授,研究方向为语言测试与评估、外语教学。

中图分类号:H08

文献标识码:A

文章编号:1672-0962(2016)02-0073-06

猜你喜欢

应用语言学研究方法
应用语言学视角下的英语文化导入教学研究
语料库下的应用语言学学术语篇发展趋势分析
新形势下现代医院财务管理模式创新研究
关于“学案导学,分层互动”教学模式中学情的研究
谈谈翻译史的研究方法
社会主体研究方法在中国特色社会主义体系中的运用
《红楼梦》“宝黛钗”之间称呼语研究综述
应用语言学视角下大学英语教学探究