从写作测验信度研究看开放式测评的发展趋势——概化理论的视角<br/>

从写作测验信度研究看开放式测评的发展趋势——概化理论的视角

2014-04-08冯瑞龙

海外华文教育 2014年2期

冯瑞龙朱宇

(北京师范大学香港浸会大学联合国际学院，中国珠海519085;厦门大学海外教育学院，中国厦门361102)

一、引言

开放式测评具有悠久的历史。所谓开放式测评指测验题目的正确答案并非唯一固定的，被试可以甚至被鼓励作出基于自身理解的独特解答。开放式测评有着封闭式测评无法比拟的优越性，因为被试对其作答往往能向各种测评成绩用家提供丰富的信息。这些信息可以被用于更好地理解被试被测评的知识、态度或能力，使测评的诊断性功能更加强化、更具个体性，并最终更好地达到通过测评帮助改善教学或帮助被试进步的目标。开放式测评的这一优点还使它在教育以外的多种测评中大有用武之地。但同时，开放性测评与封闭式测评相比又有着自身的劣势，除了评分/级标准难以厘定、过程费力耗时之外，最严重的问题恐怕就是其信度往往难以达到比较理想的水平了。而信度不仅是衡量测评质量的两个重要指标之一，更是达至另一个指标—效度的前提条件。在很大程度上，人们甚至可以说，正是由于开放式测评不够严谨、科学，才导致了封闭式测评在近现代的产生与崛起。然而，随着教育与心理测量领域理论与技术的不断进步，信度，这一曾经威胁开放式测评的生存与发展的瓶颈性问题已经不再是无法突破和解决的了。

本文即旨在通过比较信度理论当前并存的三个主流学派，甄选最适合通过改进测验设计提升测评信度的理论工具——概化理论，并在此基础上梳理、述评近20年来概化理论用于指导写作成绩信度研究的案例，最后提出概化理论可进一步发展和完善的方向。限于篇幅，本文无法全面回顾以概化理论为视角的开放式测评信度研究，只能选取开放式测评的一个典型代表。之所以选择作文考试为开放式测评的典型代表是因为作文这一考试形式历史悠久、广为人知，虽备受争议但始终难以取代，因此可谓开放式测评的常青藤式的代表。

开放式测评能否有效提升信度，不仅关乎这种测评形式本身的命运，同时还与测评界的趋势性新潮流——真实性测评(authentic testing)的发展前途息息相关。可以说，如果信度问题不能找到有效解决途径，开放式测评就难以取得立足之地，真实性测评的崛起也就可能永远沦为纸上谈兵。那信度理论当今有哪些流派?其优势与劣势各有哪些?这其中适合通过改善测评设计提升开放式测评信度的理论是哪一个?这一理论指导下的研究现状与动向是怎样的?所有这些问题的解答，都要从信度流派的分析与比较开始。

二、信度理论流派的简介与比较

(一)经典测试理论(CTT)的信度观

经典测试理论将试卷观测分数的信度定义为真分数的方差与观测分数方差的比率。而观测分数的方差又等于真分数的方差和误差分的方差之和。由于真分数是无法预知的，所以上述定义是无法用于直接测算测验信度的。然而，通过平行试卷或者重复施测等方法是可以估算该测验的信度值的，例如常用的克朗巴赫和重测信度指标就是以这两种方法计算测验信度的典型代表。

评卷员信度是经典测试理论对主观评分的测验所能考察的一项重要指标。经典测试理论通常将评卷员信度分为评卷员间的一致性信度和评卷员内部一致性信度两种。

评卷员间一致性信度(即Inter-rater Reliability或Intraclass Correlation Coefficient，以下缩写为ICC)描述的是同一组内的个体在多大程度上具有一致性，能用于衡量多名评卷员对特定被试在给定测量上作答之主观评分的近似程度。ICC最早被提出起于对皮尔逊相关系数的改进。皮尔逊相关系数在估算时，考虑了配对组成员得分的排序，而这种排序在评卷员一致性的估算中是无意义通常也是无根据的。因此，在估计ICC时，将皮尔逊相关系数计算过程中分别计算的两个测验的均值和标准差进行了合并计算。为了解决实测数据中的数据缺失或每个被试不一定由同样多的评卷员评分的问题，上述ICC概念又得到进一步发展演化(Wikipedia，2010)。ICC被定义为组间方差占总方差(组间方差与误差项方差之和)的比重。而这些方差又是根据随机效应模型Yij=μ+αi +εij估算的。其中Yij表示第i个分数组的第j个观测到的得分，μ是所有分数的均值，αi是第i个组内所有分数共享的随机效应，εij为第i个分数组内第j个观测值的干扰项。

评卷员内部一致性信度本质是一种重测信度，表述的是给定评卷员对某被试前后两次或以上主观评分的一致性。其估算也可套用上述ICC的随机效应模型，只是在数据处理上需把评卷员分数构成的组别替换成由前后数个批次评分值形成的组别(Julius Sim＆Chris Wright，2000:335)。

(二)项目反应理论(IRT)拉氏模型中的信度

Linacre(1989)在拉氏模型(George Rasch，1980)的基础上发展出多面拉氏模型。它除了能估算独立于样本的被试能力和题目难度之外，还能用于延伸估算不同评卷员对评卷标准把握的松紧程度、同一评卷员在不同评分场次中评分的差别等等。

多面拉氏模型分析能够提供每个层面的每个个体的内、外拟合值。这些值的均值为1。当内、外拟合值取值在0.5至1之间时，测评是富有成效的。当它们大于1.5小于2时，表明测评不够精准，但尚可接受。大于2时，测评结果是扭曲不可信的。

多面拉氏模型还可以用来计算区分性层面功能。这包括区分性项目功能，即某个被试群在某个题项上的作答模式与能力相当的其他被试群有显著差异;区分性阅卷员功能，即在被试能力相当的前提下，某个阅卷员对一个被试群体的打分明显不同于其他阅卷员对该被试群体的评分(George Engelhard，2008);区分性被试功能，即在题目难度相同的前提下，被试个体在某个内容领域题目上的得分与其在另外内容领域题目上的得分有显著差别 (George Johanson＆Abdalla Alsmadi，1998)。是否存在上述区分性层面功能是通过层面之间的交互作用的估值来判定的。每一个交互作用被相应的区分性层面功能分析赋予一个偏差估计值，当该值Z分数的绝对值大于或等于2时，一般认为该层面的区分性功能显著。如果发现存在区分性项目功能则暗示所考察的测验题目可能有待改进;如区分性阅卷员功能显著则提示该阅卷员打分可能出现了较大偏差;而显著的区分性被试功能则能反映出考生个体对所测的具体知识或能力在掌握上的失衡状态。

信度也是多面拉氏模型涉猎的范畴之一。使用拉氏模型的数据分析能提供两个信度统计量，一个是取值范围在0和1之间的分割指标信度，另一个是取值范围在1和正无穷之间的分割比。尽管拉氏模型对于每一个面的分析均能得到这两种估值，但通常被试层面的这两个估值越大越好，而其他层面的这两个值则越小越好。因其他各层面中各要素带来的差异性与被试能力无关。倘若这些层面各要素间的差异性较小则能反映测量有较高的一致性。但如果被试层面各要素(即每一个被试个体)之间差异性较小，反映的就是评卷员难以区分被试，因而属于一种不理想的情况。

(三)概化理论(GT)的信度评估途径

概化理论认为被试观测成绩的方差是可以分解为多个方差分量的。这其中既包括人们希望通过写作测试发现的因被试写作水平的差异造成的写作成绩的方差分量(又称为测量目标方差)，也包括干扰因素造成的方差分量。采用概化理论的G研究数据分析技术能对这些方差分量进行估算。测量目标方差分量在写作成绩方差中所占的比重越大，写作成绩就越可靠。而为了提高写作成绩的可推广性或可靠性，就需要通过控制降低比重大的数个干扰性方差分量，而D研究分析技术则能让人们在G研究结果的基础上了解改变干扰变量的数量，如改变评卷员、试题的数量或阅卷方案等会造成测试成绩信度的何种变化，从而帮助确定能保证理想信度的最佳施测及评分措施。

概化理论在估算信度时，区分了常模参照与标准参照测试的信度系数。前者即所谓g系数，后者为Phi系数。这两种系数在估算时均以测验对象为来源的方差为分子，该方差也是分母的两个加和项之一。另一个加和项对于g系数而言是相对误差项方差，指测验对象与G研究设计的各个层面的交互作用造成的方差分量之和。而对Phi系数而言，它是绝对误差项方差，是除了测验对象方差分量以外的各个方差之和。

(四)信度流派的述评

经典测量理论框架下的信度估算最大的优点在于应用经典测量理论模型的前提条件较低，实测数据很容易满足。缺点一是在于它无力估算被试能力方差之外的每一个方差分量，也就无法指认需首先控制的一些方差因素，更无从对如何改善现有测量的信度提出测验设计方面的建议。另外，其估算值受具体使用的被试和试卷样本影响非常大，是不能独立于样本的估值。

项目反应理论的拉氏模型与经典测试理论的信度观和概化理论信度理念最大的不同在于它的分析结果是独立于具体样本的。而且其着眼点更加细微。它对于信度的估值不是某个测验的整体信度，而是给出每一个层面的每一个要素的测量信度(分割指标信度以及分割比)。若要改善信度，就可从改进那些信度不理想的层面入手。比如，如果发现评卷员层面的信度指标较低，且发现区分性评卷员功能显著，就可以考虑如何合理筛选评卷员、改良评卷员培训或监控评分过程与质量。然而项目反应理论的拉氏模型却不能展示测验或评分因素的变动会如何影响测验信度。

概化理论的信度分析结果虽然不能做到样本独立，而且无法获取每一名被试或各影响因素每一个层次的信度指标，但是却能够指认对信度干扰较大的方差分量的来源，能够通过全交叉的G研究推出试题因素、评卷因素层面的各种嵌套设计的方差分量估值，并且能够通过D研究展示每一种设计下，各个层面数量的变化将会如何影响测验的信度。

最后值得一提的是上述三个理论指导的信度估值在数量上具有某种对应关系。具体而言:在拉氏模型中被试层面的分割指标信度与经典测量理论中的克朗巴赫信度指标是一样的。而在概化理论中，单面设计(即将试题作为对测量造成干扰性变异的唯一层面)的g信度系数与传统的克朗巴赫信度指标一致。如果是多面概化理论模型，所得g信度系数将低于克朗巴赫信度，而在概化理论的各种设计中，用于评估标准参照的phi信度指标又一定不会高于相应设计的g信度指标。

通过信度主要理论流派的比较发现，经典测量理论中的信度系数是衡量评卷员信度的重要方法，但对考生变量、题目变量等其他可能影响测评信度的变量则无能为力(何莲珍、闵尚超，2008)。项目反应理论，特别是多面拉氏模型能根据统计分析调节评分人、写作题目的难度以及写作测评过程中其他变量对写作成绩信度的干扰，从而为获得客观、公平地测量写作能力提供一个框架(George Engelhard，1992)。概化理论使测试使用者能以G研究估计出不同误差来源的相对影响，并能在D研究中预测在某个特定的测试情况下提高信度的办法(Lyle Bachman，1999)。项目反应理论的多面拉氏模型长于通过调整被试成绩提高测验信度，而概化理论长于通过测验设计和阅卷设计改善测评信度。提高写作测评信度首先要提升测验和评卷质量，而基于概化理论的信度研究是能为该环节提供重要参考的关键性文献。本文限于篇幅，不再述评基于经典测评理论和项目反应理论的信度研究，而是集中论述近二十年国内外以概化理论为指导的写作测评研究，以期为汉语为外语的写作测评试题和阅卷设计提供参考、借鉴。

三、基于概化理论(GT)的写作测验信度研究述评

在教育测评领域，客观题评分信度较为理想，然而其效度却越来越为人质疑甚至诟病，而主观题虽然更符合真实测评的理念，效度也相对较高，但评分标准难以客观把握、测验成绩的可推广性不理想却也是长期困扰教育实践者，并引发教育测评研究者关注与思考的一个难题。具体到写作能力，直接测评(即以被试的写作成品为评分依据)虽属传统手段，但也是得到普遍认可的最佳测量方法之一。现将国内外期刊论文数据库近20年基于概化理论的写作测评研究扼要述评如下，以期为日后相关研究提供一定的便利。

(一)关于写作题型及题量

一次写作测试只有一个题目，是人们司空见惯的现象，在中国则更是根深蒂固，由来已久。然而，近年已有多项研究结果表明增加写作题目比增加评卷员能更有效地提高写作成绩的概化系数/可靠性。例如:Lee和Kantor(2007)用概化理论的分析工具对新一代托福考试的读写写作、听写写作、单纯写作等新题型展开的预示研究检验了多种评分模式、作文题目数、评卷员人数对于写作成绩信度的影响。该研究发现为了提高成绩的可靠性，增加作文题目数相较于增加每篇作文的评卷员是更有效率的作法。Gebril(2009)比较了读写和单写成绩的可推广性。他分析了由三名评卷员评判的115名埃及大学生两篇读写作文和两篇单写作文的整体性得分。结果表明读写任务同单写任务的成绩一样可靠，但是如果只考一篇作文，写作成绩的可推广性就大大降低。而Nie及其同事(2007)以概化理论评估了数学科的替代测评—心得写作的质量。29名大学生完成了给定的数个题目的心得写作，并由2名评卷员按评分项目进行打分。结果也表明增加题目数量比增加评卷员人数更有利于提升写作成绩的可靠性和概化系数。

还有研究者同时使用了概化理论以外的分析工具。如:Sudweeks等人(2004)的预示研究使用概化理论和多面拉氏模型同时估算了写作评分潜在的误差源和写作成绩的信度，并据此提出了改善评分过程的建议。结果显示写作题目以及被试与题目的交互作用比较高，而评卷员和考试场次造成的方差较低。这也意味着增加写作题目是改善此项写作测试成绩可推广性的有效途径。

Schoonen(2005)以G研究估算了被试写作水平、作文题目、评分的项目(内容或语言运用等)以及评分方式(整体性评分抑或分析性评分)的效应，并通过结构方程模型估算了写作分数的方差成份。该研究的被试是89名6年级学生，他们被要求写四篇作文，每篇作文的内容组织及语言运用两个方面被5名评卷员以整体和分析两种方式评分。分析结果显示写作成绩的可推广性以及评卷员和写作题目的效应在很大程度上取决于评分方式与评分项目。整体而言，写作题导致的方差要高于评卷员引入的方差。

在国内，刘远我和张厚粲(1998)的研究虽然未发现写作题目对测试成绩可推广性的效应，但发现了不同文体对评分误差有重要影响，议论文的评分误差最大。罗娟、肖云南(2008)采用多元概化理论对出国留学生英语分班测试的30位受试的写作水平进行分析，测试有两个写作任务，任务1要求受试发挥想象力，根据提供的图片自由编写故事;任务2是受试较熟悉的话题作文，譬如讲述自己的学习与生活经历、兴趣爱好等。评分选用Jacobs等人1981年设计的二语作文评分量表“ESL Composition Profile”。研究结果表明两个写作任务的合成总分的评分信度较高。

可见，写作题型和题量均是影响写作成绩可推广性的要素。就题型而言，某些新题型如读写写作或听写写作成绩的可靠性并不低于传统的单纯写作，考虑到这些题型更符合真实测评的原则，汉语写作水平测试也可以借鉴采用此类题型为命题写作的补充。而就所测的语体来看，对议论文的评分可能相对更主观一些，其成绩的可推广性会相对稍差。综合考虑被试的语言水平，或许在初、中级汉语写作水平考试时，应避免强制考生写议论文体的作文。至于题量方面，所参考的文献几乎一致建议相关测评应有两道或者两道以上的写作试题，以保障被试写作成绩的可推广性。

(二)关于评卷员

尽管上述研究都或多或少地表明增加评卷员恐怕不是提升写作成绩概化系数的有效手段，换言之，评卷员一般不是写作成绩方差的主要来源，但写作评分过程中，不同评卷员对同一篇作文评分的差异还是引起了业内一些学者的注意。例如:Johnson及其同事(2005)就以概化理论研究了多名评卷员评分如出现差异应如何处理的问题，处理该问题的不同方法会对操作性评分的信效度产生不同影响。具体而言，Johnson及其同事比较了以评卷员的平均分为被试最终得分和通过讨论获得一致性评分两种不同方法所得被试写作成绩的准确度，并考虑了讨论过程中是否会出现个别评卷员处于支配性地位的情形。研究结果表明，以计算平均分或者讨论解决评分差异的效果并没有显著差距，两者对于提高评分精确性均无太大帮助。在进行整体性评分时，若以讨论方式解决评分差异，相对更容易出现个别评卷员处于支配性地位的情况。

相较西方的研究，国内的相关研究更多地发现了评卷员对于作文成绩可推广性的显著效应。例如，刘远我和张厚粲(1998)使用概化理论分析了6位评卷员对20名学生每人三种文体的作文进行分析性评分的数据。结果表明在作文评分中，评卷员效应最大，题目效应不明显。

此外，国内的一些相关研究将评卷员的评卷经验和语言学背景也考虑在评卷员效应当中。赵琪凤(2010)以个案调查的方法对新老评卷员在HSK写作测试的评卷员信度进行考查，研究从2009年4月的HSK(高等)写作测试评分的48组评卷员中随机抽取了两组(每组中一老一新两名评卷员)，运用概化理论对两组的评分信度进行了检验，结果表明两组的测验信度较高，同时了解到新老评卷员在对评分标准的把握中存在的差异。薄丽(2005)利用概化理论对有、无语言学背景的评卷员给20名被试高级汉语水平考试(HSK)写作部分之作文评分的概化系数进行了比较。该研究发现专业组评卷员评分的系统误差明显小于非专业组的。

实践中，某语种的语言水平写作测验的评卷员一般都经过比较严格的筛选，并在正式阅卷前会进行比较系统的评卷培训，因而上述研究发现的评卷员评分经验、语言学背景的差异可能在实际的大尺度、高风险作文阅卷情境下未必会显著影响被试作文成绩的可推广性。值得注意的是Johnson及其同事对倘若发生评卷员评分差异时不同处理方法的效果的研究。据他们的发现，以讨论形成一致的最终评分和通过简单计算平均分作为最终评分对写作成绩可推广性造成的影响并无较大差距。今后的研究可沿此方向展开，倘若发现与前人一致，则大可沿用计算平均分的传统评分方法。

(三)关于评分标准

评分标准是整体抑或分析性评分同样也会影响写作测验信度。刘婧(2006)的硕士学位论文搜集了40名被试HSK的写作及评分数据，对不同的写作任务(如说明文或议论文体裁)、评分方法(如整体评分或分析性评分)、评分项目(如内容结构或语言运用)等影响作文分数变异各因素的效应及他们之间的复杂关系进行了实证研究。研究发现写作任务和评卷员因素效应在很大程度上受评分方法和评分项目影响。姚琴宜等人(2008)对36名英语专业大学生英语作文评分结果的质量进行了分析，证实分项单项评分结果的可靠性高于整体评分结果，分项复合分数的可靠性高于分项单项分数的可靠性，同时揭示了传统的信度系数对于评价评分结果的总体质量是一个不恰当的指标。类似的，李智(2009)也从不同写作任务和评分模式出发，用概化理论分析了由4名评卷员评判的30名大学生英语分班测试的两篇作文(一篇看图写作、一篇自由命题作文)的分项成绩，认为整体而言，分析性评分所得的写作成绩具有较高的信度。

罗娟、肖云南(2008)的研究则更进一步比较了写作分析性评分量表五个评分因子的评分信度，结果显示:在写作内容、篇章结构、词汇使用这三个因子上的评分较为一致，相对而言，对语言表达的评分信度最高，而对书写规范的评阅有待提高。薄丽的研究则向人们揭示了专业与非专业评卷员对分析性评分标准的理解与使用习惯的不同:在评分标准的理解与使用方面，专业评卷员更注重考生作文的语法、词汇等方面，而非专业组评卷员则更看重作文内容和连贯性等层面。

综合这些研究发现，并结合当前的写作测评实践，人们有更多理由选择分析性评分标准来评判被试的写作能力，这不仅因为它能带来较高的写作成绩信度，而且它所提供的评分信息可以被用于指导写作评分实践，从而降低对评分标准的主观把握程度，增强评卷员信度，并最终达到进一步提升写作成绩可推广性的目标。

(四)其他影响因素

评卷任务分配是近年业内学者开始关注的影响写作成绩可推广性的又一个因素。针对115名被试两篇读写作文和两篇单写作文的数据，Gebril(2010)所作的另一项分析结果发现:读写成绩同单写成绩一样可靠且评卷员只判某种题型的作文(读写或单写)与让该组评卷员给两种题型打分所得成绩的可靠性也非常接近。由于此方面的研究数量还非常有限，人们有赖于后人对该问题更多的探究，以期得到相对客观、全面的理解和认识。

此外，较之对题目导致的写作成绩方差的高度重视而言，由被试本身的一些特征造成的写作成绩的方差受到的关注相当有限，且集中于第二语言或外语习得领域。例如:Solano-Flores和Li (2008)通过应用概化理论发现对于英语学习者而言，被试、作文题以及题目本身的语言(母语或外语)的交互作用是写作成绩最大的方差源。Huang(2008)用概化理论研究了加拿大ESL被试在省级英语考试写作成绩的方差源及信度。三年的数据分析结果发现:ESL和英语为母语的被试的分数变异不同。ESL被试作文成绩的残余方差成份比英语为母语的要高。某一年ESL被试能解释的方差明显小于英语为母语被试的，其ESL被试写作成绩的概化系数显著低于英语为母语被试的。该文作者并据此质疑了ESL被试所得写作成绩的公平性。

最后需要留意的是关于概化理论测量工具本身的可信程度的一项研究给人们的启示。Gao和概化理论的代表性学者Brennan(2001)的论文通过分析若干年的听力和写作数据研究了方差成份估算的抽样差异性并评估了测量精确性估值的稳定性。结果显示方差成份的估算随年份而有差异，并且G研究估算的测量精度在实际的D决策研究中可能无法完全兑现。但上述理论估值与实际测量值之间的差异并没有大到令人有理由放弃能够带来诸多便利的理论估值方法。Gao和Brennan(2001)同时也指出，其研究的这些发现因为仅仅来自一项研究，不能过度推广到其他研究情境。他们建议在其他条件不变的情况下，尽量使用有代表性的大样本进行方差成份的估值，因为这样可以提升测量估值的精确性。

四、结论

一言以蔽之，写作测评的成绩不仅仅是被试写作能力的反映，还包括施测和评价过程的诸多干扰因素带来的影响，因此研究和改善写作成绩的可推广性要从多角度思考，采用更合理的测量工具的同时提升测验本身的评价标准及其可操作性等多项措施以保证测评成绩的可靠性。

纵观教育测评题型的发展，存在着一个由主观题/开放题测评为主到数十年前以客观题为主，近年又日益凸显增加主观题/开放测评份量的趋势。这一次对主观/开放题的回归绝不是简单地重返起点，而是在教育测评理论与技术取得重大进展的前提下，在对主观题/开放测验题的评判的可推广性有了一定的保障，并日益得到改善条件下的螺旋推进式回归。在这一大背景下，写作测验这一古老而又在衡量被试写作能力方面有着难以取代之地位的主观/开放题，应该而且能够成为旨在提升主观/开放测评成绩可靠性的研究的试验田。而概化理论凭其本身在分析方差成份方面的特长及能够指导测评设计的独门秘笈，应该而且能够成为提升主观/开放测评质量的利器。本文以研究述评的形式，回顾了近20年来以概化理论为指导、以提升写作成绩可推广性为目标的中、英文研究文献，期望能通过梳理前人的研究发现，为日后的相关研究提供借鉴与参考的便利。

薄丽:《背景差异的两类评卷员在HSK高等作文考试评分中的差异研究》，北京语言大学硕士学位论文，2005年。

何莲珍、闵尚超:《写作测试的主要实证研究方法及其发展趋势》，《中国外语》，2008年第6期。

李智:《英语作文分析性评分的多元概化理论分析》，《湖南文理学院学报》(社会科学版)，2009年第2期。

刘婧:《运用概化理论分析作文分数的变异》，北京语言大学硕士学位论文，2006年。

刘远我、张厚粲:《概化理论在作文评分中的应用研究》，《心理学报》，1998年第2期。

罗娟、肖云南:《基于多元概化理论的英语写作评分误差分析研究》，《中国考试》，2008年第5期。

乔治·恩舟赫尔德:《以多面Rasch模型测量写作能力》，朱宇译，《教育与考试》，2007年第4期。

姚琴宜、祁宗海、席仲恩:《作文整体评分与分析性评分结果的质量比对》，《外语研究》，2008年第5期。

赵琪凤:《HSK写作测试评分信度考查——基于对新老评卷员的个案调查》，《中国考试》，2010年第10期。

Bachman，L.Fundamental considerations in language testing.Shanghai:Shanghai Foreign Language Education Press，1999.

Engelhard，Jr.，G.Differential Rater Functioning.Rasch Measurement Transactions，2008，21(3).

Gao，X.＆Brennan，R.L.Variability of estimated variance components and related statistics in a performance assessment.Applied Measurement in Education，2001，14(2).

Gebril，A.Bringing reading-to-write and writing-only assessment tasks together:A generalizability analysis.Assessing Writing，2010，15(2).

Gebril，A.Score generalizability of academic writing tasks:Does one test method fit it all?Language Testing，2009，26(4).

Huang，J.How accurate are ESL students＇holistic writing scores on large-scale assessments?——A generalizability theory approach.Assessing Writing，2008，13(3).

Johanson，G.＆Alsmadi，A.(1998).Differential Person Functioning.ED 420 691.

Johnson，R.，Penny，J.，Gordon，B.，Shumate，S.R.，＆Fisher，S.P.Resolving score differences in the rating of writing samples:Does discussion improve the accuracy of scores?Language Assessment Quarterly，2005，2(2).

Lee，Y.-W.＆Kantor，R.Evaluating prototype tasks and alternative rating schemes for a new ESL writing test through G-theory.International Journal of Testing，2007，7(4).

Linacre，J.M.Many-facet Rasch measurement.Chicago，IL:MESA Press，1989.

Nie，Y.，Yeo，S.M.＆Lau，S.Application of generalizability theory in the investigation of the quality of journal writing in mathematics.Studies in Educational Evaluation，2007，33(3-4).

Rasch，G.Probabilistic models for some intelligence and attainment tests(revised and expanded ed.).Chicago:The University of Chicago Press，1980.

Schoonen，R.Generalizability of writing scores:An application of structural equation modeling.Language Testing，2005，22(1).

Sim，J.＆Wright，C.Research in health care:concepts，designs and methods.Cheltenham，UK:Stanley Thornes，2000.http://books.google.com/books?id=vwjhgtUoNZIC＆pg=PA335＆lpg=PA335＆dq=%22estimate+of+Intra-rater +reliability%22＆source=bl＆ots=6FQUcpr6X5＆sig=fY5VEyJ_BqG54wSv0w61GVazYAM＆hl=en＆ei= It7LTIH2EYmAvgO0iZnMDw＆sa=X＆oi=book_result＆ct=result＆resnum=1＆ved=0CBIQ6AEwAA#v= onepage＆q=%22estimate%20of%20Intra-rater%20reliability%22＆f=false.2010-10-30.

Solano-Flores，G.＆Li，M.Examining the dependability of academic achievement measures for English language learners.Assessment for Effective Intervention，2008，33(3).

Sudweeks，R.R.，Reeve，S.＆Bradshaw，W.S.A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing.Assessing Writing，2004，9(3).

Wikipedia.Intraclass correlation.http://www.answers.com/topic/intraclass-correlation.2010-10-30.