诊断测试视角下的间接与直接写作测试互补性研究

2023-10-24潘鸣威吴金杰

山东外语教学 2023年3期

潘鸣威　吴金杰

（主持人：辜向东）

1961年Robert Lado专著《语言测试》的出版标志着语言测试作为独立学科的确立。随着语言测试六十余年的蓬勃发展，相关研究也取得显著进展，呈现出欣欣向荣的景象。根据国际语言测试协会对2021—2022语言测评文献的分类，语言测评研究大致分為三类：1）对语言能力和受试群体的测评研究；2）语言测试建设与开发研究；3）语言测试的社会性研究。

本期“语言测试研究”专栏收录的三篇文章视角不同，方法各异，但都扎根本土，分别对应当今语言测试研究中的语言测试建设、语言能力测评和语言测试的社会性。潘鸣威、吴金杰的《诊断测试视角下的间接与直接写作测试互补性研究》采用混合式研究设计，围绕我国自主设计的UDig写作诊断测试，通过探究间接与直接写作测试在写作能力构念上的互补性，回答两种测试方式如何结合才能使写作诊断测试的优势最大化的问题，有助于提高诊断测试的科学性和全面性，为日后构建多维度、细颗粒的诊断报告奠定基础。徐鹰、邓雅玲的《大规模语言测试翻译任务内容效度研究——以CET为例》以语言测试领域最高被引文献作者Bachman和Palmer的任务特征模式为框架，基于论证的效度验证模式，从语篇输入和预期回答两个维度分析了2017至2021年四、六级翻译任务的内容效度。该研究为如何满足大规模考试的需求并发挥考试的正面反拨效应提出了建议，这对进一步提升翻译任务质量具有启示意义。王校羽、黄永亮的《我国外语专业学生批判性思维教学与测评研究二十年（1998—2022）》从批判性思维的内涵界定及理论框架构建、外语教学中批判性思维的培养和批判性思维量具构建与测评三个方面，回顾二十多年来我国外语专业学生批判性思维研究的现状与进展，为如何培养优秀的外语人才提供了指导意义。

纵观语言测试研究的历程，我们会发现一个最为显著的特点，即从语言测试有效性到社会性的重要转向，研究焦点从有效测试转移到测试的有效使用及其社会影响。语言测试的社会性体现在对“人”这一主体的关注，无论是作为学习者还是考生，“人”一直是宏观的外语教育和相对微观的语言测评领域的核心主体。关注“人”这一主体，不仅有助于测试的开发与完善，更有利于外语教育领域的长远发展。教育是一个复杂的系统，从系统论的角度看，要取得系统效益最优，在微观和宏观上每一个构成要素都必须达到最佳。因此，我们要大力提倡“有效测试、有效教学、有效使用”。

［摘要］由于写作能力的复杂性，大多英语考试采用多项写作任务来测量考生的写作能力。但受到心理测量学视角的影响，以往研究较多关注间接和直接写作测试的相关性，而较少聚焦两者对写作能力构念的互补性。本研究以一项写作诊断测试为对象，采用混合式研究设计探究了间接和直接写作测试的关系，分析两者低相关的成因，并探讨语言能力、测试题型对这一关系的影响，最后提出如何从诊断测试视角出发选择合理、互补的间接写作测试。本研究对如何设计多任务写作测试具有借鉴意义。

［关键词］间接写作测试；直接写作测试；写作诊断测试；互补性

［中图分类号］ H319［文献标识码］ A［文献编号］ 1002-2643（2023）03-0013-13

A Complementary Investigation into Direct and Indirect Assessments：

The Case of a Diagnostic Writing Test

PAN Mingwei WU Jinjie

（School of English Studies， Shanghai International Studies University， Shanghai 201620， China）

Abstract： Given the intricate nature of pinpointing writing ability， most testing practices， if not all， incorporate multiple writing tasks to ascertain examinees corresponding skillsets. Previous studies， confined by the psychometric perspective， have predominantly concentrated on the correlation between indirect and direct writing tests， often neglecting the complementary nature in relation to writing construct. This study set out to delve deeper into the relationship between indirect and direct writing tests by employing a mixed-methods research design with a tertiary-level diagnostic test. Furthermore， it scrutinized the reasons behind their low correlation， investigated the impacts of language proficiency and question types on this relationship， and eventually proposed guidelines for selecting an appropriate and supplementary indirect writing test， all viewed from the perspective of diagnostic assessment. The findings of this study are poised to provide valuable insights into the design of multitask writing tests.

Key words： indirect writing assessment; direct writing assessment; diagnostic writing assessment; complementarity

1.引言

写作能力的构念极为复杂，因此在测量考生写作能力时，考试开发者通常会设计多项写作任务以弥补单项任务在测量覆盖面上的不足。其中，直接写作测试要求考生在限定时间内根据题干完成相应的文字撰写（Behizadeh， 2014；Behizadeh & Pang， 2016），较为真实地反映了现实世界的写作过程（White， 1995；Weir， 2005）。但受到回避等作答策略的影响，直接写作测试仍可能无法完全展现预设的写作构念全貌。引入间接写作任务，则在一定程度上提升写作能力考查的全面性。该测量方式通常有明确的正确答案（Stiggins， 1982；邹申， 2011）（如语法改错题），更有针对性地考查考生微技能的掌握情况。

在以学促评理念的驱动下，写作诊断测试作为低利害、多反馈的测试方式受到广泛关注（Lee， 2015）。由于考生在诊断测试中需全面了解自身的写作能力，这就要求写作诊断测试任务能充分涵盖预设的写作能力构念。融合直接与间接写作测试，有助于發挥两者在写作能力构念上的互补性，为构建多维度、细颗粒的诊断报告奠定基础。基于此，本研究以“优诊学”（UDig）写作诊断测试为对象，通过分析直接和间接写作测试的关系，提出如何利用两者的互补性为写作诊断测试服务，并对如何设计兼具直接和间接测试的写作诊断测试提出思考和建议。

2.文献综述

本文从诊断测试的视角研究直接和间接写作测试的互补性。下文将从英语写作能力、写作测试方式以及写作诊断测评几个方面评述有关文献，以阐明本研究对写作构念的理解，并基于工作定义提出融合写作测试时亟须关注的要素。

2.1 英语写作能力与写作测试方式

尽管目前尚无公认的写作能力模型与框架（Weigle， 2002），也缺乏操作性极强的写作构念范式（Knoch， 2009），相关研究却几乎不约而同地指向Bachman（1990）的交际语言能力模型（CLA模型）。不少学者也以此为基础，提出了更有针对性的写作能力模型。应该说，CLA模型较为全面地包含了写作能力可能涉及的维度，但也存在基本概念较为抽象和可应用性相对不足的问题（McNamara， 1990）。此外，该框架仍属于对语言能力的宏观描述，缺乏对二语写作能力更为细致的描述。为此，Grabe和Kaplan（1996）从社会认知的角度构建了写作能力模型。该模型集合四方面内容，其中“语言处理”作为写作产出的重要一环，与CLA模型的语言能力有不少共通之处。与此同时，该模型总结了对应维度所需的技能。但美中不足的是，该模型主体仍偏理论，难免与构念确立和评分实践产生隔阂。Cumming等（2000）在研究TOEFL 2000写作任务特点后精简了写作能力模型。他们认为，在实际评分中更应侧重语言知识和语篇知识的运用，并在新的框架中对写作构念提供了详细的工作定义，可操作性较强。由此，本研究将基于Cumming等（2000）的框架，视语言知识和语篇知识为写作能力的构念核心，借此比较不同写作测试方法间的异同。

围绕直接与间接写作测试的关系，学界已有不少成果（Benton & Kiewra， 1986；Ackerman & Smith， 1988；徐晓燕等，2004；Peckham， 2009；Chen， 2012），但得出的结论却不尽相同。不同研究之间的差异展现了控制相关变量的复杂性。Peckham（2009）认为不同的写作任务性质（如体裁和主题）、写作环境、时间分配以及评分程序等均会影响研究结论。在变量繁多、研究结果迥异的情况下，研究者更需关注此类研究的实验设计。Traub（1993）总结了直接和间接写作测试关系研究应遵守的标准：（1）应尽可能减少测量误差；（2）采用多组设计来探究不同测试方式的一致性。综合上述分析，可得出以下三点启示：第一，考生的语言能力可能会影响两种测试方法的相关性。这一观点符合直觉，但尚无实证数据的支撑，有待开展相关的实证研究（黄建滨、于书林， 2009）。第二，不同间接写作题型和直接写作试题的相关性也存在差异。尽管现有研究已涵盖大多数类型的间接写作测试，但部分间接写作测试题型却鲜有涉及，如同时考查语法和语篇知识的改错题（刘建达、杨满珍， 2001；白雅， 2005；靳文方， 2014；汪津伊， 2020）。第三，相关性研究尚无法解答谁能取代谁的问题。相反，这类研究更应关注如何将两类写作测试通过适当的方式实现测量效度的最大化（Chen，2012）。比如，使用间接测试有助于为考生提供颗粒度更细的反馈信息，而这正是写作诊断测试最令人称道之处。本研究充分考虑考生能力水平、不同间接测试题型等变量，进一步探究优化写作诊断测试的实施路径。

2.2 写作诊断测试

近年来，诊断测试逐渐发展壮大（潘鸣威、宋杰青、邓华，2019）。国际上，较为成熟的诊断测试包括DIALANG（https：//dialangweb.lancaster.ac.uk/）和奥克兰大学研发的诊断性英语语言需求测试（DELNA）（http：//www.delna.auckland.ac.nz/en.html）。两项考试在考生完成一些独立测试（如阅读、写作、听力）后会提供即时诊断反馈。其中，DIALANG写作试题采用间接测试题型，答题前考生可参加词汇分级试测并填写自我评估表来确定实际试题难度；而DELNA的写作试题为直接测试。然而，这两项写作诊断测试的缺点也显而易见。间接写作测试固然能提供部分诊断信息，但反馈信息可能过于笼统；而直接写作测试虽有更好的表面效度，但单项写作任务很可能存在测量误差，无法准确全面地反映写作能力（Traub， 1993）。可见，单独使用间接或直接写作诊断测试均有可能导致部分关键诊断信息的缺损。因此，结合两种测试方式或许是更佳选择。基于此，本研究围绕由我国自主设计的UDig写作诊断测试①，通过探究间接与直接写作测试对写作能力构念的互补性，回答两种测试方式如何结合才能使写作诊断测试的优势最大化。

3.研究设计

3.1 研究问题

基于以上文献综述和本研究目标，本研究采用混合式设计解答三个研究问题，即在UDig写作诊断测试中：（1）直接写作测试成绩与间接写作测试成绩之间总体上呈现何种关系，语言能力的差别是否会影响这一关系？（2）不同类型间接写作测试（单句改错和短文改错）与直接写作测试之间呈现何种关系？（3）考生语言能力水平和间接写作测试类型间的交互作用如何影响直接与间接写作测试的关系？

3.2 研究受试

本研究受试分为两类。第一类是仅参加UDig六级②（UDig-6）写作测试的考生。2021年5-6月间，共有183位来自中国不同地区3所高等院校的学生参加该测试。所有考生均为在校非英语专业大三或英语专业大二学生，与UDig适用对象基本一致；其写作诊断测试的直接写作测试成绩作为其能力水平分组的依据。第二类是同时参加写作测试和刺激回忆访谈的学生。由于刺激回忆活动的特殊性，本研究根据教师的推荐人选，初步遴选出第一批潜在的访谈考生；在诊断测试后依据外部量化标尺（大学英语四、六级成绩）和外部质化标尺（任课教师评价），选出了15名受试，并将其分成高、中、低三个水平组，如表1所示。

3.3 研究工具

本研究的工具包括 UDig-6间接写作测试和直接写作测试③。前者包括单句改错和短文改错两种题型，采用机器评分，具体信息如表2所示；后者为UDig-6说明文写作（图表描述题）。本研究采用分项式评分法，每个写作样本由两位经验丰富的评分员从UDig既定的评分标准中语言质量（35%）、篇章组织（20%）、主题发展（35%）和写作规范（10%）完成独立评分，满分15分。考生的最终得分即为双评的均值。但若两位评分员在任一分项分的差异超过3分的阈值，则由仲裁评分员确定最终得分。

3.4 数据收集

测试开发中，5位中国语言测试领域专家参与了UDig-6间接和直接写作测试的研发。小规模试测结果表明，试题经典测量理论（CTT）的项目平均难度为0.55，即保持在0.50左右，因而试题质量符合有关设定标准（Bachman， 2004）。

数据收集中，写作诊断测试采用计算机化考试的形式，考试结束后相关考生即刻进入刺激回忆环节。在刺激回忆开始前，受试已获取自己的间接写作测试成绩，而直接写作测试则由评分员事后如上文3.3所述完成评分。直接写作测试的评分员间信度为0.92，各分项维度信度均超过0.80，表明评分一致性极佳。刺激回忆活动中，研究者首先协助受试熟悉相关程序并开始简单试测。随后，在进入正式刺激回忆后，受试可使用自身习惯的表达方式描述思维细节。最后研究人员与受试再次访谈，更清晰地还原受试的所有陈述。整个刺激回忆持续约40分钟，并在征得受试允许的前提下录音。

3.5 数据分析

本研究使用RStudio（1.4.1717版）分析直接和间接写作成绩的定量数据，并使用软件包生成图表，包括：ggplot2（Wickham et al.， 2020）， ggstatplot（Patil， 2021），ggpubr（Kassambara， 2020），Cowplot （Wilke， 2020）和HH（Heiberger， 2020）。表3列出各研究问题所对应研究目的和相应的统计方法。

如上文3.2所述，直接写作成绩是考生写作能力分组的依据。结合评分标准，表4解释了写作能力分组结果。Games-Howell测试显示，所有写作能力分组具有统计学意义（p <0.000）。

刺激回忆数据由两位研究人员编码。编码前，编码员根据不同写作测试方法，就可能涉及的写作技能等交换意见（Grabe & Kaplan， 1996；Cumming et al.， 2000），并在制定编码方案后独立编码。结果显示，编码一致性较高，达到0.82。附录为直接（D）写作和间接（I）写作测试的编码方案，均由语言使用（LU）和篇章知识（DC）组成。

4.研究结果

围绕三个研究问题，下文分别从间接与直接写作测试的总体关系、不同类型间接写作测试与直接写作的关系以及语言能力和间接写作测试的交互效应三个方面呈现研究结果，最后再报告刺激回忆数据的分析结果。

4.1 间接与直接写作测试的总体关系

如图1所示，此处使用斯皮尔曼等级相关计算间接与直接写作的总体相关性，发现

两种写作测试方法之间呈弱相关（r（181）=0.160， p =0.030）。由图1可知，以考生写作能力为变量时，不同写作测试方法之间的相关性却无统计学意义（p=0.060，0.380，0.850>0.050）。

这一结果表明，考生的整体语言能力并非是预测间接写作成绩的有力因素。而组间差异分析显示，各写作能力组间仅存在边缘的显著性差异（F（2， 87.56）=3.16，p=0.047），如图2所示。

4.2 不同间接测试题型的影响

由图3可知，单句改错与直接写作测试呈弱相关（r=0.170，p=0.024）。但短文改错与直接写作测试之间则几乎无相关（r=0.100，p=0.016）。

图4顯示不同间接写作测试题型与直接写作测试分项成绩的相关性。可见，单句改错与“语言质量”和“写作规范”这两个分项存在弱相关。但与单句改错不同，短文改错与各分项均不存在显著相关。而从配对样本t检验结果分析，考生在单句改错上的表现（M=6.500，SD=1.930）要优于短文改错（M=4.690，SD=2.050），且这一差异具有显著性（t（182）= 11.160，p <0.000， g=0.820）。

4.3 交互效应分析

本研究使用Robust ANOVA来考查间接写作测试类型和考生语言能力这两个自变量的交互效应。如图5所示，两者的交互效应可忽略不计（p=0.640）；左上图和右下图近乎平行也进一步佐证这一结果。图6中的Games-Howell检验更间接表明，考生的语言能力似乎不影响其短文改错的成绩。

4.4 刺激回忆数据的结果

为进一步挖掘以上量化数据分析结果的原因，下文通过分析刺激回忆数据中的发现来佐证以上研究发现。

单句改错中，较多考生仅使用单词层面的理解和语法技能，但低水平组在无法识别语法错误的情况下会更频繁使用篇章类技能。另外，可能是单句改错的难度较低，部分考生甚至不需要理解句意就能直指错误本身，如例1所示。

例1 我觉得这是显而易见的……当我看到“只有”这个词时，我就知道这题是关于倒装的。我甚至没有注意到其他的词。［EC4H3］

短文改错中，较多考生能掌握一些间接写作测试的答题策略，但在识别语义错误方面却成果寥寥，高水平组亦是如此。很多衔接误用是无法识别错误后的无奈之举，如例2。

例2 我没有发现任何错误……我觉得这可能是一个语义错误……或许也可能是语法问题？当时真是绞尽脑汁也想不出。［PR12H5］

低水平组在短文改错上的表现相对弱，但整体差距不大。各水平组的刺激回忆数据也揭示不少相似之处，在一定程度上也印证了以上短文改错成绩区分度低的研究发现。

直接写作中，高、中水平组能追求词汇和句法使用的多样性（例3、例4）。但低水平学生往往将更多精力聚焦在准确性上，而篇章知识的运用屡屡受挫，如例5。

例3 准备收尾了……我记得当时我在想我们刚学的一个新短语……对，就是in a nutshell。起初，我想这可能是一个吸引评分人眼球的短语，但后来我突然意识到这是一个写作测试……in a nutshell听起来很随意，所以我最后用了in conclusion。［DW1M8］

例4 首先我想描述总体趋势……一开始想的是“we can see from the diagram that...”。但 see很普通，所以我换成了extrapolate...Old people这个表述感觉缺乏尊重？老师曾说过委婉语在日常使用中的重要性，这就是为什么我决定使用“the hoary”这个词。［DW1H4］

例5 我脑子里蹦出的第一个词是“convenience”，但我不确定这个词怎么拼，最后就只能换个简单的词。［DW1L10］

由上几例可见，例3和例4体现了考生的文体意识：中水平组更注重语言使用的正式性，而高水平组还能关注委婉语等修辞手法的使用。这与例5形成鲜明反差。事实上，本研究在刺激回忆数据中甚至很难找到中高水平组使用技术性细节（D-LU1）或使用正确的语法形式（D-LU2）的编码结果。而低水平考生显然更注重语法准确性和技术性细节，这与间接写作任务有明显相似之处，而上文的相关分析也得出类似结论。

5.讨论

结合本研究发现，我们从以下三个方面展开讨论。

第一，总体上间接与直接写作测试的相关性较弱。这与文献的有关结论基本相同（Ackerman & Smith， 1988；Peckham， 2009）。无论是从整体分析，还是按间接测试类型和写作能力水平两个自变量分析，都表明两种写作测试方法并无强相关。相比而言，单句改错与直接写作的相关性更为密切，这或许与单句改错所涉及的编辑策略有关（刘建达、杨满珍， 2001；徐晓燕等， 2004）。此外，间接写作测试间的成绩差异具有统计学意义，而写作能力水平组间的成绩则不存在显著性差异；自变量间也不存在交互效应。这也从侧面印证了Traub （1993）的论述：两类写作测试之间绝非互为竞争的可替换关系。

第二，直接写作测试比间接写作测试在写作构念的考查上更为全面。由刺激回忆数据分析结果可知，低水平组在直接写作测试中更关注语法和词汇的准确性，而中高水平组更重视语言多样性和篇章组织能力。这与先前文献对二语学习者的写作特征描述基本一致（Lahuerta Martínez， 2018；V?gelin， Jansen， Keller， Machts & M?ller， 2019；Chen， 2020）；但两种间接写作测试只诱发与语法知识相关的写作能力（汪津伊， 2020）。此外，虽然两种写作测试方法在构念全面性上存在差异（Traub， 1993），但证据表明，若增加能有效测量考生篇章知识的间接写作测试（刘建达、杨满珍， 2001；白雅， 2005；靳文方， 2014；白丽茹， 2019），那这种差异可能就仅限于识别和产出技能间的区别。因此，这两者的结合可更好涵盖预设的写作能力构念，进而为写作诊断测试提供更有效、更全面的诊断信息（Chen，2012；潘鸣威、宋杰青、邓华，2019）。

第三，短文改错在写作诊断测试中应用的适切性。一直以来，短文改错存在区分度低和认知超负荷的问题（曾绛，2016；陶娜、王颖， 2022），但本研究从实证角度提出了新证据。本研究刺激回忆数据也表明，中高水平考生对此题型颇有微词。涉及语义改错的试题（如考查承接、转折关系的误用）本应用于考查学生结合语境的篇章知识，但不少考生仅能利用做题直觉凭空猜测，这显然违背考试开发者所预设的认知过程。另外，短文改错所考查的语义编辑能力不完全是语言能力的子集（Grabe & Kaplan， 1996）：不少高水平考生反映識别此类语义连贯失误的困难程度远高于写作产出本身，这与先前研究基本一致（白丽茹， 2019；解月， 2020）。因此，相较于短文改错，似乎单句改错可适合作为直接测试的互补方，为考生提供更为丰富全面的诊断信息。

6.结语

本研究采用混合式研究设计，以UDig写作诊断测试为对象，探讨了间接与直接写作测试以及不同间接写作测量方法之间的差异和关联。通过考生的写作测试成绩及其刺激回忆数据，本研究阐述了写作能力与写作题型对相关性的影响，深入分析了间接与直接测试相关性较低的原因，并提出两者如何依托写作诊断测试，发挥各自优势，更全面体现写作能力构念。此外，本研究从考生层面探讨了不同间接写作测试题型选取的合理性，这有助于提高诊断测试本身的科学性和全面性，并为更为详尽、细颗粒化的诊断报告奠定坚实基础。

本研究也存在一定局限性。一方面，本研究仅涉及改错类的两种间接写作测试。若能加入其他题型（如连句成篇）則可以进一步探究语篇知识的考查。另一方面，本研究尚未涉及基于间接写作测试所生成的反馈信息有效性，即对考生写作学习的研究。这些将在今后的研究中深入探索。

注释：

① 限于篇幅，有关UDig在线写作诊断测评系统详见https：//unilearn.fltrp.com/gaozhen/trial-examlist.html。

② UDig写作诊断测试按照《中国英语能力等级量表》的级别划分（潘鸣威、邹申，2021），对应分为UDig-4，UDig-5，UDig-6和UDig-7级别。其中，达到UDig-6的考生水平大致对应CSE六级水平。

③ 由于涉及考试内容的保密性，本文无法列出实考试题，如需获取，可与作者联系。

参考文献

［1］Ackerman， T. A. & P. L. Smith. A comparison of the information provided by essay， multiple-choice， and free-response writing tests［J］. Applied Psychological Measurement， 1988， 12（2）： 117-128.

［2］Bachman， L. F. Fundamental Considerations in Language Testing［M］. Oxford： Oxford University Press， 1990.

［3］Bachman， L. F. Statistical Analyses for Language Assessment［M］. Cambridge： Cambridge University Press， 2004.

［4］Behizadeh， N. Mitigating the dangers of a single story： Creating large-scale writing assessments aligned with sociocultural theory［J］. Educational Researcher， 2014， 43（3）： 125-136.

［5］Behizadeh， N. & M. E. Pang. Awaiting a new wave： The status of state writing assessment in the United States［J］. Assessing Writing， 2016， 29： 25-41.

［6］Benton， S. L. & K. A. Kiewra. Measuring the organizational aspects of writing ability［J］. Journal of Educational Measurement， 1986， 23（4）： 377-386.

［7］Chen， S. A Study on Correlations between English Professional Subject of the Technological and Vocational Education Joint College Entrance Exam and Picture Writing Performance of Students from Department of Applied Foreign Languages of Vocational High Schools［D］. National Chengchi University， 2012.

［8］Chen， Y. Assessing the lexical richness of figurative expressions in Taiwanese EFL learners writing［J］. Assessing Writing， 2020， 43： 1-12.

［9］Cumming， A.， R. Kantor， D. Powers， T. Santos & C. Tayler. TOEFL 2000 Writing Framework［R］. Princeton： Educational Testing Service， 2000.

［10］Grabe， W. & K. B. Kaplan. Theory and Practice of Writing： An Applied Linguistic Perspective［M］. New York： Longman， 1996.

［11］Heiberger， R. M. HH： Statistical Analysis and Data Display： Heiberger and Holland［CP］. 2022-08-09. https：//CRAN.R-project.org/package=HH.［2023-05-28］

［12］Kassambara， A. ggpubr： ‘ggplot2 Based Publication Ready Plots［CP］. 2023-02-10. https：//CRAN.R-project.org/package=ggpubr.［2023-05-28］

［13］Knoch， U. Diagnostic assessment of writing： A comparison of two rating scales［J］. Language Testing， 2009， 26（2）： 275-304.

［14］Lahuerta Martínez， A. C. Analysis of syntactic complexity in secondary education EFL writers at different proficiency levels［J］. Assessing Writing， 2018， 35： 1-11.

［15］Lee， Y. W. Diagnosing diagnostic language assessment［J］. Language Testing， 2015， 32（2）： 299-316.

［16］McNamara， T. F. Item response theory and the validation of an ESP test for health professionals［J］. Language Testing， 1990， 7 （1）： 52-76.

［17］Patil， I. Visualizations with statistical details： The ‘ggstatsplot approach［J］. Journal of Open Source Software， 2021， 6 （61）： 3167.

［18］Peckham， I. Online placement in first-year writing［J］. College Composition and Communication， 2009， 60 （3）： 517-540.

［19］Stiggins， R. J. A comparison of direct and indirect writing assessment methods［J］. Research in the Teaching of English， 1982， 16 （2）： 101-114.

［20］Traub， R. E. On the equivalence of the traits assessed by multiple-choice and constructed-response tests［A］. In R. E. Bennett & W. C. Ward （eds.）. Construction versus choice in cognitive measurement： Issues in constructed response， performance testing， and portfolio assessment［C］. Hillsdale： Lawrence Erlbaum Associates.1993， 29-44.

［21］V?gelin， C.， T. Jansen， S. D. Keller， N. Machts & J. M?ller. The influence of lexical features on teacher judgements of ESL argumentative essays［J］. Assessing Writing， 2019， 39： 50-63.

［22］Weigle， S. C. Assessing Writing［M］. Cambridge： Cambridge University Press， 2002.

［23］Weir， C. J. Language Testing and Validation： An Evidence-based Approach［M］. Hampshire： Palgrave Macmillan， 2005.

［24］White， E. M. An apologia for the timed impromptu essay test［J］. College Composition and Communication， 1995， 46 （1）： 30-45.

［25］Wickham， H.， W. Chang， L. Henry， T. L. Pedersen， K. Takahashi & C. Wilke. ggplot2： Create Elegant Data Visualisations Using the Grammar of Graphics［CP］. 2023-04-03. https：//CRAN.R-project.org/package=ggplot2.［2023-05-28］

［26］Wilke， C. O. Cowplot： Streamlined Plot Theme and Plot Annotations for ‘ggplot2［CP］. 2020-12-30. https：//CRAN.R-project.org/package=cowplot.［2023-05-28］

［27］白麗茹. 英语句子逻辑连贯能力与英语写作水平潜在关系研究［J］. 外语研究， 2019，（1）： 52-57+112.

［28］白雅. 基于语料库方法的高考短文改错的真实性研究［D］. 广东外语外贸大学，2005.

［29］黄建滨，于书林. 国内英语写作研究述评［J］. 中国外语， 2009，（4）： 60-65.

［30］靳文方. 基于语料库对高考英语短文改错的内容效度研究［D］. 陕西师范大学，2014.

［31］刘建达，杨满珍. 成段改错试题考了什么？［J］. 现代外语， 2001，（2）： 170-180.

［32］潘鸣威，宋杰青，邓华. 在线英语写作诊断测评中自评量表的开发与效度验证［J］. 外语教育研究前沿， 2019，（4）： 33-41.

［33］潘鸣威，邹申. 中国英语能力等级量表写作量表研究［M］. 北京：高等教育出版社，2021.

［34］陶娜，王颖. 2022. 外语写作任务复杂度对语言形式注意和修改效果的研究［J］. 山东外语教学， 2022，（5）： 67-76.

［35］汪津伊. 2016-2019年高考英语全国卷短文改错题的内容效度和答题效度研究［D］. 安徽师范大学，2020.

［36］解月. 二语写作连贯研究综述和展望［J］. 山东外语教学， 2020，（6）： 20-30.

［37］徐晓燕，夏伟蓉，吕长竑. 大学生英语语法能力与英语写作能力的相关研究［J］. 西南民族大学学报（人文社科版）， 2004，（12）： 463-466.

［38］曾绛. 完形、改错的语言测试与专门用途英语语能考测［J］. 外语电化教学， 2016，（3）： 86-90.