作文自动评分系统信度及其对大学英语写作教学的启示<br/>——基于iWrite 系统评分与人工评分的对比分析

作文自动评分系统信度及其对大学英语写作教学的启示
——基于iWrite 系统评分与人工评分的对比分析

2022-11-21董连忠

高教学刊 2022年33期

栾岚，董连忠

（1.哈尔滨工程大学，哈尔滨 150001；2.中国劳动关系学院，北京 100048）

英语写作是英语综合能力的体现，如何有效提高大学生的英语写作水平一直是英语教学研究领域的一项重要课题。众所周知，增加写作实践是提高学生写作能力的一条主要途径。然而，大学英语教学班级人数多、教学任务重，作文批改和评阅是一项耗时费力的工作，教师鲜有空余时间和精力为学生认真批改作文。学生作文中出现的错误得不到及时纠正，其英语写作水平难以提高，亦很难取得良好的教学效果。近年来作文自动评分系统通过给学生作文提供写作规范、语法和结构等方面的即时反馈，帮助学生开展自主学习活动，减轻了教师批改学生作文的负担，一定程度上促进学生写作能力和教学效果的提高[1]。语言教学中，任何评价均以信度来衡量其有效性，即评价结果（所得分数）在很大程度上代表了被试的语言能力。写作评分信度以评分信度为基础，即评分员依照作文评分标准评分的稳定性和评分员间评分的一致性作为写作教学的辅助工具，作文自动评分系统近年来虽在二语/外语写作教学中得到了广泛的应用，但学界对其评分信度仍有分歧[2]。本研究选用i－Write 自动评分系统2.0（简称iWrite），以北京市某高校大学英语二年级经济管理专业1 班的36 篇作文为例，将iWrite 评分信度与人工评分信度进行对比分析，探析iWrite 评分信度及其对大学英语写作教学的启示。

一、写作自动评价

写作自动评价（Automated writing evaluation）源于20 世纪60 年代的美国杜克大学，Page 教授等应美国大学委员会请求，通过对文本浅层语言特征进行多元回归分析，如文本长度和平均句子长度等，构建语料库评分模型研制出了Page Essay Grade 系统，旨在提升大规模考试作文评分效率[3-4]。20 世纪90 年代美国教育考试服务中心（ETS）和Vantage Learning 又分别研发了包含更多有关词法、句法、语篇内容和结构元素的系统，并出现了分析更加复杂的E-rater 和IntelliMetric 作文自动评分系统[5-6]，科罗拉多大学Landauer 等[7]基于潜在语义分析（Latent Semantic Analysis）研发了智能作文评估引擎（Intelligent Essay Assessor）。基于以上研究，21 世纪初ETS 又相继研发了My Access、Criterion、Hot Online Essay Scoring 和Writing Roadmap 等用于课堂的写作自动评价系统[8]。写作评价系统的应用不仅能够提升评分效率，同时还在语法、拼写和语篇结构等方面为文本作者提供详细的反馈，帮助教师开展写作教学和学生课外英语自主学习活动。

国外对写作自动评价系统的研究主要集中在系统的信度、新功能开发和写作评价系统与课堂教学的实践应用[2]。受国外写作自动评价系统的启发，国内写作自动评价系统研发也取得了显著成效。梁茂成及其研究团队研发了基于我国英语学习者的iWrite 2.0 系统，该系统不仅能够从语言、内容、篇章结构和技术规范等维度对作文进行评价，还可从错误类型、客观特征及学习情况统计等方面提供反馈。随着iWrite 应用范围的扩展与深入，国内学者相继开展了系统的介绍与实践应用[9-10]、使用效果[1]等研究，鲜有对iWrite 评分信度与人工评分信度进行对比研究。本研究拟通过将iWrite 评分信度与人工评分信度进行对比分析，探析其评分信度及在我国高校大学英语写作教学中应用的可行性，促进我国大学英语写作教学和大学生写作能力的提升与发展。

二、研究设计

（一）研究工具

外语作文评分通常采用整体评分（Holistic approach）和分项式评分（Analytical Scoring approach）两种评分方法。整体评分法是评分员基于受试文本的总体印象给出分数，其优点是能在短时间内作出判断，效率较高，通常用于大型考试，如四、六级考试作文评分；而分项式评分是基于受试文本的不同方面的质量分别给分，然后把各项分数相加作为受试的作文成绩，其优点是能给教师和受试提供详细的反馈，有助于受试发现自身的不足和教师进行补救教学[11]。本研究的研究工具选用iWrite 系统和2 名四、六级考试写作评分员。基于语言测试和二语写作理论，利用多元回归统计、智能化自然语言处理及信息检索等技术，采用分项式评分法，i－Write 从作文的语言、内容、篇章结构和技术规范四个维度全方位考查评价构念，近年来在我国高校大学英语写作教学中得到了广泛应用。本研究作文满分为15 分，将该班机评作文评分与人工评分进行了对比分析。

2 位评分员均为2 所普通高校的大学英语教师（北京、河北高校各1 所），均有20 年以上的大学英语教学经历，多次参加英语四、六级考试作文评阅工作，且在作文评分同行中信度较高。其作为非英语专业大学生水平英语考试，四、六级考试内容、考试任务及评分标准等均得到业界的认可。四、六级考试作文评分员评分前均按照评分标准接受严格培训，对大学英语作文评分有较深的认识和熟练的评分技能。在四、六级考试作文评分结束后，2 位评分信度较高的优秀评分员，按作文满分15分，依据四、六级考试评分标准——根据内容和语言要求具体评分标准又分为2 分、5 分、8 分、11 分和14 分五个等级，采用整体评分法对该班的36 篇作文（每人各18 篇）进行了评分。

（二）研究对象

研究对象为北京市某普通本科高校二年级经济管理专业大学英语1 班的36 名学生的作文，其中男生17人，女生19 人。任务要求如下：For this part，you are allowed 30 minutes to write a short essay on the following topic Stop Phubbing on Campus.You should write at least 120 words but no more than 180 words.（受试者要求在30 分钟内完成一篇120～180 词的英语作文，题目为“不做校园低头族”）。该班学生的36 篇作文全部有效。

本研究的自变量是iWrite 和四、六级考试写作评分员，因变量为36 篇作文的平均成绩，旨在发现iWrite 评分（机评）信度。具体研究问题为：

（1）iWrite 评分信度如何？

（2）研究结果对大学英语写作教学与评价有何重要启示？

评分结束后，使用SPSS19.0 对收集的数据进行了统计分析。

三、结果分析

由表1 可以看出，机器评分的最小值为7 分，最大值12 分，平均分9.5 分，中位数9 分，标准差为0.167；人工评分的最低分5 分，最高分14 分，平均分8.69，中位数8 分，标准差为0.427。据此可计算出机器评分、人工评分的标准差分别为0.167、0.427，这表明机器评分平均成绩的代表性大于人工阅卷平均成绩的代表性。但人工评分的偏度为0.447，峰度为-0.817，说明人工评分的成绩不具有正态性。因此，考虑使用配对样本T 检验（见表2 和表3）。

表1 配对样本统计

表2 正态性检验

表3 配对样本相关性

尽管机器评分和相应的人工评分的差经夏皮洛-威尔克检验具有正态性（见表2），但在配对样本相关性检验时，相关性为-0.039，显著性水平为0.821（见表3），说明样本不具有线性相关性。最终，选择使用两配对样本的威尔科克森（Wilcoxon）非参数检验。

两配对样本的Wilcoxon 检验的结果见表4 和表5。负号的秩和为335.5，正号的秩和为160.5，z 检验统计量的值为-1.725，其所对应的概率值（双尾）p=0.085＞0.05，因此可认为机器评分和人工评分尽管有差异，但差异不明显，不具有统计学意义。

表4 威尔科克森符号秩检验：人工—机评—秩

表5 威尔科克森符号秩检验：人工—机评—秩

四、结论与启示

从评分结果对比可以看出，iWrite 评分平均分较高，偏度较小，作文分数较为集中，而人工评分偏度较大，不同写作水平学生作文成绩能得到较好体现。从总体看，iWrite 自动评分信度较高，与人工评分差异不明显。本研究结果对大学英语写作教学与测试有如下启示。

（1）iWrite 系统反馈与大学英语教学评价相结合。教学与评价密不可分，大学英语教学评价由形成性评价和终结性评价两部分组成。iWrite 自动评价系统针对学生的语法、词汇难度及句法进行评价，教师可基于智能评价反馈进行必要的补充并提出修改意见，从而有助于培养学生的自我纠错、自我评价能力。因此，教师可将iWrite 系统评价用于大学英语写作测试，充分发挥iWrite 评价系统的辅助作用。

（2）激发大学生英语写作兴趣，增加基于iWrite 自动评价系统的写作实践。写作反馈是为帮助学习者提高写作能力对其写作文本予以评价的信息。iWrite 自动评价系统对学习者的语言问题，如拼写错误、用词、搭配与表达等进行自动批改并提供修改意见，对学生作文的总体水平予以总体评价可激发学习者的写作兴趣，减轻教师批改作文的工作量，从而把充足的时间和精力用于教学[12]。因此，大学英语教师可基于教材内容开展课外写作教学活动，增加大学生课外写作实践，提升他们的英语写作水平。

（3）开展学生间写作互评，提升大学生的自主学习能力。写作自动评分系统不仅能够给学生提供语言质量、用词和语法等方面的反馈，使学生在不断修改过程中作文不断得到完善，同时提升了他们的写作技巧。然而，自动评分系统也存在一些不足，如不能识别结构较复杂的句子，无法全面评估作文内容切题、篇章结构和文章逻辑等，因而开展学生间写作互评，可弥补写作自动评分系统的不足，从而提升大学生的自主学习能力。

通过对iWrite 和四、六级作文评分员评分结果对比分析，本研究发现，iWrite 具有较好的评分信度，亦验证了国内其他同类研究结果[13]，对在大学英语写作教学与评价予以重要启示。尤其是在当前疫情持续反复和蔓延的情况下，iWrite 辅以教师评价不仅可以帮助大学英语教师开展写作活动，还可用于大学英语写作教学的平时测验、期中及期末考试等教学评价活动，促进大学英语写作教学效果与评价的不断提升与发展。