国内自动作文评阅系统实证研究：述评与展望

2021-10-19张藤耀

河南理工大学学报(社会科学版) 2021年5期

王建,张藤耀

(1.西南交通大学希望学院外语系，四川成都610400；2.商丘学院外国语学院，河南商丘476000)

近年来，国内自主研发的自动作文评阅(Automated Writing Evaluation，简称AWE)系统如冰果、批改网及iWrite等被引入到英语写作教学中并逐渐成为重要的形成性评估工具。这些系统不仅能提供及时评分，还可从词汇、语法、内容及组织结构等方面提供详尽的反馈与指导[1]，解决了EFL(English as a Foreign Language)写作教学中教师工作量过大、学生练习严重缺乏等诸多问题。AWE系统依托自然语言处理、人工智能、潜势语义分析等技术的发展，使传统的英语写作教学模式适应“智慧型教学”和“智慧型学习”的发展趋势。我国AWE系统的研究要稍晚于国外，伴随着AWE系统在教学中的广泛运用而快速发展。本文旨在对近二十年于CSSCI来源期刊及外语类专业期刊发表的与AWE系统相关的实证研究进行分类梳理，总结该领域研究的现状，分析存在的问题，为该领域研究的发展提供一定的参考。

一、文献来源与筛选

首先，在中国期刊网中进行高级检索，主题词为“在线写作/作文”“评阅/评价/评分系统”等，发表时间为2000—2019年，文献来源为CSSCI来源期刊及外语类专业期刊；其次，阅读检索到的所有文章的摘要部分，直接筛除掉综述类、介绍类文章；然后仔细阅读剩余的文章内容及参考文献部分，找出检索遗漏的符合条件的文章，最终获得35篇(把此35篇文章作为研究对象)。

二、研究结果

本文基于白丽芳、王建对AWE系统相关研究的综述[2-3]，对近二十年来AWE系统实证研究的总体趋势、理论基础、研究方法和研究主题进行详细分析和述评，得出研究结果。

(一)AWE实证研究总体趋势

检索发现，我国AWE系统实证研究始于2005年，2006—2009年呈现空白期，2015年有9篇文章涉及该领域，达到峰值。2009—2016年是信息技术突飞猛进的一个阶段，所以本领域研究受到了研究人员的广泛关注。但2015年以后相关论文的发表数量有逐渐下降的趋势，具体的数据如图1所示。

图1 2005—2019年AWE实证研究论文篇数走势图

细读筛选的35项研究之后，笔者确定了4类

研究主题：效度研究(AWE系统作为测量工具的可靠性程度)、写作结果研究(系统的使用能否提高学生的写作水平)、写作过程研究(系统的使用能否影响学生写作构思及修改)和使用者态度研究(学生或教师对在线写作系统优缺点的认知)。通过研究可以发现，研究人员更多关注写作结果和使用者态度(表1)。笔者亦发现，效度研究往往与其他3个主题独立存在，即研究人员通常对写作结果、写作过程及使用者态度进行交叉研究。

表1 AWE研究各主题相关论文篇数

(二)理论基础

在所有35项研究中，只有10项明确提出了研究的理论依据或理论框架，占总数的28.6%，其他研究并未说明理论基础。1项研究以效度理论为指导，探讨了批改网的测量性(evaluation)或评分效度(scoring validity)、归纳性(generalization)和外推性(extrapolation)3个层面[4]。2项研究以技术接受模型(Technology Acceptance Model)为理论模型探讨使用者对AWE系统使用的态度[5-6]。其余7项主要涉及AWE写作过程的研究，往往以二语习得理论为依托，如中介作用理论、建构主义理论、创造结构理论[7]、布鲁纳结构主义教学理论、过程化写作理论、自我效能感理论、动态评估理论[8]、社会文化活动理论(Activity Theory)、互动假设交互理论(Interaction Hypothesis)[9]以及社会文化理论中的最近发展区(Zone of Proximity Development)理论[10]。

统计发现，多数研究缺乏理论基础的指导。同时值得一提的是，一些研究仅在研究设计部分简单罗列相关理论，实际讨论部分似乎“遗忘”了指导研究的理论框架，理论与应用脱节严重，导致文章的研究深度不够。

(三)研究方法

本节对国内AWE系统实证研究的研究方法进行概述，具体包括各研究涉及的AWE工具、研究对象、研究类型及数据收集方法3个方面。

1.涉及的AWE工具

除1项研究未提及AWE系统的名称之外，剩余34项研究共涉及国内外5种系统：批改网、iWrite、冰果、Writing Road Map(简称WRM)、E-rater。前三者为我国开发者针对国内EFL学习者设计的在线评阅工具，而WRM和E-rater分别由美国麦格劳-希尔教育测评中心(McGraw-Hill Education)和美国教育考试服务中心(Educational Testing Service)推出，用户涵盖英语母语者、EFL或ESL(English as a Second Language)学习者。具体的研究统计如表2所示。数据显示，国内句酷批改网为研究人员最为关注的评阅工具，这与批改网在国内的巨大影响力有着直接的关联，根据批改网的网站(http://www.pigai.org/)，截至2020年4月20日11时，批改网已经完成639 616 142篇作文的评阅任务，而且每学期批改网会举办“百万同题”写作大赛，受众较广，影响较大。

表2 不同AWE工具相关的各主题论文篇数

2. 研究对象

AWE系统效度研究主要以大学本科学生产出的英语文本为研究对象，类型包含学生在系统上提交的课程作文[11]和从语料库中选取的大规模考试限时作文[4]，研究样本的数量从30篇到645篇不等。写作结果和写作过程相关研究主要针对大学本科各年级英语专业和非英语专业学生使用AWE系统前后产出的文章在总分、分项得分(analytical score)存在的差异以及利用反馈进行修改的情况、效果等，也有研究探讨自动系统对高中生[12]和研究生[13]写作水平的影响。使用者态度研究的对象除各阶段学生外也涉及英语教师[14]。

3. 研究类型及数据收集

本研究按照文秋芳、林琳的分类方法将研究类型分为质性、量化和混合式研究(质性、量化相结合的方法)3类[15]。AWE效度研究中，人机一致性、归纳性和外推性效度均以量化研究设计，主要计算人工作文分数、机评分数及其他任务分数间的关联。与写作构念相关的个别研究亦采用量化设计，统计文本的量化特征值，计算各个特征对机器分数的预测能力[16]；也有两项质性研究，主要通过研究自动反馈推断系统的评分构念[17-18]。

写作结果研究通过数据分析揭示系统的使用对学习者写作能力的影响，主要为历时研究，包含组内比较和组间比较，前者只设计前测后测，不涉及对照组，后者通常设计实验组与对照组比较二者间写作成绩是否存在显著差异。过程研究主要比较学生使用AWE系统前后或参加实验教学前后的文本差异，即学生是否利用系统反馈进行修改、修改的效果如何等，也有研究通过有声思维的方法研究学生利用系统修改文章的过程[9]。AWE态度研究以质性研究为主，多数研究采用开放式问卷和访谈的形式收集数据，仅2项为纯量化研究，以李克特5级量表为数据收集工具[5-6]。从前文可知，多数研究并非涉及一个主题，统计显示87.5%的研究(30项)采用混合式研究方法，仅12.5%的研究(5项)为纯量化研究，无纯质性研究。

(四)各研究主题回顾及述评

本研究通过统计分析发现国内AWE系统实证研究主要围绕系统效度、写作结果、写作过程和使用者态度四大主题展开。下面详细介绍各主题相关研究的结论并进行批判性述评。

1.AWE系统效度研究

测试学中广义的效度概念指测量工具的有效性，即测量工具能够准确测出所需要测量的事物的程度。AWE系统的效度有别于测试学中的效度概念，论证框架主要包含4个纬度：评分、归纳、外推和影响[19]。效度论证的具体方面较广，从人机评分的一致性、机器评分的稳定性、机评分数带来的影响、到机器评分带来的后拨效应(wash-back effect)不等，详细的论证框架如表3所示。

表3 AWE系统效度论证框架

国内的效度研究主要关注评分效度，7项研究均探讨了AWE系统与人工评阅者的一致性，5项研究涉及了人机评分构念一致性，1项研究探讨了系统的归纳性和外推性效度。国内现有研究仅涉及了效度框架中的3个维度，未涉及影响维度，原因在于目前国内AWE系统主要用于写作教学中，并未应用到高考、大学英语四、六级等大规模英语考试评阅中，因此研究人员并未展开相关的研究。相比，国外研发的早期AES(Automated Essay Scoring)系统主要用于评阅托福、GMAT等大规模高风险考试以降低人工成本、提升阅卷效率，因此涉及该维度的研究较多。国内大规模考试若采用机器评分，影响维度必将成为AWE实证研究的新热点。

效度研究普遍关注人机评分的一致性，但由于研究对象在性质与数量上均存在差异，针对的AWE系统不一，且统计的数据指标也不尽相同，得出的结论便大相径庭、不存在可比性。就相关性而言，较为普遍使用的是皮尔逊相关系数(Pearson’s correlation coefficient)。如张荔发现历时一年的教学过程中56名大一学生产出的作文人工分数与批改网分数间的相关性较高，介于0.479～0.741[11]。李艳玲、田夏春报道了625篇“国际人才英语考试”(简称“国才考试”)作文的人工分数与iWrite分数间的相关性为0.566[4]。而白丽芳、王建得出的结论截然不同，该研究以“中国学习者英语语料库”中分层抽样选出的各150篇四、六级作文为研究语料，发现四级作文人机分数不显著相关，六级人机分数弱相关，相关系数仅为0.391[2]。E-rater与人工的相关性更低，为0.324[17]。也有研究以克隆巴赫系数(Cronbach’s Alpha)作为人机间相关性的指标，如批改网的人机相关性为0.694[18]，iWrite的为0.721[4]，不过鲜有国外研究使用该系数反映人机分数的相关性。此外李艳玲、田夏春还报道了iWrite分数与人工分数间的卡帕系数(Cohen’s Kappa)为 0.351 8，说明人机评分高度一致[4]。

第4类指标为完全及相邻吻合一致性(exact-plus-adjacent agreement)，结果同样存在差异。研究表明，批改网的人机完全一致率和相邻吻合一致率高达83.93%和100%[11]，iWrite的分别为38.45%和97.98%[4]，但也有研究发现AWE系统对应的一致率最高仅为10%和82.67%[2]。蒋艳、马武林对比了WRM和批改网的评阅，发现二者评定学生同一篇作文的吻合度非常高；研究者对学生的作文从内容、篇章结构和句子结构、词汇运用等方面进行批改，得到了与批改网基本一致的成绩[20]。此外，研究人员也计算人机分数差反映人机评分的一致性，但得出的结果不尽相同，有研究显示某AWE系统的最大人机分数差高达9分(作文满分为15分)[2]，也有研究报道批改网人机平均分差仅为0.01分[11]。

5项研究涉及系统的写作构念，其中2项量化研究和3项质性研究。白丽芳、王建利用软件分析文本在词汇、句法、语篇和错误四方面的量化特征建立机评分数的回归模型，结果显示，这些特征对四、六级作文分数的解释力分别为66.8%和66.4%[2]。缪素琴分析了冰果智能评阅系统对191篇议论文打出的分数与文章中使用的元话语数量间的关系，发现元话语的使用能解释80%以上的分数差异[16]。这2项研究通过分析文本量化特征与作文系统分数间的关系推断AWE系统的评分机制，说明机器评分较多依赖浅层的量化特征。两项研究各方面量化特征选取并不全面：白丽芳、王建选取的词汇复杂特征仅为4项，句法复杂性特征仅为2项，语篇连贯性特征仅为5项，且指标选取的标准不详；缪素琴仅计算了元话语使用数量，必须指出的是元话语的使用并非评判二语写作质量的重要参考指标，因此该研究结果很难对AWE系统的评分机制做出全面的推断。质性研究主要关注AWE系统的反馈点，得到的研究结果不一。结果显示，批改网能够对词汇和浅层语法方面给予详细评价，但无法判断内容、修辞、篇章结构和逻辑、深层语法错误方面的问题[18][20]，说明系统评分主要依据浅层特征，与量化研究的结论比较一致。然而，万鹏杰发现E-rater在语法、写作风格、结构、布局和谋篇方面都与人工评阅相一致[17]。笔者认为，质性研究仅通过对反馈点的分析无法准确推断系统的评阅效度，因研究数据不详实结果难以令使用者信服，因此未来的研究应采用质性和量化研究相结合的研究方法，兼顾文本全面的量化特征和自动反馈。

仅1项研究探讨了AWE系统的归纳性和外推性。该研究发现批改网对3次作文的评分呈现显著相关性，相关系数在0.403到0.498之间。系统分数与口语成绩不存在显著的相关性，但是与听力(r=0.446)、阅读(r=0.352)以及学习档案袋(r=0.500)三项成绩均显著相关[11]。

总之，因目前国内英语考试的写作部分仍由人工评阅，AWE系统效度研究尚未引起国内研究者及一线教师的广泛关注。但随着现代教育技术的不断发展，以及测试省时省力、节约成本的需求，未来主观题测评有可能融入机器评阅。此外，多数大学英语教师限于写作评估的压力将平时练习的作文均交由机器评阅，若机评分数无法反映学生真实的写作水平，那么将机评分数直接纳入学生最终成绩的做法可能会招致不公平性问题。鉴于此，研究人员应更多关注系统的效度问题，因为有效性是使用任何工具的前提。

2.写作结果研究

写作结果研究主要探讨AWE系统的使用对作文质量或学生写作水平的影响，主要通过组内比较和组间比较进行，二者在数量上五五开。前者比较受试者在使用系统前后作文的总分或在词汇、句法、内容等方面的分项得分是否有所提升，后者比较使用与不使用AWE系统受试写作能力方面是否存在差异。组内与组间比较研究均以纵向研究为主，历时长短从4个月到1年半不等。

组内研究首先对比受试者前后测产出的作文在总分方面的差异，所有8项研究得出的结论较为一致：后测作文分数显著高于前测分数，据此说明AWE系统的使用能够提升学生的写作水平。3项研究按照前测将受试者分为高分组和低分组，均发现低分组受试者在经过AWE系统写作训练后写作水平的提高更为显著[10][21][22]。此外，也有研究考虑了受试者性别的因素，将受试者分为男生组和女生组，发现后测仅男生的作文成绩有显著性提升[22]。通过对前后测作文分项得分的比较分析，多数研究发现AWE系统的使用有助于提升学生作文的各个方面，但因各研究关注的方面不同研究结果存在差异。总体而言，使用AWE系统后，学生的文章更长、写作规范(如拼写)及句法等方面的错误明显下降、衔接及逻辑性明显提高[10][21][22]，词汇复杂度(低频词汇使用、词汇丰富度、平均词长等)有所提升[23-24]。黄绍莹、张荔发现高分组与低分组受试者呈现不同的提升路径：低分组后测文章在准确性、流畅性指标上有显著提升，而高分组前后测文章在准确性、流畅性、复杂性指标上均无显著性差异[22]。

组内比较的研究设计存在以下缺陷：一是未设计实验组及对照组，因此很难将写作成绩的提高仅仅归因于AWE系统的使用，因所有研究均为历时研究，学生作文成绩的提升有可能得益于教学过程中的自然增长，与AWE系统的使用无关；二是一半的研究前后测成绩均由AWE系统给出，但值得注意的是在目前系统的评分信度及效度尚不明确的情况下，机评分数的提高不代表写作水平的提升，研究者不能将二者混为一谈。因此作文质量的评判任务应该至少由两位人工评阅者完成，且提供评阅者内部一致性数据。

组间比较的研究设计弥补了组内比较的缺陷，设计实验组(利用AWE平台写作)和对照组(不利用AWE平台写作)，比较两组受试者后测成绩及词汇、句法、内容等方面是否有显著提升。各研究得出的结果较为一致：经过一段时期的实验教学，实验组受试者的作文总体分数提升显著，但文章分项得分的提升存在差异。蒋学清等发现实验组作文在内容、谋篇布局、句法、规范方面得分都高于对照组，但在语体、选词等方面优势不明显[25]。于莉等表明实验组的篇章组织提高8%，幅度最大，流利度、作者声音强度、写作规范、选词分别提高了7%、6%、6%和3%，提高幅度较小的是思想内容，仅为2%[7]。唐锦兰、吴一安利用AB交叉抽样设计(AB cross-over sampling)的形式，尽量控制时间及任务难度对实验结果的影响，前者发现实验组在内容、结构、语体、词汇、句法、规范6项维度均显著提升[26]，但后者发现实验组内容维度的提升不显著[12]。李奕华发现批改网对遣词造句发挥积极作用，其他方面作用较小[8]。周丽研究了AWE的使用对学生句法能力的影响，一学年的教学实验发现实验组句法的流利度、复杂度及准确度均总体显著提升，但复句产出能力方面仅定语从句的使用存在显著差异[27]。在研究设计上更为复杂的是王淑雯的研究，该研究除采用前测后测之外还设计了中测和延测，结果表明实验组在词汇、句法和技术规范方面显著高于对照组[28]。组间比较虽然弥补了组内比较的缺陷，但存在的类似问题是有2项研究的成绩比较仅仅基于机评分数，其他研究尽管避免了此问题，但并没有报道人工评阅者之间的内部一致性，结果的可靠性受到折损。

3.写作过程研究

写作过程研究主要关注学生利用AWE系统修改文章的次数(即学生的学习积极性)、采纳哪些反馈点修改文章、修改的类型及成效。因研究受试存在差异得出的结论也不相同。

唐锦兰、吴一安通过一年的实验教学发现，62.3%的学生修改作文的次数为1到2次，27.9%修改3到4次[26]。也有研究发现83%受试作文修改稿提交次数为2次[29]，37%的受试修改稿提交次数大于10次，甚至多达66次[30]。而钟彩顺发现受试作文修改频次不高，积极性大体呈递减趋势[13]。修改次数可以从某种程度上反映学生提高写作质量的动机以及学习的自主性，但黄红兵发现26%的受试指出，在按照AWE反馈进行相应修改并再次提交作文后出现分数偶有下降的现象[29]，这可能会挫败学生利用自动反馈进行修改的积极性，而且学生修改文章受功利性目的驱动，动机强度不够，持续性不足[13]。

学生在利用AWE系统写作过程中会关注到不同的反馈点，根据自我认知选择性采纳反馈修改文章。卢鹿发现受试者对纠错性反馈点的关注率为98.8%，采纳率为80%，拼写错误提示全部采纳，对词汇和句子错误提示的采纳率在80%以上，资源反馈意见关注率为28.6%[9]。钟彩顺指出，受试者关注的反馈点86%属语言形式层面，结构和意义分别只占6%和8%[13]。黄爱琼、张文霞发现学生尤其关注批改网的词汇警示和词汇错误反馈点(如名词、冠词、动词和搭配错误)[31]。

过程研究也关注受试者对不同反馈方式的利用情况。如魏梅发现，在内容方面受试者对教师、同伴和批改网的反馈采纳率分别为68.4%、31.6% 和0%，组织结构为50%、50%和0%，语言运用为27.5%、22.2%和50.3%，文本设计为52%、24%和24%[32]。然而，李广凤指出，学生对批改网反馈、教师反馈和同伴反馈的总体采纳率为86.1%、73.1%、61.2%，在形式修改方面，基于批改网反馈、教师反馈和同伴反馈的修改点为79.4 %、13.7%、6.9%，意义层面的修改点主要集中在微观结构，且以教师反馈为主，所占比例为73.6%，同伴反馈和批改网反馈采纳率分别为占20.9%和5.5%[33]。卢鹿的个案研究显示学生对批改网的纠错性反馈关注率为98.8%，采纳率为80%，全部采纳拼写错误警告，词汇、句子错误警告的采纳率超过80%，学习资源反馈关注率为28.6%，总体的修改成功率为78.8%[9]。也有研究比较了学生利用QQ、iWrite及Peerceptiv3个不同的平台修改文章的过程，发现学生利用不同的平台解决不同的问题，学生倾向于利用Peerceptiv修订内容和结构表达，利用iWrite 修改语言[34]。总体来说，学生主要将AWE系统作为润色文章语言表达的工具，因为限于目前技术的缺陷，机器还无法真正读懂文章，只能依靠浅层的量化特征来评阅作文。此外，目前系统的错误识别准确率有待提高，比如iWrite错误标注的正确率仅为45.42%[35]，批改网仅为45.77%[36]，技术规范类和词法类错误的标注正确率较高，句法类较低，错误类型的识别也存在问题。学生利用自动反馈进行修改也可能会受到反馈质量的影响，但二者之间的关系尚需更多的研究证明。

陈冰青、张荔涉及了修改类型方面的研究，该研究发现56名非英语专业大一学生在修改类型上数量排序依次为替换、添加、删除和调序[37]。具体而言，学生在词汇、写作规范方面使用替换策略最多，其次为删除和添加策略，未使用调序策略，在段落层面很少使用各个修改策略[37]。

目前国内有关学习者如何利用AWE系统修改文章的研究主要停留在对比学习者修改前后的文本差异阶段，如反馈点的质量、学生对自动反馈的关注率、采用率及文章修改的质量等量化指标。然而，写作过程本身是一个纷繁复杂、有关“写作者”的过程，因此未来的研究可以从“写作者”着手，关注学习者利用系统写作的心理过程及情感体验、在线写作过程中对自我身份角色认同及重塑等。这些都是目前国内外研究的空白，可结合教育心理学相关的理论知识展开探究。

4.使用者态度研究

态度研究主要涉及教师及学生使用者对AWE系统提升写作质量的认知及系统存在的优缺点的看法。这类研究主要以问卷(开放式或量表式)及访谈为研究工具，质性研究为主要研究方法。同样，因受试群体不同，结果也呈现差异性。

现有研究主要发现，首先，受试学生认为AWE系统的使用能提升写作兴趣、增强写作自信、提高自我效能感、降低写作焦虑感[6][38]，但黄绍莹、张荔发现批改网无法提升学生写作兴趣、无法降低写作焦虑度[22]。其次，学生认为AWE系统的使用能提升自己的写作能力[39]。最后，通过体验在线写作一段时间后，学生认为系统的主要优点是反馈及时，能有效弥补传统教师评阅的滞后性，但反馈过于笼统抽象、机械化，主要涉及浅层的词汇、语法方面，忽视了作文内容、逻辑、篇章结构及写作思维方面的指导，因此多数受试者倾向于教师反馈，认为自动反馈与教师反馈相结合可以更好指导写作[40]。此外，吴一安、唐锦兰探究了英语教师对AWE系统的态度，研究表明教师对写作教学过程有了新的认知，更加关注教学过程，调整了评价重点，教师的角色发生嬗变、更加多元化[14]。

值得一提的是，有关AWE态度的研究存在设计上的问题，尤其是个别量化研究利用李克特5级量表为数据收集工具，但是没有报道量表问题的依据、编写过程及信度问题；此外，开放式问卷及访谈问题等是否具有代表性都未见提及，未来的研究可规避此类问题，使研究设计更为完美。

三、总结及展望

从近年来发表的期刊论文数量及主题来看，AWE系统的应用研究已到达了瓶颈期，复制性研究较多，鲜有研究能够进一步推陈出新。未来此领域的研究不仅需要弥补已有研究的缺陷，还需从新的视角进行探索跳出目前的困境。笔者认为，未来的研究可以从以下两个方面进行。

(一)完善研究设计

如前文所示，现有的研究在研究设计方面存在以下缺陷：一是研究缺乏理论基础的指导或理论与实践相脱离，研究结果及讨论显得牵强附会、深度不够；二是涉及的受试群体单一，覆盖面不广，结果的推广性不强；三是研究工具单一，主要为调查问卷和开放式访谈，且问卷的设计过于随意、不够规范。

针对以上不足，未来的研究可在现有研究设计的基础上进行完善：一是结合二语习得、教育心理学或其他领域的理论进行深度研究；二是每项研究的受试群体应多样化、更具代表性；三是研究工具应多样化，如可利用屏幕记录或Inputlog等软件研究受试者利用AWE系统写作或修改文章的过程、学生在写作或修改过程中存在的个体差异及成因；四是规范量表式问卷的设计，如利用因子分析和信度分析保证问卷的可靠性和实用性。

(二)挖掘及深化研究主题

首先，AWE系统的开发与研究在一定程度上可以提高作文评价的效率，但各系统并非完美，因此长期被忽略的效度研究应得到应有的重视。目前国内效度研究主要涉及人机评分一致性，仅1项研究分析了系统的外推性和归纳性，系统的影响效度尚未涉及，未来研究值得关注此方面，为未来机器评阅融入国内大规模英语测试(如全国大学生英语四六级、高考英语及“国才考试”等)作文评分中提供依据。比如，可探索AWE系统的运用能否给英语写作教学及学生语言能力提升产生一定正面或负面的反拨效应。

其次，过程研究除涉及受试者前后测作文文本的分析外，还可考虑到写作者在写作过程中的心理状态、情感状态，这方面的研究需要与心理学方面的专家通力合作，虽然难度较大，但可以扩大AWE系统研究的研究范式，不局限于写作教学。此外，学生在利用系统写作、修改的过程中自我身份的认知是否有所改变也是未来需要关注的领域。

再次，国内AWE系统如批改网允许学生在线互评，但鲜有研究涉及此领域。同伴如何利用在线平台相互评阅，呈现何种特点，是否具有个体差异等均为尚需回答的问题。

最后，相对于国外有关AWE系统及软件的开发研究，国内此领域产学研的结合较为滞后，这从某种程度上制约了相关领域的发展与人才的培养。虽然国内外开发商或研究者声称系统能够针对内容进行客观评价，但教学实践表明该方面的问题仍悬而未决。因此，AWE系统开发者需与一线教师合作开发更加适合二语写作教学及评价的工具，解决AWE系统长期以来面临的无法真正读懂文章内容的老大难问题，消除使用者的顾虑。

四、结语

本文对近二十年来国内AWE系统的实证研究进行了梳理，发现此领域的研究主要涉及四个方面的主题：效度研究、写作结果、写作过程及态度研究，各方面的研究存在比例失衡的现象，效度研究受到的关注不够。文章对此领域研究进行了回顾与述评，指出了各方面研究在设计上存在的不足并提供了相应的意见，最后指出未来研究应完善研究设计并深化本领域的研究，以摆脱AWE系统研究范式的桎梏。