APP下载

高分组英语写作文本的句法特征探究——基于句酷批改网英语写作文本的数据挖掘

2019-01-08何欣忆黎曜玮通讯作者李良炎邹晓玲张小洪

现代教育技术 2018年12期
关键词:子句主从句法

何欣忆 黎曜玮[通讯作者] 李良炎 邹晓玲 张小洪



高分组英语写作文本的句法特征探究——基于句酷批改网英语写作文本的数据挖掘

何欣忆1黎曜玮1[通讯作者]李良炎1邹晓玲1张小洪2

(1.重庆大学 外国语学院,重庆 400044;2.重庆大学 大数据与软件学院,重庆 400044)

文章从句酷批改网抽取了非英语专业大学生英语议论文写作文本2300篇,采用二语句法复杂度分析器分析,进一步使用随机森林和逻辑回归机器学习算法探究高分组学生在句法层面的重要写作特征。研究发现:基于二语句法复杂度,使用随机森林和逻辑回归对高分组学生作文机评分数预测的准确率较高,高分组学生的写作文本在单位长度、句子复杂度和特定短语结构三大类句法复杂度上具有突出表现,其中最显著的五项句法特征是平均句长、平均每句所含子句量、平均子句长度、每个主从句中的动词短语量和每个子句中的复杂名词性短语量。文章的研究结果可以为提高英语写作教学水平和改进写作机评系统提供参考。

高分组英语写作;二语句法复杂度;句法特征

引言

近年来,随着人工智能的普及,现代教育技术逐渐成为驱动教育信息化创新的强劲力量。写作机评系统(Automated Essay Scoring,AES)利用计算机技术对学生作文进行自动评分与反馈,实现了高效写作教学和精准个性化学习。目前国内高校广泛使用的句酷批改网是一个在线英语作文评价网站,能快速扫描学生作文并提供及时反馈[1]。然而,该网对学生作文评价主要集中在词汇和常见语法错误的分析上(如单词拼写、词汇搭配等),缺少在句法层面的具体反馈[2]。句法复杂度是衡量二语写作水平的重要指标,陆小飞[3]研发的二语句法复杂度分析器(Second Language Syntactic Complexity Analyzer,L2SCA)可以对学生的英语写作文本句法特征进行量化,分析结果为14个句法复杂度指标。本研究通过句酷批改网对学生作文的评分和写作文本句法特征的分析,使用机器学习的分类算法对高分组学生的文本句法特征进行数据挖掘,探究高分组学生在句法层面的写作特征,以期为提高英语写作教学水平和改进写作机评系统提供参考。

一 句法复杂度的研究与工具

1 句法复杂度研究概述

句法复杂度指语言产出中不同形式的范围及形式复杂化程度[4],在二语习得研究中,它主要用于评估语言水平、描述语言能力和衡量语言发展,是评估学习者语言发展的重要指标[5]。目前,国内外句法复杂度研究主要聚焦在:①横向研究,即通过比较代表不同学习水平或写作质量的二语写作语料,探究可有效区别不同学习水平或写作质量的句法复杂度测量指标[6];②纵向研究,即通过分析同一组学习者在不同时间点的多次写作语料,探寻句法复杂度的发展模式[7][8]。但是,研究者较少关注二语学习者写作文本句法复杂度测量值与写作分数的相关程度。近年来,有学者探究句法复杂度测量值与主观人工评分的关系[9],但鲜有研究从机器评分视角,分析句法复杂度测量值与客观机器评分的关系,探究机器评分下高分组作文的句法特征。

2 句法复杂度自动分析工具

二语句法复杂度分析器的设计动机是为了解决二语写作句法复杂度研究中的数据分析瓶颈,以帮助研究者对句法复杂度展开更有效的研究[10]。该工具使用14种不同测量指标来分析书面英语文本的句法复杂度,包括单位长度、句子复杂度、从属句子使用量、并列结构使用量、特定短语结构五大类别,如表1所示。用户可在类UNIX系统上运行该工具,或直接登录网页版①。待分析的英语写作文本为TXT纯文本文件,分析器内嵌斯坦福句法剖析器(Stanford Parser),剖析器具有对文本实现自动断句、分词和词性赋码的功能,因此待分析的文件无需其它预处理。

表1 L2SCA句法复杂度测量指标

二 研究设计

1 研究目的与问题

本研究对从句酷批改网上抽取的2300篇英语议论文进行了句法复杂度挖掘与分析,探究高分组学生在句法层面上的写作特征与风格,拟回答三个研究问题:①句法复杂度测量指标对学生作文(高、低分组)的分类准确率如何?②对数据建立的算法模型拟合度如何?③高分组学生的写作文本在句法层面上有什么共性特征?

2 研究步骤

①本研究从句酷批改网下载非英语专业大学生英语课程写作文本2300篇,原始数据格式为Excel表格,使用Visual Basic编写后台代码,程序自动批量提取数据表格中作文标题和正文,生成2300篇独立TXT纯文本。②将纯文本批量导入网页版二语句法复杂度分析器中进行分析,下载系统分析完成后自动生成的CSV表格数据,打开CSV表格并在数据末尾项导入相应的机评分数。③使用SPSS 24.0对二语句法复杂度数据进行描述性统计分析。④使用R Studio对数据建立随机森林和逻辑回归分类算法模型。⑤对建立的算法模型进行准确率和拟合度的评估,并根据模型对各项句法特征的评估指标选取高分组英语写作文本重要的句法特征。

三 数据分析与结果

1 描述性统计结果

句法复杂度描述性统计结果如表2所示,可以看到学生英语议论文写作文本的句法复杂度总体情况。在单位长度中,MLS为学生写作的平均句长,MLT为平均主从句的长度,MLC为平均子句长度;在句子复杂度中,C/S为平均每句所含的子句数量;在从属句子使用量中,C/T为每个主从句中的子句数量,CT/T为每个复杂主从句中的主从句数量,DC/C为每个子句中的从句数量,DC/T为每个主从句中的从句数量;在并列结构使用量中,CP/C为每个子句中的并列短语数量,CP/T为每个主从句中的并列短语数量,T/S为每个句子中的主从句数量;在特定短语结构中,CN/C为每个子句中的复杂名词性短语数量,CN/T为每个主从句中的复杂名词性短语数量,VP/T为每个主从句中的动词短语数量。

表2 句法复杂度描述性统计结果

2 模型预测率与拟合度评估

本研究通过句酷批改网的评分对学生写作文本进行分组:①低分组为80分以下,共760篇;②高分组为80分及以上,共1540篇。在随机森林中,部分样本作为训练集(Training Set),算法通过训练集数据建立监督式学习模型,剩余样本作为测试集(Test Set)来评估监督式学习模型的精确性,测试集的1070篇高分组作文有908篇被正确地分在高分组,162篇被错误地分在低分组,高分组预测的准确率为84.9%;而测试集的540篇低分组作文有254篇被正确地分在低分组,286篇被错误地分在低分组,低分组预测的准确率为47.0%。在逻辑回归中,1540篇高分组作文有1439篇被正确地分在高分组,101篇被错误地分在低分组,高分组预测的准确率为93.4%;760篇低分组作文有194篇被正确地分在低分组,566篇被错误地分在低分组,低分组预测的准确率为25.5%。由此可见,使用随机森林和逻辑回归算法对于高分组进行分类预测水平较高,说明高分组学生句法复杂度对机评分数有较好的预测性;而两种算法对低分组的预测错误率较高、预测性较差,说明低分组学生在写作过程中可能不具有稳定的句法特征。

图1、图2为ROC曲线对本研究分类模型的评估情况。ROC曲线在机器学习中常用于评估分类器分类效果,AUC值为ROC曲线所覆盖的区域面积,而AUC值越大,说明分类器分类效果越好。图1、图2显示,随机森林模型与逻辑回归模型的AUC值均在0.7以上,说明数据模型有较好的拟合度,因此可以利用随机森林与逻辑回归算法对高分组学生突出的写作文本句法特征进行选取。

图1 随机森林模型ROC曲线

图2 逻辑回归模型ROC曲线

表3 句法特征选取结果

注:R与L分别为随机森林和逻辑回归对特征的评估指标。

3 写作文本句法特征选取

句法特征选取结果如表3所示。句法特征基于随机森林模型指标,按重要性由高到低进行排序,含R指标为随机森林模型对各项特征的评估值,含L的指标为逻辑回归模型对相应特征的评估值。其中,平均句长(MLS)、平均每句所含子句量(C/S)、平均子句长度(MLC)、每个主从句中的动词短语量(VP/T)、每个子句中的复杂名词性短语量(CN/C)、每个子句中的从句量(DC/C)、每个主从句中的复杂名词性短语量(CN/T)、每个子句中的并列短语量(CP/C)、每个主从句中的并列短语量(CP/T)等九项句法特征对高分组均有显著的预测性。结合各项特征值在随机森林模型中的排序与逻辑回归模型中的显著性,本研究选出前五项高分组学生在写作过程中表现突出的句法特征为平均句长(MLS)、平均每句所含子句量(C/S)、平均子句长度(MLC)、每个主从句中的动词短语量(VP/T)和每个子句中的复杂名词性短语量(CN/C)。总体而言,高分组学生在写作中更倾向于增加单位长度、句子复杂度和特定短语结构等三大类句法特征的运用。

四 结论

本研究主要有以下发现:①基于句法复杂度测量指标,使用随机森林与逻辑回归对高分组学生作文进行分类的预测性较高,准确率分别达到84.9%、93.4%。②随机森林与逻辑回归对数据建立的算法模型拟合度理想,其ROC曲线的AUC值分别达到0.77、0.75。③结合句法特征在随机森林模型中的排序与逻辑回归模型中的显著性,高分组学生的写作文本在单位长度、句子复杂度和特定短语结构三大类句法复杂度上有突出表现,其中最显著的五项句法特征是平均句长(MLS)、平均每句所含子句量(C/S)、平均子句长度(MLC)、每个主从句中的动词短语量(VP/T)和每个子句中的复杂名词性短语量(CN/C)。

本研究的上述发现在写作教学和写作机评系统改进方面有一定的启示意义:教师可根据高分组学生的具体写作句法特征,对低分组学生进行有针对性的教学指导;低分组学生可通过了解高分组学生在句法层面的特征,模仿和采取定向句法练习来提高自身写作。此外,写作机评系统研发人员可以探索不同分数段或不同水平等级作文句法复杂度的差异,进而在句法层面上对系统的个性化反馈机制进行改进,从而提高写作机评系统的效度,更大程度地帮助学生进行高效的自主学习。但是,本研究也存在一些局限,主要在于采用的语料多来自于学生课程作业,主题范围受到课程内容的限制,写作文章体裁主要为议论文,故后续研究可以考虑扩大写作主题范围和增加文章体裁的多样性。

[1]黄静,何华清.人机反馈对学生写作行为的影响研究[J].外语电化教学,2018,(1):19-24.

[2]何旭良.句酷批改网英语作文评分的信度和效度研究[J].现代教育技术,2013,(5):64-67.

[3]Lu X. Automatic analysis of syntactic complexity in second language writing[J]. International Journal of Corpus Linguistics, 2010,(4):474-496.

[4]鲍贵.英语学习者作文句法复杂性变化研究[J].外语教学与研究,2009,(4):291-297、321.

[5]Lu X A. Corpus-based evaluation of syntactic complexity measures as indices of college-level ESL writers’ language development[J]. TESOL Quarterly, 2011,(1):36-62.

[6]雷蕾.中国英语学习者学术写作句法复杂度研究[J].解放军外国语学院学报,2017,(5):1-10、159.

[7]郑咏滟,冯予力.学习者句法与词汇复杂性发展的动态系统研究[J].现代外语,2017,(1):57-68、146.

[8]许春燕,张军.跨洋互动在线写作教学对中国学生英语书面语的影响[J].现代外语,2018,(2):246-256.

[9]Crossley S A, Mcnamara D S. Does writing development equal writing quality? A computational investigation of syntactic complexity in l2 learners[J]. Journal of Second Language Writing, 2014,(26):66-79.

[10]陆小飞,许琪.二语句法复杂度分析器及其在二语写作研究中的应用[J].外语教学与研究,2016,(3):409-420.

① 二语句法复杂度分析器网页版地址:http://aihaiyang.com/software/l2sca/。

Exploring Syntactic Characteristics of Advanced English Writing Texts——Based on Data Mining the Essays from

HE Xin-yi1LI Yao-wei1[Corresponding Author]LI Liang-yan1ZOU Xiao-ling1ZHANG Xiao-hong2

The study extracts 2,300 English writing texts from non-English major college students based on www.pigai.org, and uses Second Language Syntactic Complexity analyzer (L2SCA) to further explore the significant syntactic characteristics of advanced writing texts via Random Forest and Logistic Regression machine learning algorithms. The study found that the accuracy of using random forest and logistic regression to predict the syntactic characteristics of advanced writing texts can reach 84.9% and 93.4%, respectively. The advanced writing texts are syntactically characterized by unit length, sentence complexity and specific phrase structure. Finally, the research hopes to shed light on English writing teaching, learning and improvement of automated writing evaluation system.

advanced English writing; second language syntactic complexity; syntactic characteristics

G40-057

A

1009—8097(2018)12—0074—06

10.3969/j.issn.1009-8097.2018.12.011

基金项目:本文为重庆大学教学改革研究项目“基于翻转课堂的大学英语翻译教学模式创新研究”(项目编号:2016Y06)的阶段性研究成果之一。

何欣忆,讲师,硕士,研究方向为外语教学与教育技术,邮箱为emailhxy@qq.com。

2018年6月13日

编辑:小西

猜你喜欢

子句主从句法
述谓结构与英语句法配置
子句级别的自注意力机制的情感原因抽取模型
汉语和泰语关系子句的对比研究
句法二题
西夏语的副词子句
诗词联句句法梳理
FANUC系统PROFIBUS主从功能应用
微创血管介入手术机器人的主从交互控制方法与实现
基于飞行试验数据的仿真模型主从一体化检验
命题逻辑的子句集中文字的分类