中国EFL学习者句法复杂度自动测量研究
——以L2SCA和D-level Analyzer为工具
2016-06-22张丽丽
张丽丽
(1.贵州大学 外国语学院,贵州 贵阳 550025;2. 浙江大学 外国语学院,浙江 杭州 310058)
中国EFL学习者句法复杂度自动测量研究
——以L2SCA和D-level Analyzer为工具
张丽丽1,2
(1.贵州大学 外国语学院,贵州 贵阳 550025;2. 浙江大学 外国语学院,浙江 杭州 310058)
[摘要]以L2SCA(二语句法复杂度分析器)和D-level Analyzer(句法发展水平分析器)为工具,对某省高校间英语写作竞赛作文语料进行句法复杂度的自动测量实验研究,所测15个指标中有4项显示与作文整体得分相关。作文句法复杂度人工分组单因素方差分析发现,议论文10个指标、记叙文7个指标呈显著差异,工具对于议论文体裁的测量表现总体优于记叙文。研究结果证实,体裁是影响中国EFL学习者句法复杂度的重要因素。绝大部分指标测量值表现为组间线性发展趋势,数据分析结果显示支持L2SCA和D-level Analyzer用作中国EFL学习者句法复杂度自动测量工具。
[关键词]句法复杂度;自动测量;EFL;二语作文
二语句法复杂度研究始于20世纪70年代,至今已积累各种测量指标40有余,但由于语料、方法以及指标定义差别等原因,有关各指标的测量效度,此前多项研究结果不一致。进入21世纪,国外兴起开发或借助计算工具对大规模语料进行一次性多个指标测量的研究,有效避免了上述因素造成的研究结果不具可比性的问题。相比之下,国内相关研究大都停留在手工测量阶段,缺乏采用自动工具的尝试性研究。
鉴于此,本文介绍两种句法复杂度测量专门工具——L2SCA(L2 syntactic complexity analyzer)和D-level Analyzer①*[收稿日期] 2015-10-25[基金项目] 贵州省教育厅高校人文社科研究项目“大学英语多媒体教学策略整合研究”(11ZC037)[作者简介] 张丽丽(1974- ),女,贵州湄潭人,贵州大学副教授,浙江大学博士研究生,研究方向:语料库语言学、二语习得。①两项测量工具均由美国宾夕法尼亚州立大学应用语言系陆小飞开发。下载网址:http://www.personal.psu.edu/xxl13/downloads(Syntactic developmental level analyzer),报告其应用于某省高校间英语作文竞赛语料句法复杂度测量研究的结果,希望对国内本领域相关研究发挥一些抛砖引玉的作用。
一、研究背景
句法是决定语言输出形式的重要方面,是决定语言总体水平和质量的基础,一直是二语习得领域的研究热点。句法复杂度,又称句法复杂性或句法成熟度,被定义为 “语言产出形式的范围和形式复杂化的程度”,[1][2]主要考查句法的变化和结构的复杂性。[3]
句法复杂度指标大致可分为两类,即以T单位*T单位是一个句子能够被缩减、表达完整意义的最短单位,包括一个主句及它所附带的任何从句。最初Hunt(1965)用于研究儿童母语句法复杂度,后被广泛用于二语句法复杂度研究。为代表的表层指标和以名词短语结构为代表的深层指标。由于深层指标的测量计算不如表层指标直观便捷,研究者们使用的二语常用指标以表层指标为主,缺乏对深层指标的测量研究,对语料整体句法结构等级的量化研究几近为零。
目前国外句法复杂度研究领域兴起自动测量研究,并渐成风尚。[4][5][6]自动测量克服了以往由于人工和时间成本太高、研究广度受限的不足,但国内相关研究大都停留在手工测量阶段集中于英语专业学习者议论文语料,未见针对中国EFL学习者整体、对多种体裁语料进行的研究。[2][7][8][9][10][11]
大数据时代,研究者可以轻松建立自己的语料库,通往国外语料库也只需几次链接,但材料和工具缺一不可。如今国外学者纷纷借助计算机带来的先进研究方法捷足先登,在二语习得多个研究领域游刃有余,包括句法复杂度测量研究。国内公开发表的学术论文已有利用Coh-Metrix进行的研究,但重点都不在句法复杂度研究。[12][13][14][15]此外,Coh-Metrix是以语篇连贯和词汇指标为主,意在文本易读性测量,句法复杂度指标主要有句长、主动词前单词数、否定表达密度和句子句法相似度等。可见,除句长以外,均非严格意义上的句法复杂度指标,因此,不适于用作专门句法复杂度测量工具。
除Coh-Metrix以外,可用于句法复杂度自动测量的工具还有MacWhinney 开发的CLAN(Computerized Language Analysis Program)[16],Long et al.开发的Computerized Profiling[17],但句法复杂度测量在上述工具中都不占主要地位,所以该功能的使用通常较为复杂。相比之下,L2SCA和D-level Analyzer专注于句法复杂度测量,近年来在国外相关研究中表现出色;[4][5][6][18][19][20]国内未见运用上述两种工具开展的相关研究。
二、 工具介绍及相关研究
(一) L2SCA
L2SCA是Lu在两位学者的研究成果[1][3]基础上自主开发的二语句法复杂度测量工具,集成5类、共14个常用指标(见表1)。[5]两位学者综合比较了共40余项二语写作研究结果,“尽管已是十年前,但即便今天也足以代表二语或外语研究者们所使用的大部分句法复杂度测量指标”。[21]
表1 L2SCA所测句法复杂度指标信息
测量指标所涉概念均采用开发者使用的定义[21],其重要概念简单介绍如下:
小句(Clause):任何带有一个主语和一个限定性谓语动词的结构,包括独立句,形容词性、副词性或名词性子句,不包括非限定性动词短语。
复杂T单位(Complex T-unit):有一个或多个从句的T单位。
并列短语(Coordinate phrase):仅限并列形容词短语、名词短语或动词短语。
复杂名词性短语(Complex nominal):被形容词、物主代词、介词词组、定语从句或分词所修饰的名词;带有同位语的名词;名词性小句;充当主语的动名词或不定式。
动词短语(Verb phrase):限定性或非限定性动词短语。
L2SCA基于Stanford Parser*斯坦福大学自然语言处理研究所于2003年研制开发的句法分析器;下载网址:http://nlp.stanford.edu/software/lex-parser.shtml。自动句法标注技术,内置有断句、分词、词性赋码等程序,使用方便,无需对文本进行预处理,以纯文本格式输入即可。在类UNIX操作系统下,用命令行方式运行,除UNIX外, 还适用于Linux和Mac OS等操作系统。
L2SCA自动计算9个语言单位的频数:单词、句子、子句、从句、T单位、复杂 T单位、并列词组、复杂名词性短语、动词短语,以此为依据计算14个指标测量值。工具使用效度报告称语言单位识别准确率达83%-100%,自动测量与人工测量相关度达83.4%-94.1%,系统可靠。[21]每篇作文14个指标的人工时间成本报告约2小时,而L2SCA的速度,不计前期处理时间,每秒大约400个平均长度14词的句子,相当于20多篇作文。[5]经研究者试验,实际处理平均长度500词的作文时间不超过10秒/篇。
就本文研究者所知,L2SCA是目前最高效的二语句法复杂度测量工具,但其开发者同时指出,该系统是针对二语高级学习者句法研究设计,不能应用于有大量语法错误、不规范嵌套结构或不完整句子的语料,如初级学习者语料。[21]Lu的研究语料也取自WECCL 1.0英语专业大学生作文。[6]使用该工具的另两项研究,一项以TOEFL iBT为语料[19],另一项测量口语,仅以其测量值为参照,检验另一测量方法的效果。[20]目前未见L2SCA用于有少量语法错误的二语作文测量,标点、大小写、单词拼写、限定词、单复数、主谓一致、搭配等语法错误不会影响分析结果。
(二)D-level analyzer
从表1可见,L2SCA测量指标大都从传统单位入手,如单词、句子、T单位、子句,3项深层指标触及复杂名词短语和动词短语密度,但并未做到对句子结构模式的量化,因此,L2SCA仍然只是对表层结构的测量,我们需要深入句子结构内部的测量,D-level analyzer(以下简称D分析器)可以帮助我们尝试。
D分析器原本用于儿童语言句法发展水平测量,将其用于二语测量实验主要有如下几点考虑:1)二语句法复杂度测量研究,源自对母语的相关研究,既然两者采用同样的表层测量单位(如句子、T单位和子句等),也可以采用同样的深层测量单位;2)虽然二语习得与儿童语言习得遵循不同的发展规律,但本研究焦点不在习得发展,而是该工具能否区分不同句法复杂度语料;3)国内学者曾指出,我国英语学习者造句水平还停留在语言学习初级阶段[22],桂诗春先生更认为我们的学生在写口语[23]。
D分析器的测量基准是D-level Scale——儿童语言习得发展量表,最初由Rosenberg & Abbeduto提出,后经Covington等学者进一步完善 (见表2),被认为是“目前使用的唯一基于习得的句子复杂度量表”[4]。因此,D分析器学习者语料测量所得值并非对应其二语习得水平,但可以大致对应母语为英语者的不同年龄阶段。
表2 Covington et al. (2006) 儿童语言习得发展量表(修订版)
D分析器不计算文本表面指标,而是根据句子结构分类,每个句子对应一个等级值,最后综合所有句子得出样本均值,代码为ML。D分析器的实验报告称对来自CHILDES和宾州树库华尔街日报语料测量准确率分别高达93.2%和94%,实验结果显示4-5岁儿童语言句法结构均值为1.156,测量值与儿童年龄相关系数为0.648。[4]D分析器的使用相对L2SCA较为复杂,语料须经Stanford POS tagger*斯坦福大学自然语言处理研究所于2004年研制开发的词性赋码器;下载网址:http://nlp.stanford.edu/software/lex-parser.shtml。赋码后,用Collins’Parser*Collins, M. 1999年在宾夕法尼亚州州立大学为写作博士论文而开发的自然语言句法分析统计模型。进行句法标注,之后才能交由D分析器处理。输出结果除样本均值外,还有0-7各级结构所含句子数量。
三、 研究设计
(一) 研究对象
所用语料为某省高校间英语写作大赛决赛作文,不限专业、层次,49名学生两小时内电脑输入完成两种体裁写作各一篇,得到98篇作文语料。5位作文阅卷经验丰富的教师参与了评分,其中1名是英语为母语的外籍教师。评委按如下比例用百分制打分:思想内容(40%)、写作技巧(30%)、语言质量(30%),去掉最高分和最低分,取其余三个分数平均分为作文整体质量最终得分。
本研究仅关注句法复杂度测量,因此,为避免学生计算机操作不熟而导致“问题”语料,对数据结果造成影响,研究者对语料作了预处理,统一文本输入格式,包括全半角等技术问题,标点、大小写、单词拼写等不影响句法测量结果的错误被纠正。
检验工具的测量效度是本研究的重要内容,须关注工具对语料句法复杂度的识别效能。作文得分受诸多因素影响,不能作为检验工具效能的唯一参照。因此,研究者根据主观经验判断,将预处理后的两种体裁语料分别按句法复杂度归入高、中、低3组;有争议的作文经讨论后达成一致,最终议论文各组份数为17、21、11,记叙文各组份数为17、17、15。
(二)研究问题
本研究主要回答以下问题:
1) 中国EFL学习者句法复杂度自动测量数据结果呈现什么特点?哪些测量值与作文质量相关?
2) 体裁因素对中国EFL学习者句法复杂度的影响如何?哪些指标测量值在高、中、低3组间呈显著差异?两种体裁结果是否一致?
(三) 研究方法
用SPSS 20.0对15个指标测量值与作文整体得分作皮尔逊相关分析;以体裁为变量,对15个指标测量值作均值差异显著性分析;控制体裁变量,分别对议论文和记叙文高、中、低3组测量值进行描述统计及ANOVA分析;对D分析器1-7级测量值进行描述统计及组间ANOVA分析。
四、 研究结果与讨论
所有数据分析结果见表3至表6。
表3 作文整体质量与测量值皮尔逊相关分析结果
说明:** 在 0.01 水平(双侧)上显著相关;* 在 0.05 水平(双侧)上显著相关。
15个句法复杂度测量值与作文整体得分的皮尔逊相关分析结果见表3,至少4个指标表现为正相关:平均句长MLS、子句密度C/S、复杂名词密度CN/T和平均句法结构等级ML,前两项是表层指标,后两项是深层指标。ML为 D分析器测量所得,相关系数最大,初步显示支持D分析器在二语测量中的应用。此前的研究大多显示作文整体质量与句法复杂度没有统计意义上的相关关系[3],本研究结果与之相反,证明作文整体得分与句法结构确实存在关系,这一现象或与评分标准中“语言质量”强调句法结构多样性和准确性有关。该研究结果初步表明L2SCA的测量范围不应限于高级英语学习者语料。
表4 两种体裁15个指标描述统计与差异检验结果
两种体裁独立样本T检验(见表4)发现,平均句子结构等级值ML出现明显差异,已超过1,说明体裁对学习者句子结构的影响非常大,与L2SCA测量结果一致,再次表明D分析器适用于二语句法复杂度测量。L2SCA测量所得句法复杂度14个指标,除C/S和T/S外,均呈显著差异。Lu用L2SCA对中国英语专业学习者的作文开展的同类研究发现T/S也呈显著差异[6];本研究中T/S指标的体裁间差异检验值为0.067,接近边缘显著,因此,两项研究结果趋于一致,支持该工具用于中国EFL学习者句法复杂度测量。研究结果再次证明子句密度指标之一C/S对体裁变量不敏感,考虑其与作文质量的相关关系,研究者认为C/S不失为一个较稳定的句法复杂度测量指标。
鉴于对同一组数据进行了15次重复测量,句法复杂度人工分组自动测量值ANOVA分析(见表5)显著水平调整为0.05/15≈0.003。两种体裁均表现出显著差异的4个指标如下:平均句法结构等级ML、平均句长MLS、平均T单位长MLT和复杂名词密度CN/T,与表3分析结果相似,侧面说明句法复杂度与作文整体质量得分的相关关系。
表5 句法复杂度人工分组组间测量值ANOVA分析结果
续表5
DC/C议论文0.4460.0880.3510.0720.3040.09111.3780.000记叙文0.3580.1120.3070.0900.2560.0914.2720.020DC/T议论文0.9520.4410.5950.1960.4950.2668.8970.001记叙文0.6760.4380.5000.2190.3850.1793.7250.032T/S议论文1.1100.1031.0630.0501.0880.0991.4800.238记叙文1.1190.1091.0950.0741.1470.1091.1390.329CT/T议论文0.5990.1320.4410.1050.3900.15211.3940.000记叙文0.4630.1300.3910.1450.3160.1224.8050.013CP/T议论文0.4970.2740.3520.1710.3560.3361.8000.177记叙文0.3510.1790.1710.0990.1610.1638.4020.001CP/C议论文0.2450.1360.2140.1080.2550.2920.2560.775记叙文0.1950.0850.1110.0640.1090.0916.2340.004CN/T议论文3.0111.5341.9120.4641.6280.8347.7580.001记叙文1.8231.0371.0120.3570.8810.3169.5610.000CN/C议论文1.4080.3561.1610.2841.0800.6932.4100.101记叙文0.9820.3150.6390.1740.6040.17613.2370.000
除上述4个指标外,议论文另有6个、记叙文另有3个呈显著差异,工具对议论文测量的整体表现优于记叙文。此前对英语专业学习者的相关研究认为单位长度能较好地反映句法复杂度[2][10][24],与本研究结论大致吻合。国内手工测量关于常用单位密度指标C/T和DC/C的研究结论不尽相同,鲍贵认为两指标对不同句法复杂度区别力有限[2],本研究结果支持秦晓晴、文秋芳和徐晓燕等的研究结论,认为C/T和DC/C能有效区分中国EFL学习者议论文语料句法复杂度。[24] [10]
两种体裁并列度指标T/S及议论文另两个并列度指标CP/T和CP/C均呈非线性发展趋势,句法复杂度中级组出现谷值,说明用并列度指标测量中国EFL学习者句法复杂度效果不佳,与Lu的研究结论不合[6];或因本研究语料取自竞赛语料,学习者经过初赛选拔,大致处于同一句法习得水平,并列结构的使用频率和习惯趋于同质性。
除上述3个指标以外,其余各指标虽未呈组间显著差异,但均呈线性发展,Lu用L2SCA对英语专业学习者议论文进行的同类研究也仅发现7个指标呈显著线性发展。[6]本研究议论文大部分指标、记叙文近一半指标呈显著差异,研究结果支持两种自动测量工具对中国EFL学习者句法复杂度研究的应用。
D分析器测量结果(见表6)发现大部分句子落入0级和7级,其次是2、3、5级,这一结果与Lu对该工具的实验研究报告基本一致。[4]报告称D分析器在识别0、1、3、5、7级结构上面表现最佳,2级次之,4级和6级表现不佳。该工具对难以判定的中间等级结构,处理方法是仅区分为简单句或复杂句,分别归入0级或7级,所以本研究测量值呈两极分化。另外,研究语料虽取自全省高校间写作大赛,但竞赛条件下,学习者对较为复杂的句式使用回避策略,采用熟悉的简单句式也是导致相当量的句子落入0级的原因之一。综上所述,本研究显示,D分析器对二语语料的测量实验效果总体令人满意。
表 6 D分析器测量值组间描述统计数据
续表6
Level21171.531.62173.181.782211.671.28172.181.513111.271.35152.601.92Level31172.711.53173.062.112214.482.27173.411.803113.363.01152.672.23Level41170.350.61170.350.612210.670.91170.941.033110.450.93150.871.13Level51172.121.05172.181.632212.951.88172.411.423111.912.26151.931.16Level61170.590.87170.531.072210.901.09170.240.443110.550.69150.530.83Level711713.062.14178.412.9622111.103.03175.942.753117.003.44153.872.92ML1174.920.78173.741.072213.810.69172.840.803113.041.00152.380.86
组间ANOVA分析发现,议论文0级、7级和平均等级结构值ML呈显著差异,记叙文7级和ML呈显著差异。高级组的中间等级结构测量值大都居中,而中级组却往往出现峰值,这并非表明中级组句法复杂度强于高级组,而是印证了此前关于二语学习者句法发展次序的讨论[3][22][25],支持高水平学习者更多使用紧缩句的研究结论。[10]
五、 结论
应用两种工具L2SCA和D分析器对中国EFL学习者句法复杂度自动测量实验研究的结果显示,15项测量指标中有4项与作文质量相关:平均句长MLS、子句密度C/S、复杂名词密度CN/T和平均句子结构等级ML。两种体裁独立样本T检验结果发现,除C/S外,所有指标均呈显著或临界显著差异,体裁对学习者语料句法复杂度的影响非常明显。句法复杂度人工分组的单因素方差分析显示,议论文10个指标、记叙文7个指标呈显著差异,4项指标出现交集:平均句法结构等级ML、平均句长MLS、平均T单位长MLT和复杂名词密度CN/T,与测量值和作文分数相关分析的结果非常接近,侧面说明句法复杂度与作文整体质量的相关关系。D分析器测量值显示,句法复杂度高级组仅有最高等级(7级)和平均句子结构等级出现峰值,其余峰值大多出现于中级组,说明高级学习者更多使用紧缩句,与此前的研究结论一致。如不考虑显著水平,则除并列结构指标以外,组间所有指标测量值均呈线性发展趋势。实验结果显示两种测量工具应用于议论文测量的整体效果优于记叙文,研究结果支持L2SCA和D分析器用作中国EFL学习者语料句法复杂度测量工具或二语句法复杂度测量工具。
[参考文献]
[1]Ortega, L. Syntactic complexity measures and their relationship to L2 proficiency: A research synthesis of college-level L2 writing[J].Applied Linguistics, 2003(24):492.
[2]鲍贵.英语学习者作文句法复杂性变化研究[J].外语教学与研究,2009(4):291-297.
[3]Wolfe-Quintero, K., Inagaki S. & H. Y. Kim. Second Language Development in Writing: Measures of Fluency, Accuracy, and Complexity[M].Honolulu:University of Hawaii Press,1998:69-73.
[4]Lu, X. Automatic measurement of syntactic complexity in child language acquisition[J]. International Journal of Corpus Linguistics,2009(14): 3-28.
[5]Lu, X. Automatic analysis of syntactic complexity in second language writing[J].International Journal of Corpus Linguistics, 2010(15): 474-496.
[6]Lu, X. A corpus-based evaluation of syntactic complexity measures as indices of college-level ESL writers’ language development[J].TESOL Quarterly ,2011(45):36-62.
[7]纪小凌.英语学习者书面语发展研究[J].现代外语,2009(2):178-185.
[8]鲍贵.英语学习者语言复杂性变化对比研究[J].现代外语,2010(2):166-176.
[9]曾祥敏.英语专业学生限时作文与平时作文句法复杂性之比较[J].解放军外国语学院学报,2011(5): 69-74.
[10]赵俊海,陈慧媛.英语学习者书面语语法复杂度的测量研究[J].外语教学理论与实践,2012(1): 27-32.
[11]徐晓燕,王维民,等.中国英语专业学生英语议论文句法复杂性研究[J].外语教学与研究,2013(2): 264-275.
[12]梁茂成.学习者书面语语篇连贯性的研究[J].现代外语,2006(3): 284.
[13]桂林.基于计算机评估的L1和L2语言词汇水平对比研究[J].外语教学与研究,2010(6): 445.
[14]鲍贵.不同课程水平英语学习者词汇复杂性研究[J].解放军外国语学院学报,2011(2): 55.
[15]杜慧颖,蔡金亭.基于Coh-Metrix的中国英语学习者议论文写作质量预测模型研究[J].现代外语,2013(3): 293.
[16]MacWhinney, B. The CHILDES Project: Tools for Analyzing Talk[CP].Mahwah NJ: Lawrence Erlbaum Associates, 2000.
[17]Long, S. H., Fey M. E. & R. W. Channell. Computerized Profiling (Version 9.7.0)[CP]. Cleve- land, OH: Case Western Reserve University, 2008.
[18]Steven, L., Thorne I. F. & X. Lu. The semiotic ecology and linguistic complexity of an online game world[J].ReCALL, 2012(24):279-301.
[19]Yang, W., Lu X. & S. Weigle. Different topics, different discourse: Relationships among writing topic, measures of syntactic complexity, and judgments of writing quality[J].Journal of Second Language Writing, 2015(28):53-67.
[20]Bhat, S. & S.-Y. Yoon. Automatic assessment of syntactic complexity for spontaneous speech scoring[J].Speech Communication,2015(67):42-57.[21]Lu, X. Computational Methods for Corpus Annotation and Analysis[M].Dordrecht: Springer, 2014:95-142.
[22]徐晓燕,王维民,等.子句成分与名词词组成分——评测二语学习者英语句法复杂性的两个新视角[J]. 中国外语教育,2014(2): 49-57.
[23]孙有中.英语专业写作教学与思辨能力培养座谈[J].外语教学与研究,2011(4):605.
[24]秦晓晴,文秋芳.中国大学生英语写作能力发展规律与特点研究[M].北京:中国社会科学出版社,2007:27-53.
[25]Biber, D., Gray B. & K. Poonpon. Should we use characteristics of conversation to measure grammatical complexity in L2 writing development?[J]. TESOL Quarterly ,2011(45): 5-35.
[责任编辑刘文俊]
Automatic Measurement of Syntactic Complexity for Chinese EFL Learners:L2SCA and D-level Analyzer as the Tools
ZHANG Li-li1,2
(1.School of Foreign Languages,Guizhou University, Guiyang 550025; 2. School of International Studies,Zhejiang University, Hangzhou 310058, China)
Abstract:This article reports the experimental automatic measurement for syntactic complexity of L2 written data from a provincial between-college English writing contest with L2SCA and D-level analyzer as the tools. 4 out of the 15 indices are found related to holistic essay score. ANOVA analysis shows significant difference on 10 indices in argumentative essays and 7 in narrative ones, suggesting the tools’ general better performance on argumentative writing. It confirms that genre is an important factor influencing syntactic complexity for Chinese EFL learners. Almost all the indices present linear progression tendency, which shows the support of using L2SCA and D-level as tools for syntactic complexity measurement.
Key words:syntactic complexity; automatic measurement; Chinese EFL learners; L2 writing
doi:10.16088/j.issn.1001-6597.2016.02.019
[中图分类号]H319
[文献标识码]A
[文章编号]1001-6597(2016)02-0128-08