APP下载

汉语中介语依存树库的建设

2021-12-03

英语知识 2021年4期
关键词:偏误语料句法

高 松 钱 隆

(大连外国语大学汉学院,辽宁大连)

1.引言

中介语是由于外语学习者在学习过程中对于目的语的规律做出不正确的归纳与推论而产生的一个语言系统,这个语言系统既不同于学习者的母语,又区别于他所学的目的语(鲁健骥,1984)。汉语中介语是汉语学习者在学习汉语过程中所做的不正确归纳与推论的一个语言系统,是汉语教学与习得研究的重要资源。基于中介语语料,可以探究二语发展规律,促进汉语二语习得研究。

近年来,中介语语料库建设快速发展。目前已构建的汉语中介语语料库大多展示了学习者使用汉语的真实文本,同时也较好地完成了“字”和“词”层面的标注和处理,而在“句”层面上,标注的精度不够,缺乏对句法关系的分析和标注(李娟等,2016)。很多已建的中介语语料库,都局限于中介语偏误标注,对句子仅标注了错误句式和错误的句子成分类型。张宝林(2010)指出,只标注偏误现象的中介语语料库会使我们看不到学习者的全部语言表现,特别是看不到正确的语言表现,进而夸大偏误的严重程度,使研究者形成不全面的认识。语法信息的标注可以更细致、更全面地展示学习者偏误出现的句法环境,弥补偏误标签的限制和不足。单就偏误句子研究偏误现象,不利于客观、深入、全面地认识句子偏误,在一定程度上也阻碍了第二语言习得的研究。中介语语料库走向完善和成熟的前提是实现语料库的深加工。深加工就需要对语料进行句法结构的分析和标注。获得这些标注后,更便于开展外国学生汉语结构习得方面的研究,能更好地满足实际教学和研究的需要。因此,中介语语料库,除了标注中介语句子中的偏误现象,还要加强对句子结构和句法关系的标注。

随着语料库语言学的快速发展,语料库数量不断增多,规模扩大。语料库的句法标注成为语料库语言学的前沿课题。标注句法关系的语料库是树库。树库作为一种语言资源,能帮助人们获得句法知识(Abeillé,2004)。树库句法标注的前提是选择合适的标注体系。国内外有两种主流的树库标注体系,一个是基于短语结构语法的句法标注,另一个是基于依存语法的句法标注。短语结构语法句法标注,采用部分与整体的方式来描述句法的结构(党政法 周强,2005)。依存语法句法标注,通过建立词与词之间的关系来描述句法的结构,它以依存关系为基础。依存语法标注简明、节省储存空间、易于获取词间关系,它比短语结构语法标注更适合作为语料库的标注体系。考虑到汉语的语法特点以及汉语句子中词间的复杂关系,与短语结构语法相比较,依存语法更适合描述汉语的句法结构(周明 黄昌宁,1994;刘海涛,2009;高松,2010)。

因此,为真实反映汉语中介语句子的组合规则和使用规律,全面认识中介语句子的偏误问题,建设依存句法标注的中介语树库是极为必要的。本文以来华留学生为研究对象,选取留学生期末考试作文语料,构建汉语中介语依存树库。详细介绍了语料分级与规模、语料收集与处理、标注格式转换、标注原则与方法、标注流程、标注结果质量控制等语料库建设中的若干基本问题。最后,提出中介语依存树库在汉语二语习得研究领域中的应用。

2.构建中介语依存树库

2.1 语料分级与规模

本文构建的汉语中介语依存树库,语料选自2018年1月至2020年1月大连外国语大学汉学院来华外国留学生共五个学期期末的考试作文。据统计,2018年该校有62个国家共1447名来华留学生;2019年有68个国家共1505名来华留学生。这些留学生主要来自日本、韩国、俄罗斯、泰国、蒙古、哈萨克斯坦、塔吉克斯坦、美国、澳大利亚、法国、意大利、葡萄牙、巴西、尼日利亚、斯里兰卡等国家。按洲别统计,国家分布于亚、非、欧、美及大洋洲等。其中,洲别占比以亚洲为最高。按学生类别统计,有学历留学生(本科、硕士、博士生)和非学历留学生(进修生)。研究对象大部分是长、短期进修生,也包括少数来华留学的一、二年级本科生,年龄在18 ~ 65岁之间。共选取研究对象763篇期末考试的作文语料。2020年开始受疫情影响,汉语教学采取线上教学形式,学习者大多在母语环境下进行汉语学习。为了保证目的语环境下中介语语料研究的质量和效果,2020年3月至今的语料不在选择范围内。长、短期进修生根据实际汉语水平进入不同层次班级学习。水平分级包括初级、中级和高级。其中,初级和中级阶段,分别细分为A、B、C三个等级。高级阶段,分A、B两个等级。来华留学的一年级本科生语言技能学习,对应进修生初A和中C等级;二年级本科生语言技能学习,对应进修生中B和中A等级。等级水平的判定,A、B、C三个等级降序排列,A为最高,C为最低。语料分级和等级代码,见表1。

表1 语料分级和等级代码

构建的汉语中介语依存树库规模约10万词。根据语料的分级情况,树库中包括八个不同等级的子库。每个子库词数12500左右,基本保证各子库样本量的均衡性。树库的基本统计数据,见表2。

表2 树库的基本统计数据

2.2 语料收集与处理

选取的作文语料先进行试卷图片扫描,然后将其手工录入到计算机中,保存为txt格式文件。生语料经过预处理,改正了留学生的生造字、生造词和错误的标点符号。去掉了文本中称呼、落款、日期、注释等不必要的信息。同时又对文本进行了人工交叉检查和校对,确保其准确性。语料样本文件编号为八位数代码。其中,第1、2位是等级代码,参见表1。第3-5位是学生的国籍代码,参照《世界各国和地区名称代码》(GB/T 2659-2000)。第6-8位是学生编号。以样本代码“JB392001”为例,“JB”代表该样本来自初B级子库,“392”代表该学生的国籍为日本,“001”为学生的编号。

颜明、肖奚强(2017)提出,中介语语料库的语料收集和语料筛选,要考虑自然性、连续性、全面性和代表性。本研究在收集和选取语料时,完全依据这些原则。留学生期末考试的作文,作文题目在考试前学生并不知道,写作内容学生也没有提前准备,有效避免学生照搬照抄现成的语言使用片段,以此保证中介语语料的自然性。作文选自五个学期的期末考试,语料取值间隔的时长相等,以此保证中介语语料的连续性。通过分阶段抽样,确保语料的全面性与代表性。同时,考虑到汉语中介语语料库建设的多样性和层次性(周文华,2015),综合语料规模、等级、国别、体裁等要素,将语料分阶段分层次抽样入库。语料共涉及68个国别,国别分布较广。每个等级先按国别分层抽样,再按作文体裁分层抽样。留学生的作文体裁广泛。中级和高级阶段作文体裁包括记叙文(如“我的留学生活”)、议论文(如“什么是幸福”)、说明文(如“介绍一道菜的做法”)、应用文(如“写一封求职信”);初级阶段作文以记叙文为主,记叙文内容多样,包括写人、写事、写景、状物。对作文体裁依据均衡性原则分层抽样。最后汇总各语料样本形成生语料子库。语料选取的具体流程,见图1。

图1 语料选取流程图

完成了语料的收集和分类后,语料经过了自动分词和词性标注处理,采用的是中国传媒大学国家语言资源监测与研究有声媒体中心在线提供的自动分词和词性标注系统。通过Python程序编写脚本实现处理后的熟语料文本转换到Excel格式的树库标注文本。Excel环境下来构建树库通用性强,标注环境的转换也易于做到人机结合,能实现标注和核对最优化(刘海涛,2009)。此外,还利于统计数据的计算和提取,如依存方向和依存距离等计量指标的计算。Excel环境下的树库标注格式,见表3。

表3 “我的留学生活很有意思。”的树库标注格式

2.3 依存关系句法标注及偏误标注

依存语法是一种建立在二元词间关系基础之上的语言理论。依存句法描述句子结构以依存关系为基础,依存关系是词与词之间一种有向的、非对称的关系。依存关系包括支配词、从属词、依存关系标记。句子“我的留学生活很有意思。”的依存句法分析,结果见图2。

图2 “我的留学生活很有意思。”依存句法分析

图2中,箭头起点是支配词,箭头指向的是从属词,词间的弧上标记为依存关系标记。刘海涛(2009)指出,基于依存关系的句法是一种实用的分析句法,实用性特别体现在语言教学领域中。汉语中介语的依存句法标注,大多基于Nivre等(2016)提出的“通用依存关系”(Universal Dependencies,UD)标注体系。UD是特别为跨语言分析而开发的,有36种通用于所有语言的依存关系(李思源等,2018)。利用UD体系来标注具有一定的优势,UD易于标注。针对不同语言UD提供了统一的标注方案,标注后的语料库也便于共享。UD体系的不足之处是不能处理汉语的特殊结构。为弥补不足,UD标注体系要不断进行扩展。

本文采用的是刘海涛(2009)提出的汉语依存关系句法标注体系。该体系可以对所有汉语句子和结构进行标注。针对汉语的特殊结构,如兼语句、连动句、把字句、被字句等,都给出了具体的标注方案。该句法标注体系具有较强的实用性和可操作性。体系包括补足语(complements)20种,说明语(adjunct)14种,具体见表4。

表4 依存关系句法标注体系

续表

对中介语语料的标注,包括正确句子的句法关系标注,也包括错误句子的偏误标注。在句内,偏误现象会标注具体的偏误类型。中介语偏误标注主要涉及字层面、词层面和句子层面的偏误。字层面偏误包括错字、少字、多字等类型;词层面偏误包括错词、缺词、多词等类型;句子层面偏误包括语序错误、特殊句式和结构错误、成分残缺、成分多余等类型。为避免因标注代码不一致造成的语料难以共享问题,偏误类型标记主要参照北京语言大学HSK动态作文语料库ver2.0标注代码,仅针对偏误存疑情况稍做修改。

中介语语料库建设中,明确依存关系句法标注及偏误标注原则是极为必要的。张宝林(2013)认为,中介语语料库标注原则要注意全面性、科学性、忠于原作、标准化与通用化。胡晓清(2018)针对国别化中介语语料库,提出了多维度标注原则和多层次标注原则。肖丹等(2020)提出了处理汉语中介语不规范现象的两个标注原则,即核心原则和非核心原则。核心原则为标注时将含有偏误的句子纠正后,再进行依存语法分析;非核心原则为根据所观察到的句法结构直接进行依存句法分析。

本文充分吸取前辈时贤的研究成果,采取分层次、多层级标注原则。对八个不同等级的树库,进行分层次标注。对于不含偏误的句子,按照汉语依存关系句法标注规范(刘海涛,2009)直接来标注。为确保基础标注和偏误标注的质量,字、词和标点符号的偏误,改正后进行处理和标注。比如句子“我希望给家人一个难忘的回记。”中,学生将“忆”写成了“记”。标注前,先将错字“记”改成“忆”。词汇偏误,除了改正词错误还要附上原词并标注具体的偏误类型。比如句子“在这儿看了电影,还{CC还是}吃了好吃的东西。”,其中“还是”属于词汇偏误CC,将它改为“还”。句子层面的偏误,保持原有语料,不改正错误。在偏误结构的中心词处,不标依存关系,标具体的偏误类型。比如句子“我教中国学生韩语{ CJX }在韩国文化院。”,介词短语“在韩国文化院”应该放在动词“教”前面,这属于语序错误CJX。

2.4 依存树库标注流程

在中介语语料库建设中,大部分标注工作需要人工来完成。标注质量直接决定着语料库的实际价值。为避免出现标注质量问题,标注人员经过了严格的挑选和系统的培训。选择的10名标注人员是语言学及应用语言学、汉语国际教育专业在校硕士研究生,他们拥有相对扎实的语言学基础理论知识,学习过计算语言学、语料库语言学等课程,科研精力旺盛,投入度高。标注前,他们经过了多次培训,培训内容包括强调标注原则,细化标注方法,分配标注任务,确定标注分组,解决各类标注问题等。正式标注前经过了试标注阶段,进行了有效的标注训练,从而提高了标注能力。

树库整体标注流程为:

(1)将待标注树库子库按小组分配给标注人员。标注完成后,组内进行交叉检查。检查是否存在错标、漏标和标注不一致现象;

(2)如果标注结果一致,直接进入机器校对检验;

(3)如果标注结果不一致,标注团队讨论后专家审核,确定标注结果后,进入机器校对检验;

(4)机器校对检验,保证标注质量。利用辅助检查的软件,校验标注符号的准确性和一致性问题。校验出错误,组内标注人员纠正。如果纠正后结果不一致,专家确定最终标注结果。

(5)标注结果经过人工标注、人工交叉检查、机器校验、专家审核后形成依存树库子库。

3.中介语依存树库的应用

汉语中介语依存树库为对外汉语教学与研究提供有力支撑,有助于汉语教师的课堂教学和学生的自主学习。中介语依存树库可应用于以下汉语二语习得研究领域。

3.1 偏误类型统计与偏误率计算

由于受到母语或者学习者语言背景、学习语言的经历等因素的影响,不同的学习者在习得汉语时会表现出不同的倾向。这种不同的倾向主要反映在偏误类型和偏误率两个参数上。不同学习者偏误类型和偏误率有差异,原因很复杂,涉及的变量不好控制。但偏误类型和偏误率的统计计算,能为课堂教学提供有用的概率资料(崔希亮,2005)。

基于中介语依存树库,可以统计出不同等级水平学生使用汉语的偏误类型,各种偏误类型都带有概率数据。偏误类型涉及词和句子两个层面的统计。此外,还可以分国别统计偏误类型,这样有助于开展国别化的汉语教学。汉语教师在教学前,提前了解不同国别不同等级水平学生在词语、结构和句子的使用上容易出现的偏误现象及偏误类型,能帮助教师明确教学重点。对于不同国别学生习得汉语时出现的偏误问题,采用行之有效的教学方法,设计有针对性的练习,以此取得最佳教学效果。

偏误率指语言学习者在使用目的语的时候出错的几率(崔希亮,2005)。在中介语依存树库中,可以计算出不同等级水平的汉语学习者使用汉语时的偏误率,便于汉语教师掌握不同学习阶段学习者汉语习得的特点和表现出来的差异。同时,也能计算出不同母语背景的汉语学习者使用汉语时的偏误率,便于多国别偏误率比较。计算不同国别、不同等级学习者的偏误率,除了有助于汉语教学与研究外,还可为来华留学生分级分班测试题库的建设提供参考。

3.2 二语写作句法复杂度研究

句法复杂度也称为句法成熟度或语言复杂度,是指在语言产出过程中产生的形式范围以及此类形式范围的复杂程度(Ortega,2003),句法复杂度被认为是评估二语写作质量的一个重要指标(Lu,2011)。

目前,句法复杂度研究呈现出新趋势。研究者倾向于使用细粒度的测量指标以及使用带有句法标注的语料库来进行二语写作句法复杂度研究。由于细粒度指标和句法多样性指标测量都依赖于依存关系,因此依存树库常被用来作为句法复杂度度量的工具(毕鹏,2020)。在汉语中介语依存树库中,可以提取每一子库依存关系的数量、各依存关系出现的频次和比例等数据。数据处理后,可以作为细粒度指标和句法多样性指标进行汉语二语写作句法复杂度研究。胡韧奋(2021)利用依存树库,分析了动宾、主谓、形名、状中、量名、框式介词、介动和述补等八种搭配类型,提出四个句法多样性的测量指标。

中介语依存树库中,还可以提取粗粒度指标数据。依存距离是句法复杂度测量的粗粒度指标之一。依存距离指支配词和从属词之间的线性距离,即一个句子中存在依存关系的两个词之间词位置之差。在依存树库中,依存距离的计算方法为支配词序号减从属词序号。依存距离有助于分析句子理解的难度,还有助于儿童语言习得的研究(刘海涛,2008)。赵怿怡、刘海涛(2014)发现潜在歧义结构“VP+N1+的+N2”多被分析为偏正结构可以用依存距离最小化来解释。Futrell等(2015)基于37种自然语言,发现依存距离最小化是人类语言的普遍规律。

李伯约(1986)认为,汉语中谓语与主语或宾语位置接近时,人们易于理解和识别出这是一个组块,而相距较远时则不易识别,词距对句子理解起了很大作用。这里,句法成分之间位置的远近实际上是依存距离的大小。依存距离越小,句法结构越简单,句法关系越容易被人们识别;依存距离越大,句法结构越复杂,句法关系则越难被人们识别。依存距离大小可以反映出汉语学习者写作中句法的复杂程度。

3.3 汉语习得中的回避现象研究

汉语学习者在习得过程中,常常出现语法项目的回避现象。在交际过程中,有些学生会用简单句式来回避复杂的、易出错的句式(罗青松,1999)。“把”字句的回避问题,目前已有很多研究(余文青,2000;刘颂浩,2003;张宝林,2010)。张宝林(2010)认为,语法项目回避并不仅限于“把”字句,其他语法项目,如兼语句、存现句、连动句甚至是复句,都有可能被汉语学习者回避。

未经过句法标注或仅标注偏误的中介语语料库,对研究学习者汉语使用中的回避现象,是比较受限的。基于句法标注的中介语依存树库,可以检索某个语法项目,统计出学习者在不同等级水平使用它的频率,易于考察学习者在不同学习过程中的回避问题。

3.4 汉语中介语的配价研究

刘海涛(2009)指出,配价是对词汇的一种静态描述,它是词与其他词结合的潜在能力。配价是词的一种根本属性。在词典中,词的配价有多种可能。但当词进入到具体的语境中,它与其他词结合的潜在能力得以实现,多种可能的配价变为一种,这就形成了依存关系,依存关系是一种实现了的配价。

学界对外国学生习得汉语出现的动词配价偏误展开了多角度研究。方绪军(2001)通过对中介语中动词句配价的偏误分析,发现使用动词的偏误与使用补足语的偏误密切相关。无论着眼于动词,还是补足语,动词的配价能力都是根本依据。方绪军(2003)认为,汉语近义动词的配价差异会对语言习得产生影响。学习者对配价差异认识不足就会形成语法偏误。冯丽萍和盛双霞(2004)考察了外国学生对汉语三价动词的习得情况,认为初级汉语水平学生主要错误为三价动词的句型结构,而中级汉语水平学生错误主要发生在句子内部词语的选择上。张宇纯,赵凤珠(2020)以配价理论为背景研究了“被”字句的偏误,指出“被”字句偏误最常见的类型就是动词选择不当。很多动词词义相近或相关,但构成句子的能力不同,学习者不清楚其配价能力,错误选择动词就极易发生偏误。

汉语学习者如果充分了解词语出现的语境,即词的配价模式,一定程度上能避免偏误的产生。对词的配价能力认识不足,容易造成词语使用不当。从汉语中介语依存树库中,能够获得词的配价信息,考察词与词结合的能力,探讨不同等级阶段中词配价的发展变化(郝瑜鑫等,2021)。此外,还能统计各类配价偏误现象,获得不同国别、不同水平学习者的偏误数据,进而归纳偏误类型,分析偏误成因。在汉语教学过程中,加强学习者对词配价能力的认识,教师安排适当的练习,实现语言知识到言语能力的转化,帮助学习者正确使用容易出现配价偏误的词语。

4.结语

本研究介绍了我们目前在汉语中介语依存树库建设方面做的一些工作。以依存语法理论为基础,采用依存句法标注体系对来华留学生的期末考试作文进行语料标注,构建了约10万词的高质量汉语中介语依存句法树库。研究系统介绍了中介语依存树库的语料选取、构建原则、标注方法和具体建设流程。基于依存句法标注规范,充分结合汉语中介语的特点,制定标注原则。为确保树库标注的质量,采取一系列质量控制措施,如人工交叉检查、机器校验、专家审核等。从中介语依存树库建设中,我们积累了一定的树库标注经验,可为今后的树库建设打下基础。利用汉语中介语依存树库,可以开展多领域的汉语二语习得研究,比如统计不同国别不同等级汉语学习者的偏误类型并计算偏误率,研究二语写作句法复杂度、汉语习得中的回避现象和汉语中介语的配价等问题。目前构建的是目的语环境下的汉语中介语依存树库。今后,依托海外孔子学院和孔子课堂,也将构建非目的语环境下的汉语中介语依存树库。进一步探讨不同语言环境下汉语学习者习得的异同,来满足日益丰富、深入的研究需要。

猜你喜欢

偏误语料句法
柬语母语者汉语书面语句法复杂度研究
海量标注语料库智能构建系统的设计与实现
韩国留学生舌尖后音习得偏误分析
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
偏误分析的文献综述
句法二题
《空间句法在中国》段进、比尔?希列尔等(著)
诗词联句句法梳理
偏误分析的意义与局限