对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
2017-03-12谭晓平
谭晓平
(上海师范大学 对外汉语学院,上海 200234)
0 引言
可比语料库(comparable corpus)是指内容或形式上具有某些相似属性的语料的集合,可分为多语可比语料库和单语可比语料库。前者多应用于翻译研究、机器翻译、信息检索等,后者常应用于语言对比研究[1]。本文所构建的汉语可比语料库属于后者。
在国外,单语可比语料库应用于以下三方面: ①翻译研究。英国曼彻斯特大学构建的英语可比语料库(ECC)包括英文译文语料子库和原创英文语料子库。通过该资源可以更好地考察翻译英语的独特性[2]。②区域语言对比研究。英国伦敦大学学院构建的国际英语语料库(ICE)采集了美国、英国、印度、新加坡等23个地区的英语语料。基于该语料库可以更好地研究不同地区英语的使用特点[3]。③外语教学与研究。美国密歇根大学英语学术论文语料库(MICUSP)收录了英语母语者撰写的已发表的英文学术论文及不同母语背景英语学习者撰写的尚未发表的英文学术论文。基于该语料库,可以更好地分析不同母语背景学习者在英语学术写作上的特点,提高学习者学术英语的写作水平[4]。此外,在此类语料库的基础上,学者们还进行了学习者句法复杂度、语言流利性及准确性的研究[5-6]。
汉语可比语料库的建设及应用主要集中在以下两方面: ①翻译研究。西南大学构建的当代汉语翻译小说语料库(CCTFC)收录了译自英、美、法、日等11个国家八种语言的汉语翻译小说[7]。英国兰卡斯特大学构建的汉语可比语料库由汉语译文语料库(ZCTC)和汉语本族语语料库(LCMC)构成[8]。②华语对比研究。例如香港理工大学的两岸三地汉语语料库、香港城市大学的五地共时语料库(LIVAC)以及暨南大学的全球华语语料库[9-11]。
可见,与国外可比语料库的建设相比,我国尚缺少服务于汉语二语教学的可比语料库资源。现有对比研究主要依赖于: ①通用平衡语料库,如国家语委现代汉语通用平衡语料库、CCL语料库、BCC语料库[12-13]。②汉语中介语语料库,如HSK动态作文语料库、汉字偏误标注的汉语连续性语料库、暨南大学中介语语料库。③对外汉语教材语料库,如北京师范大学、中山大学的对外汉语教材语料库[14-15]。此外,部分学者还自建了可用于对比研究的语料库[16-19]。鉴于此,本文以“把”字句为例,探讨对外汉语教学领域可比语料库的构建及应用问题。
1 语料的选取与规模
本文认为面向汉语二语教学的可比语料库应包含自然语料、教材语料、中介语语料,原因在于: 教材语料与母语语料的对比,有助于发现教材语料与母语语料之间的差异;中介语语料与自然语料的对比,有助于了解学习者与母语者的差距;中介语与教材语料的对比,有助于探究语言输入与输出的关系。
本研究的自然语料来自于CCL语料库(网络在线版)。为保证语料的平衡性,我们先从CCL语料库中检索出50万条包含“把”字的语料,然后采用等距提取语料的方法,每隔1 000条语料提取1条,共获得语料500条。删除其中不是“把”字句的语料,此外,若一条语料中包含多个“把”字句,则分别对其进行标注。最后获得标注语料534条。
教材语料来源于北京师范大学的对外汉语教材语料库。该库包含有141 464条对外汉语教材语料及HSK样题文本语料。本文从语料库中提取了三套(17册)对外汉语教材,分别是《新实用汉语课本》(1~6册)(刘珣等 2010)、《博雅汉语》(初级汉语起步篇、准中级加速篇、中级冲刺篇、高级飞翔篇)(李晓琪等 2013)、《汉语纵横·精读课本》(0~6册)(汝淑媛等 2011)。之所以选择这三套教材,原因有二: 一是它们都是经典的对外汉语教材,能反映出教材编写的实际情况;二是它们属于精读类教材,与口语或报刊类教材相比,与自然语料进行对比研究时,更具可比性。
中介语语料来源于HSK动态作文语料库。为了保证三类语料规模上的一致性,我们从语料库中随机提取了500条包含“把”字句的语料。三类语料的规模如表1所示。
表1 可比语料库的规模及构成
需要指出的是,这三类语料的相似或相关性表现在: 均为汉语语料,规模相当,都包含有“把”字句,并进行了统一的标注加工。
2 可比语料库的标注加工
2.1 可比语料库的标注框架
可比语料库的标注分为外部标注和内部标注两部分,标注框架如表2所示。
表2 可比语料库的标注框架
语料类型指标注的语料是自然语料、教材语料,还是中介语语料。来源信息需要指出所标注的语料来源于哪个语料库或网站。体裁包括叙述文、说明文、议论文、应用文、演讲稿。语体包括对话体、叙述体。教材语料中的课型包括综合、口语、听力、阅读、写作、文化。教材语料中的适用地区包括大陆、港澳台、东南亚、北美洲、南美洲、欧洲、非洲、大洋洲。教材语料和中介语语料中的汉语水平分为初、中、高三个等级。中介语语料中的使用错误分为冗余、漏用、错用。需要指出的是,中介语语料中只标注使用正确的语法项目的语义类别及结构形式信息。
语法项目是汉语二语教学中的重要内容,涉及各类课型,也贯穿于初、中、高三个阶段。本研究重点进行语法项目的标注。语法项目不同,其句法语义的标注框架也不同,本文以“把”字句为例进行说明。
2.2 “把”字句的句法语义标注框架及标注示例
2.2.1 “把”字句的语义标注框架
文献[20-22]从汉语作为第二语言教学的角度分别将“把”字句分为六类、五类和三类。本文在上述分类的基础上,结合标注实践,形成了 “把”字句语义类别的标注框架。与以往分类不同之处在于本研究将“把”字句的语义类别分为三个级别。第一级别: 处置类、判断或认同类、致使类。第二级别: 将处置类分为强调动作的结果、强调转移、强调动作的方式、次数。第三级别: 将强调转移类的“把”字句分为具体空间转移、抽象空间转移、时间上的转移、信息转移。释义及示例*文中示例来自CCL语料库。如下所示:
① 强调动作的结果。例如: 请把门关上
② 具体空间的转移(处所、人物、单位或组织)。例如: 把书放在外边|把书给他
③ 抽象空间的转移(范围、领域、目标)。例如: 他们把DNA比对技术应用到了相亲上
④ 时间上的转移。例如: 把参观者带回到那个年代
⑤ 信息的转移。例如: 快把这个消息告诉他
⑥ 强调动作的方式、次数等。例如: 把价格一次性提高|把这本书读三遍
⑦ 表示判断或认同。例如: 把学生当成孩子
⑧ 表示致使。例如: 这事儿把他愁死了
2.2.2 “把”字句结构形式的标注框架
文献[20-21、23-24]分别将“把”字句的结构形式分为18类、10类、16类、20类。本文在以上分类的基础上,结合语料标注实践,将“把”字句的结构形式分为四大类40小类。分类及示例如下所示:
第一类: S+把+N+V+补语
① S+把+N+V+趋向补语。例如: 把学生的精神力量发动起来。
② S+把+N+V+结果补语。例如: 如何把我们这个农村中的城市建设好?
③ S+把+N+V+状态补语。例如: 把一方土地组合得鲜艳而且丰满。
④ S+把+N+V+数量补语。例如: 把他打了一顿。
⑤ S+把+N1+V+数量补语+N2。例如: 把他的情况做了一下介绍。
⑥ S+把+N+V+时量补语。例如: 他们把我的护照手续耽误了一个星期。
第二类: S+把+N1+V+N2+(来/去)
⑦ S+把+N1+V+N2。例如: 有人把萧军在社会上的所作所为告诉了鲁迅。
⑧ S+把+N1+V+N2+N3。例如: 把我们公司的客户名单给他一份。
⑨ S+把+N1+V在+N2。例如: 把声学系统应用在军事技术中。
⑩ S+把+N1+V到+N2。例如: 把它推广到欧洲。
第三类: S+把+N1+V+补语+N2+(来/去)
第四类: 把+N+V+(其他)
2.2.3 “把”字句的标注示例
可比语料库的外部标注存储为XML格式,内部标注采用Excel表格的形式。图1是自然语料中“把”字句句法语义信息的标注示例。
图1 自然语料中“把”字句的句法语义标注示例
3 可比语料库的数据分析与应用研究
3.1 数据统计与对比分析
基于标注语料的统计研究与对比分析,可以进一步了解教材编排的特点,发现学习者的习得规律。下文以“把”字句的数据分析为例进行说明。
3.1.1 “把”字句语义类别的数据统计与对比分析
“把”字句各种语义类别在三类语料中的分布如表3所示。
需要指出的是: 在表3中,中介语语料的数据是基于正确语料的统计结果。500条语料中,正确使用了“把”字句的语料共有211条,正确率为42.2%。为了更清楚地显示“把”字句的语义类别在三类语料中的分布情况并进行对比研究,我们先以自然语料的百分比为基准,将统计结果按降序从高到低排列,再将排列后的数据转换为如图2所示的折线图。
表3 语义类别的统计
图2 “把”字句语义类别的分布
从图2可以看出: ①“强调动作的结果”的“把”字句在三类语料中的使用率在40%及40%以上,教材设置基本反映了自然语言的实际情况,学习者掌握得也较好。②表示“具体空间转移”的“把”字句在自然语料、教材语料、中介语语料中的使用率分别为: 28.1%、38.3%、18.0%,差别较大。与自然语料相比,教材中该类“把”字句的设置偏多,而学习者使用得较少。③表示“抽象空间转移”的“把”字句在自然语料、教材语料、中介语语料中的使用率分别为12.2%、3.6%、20.9%,差别较大。与自然语料相比,教材中该类“把”字句的设置偏少,学习者的使用率却较高。但从教学经验判断,表示“抽象空间转移”的“把”字句的习得难度应大于表示“具体空间转移”的“把”字句的习得难度,但为什么从数据来看“抽象空间转移”比“具体空间转移”的使用率要高呢?本文认为原因有二: 一是学习者对“抽象空间转移”的表达需求高于对“具体空间转移”的表达需求;二是在语料中,出现了22条“……放在第一位”的语料,使用语境也基本相似。本文推测,大概是因为研究所用的语料取自HSK动态作文语料库,可能作文题目中出现了这一句型,而考生在写作过程中模仿着使用了这一句型,从而造成了统计结果与教学经验的背离。④“表示判断或认同”类的“把”字句在自然语料、教材语料、中介语语料中的使用率分别为12%、7.7%、10.0%。与自然语料相比,教材中该类“把”字句的设置偏少,中介语语料中该类“把”字句的使用率基本能反映自然语言的特点。⑤“强调动作的方式、次数等”的“把”字句在自然语料、教材语料、中介语语料中的使用率分别为3%、5.6%、0.9%,与自然语料相比,教材中该类“把”字句设置偏多,而学习者的使用率偏低。⑥表示“信息转移”的“把”字句在自然语料、教材语料、中介语语料中的使用率分别为0.9%、2.9%、0.5%,在自然语料、中介语语料中,该类“把”字句的使用率都在1%以下,使用率低,而在教材语料中使用率偏高,说明教材中该类“把”字句的设置偏多。⑦表示“时间上的转移”的“把”字句在自然语料、教材语料、中介语语料中的使用率分别为0.6%、0.6%、1.4%,教材中该类“把”字句的设置反映了自然语言的实际情况,但在中介语语料中的使用率略高,说明学习者有一定的表达需求。⑧“表示致使”的“把”字句在自然语料、教材语料、中介语语料中的使用率分别为0.2%、1.3%、0%。在自然语料、中介语语料中,该类“把”字句的使用率低,教材语料中使用率较高,说明教材过于强调“表示致使”类“把”字句的学习。
从以上分析可以发现: ①教材设置偏多的“把”字句依次为: 表示具体空间转移、强调动作的方式和次数等、信息转移、表示致使的“把”字句。教材设置偏少的“把”字句依次为: 表示抽象空间的转移、表示判断或认同的“把”字句。②学习者对于“强调动作的结果”的“把”字句掌握得较好,但仍须加强对其他类别“把”字句的学习。
3.1.2 “把”字句结构形式的数据统计与对比分析
“把”字句的各种结构形式在三类语料中的分布如表4所示。需要指出的是,中介语语料的数据是基于正确语料的统计结果。
表4 结构形式的统计结果
续表
为更清楚地显示“把”字句各种结构形式在三类语料中的分布情况并进行对比研究,我们先将结构形式分为两类: 一是自然语料中使用率在1%以上的结构形式;二是使用率在1%以下的结构形式。然后以自然语料为基准,分别将两类统计结果按降序从高到低排列,最后将数据转换为如图3、图4所示的折线图。
(1) 自然语料中使用率在1%以上的结构形式
图3是自然语料中使用率在“1%”以上的“把”字句结构形式在三类语料中的分布情况。
从图3可以看出: ①自然语料中使用率在1%以上的结构形式有21种,它们在三类语料中的使用率有较大差异。②从教材中“把”字句结构形式的设置来看, 本文认为如果某个结构形式在教材中的使用率比在自然语料中的使用率多1个百分点,则认为教材对于该结构形式的设置偏离了自然语言的实际情况,也就是说用教材语料的百分比减去自然语料的百分比,当它们之间的“差”在“1%”以上时,说明教材中该结构形式的设置偏多,而且“差”越大,偏离得越严重。数据显示: 在教材中设置偏多的结构形式依次为: S+把+N+V+状态补语(4.90%)*括号内的百分数是教材语料的百分比减去自然语料的百分比的差。、S+把+N1+V+N2(2.40%)、S+把+N1+V在+N2(2.20%)、S+把+N1+V给+N2(1.50%)、S+把+N+AD+V(1.20%)。同样,用教材语料的百分比减去自然语料的百分比,当它们之间的“差”在“-1%”以下时,说明教材设置偏离了自然语言的实际情况,而且“差”越小,偏离得越严重。数据显示: 在教材中设置偏少的结构形式依次为: S+把+N1+V为+N2(-4.60%)、S+把+N1+V到+N2(-2.30%)、S+把+N+V+趋向补语(-1.30%)、S+把+N1+V向+N2(-1.30%)、
图3 结构形式的分布1
图4 结构形式的分布2
S+把+N+V(-1.20%)、S+把+N1+V于+N2(-1.10%)。③从中介语语料来看,各结构形式在中介语语料中的使用率均低于自然语料中的使用率。如果某个结构形式在中介语语料中的使用率小于在自然语料中的使用率,则认为需要加强该结构的教学与学习,也就是说用中介语语料的百分比减去自然语料的百分比,当它们之间的“差”在“-1%”以下时,说明该结构形式是须加强教学与学习的结构形式,而且“差”越小,说明越重要。统计结果表明: 需要加强教学与学习的结构形式依次为: S+把+N+V+趋向补语(-11.50%)、S+把+N1+V到+N2(-5.70%)、S+把+N1+V为+N2(-5.70%)、S+把+N+V1+V2(-3.70%)、S+把+N+V+结果补语(-3.50%)、S+把+N+V+状态补语(-2.40%)、S+把+N+V+了(-2.20%)、S+把+N1+V进+N2(-2.20%)、S+把+N+V(-2.20%)、S+把+N1+V于+N2(-1.90%)、S+把+N1+V作/做+N2(-1.80%)、S+把+N1+V给+N2(-1.80%)、S+把+N1+V向+N2(-1.70%)、S+把+N1+V上+N2(-1.50%)、S+把+N+V+数量补语(-1.10%)、S+把+N1+V入+N2(-1.10%)、S+把+N1+V到+N2+来/去(-1.10%)。
(2) 自然语料中使用率在1%以下的结构形式
图4是自然语料中使用率在“1%”以下的“把”字句结构形式在三类语料中的分布情况。
从图4可以看出: ①自然语料中使用率在“1%”以下的结构形式有19种,它们属于低频用法,并且在三类语料中的分布差异较大。②从教材中“把”字句结构形式的设置来看,S+把+N+V+着+(N)、S+把+N+V一V这两种结构形式在教材语料和自然语料中的使用率均为0.4%,S+把+N1+V+时量补语在教材语料和自然语料中的使用率均为0%,说明教材中这三种结构形式的“把”字句的设置基本反映了自然语言的使用特点。另外,S+把+N1+V+数量补语+N2、S+把+N1+V+N2+N3、S+把+N1+V过+N2、S+把+N1+V进+N2+来/去、S+把+N1+V下+N2、S+把+N1+V下+N2+来/去、S+把+N1+V出+N2+来/去、S+把+N1+V满+N2、S+把+N+VV在自然语料中的使用率为0,而它们在教材语料中的使用率在0.2%~0.4%之间,说明教材中这九种结构形式的“把”字句设置偏多。此外,S+把+N1+V往+N2、S+把+N+一+V、S+把+N1+V至+N2、S+把+N1+V回+N2+来/去、S+把+N+V了V在自然语料中的使用率在0.2%~0.4%之间,而教材语料中的使用率均为0%,说明教材中这五种结构形式的“把”字句设置略微偏少。③从中介语语料来看,这19种结构形式的“把”字句的使用率均为0%,可见学习者对于这19种结构形式较为陌生。但因它们在自然语料中的使用率也较低,因此可不作为重点学习的内容。
3.2 可比语料库的实践应用
本文在标注语料的基础上,开发了可比语料的检索工具,检索界面如图5所示。教师通过该检索工具可以获取教学所需的例句,比较教材语料及自然语料的差别,预测学习者可能出现的偏误。学习者也可以通过该检索工具选择难易程度适合自己的语料,进行自主学习。
图5 可比语料库的检索界面
当用户在文本框中输入“‘把’字句”并点击“检索”按钮后,可以获得包含该语法项目的教材语料、自然语料和中介语语料。对外汉语教材语料的文本框下设置有全部、初级、中级、高级四个按钮,用户可以根据学习者的汉语水平,选择合适的语料。中介语语料文本框下设置有学习者的国籍信息,用户可以根据国籍来查看中介语语料。此外,在高级检索中,用户还可以根据“把”字句的语义信息、结构形式来查询相应语料。
4 小结
本文以“把”字句为例,探讨了汉语可比语料库的构建及在汉语二语教学中的应用问题。本文构建了一个包含自然语料、教材语料、介语语料的小型“把”字句可比语料库,规模约为11万字,制订了“把”字的句法语义标注体系,对语料库中的1 556个“把”字句进行了句法语义标注,开发了检索界面,探讨了该资源在“把”字句教学与研究中的应用。研究发现: 对外汉语教材中表示具体空间转移、强调动作的方式和次数、信息转移、表示致使的“把”字句偏多,但表示抽象空间转移、判断或认同类的“把”字句偏少。学习者对于结果类“把”字句掌握较好;教材中S+把+N+V+状态补语、S+把+N1+V+N2等五种结构形式的“把”字句偏多,但S+把+N1+V为+N2、S+把+N1+V到+N2等六种结构形式的“把”字句偏少。学习者需要依次加强S+把+N+V+趋向补语、S+把+N1+V到+N2等17种结构形式的“把”字句的学习。研究认为,汉语可比语料库可为教材研究、教材编排、二语习得研究、课堂教学提供数据支持与语料基础。此外,可比语料库的构建还有利于提高现有资源的利用率,推动资源共享的发展。
在今后的研究中,将进一步扩大语料的规模,从词汇、句子、篇章层面进行对比研究,并进一步开发语料库的检索功能,探讨其在教师备课、课堂教学、数据驱动学习中的应用。
[1] Rapp R, Zweigenbaum P, Sharoff S. Introduction to BUCC 2016[C]//Proceedings of the 9th Workshop on Building and Using Comparable Corporation, 2016.
[2] Laviosa S. The english comparable corpus: A resource and a methodology[J]. Unity in diversity, 1998: 101-112.
[3] Greenbaum S. ICE: the international corpus of English[J]. English Today, 1991, 7(4):3-7.
[4] Römer U, Wulff S. Applying corpus methods to written academic texts: Explorations of MICUSP[J]. Journal of Writing Research, 2010, 2(2): 99-127.
[5] Mancilla R L, Nihat P, Ahmet O. Akcay. An investigation of native and nonnative English speakers’ levels of written syntactic complexity in asynchronous online discussions[J]. Applied Linguistics,2017,38(1): 112-134.
[6] Götz S. Fluency in ENL, ESL, EFL: A corpus-based pilot study[C]//Proceedings of the 18th International Congress of Phonetic Sciences, DISS, 2015: 2-5.
[7] 胡显耀. 基于语料库的汉语翻译小说词语特征研究[J]. 外语教学与研究,2007,(03):214-220,241.
[8] Xiao, Richard. How different is translated Chinese from native Chinese?: A corpus-based study of translation universals[J]. International Journal of Corpus Linguistics,2010, 15(1): 5-35.
[9] 刁晏斌. 关于进一步深化两岸四地语言对比研究的思考[J]. 北京师范大学学报(社会科学版),2016(2):68-75.
[10] Tsou B K. Augmented comparative corpora and monitoring corpus in Chinese: LIVAC and Sketch Search EngineCompared[C]//Proceedings of ACL-IJCNLP 2015, 2015: 1.
[11] 刘华,郭熙. 海外华语语言生活状况调查及华语多媒体语言资源库建设[J]. 语言文字应用,2012(4):125-133.
[12] 靳光瑾,肖航,富丽,等. 现代汉语语料库建设及深加工[J]. 语言文字应用,2005(2):111-120.
[13] 荀恩东,饶高琦,肖晓悦,等. 大数据背景下BCC语料库的研制[J]. 语料库语言学,2016(1):93-109,118.
[14] 杨丽姣,肖航. 面向语义搜索的语料库语境信息标注研究[J]. 语言文字应用,2015(1):107-116.
[15] 周小兵,薄巍,王乐,等. 国际汉语教材语料库的建设与应用[J]. 语言文字应用,2017(1):125-135.
[16] 马明艳. 汉语学习者书面语作文“口语化”倾向的语体表征[J]. 汉语学习,2017(1):81-90.
[17] 梁珊珊,杨峥琳. 韩国学生口语多重因果转折语篇使用情况分析[J]. 世界汉语教学,2016(3):356-367.
[18] 江新,房艳霞,杨舒怡. 汉语母语者和第二语言学习者名名组合的理解[J]. 世界汉语教学,2016(2):226-238.
[19] 崔希亮. 欧美学生汉语介词习得的特点及偏误分析[J]. 世界汉语教学,2005(3):83-95,115-116.
[20] 吕文华. “把”字句的语义类型[J]. 汉语学习,1994(4):26-28.
[21] 崔希亮. “把”字句的若干句法语义问题[J]. 世界汉语教学,1995(3):12-21.
[22] 吕必松. “把”字短语、“把”字句和“把”字句教学[J]. 汉语学习,2010(5):76-82.
[23] 李英,邓小宁. “把”字句语法项目的选取与排序研究[J]. 语言教学与研究,2005(3):50-58.
[24] 丁崇明,荣晶. 汉语第二语言学习者应学的“把”字句及其变换[J]. 语言文字应用,2007(S1):11-18.