“全球汉语中介语语料库”的平衡性考虑
2017-03-09李桂梅
李桂梅
(北京语言大学语言科学院,北京,100083)
“全球汉语中介语语料库”的平衡性考虑
李桂梅
(北京语言大学语言科学院,北京,100083)
汉语中介语语料库;平衡性;原则;措施
从影响汉语中介语语料库平衡性的关键因素出发,讨论了“全球汉语中介语语料库”在追求语料库平衡性方面的基本原则和采取的措施。平衡性的基本原则是以汉语国际教育的现实情况为主要参照,兼顾代表性和覆盖范围。“全球汉语中介语语料库”建设者在语料采集、语料属性标注、确定入库语料、语料库检索系统的设计等每个阶段都采取措施努力实现语料库的平衡性,并为实现语料库的动态平衡、使用者的平衡创造条件。
1.引言
汉语中介语语料库的建设自上世纪90年代始,在建库实践中历来重视语料库的平衡性。第一个汉语中介语语料库“汉语中介语语料库检索系统”,其100万字的入库语料是从约350万字的原始语料中,“综合考虑各种属性背景因素和话题内容的选择情况,合理计算不同属性和话题的语料的入库比例”(储诚志、陈小荷,1993),“基于各种属性的语料分布均匀的理念抽样所得”(陈小荷,1997:450-458)。这种理念和操作实践为后期的汉语中介语语料库建设奠定了良好的基础。
此后,汉语中介语语料库建设进入了一个相对蓬勃发展的时期。不过由于主客观条件的限制,所建成的几个语料库在理论和实践方面都没有很好地解决平衡性问题。例如“HSK动态作文语料库”由于语料来源于参加HSK考试的作文试卷,在水平层次和学习者国别方面分布过于集中(任海波,2010;施春宏、张瑞朋,2013)。中山大学“汉字偏误中介语语料库”,其中韩国学生的语料约占40%,谈不上国别的平衡;水平层次方面按自然班划分有17个等级,这么细致的分类只有在所有语料来源于同一个教学单位的情况下才有可能,对于大规模的语料库来说是不可能实现的。另外几个通用型的汉语中介语语料库,或规模不大,或建成后对外公布的相关信息较少,因此我们对它们在平衡性方面的考虑也无从知晓;专门的语料库由于涉及的平衡性因素较少,自然也没有更多的理论探讨和实践经验。
平衡性是大规模、通用型汉语中介语语料库建设中的关键性问题,是在语料库建设过程中必须要处理好的问题。“全球汉语中介语语料库建设和研究”作为教育部哲学社会科学研究重大课题攻关项目,拟建设“最大最好的汉语中介语语料库,为全球汉语教师、研究人员的教学与研究工作提供优质资源”(张宝林、崔希亮,2013),非常有必要将我们对这一问题的认识阐述清楚,并且落实到实践操作层面。本文将在充分认识影响大规模、通用型中介语语料库平衡性的关键因素的基础上,阐述“全球汉语中介语语料库”建设课题组为实现语料库的平衡性所采取的多方面措施,并且在汉语中介语语料库规模增大、持续更新补充的情况下,重视静态的平衡和动态的平衡、建库的平衡和使用的平衡之间的分别。
2.影响汉语中介语语料库平衡性的关键因素
影响汉语中介语语料库平衡性的关键因素主要有语料采集、语料类型的确定、语料比例的安排三个方面。大规模中介语语料库建设需要在一定时间内获得符合预期建库规模和要求的语料,同时获得实现平衡性所必备的各种背景信息。在此基础上按照特定的角度对语料进行分类,确定语料的属性标签,并且安排不同类型语料的比例。
2.1语料采集
与母语语料库相比,中介语语料库的语料并不是随处可见,语料采集受到很大的限制。汉语中介语的语料需要满足两个基本条件。首先是真实性,必须是汉语作为第二语言的学习者在学习过程中产出的成段表达的语料;其次必须附带有语料作者和语料本身的一些关键性的背景信息。第二个条件常常会把很多语料排斥在外,因为一些背景信息在学习者不在场的情况下无法得到。就通常的做法来说,语料收集都是委托汉语教师在繁重的教学任务之外进行,受时间、精力及重视程度等因素的影响,教师常常将获得语料放在首位,不重视甚至忽略语料背景信息的获得,而语料的背景信息是实现语料库平衡性的必要前提。同时受制于各种客观条件,中介语语料收集的过程会比较长。另一方面,要满足事先设定的语料库平衡性的要求必然要舍弃某些类型数量过多的语料。如果语料库规模比较小,就比较容易收集到较多的富余语料供抽样;而如果是几千万字规模的大型中介语语料库,又希望在一定的时间内尽快完成语料的收集,那获得的可供抽样的富余语料就会比较有限。可以说,满足要求的语料的收集是大规模汉语中介语语料库实现平衡性追求的瓶颈。
2.2语料类型
划分语料类型的前提是确定语料分类的角度。建设汉语中介语语料库的最终目的是为汉语教学和习得的研究服务,因此确定语料分类角度的依据也是影响汉语教学和习得的方式、效果的一些关键因素。这就需要我们依据汉语教学和习得研究领域的基本共识来给语料分类,划分语料类型。目前来看主要的语料分类角度主要来自两个方面:学习者自身的特征和语料的文本特征。从学习者特征来说有国别、语别、族别、学习动机、学习方式、学习时间、学习阶段、个性特征等;从语料的文本特征来说,有语料的产出方式、产出时间、话题类别、文体类别、语体特征、字数等,这些都是划分语料类型的角度。这些分类角度中,有些内部类别清楚,如国别、语别、族别;有些则要依赖建库者的主观判断,如学习阶段分为几个,粗分还是细分;至于文体类别、话题类别更是如此。此外,一些尚未进入普遍研究视野或未被注意到的影响因素就无法进入分类角度。
2.3比例组合
语料库中各类型的语料在数量和比例上怎样安排算是“比例适当”?这里有两个取向:绝对取向和现实取向。绝对取向是希望每个分类角度上划分出来的语料类别在数量和比例上相当,现实取向是不同类别的语料数量和比例照应现实的情况。以最常被提及的语料作者国别为例,任海波(2010)认为最理想的状态是所收录语料的国别类型能够包括世界各国,并认为“HSK动态作文语料库”中欧美国家学生的语料太少,东南亚学生语料太多,这是希望达到数量和比例上的绝对平衡。张宝林、崔希亮(2013)认为汉语学习者国籍分布的现实情况就是韩、日等东南亚国家汉语学习者多,欧美汉语学习者少,应该考虑“汉语学习者国籍分布的现实情况”,“以各种国籍背景的汉语学习者的实际人数作为分层的依据,确定各国汉语中介语语料的抽样比例”,这是追求现实的平衡。从建库的实际和语料库的应用来看,现实的取向更可取,也更可行。学习者较多的国别和语别的教学和习得情况自然应该在研究中受到更多的关注。
从结构上来说,“语料类型”属于横向的维度,“数量和比例”属于纵向的维度。横向维度上每个分类角度划分出来的语料类别都要匹配一定的数量和比例,整个语料库要综合考虑各项属性之间的配合,理论上说这种组配的可能性是无限的。
3.“全球汉语中介语语料库”的平衡性原则及措施
在充分认识影响汉语中介语语料库平衡性因素的基础上,“全球汉语中介语语料库”建设课题组确定了语料库平衡性的基本原则,以及为实现平衡性所采取的措施。
3.1平衡性原则
建设汉语中介语语料库的目的是为汉语作为第二语言的教学研究和习得研究服务。从这个目的出发,“全球汉语中介语语料库”建设的总体平衡性原则是以汉语国际教育的现实情况为主要参照,兼顾代表性和覆盖范围。
以语料的国别来源和语别来源(指语料作者的母语)属性为例,当前汉语国际教育的现状是以韩国为首的亚洲学习者居多,同时学界对这些学习者的研究需求也相对较多。因此语料库中收入的这些学习者的语料会相对较多。同时,我们也要兼顾代表性和覆盖范围。欧美学习者、母语为阿拉伯语的学习者、来自非洲国家的汉语学习者等也都是汉语国际教育的对象,并且有的人数还在呈上升的趋势。因此语料库中也要尽量多地收入这些学习者的语料,争取最大程度地覆盖所有汉语学习者的国别和语别。
再以语料所代表的学习者的学习层次属性为例,当前汉语国际教育的现实情况是初级水平和中级水平的学习者较多,高级水平的学习者相对较少。因此语料库中初级水平和中级水平学习者的语料也会较多。然而,高级水平汉语学习者产出的语料也有很高的研究价值,尤其是在一些高级表达手段和语篇研究方面。因此语料库中也会尽量多地收集高级水平汉语学习者产出的语料,努力实现对学习者水平层次的全部覆盖。
3.2平衡性措施
“全球汉语中介语语料库”从语料采集、语料属性标注、确定入库语料三个方面采取措施来实现整体语料库的平衡,并在语料库检索系统的设计上提供条件以满足不同研究者在使用中对平衡性的不同要求。
3.2.1语料采集方面
语料采集是语料库建设的一个重要环节,对于大型汉语中介语语料库来说尤其如此。“全球汉语中介语语料库”的主要特点之一就是语料规模大,预计书面的生语料4500万字,精加工的熟语料2000万字(崔希亮、张宝林,2011)。语料库规模增大给语料采集带来很大的挑战,既要满足语料的数量要求,又要保证语料附带必要的背景信息。为做到这点,“全球汉语中介语语料库”建设在语料采集的范围和方式上都有很大的创新。
“全球汉语中介语语料库建设和研究”课题组与国内外十几所高校的汉语国际教育部门建立了合作关系,签订子课题协议书。子课题的主要任务就是采集语料(有的涉及标注)。较之简单地委托汉语教师业余收集,子课题的形式具有以下几个优势。
首先,以子课题的形式收集语料更能引起参与语料收集工作的教学部门和教师的重视,在语料真实性和语料背景信息的获得方面更有保证。其次,课题组在签订子课题的时候考虑到了地区分布,比如东部地区的高校如鲁东大学、同济大学等日韩学习者较多,西部地区如西北师大中亚学习者较多,南方地区如广西师大南亚学习者较多,南京大学欧美学习者较多等事实,这样在语料收集阶段就为语料库的国别及语别的平衡创造了很好的条件。课题组也收到诸多海外教学机构提供的语料,为实现教学和学习环境的平衡创造条件。再次,由于不同地区不同教学单位的生源不同、教学层次不同、教学优势不同,来自多个教学单位的语料客观上也使获得的语料在水平层次、文体特征和话题类型上多种多样,粗略来说整合在一起将实现语料层次、语料类型覆盖全面的预期。最后,多个高校和教学单位参与的全球共建模式大大提高了效率,缩短了语料收集的过程。
同时,“全球汉语中介语语料库建设和研究”课题组有严格的语料验收环节,不合要求或语料背景信息严重缺乏的语料将不能通过验收。
此外,课题组还将探索通过网络收集语料的形式。在信息网络高度发展的今天,学习者自己上传语料是个很好的尝试。“全球汉语中介语语料库”拟建立一个网站,提供一定的物质或其他形式的奖励,鼓励全球的汉语学习者将自己的文本语料、音频语料或视频语料上传到该网站,并填写与语料和作者相关的各项信息。
3.2.2语料属性标注方面
语料属性概括来说有两大类,一是语料作者的背景信息,二是语料自身的背景信息。“全球汉语中介语语料库建设和研究”课题组制定了《语料作者背景信息表》和《语料背景信息表》,每收集一份语料都要填写表格中要求的信息。语料作者的背景属性有17项,语料背景信息有10项,合计27项。(见附录)
大部分的语料信息标注都必须由语料采集者在语料采集的同时完成,但是“汉语水平层次、文体类别、话题类别”这三项信息需要由课题组集中填写。就“汉语水平层次”来说,因为语料来自不同国家、不同地区的不同学校,教学系统与教学内容都有很大不同,此学校的二年级和彼学校的二年级学生水平可能相差很大,而语料库中的全部语料必须有一个统一的水平量表,这样才能方便语料库使用者进行检索。因此课题组将根据语料的语言面貌,参考语料作者目前的汉语学习情况和以前的汉语学习经历统一为每篇语料标注水平等级。为了避免判别的误差,水平等级宜粗不宜细,按照学界的基本共识,分为初级、中级和高级三类。同时,语料库的使用者可以参考作者的学习背景,如写作语料时所在的学校和年级、学习经历等综合使用这一信息。
语料背景信息中的“文体类别”和“话题类别”也由课题组统一标注,以做到体系和分类角度的统一。参照学界的基本共识,并考虑收集到的大部分汉语语料的实际情况,将“文体类别”分为叙述、议论、说明,其中叙述和议论占大部分。“话题类别”分为学习生活、工作情况、个人爱好、生活经历、旅游地理、人物介绍、恋爱婚姻家庭、气候天气、社会文化、教育、交通等。这两项信息的划分比较粗疏,主要是根据所得语料的实际情况而定,不一定符合文章学对体裁和题材分类的严密逻辑。同时,这两项信息的判定不可避免地会带有一定的主观性,但根本目的是为语料库使用者选取语料提供一个大致的框架,并体现语料库的语料在体裁和题材上的基本构成。根据需要,语料库使用者也可在此基础上进行更细致的甄别。
最理想的情况是每篇语料都附带这27项信息,但囿于现实条件,常常收集不全。有的信息本身就没有,比如有的学习者没有参加过HSK考试。其他一些与学习者有关的个人信息在作者不在场的情况下再去追及也比较困难。针对这一情况,课题组除在语料收集之初强调背景信息的收集外,还将在确定入库语料时优先选择背景信息丰富的语料。
3.2.3确定入库语料方面
收集到附带多项背景信息的原始语料后,小规模的中介语语料库会按照一定的原则进行抽样,之后确定入库语料。例如早前的“汉语中介语语料库检索系统”其主要做法是“损有余而补不足”,兼顾不同种类学生人数和语料来源差别的实际情况,主要考虑因素有作者、第一语言、年龄、话题类别、学时、语料类型等(陈小荷,1997:450-458)。对于“全球汉语中介语语料库”这样的大型中介语语料库来说,我们在考虑上述因素的同时,把工作重点放在“补不足”方面。在语料的收集工作进行到一个阶段后,我们将根据所得语料的情况,对于某些重要属性如国别、语别、水平层次等数量和比例较少的语料进行专门补充;对于数量和比例较多的,将优先选择那些各项背景信息较全的语料,放弃关键信息缺失的语料。而如果多出的语料各项背景信息都比较齐全,我们可以放在生语料中。对于当今的计算机和网络条件来说,容量已经不是问题,背景信息齐全的语料总会有它可利用的研究价值。作为一个对学习者开放上传语料的语料库建设系统来说,只要语料符合要求、背景信息齐全,我们就没有理由放弃。
3.2.4语料库检索系统设计方面
中介语语料库的平衡是语料库建设者根据自己的建设理念确定下来的一种固定状态的平衡,能否满足使用者的个体研究需求无疑具有一定的不确定性。正如黄昌宁、李涓子(2002:29)谈母语语料库时所言,“当前解决语料库平衡问题时大部分建设者采用的还是按题材和体裁等来进行的,由于题材和体裁的分类有角度和层次的不同,因而这方面的平衡问题显然依赖于建库者对观察角度的选择、语料特征的鉴别和分类层次的分析”。这是针对母语语料库而言的,而中介语语料库平衡性涉及的属性因素和属性内部类别的划分更多更复杂,受建库者主观认识的影响也更大。同时随着研究领域的拓展和深入,语料库使用者的关注点也是不断发展变化的,这就势必在建库者的主观认识与使用者个体需求之间产生差异和矛盾。
“全球汉语中介语语料库”将通过设计有利的检索系统来降低这一差异。“全球汉语中介语语料库”的语料检索系统除了可按单个背景信息检索语料外,还将可以合并两项或两项以上的背景信息进行检索,例如可以检索某个国别的语料,也可以检索同时满足某个国别、某个水平层次、某类话题条件的语料。这实际上是根据语料的属性标签确定了多个不同的子语料库,以及不同子语料库的交集语料库。这一措施在语料库总体语料结构的框架下满足了使用者自己定义语料选取范围的要求,是由使用者自己定义的平衡,为语料库使用者进行更精细的研究提供了条件,在一定程度上缓解了建库者的主观认识与使用者的个体需求之间的差异问题。
以上这四个方面是“全球汉语中介语语料库”建设过程中保证语料库平衡的四个顺序性的阶段,每个阶段都很重要,并且前一个阶段为后一个阶段以及语料库的最终平衡奠定基础。语料库建成后,课题组还将在语料库的使用说明中出具各类型语料的数量和比例的统计报告,以供使用者参考。
4.余论
语料库的平衡性是语料库建设中一个全局性的问题,对于大型的中介语语料库来说更是如此。要解决好这一问题,除了有正确的理念引导外,更重要的是在实践操作中贯彻和落实。我们需要认识到,中介语语料库的平衡性追求不可能有一个完美的状态,囿于理论和现实多方面的制约因素,总会有这方面或那方面的缺憾,总会在某方面满足了一部分的研究需要而没有满足另一部分的研究需要。正因为这样,提供条件让语料库使用者自己选择符合特定研究要求的平衡语料就更加重要。要实现这一目标,一是语料库总量要大,各类语料充足,二是语料要附带丰富的背景信息。“全球汉语中介语语料库”在建设过程中的各个环节都努力为实现这一目标创造条件。
陈小荷1997“汉语中介语语料库系统”介绍[A].载第五届国际汉语教学讨论会论文选[C].北京:北京大学出版社:450-458.//Chen Xiaohe1997An introduction to Chinese interlanguage corpus system[A]. In Proceedings of the 5thInternational Conference on Chinese Language Teaching[C].Beijing:Peking University Press:450-458.
储诚志,陈小荷1993建立“汉语中介语语料库系统”的基本设想[J].世界汉语教学(3).//Chu Chengzhi &Chen Xiaohe1993The basic idea of establishing the system of Chinese interlanguage corpus[J].Chinese Teaching in the World(3).
崔希亮,张宝林2001“全球汉语学习者语料库”建设方案[J].语言文字应用(2).//Cui Xiliang&Zhang Baolin2001The principles for building the“International Corpus of Learner Chinese”[J].Applied Linguistics(2).
黄昌宁,李涓子2002语料库语言学[M].北京:商务印书馆:29.//Huang Changning&Li Juanzi2002 Corpus Linguistics[M].Beijing:The Commercial Press:29.
任海波2010关于中介语语料库建设的几点思考——以“HSK动态作文语料库”为例[J].语言教学与研究(6).//Ren Haibo2010Towards to the construction of the inter-language corpus of Chinese—Using the dynamic corpus of writing papers from HSK as an example[J].Language Teaching and Linguistic Studies(6).
施春宏,张瑞朋2013论中介语语料库的平衡性问题[J].语言文字应用(2).//Shi Chunhong&Zhang Ruipeng2013The balance of interlanguage corpora[J].Applied Linguistics(2).
张宝林,崔希亮2013“全球汉语中介语语料库建设和研究”的设计理念[J].语言教学与研究(5).//Zhang Baolin&Cui Xiliang2013Design concepts of“the construction and research of the inter-language corpus of Chinese from global learners”[J].Language Teaching and Linguistic Studies(5).
Key words:inter-language corpus of Chinese;balance;principle;methods
Abstract:This paper starting from the key factors for balance of inter-language corpus,discusses the basic principle and multi-measures to achieve balance of“Inter-language Corpus of Chinese from Global Learners”.The basic principle of balance is based on the reality of Chinese international education,taking into account the representativeness and coverage.Measures have been taken to achieve the balance of the corpus at every stage of the data acquisition,the annotation of corpus attributes,the determination of the input data,the design of the corpus retrieval system,etc.with the purpose of realizing dynamic balance and users’balance of inter-language corpus.
附录:
语料作者的背景信息:
(1)国籍
(2)年龄
(3)性别
(4)学历
(5)性格类型(外向/内向)
(6)是否华裔
(7)第一语言
(8)熟悉的其他外语
(9)学习汉语的动机
(10)语料写作时的汉语学习学校
(11)进入该校的时间
(12)语料写作时的所属年级
(13)语料写作时使用的主要教材
(14)以前的汉语学习经历
(15)以前使用的主要教材
(16)参加过的HSK考试及最近一次的成绩
(17)汉语水平层次(初级、中级、高级)
语料背景信息:
(1)语料产出的条件(考试/课堂练习)
(2)语料产出的方式(命题作文/看图写话/读后写/听后写等)
(3)语料写作时间
(4)语料写作地点
(5)规定写作时间
(6)规定字数
(7)语料长度
(8)评卷老师所给得分
(9)文体类别
(10)话题类别
【责任编辑 苏 政】
On the Balance about“Inter-language Corpus of Chinese from Global Learners”
Li Guimei
(Faculty of Linguistic Science,Beijing Language and Culture University,Beijing 100083,China)
H195.3[文献标识码]A[文章编号]1674-8174(2017)02-0046-06
2016-10-10
李桂梅(1976-),女,河北邯郸人,北京语言大学语言科学院副研究员,博士,研究方向为汉语语法、中介语语料库及语言规划。电子邮箱:93809622@qq.com。
北京市社会科学基金项目“汉语中介语语料库的语料质量监控研究”(15WYC073)//Beijing Social Science Fund:“The Research on Quality Monitoring in Chinese Interlanguage Corpora”(15WYC073);教育部哲学社会科学研究重大课题攻关项目“全球汉语中介语语料库建设和研究”(12JZD018)//Ministry of Education Philosophy and Social Science Fund:“The Construction and Research of the Inter-language Corpus of Chinese from Global Learners”(12JZD018)