基于语料库的词语知识提取与外向型词典编纂*
2013-02-23邢红兵
邢红兵
一、引 言
随着语料库资源建设的逐渐深入及语言习得理论的发展,研究者更加重视语言事实对语言习得的影响。比如以联结主义为代表的语言习得观,主张语言习得的过程实际上是学习者通过真实的语言材料获取语言知识并储存于心理词典中(Rumelhart&McClelland 1986;Bates et al.1998;MacWhinney 1999)。语料库资源正在语言教学及研究中发挥越来越重要的作用,目前国外的很多外向型词典的编纂就以语料库为依据。我们认为,在第二语言词汇习得过程中,学习者习得第二语言词汇的关键是以目标词在目标语言中的使用情况为核心的动态词汇知识体系(邢红兵2009,2012;刘慧芳2011),获取目标语料库词语知识是二语词汇习得研究的核心。在语料库中提取词汇知识,形成目的语词汇知识体系,对外向型词典的编纂有着非常重要的参考价值。现有的汉语作为第二语言的外向型词典,并没有能够真正完全利用语料库进行编纂,也没有形成严密的知识体系。我们认为,外向型词典中的词条应是目的语词汇使用特点的高度概括,如何将基于语料库的语言知识概括、全面地反映到词典编纂过程中,还需要进行大量的研究。本文从基于语料库的词汇知识提取角度,提出利用语料库编纂外向型词典的基本原则及操作方式,希望为词典编纂者提供些许帮助。
二、基于语料库的词汇知识提取
1.关于词汇知识
第二语言词汇习得的研究,由早期主要关注词汇量问题逐步转向词汇知识的相关研究,比如研究者都在思考这样的问题:“学会一个词意味着什么?”Richards(1976)提出了一个词汇知识框架,认为词汇知识主要包括词语的频率、搭配、存储、位置、词形、关联、语义内涵、多义关系等几个层面的信息。Nation(1990)在此框架的基础上,将词汇知识归纳为形态、位置、功能、语义等四个大类,并提出了贯穿各个层面的产出性词汇和理解性词汇的概念。Schmitt&Meara(1997)进一步强调了词语知识还应包括不同类词语之间的联结和关联。邢红兵(2009)基于联结主义理论归纳出第二语言词汇知识应该分为读音、词形、意义三个部分及其相互联结,每个部分都有自己的特征,各类知识按照一定的规则组织在各自的词典当中,其中语义知识是词汇知识的核心,语义知识主要包括静态知识、动态知识和词语关系知识。在第二语言词汇知识系统中,除了形、音、义等基本信息以外,词汇知识的关键还在于词语在使用过程中形成的词汇知识,比如词语的搭配信息和词语关系知识。
2.基于目标语的词汇知识提取
第二语言词语学习的主要目标和难点就在于词语在目标语中的运用,主要表现在对目标语词语的熟练程度、对目标词各种功能的掌握、对目标词各种搭配的掌握以及搭配的丰富程度等方面。将目标语的运用概括成为词汇知识,并反映到词典中,这是基于语料库的词典编纂的总原则。因此,基于语料库的知识提取是词典编纂的第一步。
下面我们举例分析。张博、邢红兵(2004)曾建立一个“现代汉语义项标注语料库”(以下简称“义项语料库”),该语料库选取了1385598字的书面语语料,包括报刊文章、汉语教材、科技文章、文学作品等;同时还选取了707478字的电视访谈节目转写的文本,话题涉及社会生活各个方面。全部语料共有2093076字,1491266词。以《现代汉语词典》(第3版,以下简称《现汉》)的义项分列为依据,采用计算机辅助、人工逐一校对的方法,对语料的全部义项进行标注,在此基础上形成了基于语料库的现代汉语义项次数数据库,该数据库目前共有52665个词形,75073个义项。我们选择了一定数量的常用动词和形容词,从该语料库中提取了这些常用谓词的全部例句,并采用人工分析的方法对这些词的句法功能及搭配词语进行提取,最后得到常用谓词句法功能及搭配词语数据库。以“简单”为例,我们分析了“简单”做谓语时的全部句法功能,并提取出全部的搭配中心词语及其搭配频率等,和“简单”搭配的词语按照功能分类形成了“简单”的知识体系(见图1)。
我们觉得基于语料库的目的语词汇知识应该能够涵盖词语在目的语中的几乎全部使用情况。从目前的研究来看,主要包括以下几个方面:词语的使用频度、功能分布、搭配知识、使用框架、关系分析等方面。下一节我们将具体进行分析。
三、词典编纂与知识提取
1.从语料库中获取词语使用频度
图1 “简单”的搭配知识体系示意图(邢红兵2012)
词语在目标语中的使用频度是外向型词典词语选取及等级分布的依据,词语频度统计数据在汉语教学活动中已经发挥了很重要的作用。但是,从语料库中可以获取的频率信息远超过词语频度,比如词语的义项的使用频率、词语的搭配频率等等。比如词语的义项频率分布,每个义项在现代汉语语料库中使用的次数并不相同,这里以动词“打”为例,来分析其义项的分布。动词“打”有25个义项,各个义项在“义项语料库”中的出现次数按照降序排列的情况见表1,括号中的数字是“打”在《现汉》中的义项号。
表1 动词“打”的义项使用次数降序排列表
从表1的数据可以看出,“打”的25个义项在现代汉语中的使用情况有明显的差异,如果按照教学的等级划分来看,这25个义项应该排列在各个不同的阶段进行教学。我们在编纂外向型学习词典的时候就需要按照各个义项的使用频度进行排列,常用词词典也需要选择常用的义项进行释义。
2.从语料库中获取词语的功能及分布
词语的功能分布是词语知识的重要组成部分,也是二语教学中的重点,其中以谓词在语料库中的句法功能的表现最为突出,比如说动词所具备的功能就包括做谓语、做定语、做补语、做状语,甚至做主宾语。作为谓词的形容词的句法功能也很丰富,常用的功能主要包括做定语、做谓语、做状语和做补语等。我们从“义项语料库”中随机抽取了8个形容词,对这些词在全部语料中的句法功能进行了统计分析,结果见表2。
表2 形容词句法功能分布情况表
从表2的数据可以看出,“重要”和“主要”是以做定语功能为主的形容词,“重要”的次要功能是做谓语,“主要”的次要功能是做状语,“正确”和“友好”的主要功能是做定语和状语,“突然”和“完全”的主要功能是做状语,“突然”偶尔做谓语和补语,“完全” 一般不做谓语和补语,有时可以做定语。“幸福”和“整齐”具备四种句法功能,特别是“整齐”的句法功能相对自由。我们认为,这些功能在使用上表现出来的主次差异也应该体现在外向型词典词条的功能释义和用例中。
3.从语料库中获取词语的搭配词及其频率
我们认为,一个词语在实际语言使用过程中表现出来的句法功能分布、词语的搭配及其使用频度、搭配词语的语义特征、各类词语的使用次数等因素构成了目标语词汇知识体系的主体。外向型词典要体现目标语的使用情况,其中最重要的一个方面就是要最大程度地体现词语在目标语中的搭配情况。下面我们以“高兴”为例,对“义项语料库”中形容词“高兴”所搭配的各类词语进行了统计分析。统计的主要搭配类型、搭配词语及其频度如下:
做宾语时的述语:感到(8)、觉得(5)、表示(2)等;
做谓语时的状语:很(44)、不(42)、特别(21)、非常(17)、挺(13)等;
做定语时的中心语:事(5)、时候(4)、样子(3)、事情(2)等;
做状语时的中心语:说(7)、笑(5)等;
做补语时的中心语:玩(2)、喝(1)、吃(1)等。
从这个结果可以看出,“高兴”能够充当不同的句子成分并能够和不同的词语形成不同的搭配关系,这些搭配关系及其搭配频率构成了词语的搭配知识,这些知识也是词汇知识的主体,应该是外向型词典编纂时所要强调和突出表现的。
4.从语料库获取词语的句法框架及其频率
由于谓词是句子的核心,因此,对于一个谓词,它在实际语料库中的句型频率也是体现谓词用法的重要特点。以动词“摆”为例,我们统计了“义项语料库”中“摆①”的全部例句,共有108句,并对这些句子的句法结构进行了归类,并进行统计,“摆①”句法结构及其频率见表3。
表3 “摆①”的句法结构频率表
从表3的统计结果可以看出,“摆①”在实际语料中使用时出现的句型可以归纳为15种,其中“(处所)+摆+NP受”和“(NP受)+摆+P+处所”是“摆①”最常用的句型,占全部句型的近60%。因此我们在编纂外向型词典时,就要体现各个句型的常用度。同时也可以看到,动词的受事成分“NP受”在“摆①”所构成的句法表达中占有非常重要的地位,几乎是句法表达中不可缺少的成分。
5.从语料库中获取词语知识,建立词语关系
词语在运用的过程中会形成多种关系,可以概括为组合关系和聚合关系,前面我们分析的搭配关系,实际上就是组合关系。除了组合关系以外,词语在实际使用中也会形成一定的聚合关系。二语学习者在学习具有聚合关系的词语过程中,目标就是能够既建立词语之间的关联,也能够从使用的角度进行很好的区分。比如表示美丽的同义关系词语常用的有“美丽”、“漂亮”、“好看”等,学习者除了建立它们的关联以外,更重要的是正确区分使用。要区分这组词,就必须从句法功能分布、搭配词语的范围、使用框架等方面着手。我们这里只分析这三个词语的句法功能分布(见表4)。
表4 “美丽”、“漂亮”、“好看”的功能分布对比
从表4的比较我们可以看出,按照使用次数,“美丽”最常用,“好看”使用次数最少;在句法功能上,“美丽”和“漂亮”更接近,做定语是它们的主要功能,并且占绝对优势;而“好看”的主要功能则是做谓语,三个词语在功能分布上并不一致。当然,除了句法功能以外,三个词语各自搭配的词语及其频度等信息也在词语的关联和区分中起到了重要的作用。按照这样的功能分布,词典编纂中就应该将三者的功能主次作为主要的编写点体现在词条中。
四、结 语
我们认为,编纂外向型学习词典的指导思想可以概括为以下几个方面:(1)编纂过程着重词语用法的概括和举例,淡化抽象的释义形式;(2)重视基于语料库的频度因素对词典用例选择的作用;(3)将词典中展示的词汇知识扩展到搭配、句法和功能等方面。通过举例分析,我们觉得,基于语料库的语言知识的提取对外向型学习词典的编纂具有非常重要的意义,就目前的情况来看,我们还需要对如何将语料库知识更好地反映在词典编纂过程中进行深入的研究。本研究只是一个初步设想,基于语料库的词典编纂只是我们编纂外向型词典过程中必须关注的一个角度,外向型词典的编纂还应该考虑学习者的母语背景和学习者自身的认知特点,因此,不同母语背景学习者的母语特点也是我们编纂外向型词典需要考虑的一个因素,这些方面还需要做很多工作。
1.刘慧芳.基于语料库的形容词词汇知识习得研究.北京语言大学硕士学位论文,2011.
2.邢红兵.基于联结主义理论的第二语言词汇习得研究框架.语言教学与研究,2009(5).
3.邢红兵.第二语言词汇习得的语料库研究方法.汉语学习,2012(2).
4.Bates E,Elman J,Johnson M.et al.Innateness and Emergentism.∥Bechtel W,Graham G.(Eds.).A Companion to Cognitive Science.Oxford:Blackwell,1998:590—601.
5.MacWhinney B.The Emergence of Language.Mahwah:Lawrence Erlbaum,1999.
6.Nation P.Teaching and Learning Vocabulary.New York:Newbury House,1990.
7.Richards J C.The Role of Vocabulary Teaching.TESOL Quarterly,1976(1):77—89.
8.Rumelhart D,McClelland J.On Learning the Past Tenses of English Verbs.∥James L,McClelland J,David E.(eds.)Parallel Distributed Processing:Explorations in the Microstructures of Cognition.Vol.2:Psychological and Biological Models.Cambridge:MIT Press,1986:216—271.
9.Schmitt N,Meara P.Researching Vocabulary through a Word Knowledge Framework:Word Associations and Verbal Suffixes.Studies in Second Language Acquisition,1997(1):17—36.