汉语搭配词典存在的问题及应对策略研究
2017-03-07郝瑜鑫徐婷婷
郝瑜鑫 徐婷婷
摘要文章首先对现代汉语搭配词典的大致情况进行了介绍。在此基础上,结合搭配词典的用户群体,编纂理念和方法,词项在真实文本中的用法指出了存在的问题。最后,针对汉语搭配词典存在的问题提出了建议。
关键词搭配词典汉语问题调查对策
一、 引言
随着“汉语热”的到来,为了满足汉语教学和学习的需要,学界陆续编纂出版了一些汉语学习词典,如孙全洲主编的《现代汉语学习词典》、李忆民主编的《现代汉语常用词用法词典》、李晓琪主编的《汉语常用词用法词典》、徐玉敏主编的《当代汉语学习词典》、鲁健骥等主编的《商务馆学汉语词典》等。付娜(2010)对四部学习词典中的词语搭配进行了考察。词典在对搭配的处理方式上分隐性处理和显性处理,前者指在释义或配例中给出搭配,后者是直接给出搭配的情况。研究发现,这些词典对搭配的处理存在一些问题,如配例分配与搭配在真实语言材料中的分布不合,配例典型性不够,配例实用性不强,同类型搭配信息重复,固定搭配漏收或者没有与自由搭配区别对待等。作者还进一步提出了解决这些问题的策略。
现代汉语搭配词典的编纂从二十世纪八十年代开始起步,九十年代出现了一批能代表当时汉语界词语搭配研究水平的词典。从收词与所收搭配的情况来看,汉语搭配词典可以分为四类: 第一类是专收实词的搭配词典,如《学生常用词语搭配词典》(以下简称《学生》;张寿康,林杏光1989)、《简明汉语搭配词典》(以下简称《简明》;张寿康,林杏光1990)、《现代汉语实词搭配词典》(以下简称《实词》;张寿康,林杏光1996);第二类是偏重于收实词,兼收虚词的词典,如《汉语常用词搭配词典》(以下简称《汉语》;杨天戈等1990)、《常用词语搭配词典》(以下简称《常用词》;赵培庠1999)、《现代汉语搭配词典》(以下简称《现代》;梅家驹1999);第三类是专收动词搭配的词典,如《汉语常用动词搭配词典》(以下简称《搭配》;王砚农等1984);第四类是专收某类词与特定句法成分搭配的词典,如《汉语动词结果补语搭配词典》(王砚农等1987)就只收录动词与其结果补语的搭配。从词典学角度专门论述搭配的文献不多,大都散见于相关词典的序言、使用说明中。杨同用、司敬新(2007)从搭配词典编纂的角度对搭配进行了分类,分为语法搭配、逻辑搭配、习惯搭配、高频搭配与个性搭配、固定搭配、超常搭配等,作者认为习惯搭配、高频搭配、固定搭配是搭配词典应该处理的重点内容。和英语搭配词典一样,汉语搭配词典对搭配的处理也是综合性的,提供了丰富的语义、句法信息。但是汉语词典也存在不少问题,如不区分自由搭配和限制搭配(郭茜,黄昌宁1995),即没有对搭配进行细致分类,更没有区别对待;这些搭配词典都没有提供词项出现的典型句法模式(即句型),部分词典提供了诸如主谓、动宾这样的搭配框架,但这对于学习者来说是远远不够的;这些搭配词典都不是在大规模语料库的基础上完成的。
从以上论述可以看出,汉语搭配词典,尤其是面向汉语作为第二语言的学习者的搭配词典还有许多不完善之处,这就需要我们对汉语搭配词典进行细致考察。本文以七部汉语搭配词典为研究对象,比较搭配词典存在的问题,进而提出初步的解决对策。
二、 汉语搭配词典存在的问题
1. 宏观方面的问题
从宏观的角度来看,汉语搭配词典在用户群体的针对性、收词量、语料的使用和信息呈现手段等方面尚存在问题,下文逐条论述。
(1) 用户群体的针对性
一般来说,任何一部词典在编纂之初就应该有比较明确的目标用户群体。从国际词典学的发展趋势来看,使用者视角的词典研究已经成为一个热门的研究领域,国际上已有不少学者对该领域进行了专门研究,Atkins、Hartmann和Yukio Tono等学者出版了专题论著。(郝瑜鑫,王志军2013)但我们所考察的七部现代汉语搭配词典所拟定的目标用户群体都缺乏针对性,大多数词典在前言中称其服务对象为中小学生、教师、语言文字工作者、留学生、计算机用户等。根据这种表述,这些搭配词典的适用群体似乎很广泛,但是从另一个角度来看,所涉及的面越广,其针对性就越差。目标用户群体的不同直接影响到词典的收词数量、收词范围、编写体例,甚至会影响具体的词条处理。
(2) 收词量的问题
从上文可以看出,现代汉语搭配词典所收录的词多为常用的动词、形容词和名词,收词量从1000到8000不等,其间差距竟如此之大,那么现代汉语搭配词典究竟应该收录多少词比较合适?《汉语水平词汇与汉字等级大纲》是国家汉语水平考试委员会办公室考试中心在大规模真实文本的基础上通过计算机进行词频统计,然后再加以人工干预制定的常用词词表,因此该词表中所收录的词语基本涵盖了当代汉语较为高频的常用词。该词表收录动词约3200个,形容词约1200个,名词约3500个,其中谓词约4400个,因此我们认为,仅以谓词作为词目词的搭配词典,其收词量应在4400个左右,如果加上一些用法比较特殊的名词,收词量应该在6000个左右。
(3) 语料选择和统计方法的使用
本文所考察的七部搭配词典有三部沒有交代语料的来源(《搭配》《学生》和《现代》),其余四部均选自影响力较大的现当代典范文学作品,调查手段为人工制作卡片。由此可以看出,这些搭配词典在语料的选择和使用方面都存在较大问题。首先是语料的选择过于单一。从语体的角度来看,仅仅涉及书面语体;从语域的角度看,主要涉及的只有文学作品。其次是统计手段过于传统。从文学作品中选择例句后人工制作卡片的方式费时耗力且不能保证统计的准确性。二十世纪后半叶,由于语言研究观念的转变,加之计算机处理自然语言技术的发展,计算机技术开始应用于语言研究。1961年,弗朗西斯(N.Francis)和库塞拉(H.Kucera)等学者合作建成了世界上最早的机读语料库,即布朗语料库(Brown Corpus)。二十世纪九十年代以后,汉语大规模语料库的建设得到了重视。大规模语料库的建设无疑为语言研究和词典编写中的检索、分析语料提供了莫大的便利。下文还将就这一问题具体展开论述。
(4) 信息呈现手段过于单一
正文中通过插图、插表等直观形象的方式说明词语的句法、语用等信息,已经是英语词典普遍采用的方式,比如使用柱状图或饼图展示词语在不同语域中的使用概率等。(郝瑜鑫 2013b)和英语搭配词典相比,汉语搭配词典信息呈现手段过于单一,所考察的七部词典均为文字表述,没有使用任何插图、插表等辅助手段。
2. 微观方面的问题
从微观的角度看,在对不同类型搭配的处理、词目词的处理、搭配信息的处理等方面,汉语搭配词典存在不少问题。
(1) 不同类型搭配的处理
这些词典对固定搭配与一般搭配不加区别,对半固定搭配不予收录。固定搭配包括成语、惯用语等。这类词语通常在形式上是凝固的,不能随意更换;语义上通常是融合的,也就是说,一般情况下不能按照字面意思来理解。本文所指的固定搭配不一定是成语或者惯用语,但符合以上列出的两个特点。一般搭配与固定搭配不同,通常可以替换其中的词语,一般搭配的意义可以通过词与词意义的相加得到。然而,如《简明》中词项“帮”的搭配中将固定搭配“帮闲凑趣”“帮倒忙”等和一般搭配“帮别人”“帮我出主意”“帮着叠衣服”等混杂在一起,不加区分,显然是对搭配的类型没有处理好。
半固定搭配通常是一个开放的框架,在这个框架内可以更换一部分词语。半固定搭配是非常典型的一类搭配,对于语言运用尤其重要。但是我们所考察的搭配词典对这类搭配关注甚少。譬如“帮助”大多数可以出现在“在N的V下”这个半固定搭配框架中(如“在老师的帮助下……”),词项“到”有一个半固定搭配是“到某时间为止”,但这些搭配均没有收录进词典。
(2) 词条处理不当
词条处理不科学,没有及时吸收汉语研究的相关成果。此处以离合词“帮忙”的处理为例进行说明。《学生》和《实词》中,“帮忙”一词只有合式的搭配情况,离式的用法完全没有涉及;而《简明》中“帮忙”混杂在“帮”中。汉语的离合词现象很早就受到了关注,研究成果也颇为丰富,显然搭配词典这样的处理没有吸收相关的研究成果。此外,《简明》对“帮助”的处理也存在类似的问题,“帮助”有动词和名词两个词性,分属于不同的义项,但《简明》把这两个义项的搭配混在一起罗列。汉语的研究越来越接近语言事实,越来越精密,因此搭配词典的编纂应该不断吸收语言学研究中较为成熟的成果,以使词语搭配的描写更符合语言使用,为用户提供更为准确的信息。
(3) 搭配信息不规范
搭配信息不规范,方言俚语混杂其中。现代汉语搭配词典提供给用户的信息应该属于汉语普通话的范畴,具有规范性。大多数搭配词典收录的语料来自现当代名家名作,但是名家名作中也有很多非标准普通话的元素,这些信息不应该收录在搭配词典中。如《汉语》中词项“帮忙”的搭配中有“这就帮了俺的大忙了”“我凭啥子帮你忙”“帮忙搞总结”等例句,这里的“俺”“啥子”“搞总结”等就不属于通用的规范词语。
(4) 信息冗余
贪多求全,面面俱到。譬如《实词》《汉语》等把词项所有可能出现的搭配框架都列出来,然后添加搭配词或完整句例证。就动词而言,几乎所有的动词都列出了做谓语、宾语、主语、状语、定语、中心语的情况,其中《实词》在搭配框架和说明部分明确提出每个词的搭配框架穷尽列举不遗漏的编纂理念。词项“帮忙”在我们考察的语料中无一例做宾语的情况,但是《汉语》等词典依然列出该框架的搭配词。这些做法体现出了很强的贪多求全倾向,显然与语言教学和学习所需求的搭配词典应具有典型性的要求相去甚远。
(5) 所列搭配与词项真实用法不相符
在语料库中以“帮助”为关键词检索到有效语料250例,在此基础上整理出“帮助”的用法分布状况,详情如表1所示:
依表1为参照,我们对部分搭配词典进行了细致的考察。结果发现,不少搭配词典列出的搭配类型及该类型所占总数的比例与真实语料不相符。譬如,《学生》中“帮助”做谓语列出搭配24项,占总数的48%,做宾语列出26项,占52%;而真实话语中做宾语的情况仅有34.4%。就“帮助”做谓语的情况而言,《学生》中体词性宾语和谓词性宾语占总数的42.86%,兼语宾语占14.29%,真实文本中“帮助”接谓词性宾语仅有9.73%,而兼语有4269%。《实词》等词典甚至没有列出“帮助”的主要用法后接兼语的情况,出现了严重的典型搭配漏收问题。
搭配词与词项用法不相符还体现在例句的排序上。比如《学生》先列出“帮助”带体词宾语的情况,然后是带谓词宾语,接着是状语,最后才是带兼语的例证。《简明》各类搭配混杂在一起,没有任何排序的意识。这种编排顺序显然不符合词项的用法,而没有对所列材料进行排序的做法更是难以满足用户的需求。
(6) 语用信息缺乏系统性和准确性
现代汉语搭配词典提供的主要是词项的句法和语义的相关信息,而对语用信息的揭示很不到位。所考察的七部搭配词典中只有《汉语》提供了部分词项的语用信息,但是有些信息的准确性还有待研究。譬如《汉语》收录的“鼓励”类动词有“鼓励”“鼓动”“鼓舞”“激励”和“勉励”五个词项,其中只有“鼓励”提供了语用信息“多用于褒义,也有少数用于贬义”,但是在我們所考察的108例语料中,该词项并无一例用于消极语义的情况。所以,现代汉语搭配词典的编纂和研究需要在词项的语用信息方面下更大的功夫。
三、 应对策略
针对当下搭配词典存在的问题,我们认为应该从四个方面采取措施。
1. 词典编纂者知识结构的更新和完善
从目前发现的一些问题来看,搭配词典编纂者知识体系陈旧是造成搭配词典存在问题的一个非常重要的原因。词典编纂和研究是一项理论性和实践性兼具的综合性活动,对词典编纂者的要求也非常高,只有词典编纂者自身的知识结构完善并且能够及时更新,才有可能编纂出高质量、满足使用者需求的词典。当代词典工作者,特别是从事学习词典编纂、研究的工作者,除词典学的基本理论外,我们认为至少还需要具备四个方面的知识: 第一,当代语言学理论;第二,当代汉语语法、词汇、语义研究的新动态;第三,语言习得理论;第四,语料库数据库技术。
2. 对用户搭配词典需求的广泛调查
“需求分析”理论在管理学、外语教学等多个领域广泛使用(陈冰冰2009)。需求分析的首要任务就是要明确搭配词典的使用对象。从大的方面看,首先可以分为机用搭配词典和人用搭配词典。机用搭配词典属于人工智能的范畴,主要用于文本自动识别、机器翻译等方面。人用搭配词典又可以分为面向本族人的和面向外族人的两类。汉语搭配词典的设计首先要明确服务对象。只有明确了用户群体,才有可能对用户的特点和需求开展广泛的调查研究,才有可能编纂出针对性强、适合用户特点的词典。郝瑜鑫等(2010)对汉语普通词典的调查发现: (1) 不同水平汉语学习者需要不同内容和体例的词典,用一部词典来满足所有学习者需求的愿望是不现实的;(2) 学习者对纸质词典、电子词典和网络词典都有需求,汉语水平不同,具体需求也不同;(3) 搭配和例句在数量和质量上都应该科学安排,不应该只根据编写者的经验处理;(4) 对词语语用和语法信息的说明是受用户欢迎的。这些调查结果对搭配词典的编写也有一定的启发意义。
3. 积极汲取词汇习得的研究成果
偏误分析是将学习者的语言系统考虑在内的语言习得理论,主要关注学习者习得过程中出现的偏误现象。这对二语搭配词典的编纂是有实际意义的。首先,词典编纂者具备了偏误分析的意识,意识到了学习过程中可能出现的偏误,那么就会对相关的语言现象进行特别处理。其次,偏误分析的研究成果可以体现在二语学习者所用的学习词典中,既可以是独立成册的正误对比词典,如杨庆蕙(2009)主编的《现代汉语正误辞典》,也可以体现在搭配词典词条中,如Langman Interactive English Dictionary(《朗文互动式英语词典》)和Cambridge Advanced Learners Dictionary(《剑桥高级英语学习词典》)。后一种处理方式在二语学习者所用汉语学习词典中尚不普遍。
偏误分析主要关注的是学习者习得中的偏误现象,而这对于观察、揭示语言习得规律是远远不够的。对学习者的语言系统进行全面分析的理论是中介语理论。该理论认为: (1) 中介语具有独立性;(2) 中介语是可以观察到的语言系统;(3) 中介语具有系统性;(4) 中介语具有动态发展的特点。(王建勤2009)。从这些特点可以看出,中介语是可以进行研究的。
Sylviane Granger于2002年提出了中介语对比分析方法(Contrastive Interlanguage Analysis, 简称CIA)。中介语对比分析包括两种类型的对比,一为母语者(NS)语料和非母语者(NNS)语料的对比,二为不同类型非母语者语料的对比。前一种对比的目的是弄清楚学习者所产出的中介语的特征。这种对比能够凸显非母语者语料的一系列特征,不单单是偏误,而且能显示出学习者对词语、句法结构的使用不足和使用过度。Granger早在1998年就做过这方面的研究。后一种对比是常见的一种类型。通过对不同母语者中介语语料的分析能够显示出母语背景在语言习得中的影响,即语际迁移。Granger & Tyson(1996)通过对母语为法语、荷兰语和汉语的学习者习得英语连接词的考察就证明了这个问题。Granger所在的比利时Louvain大学英语语料库语言学中心已经承担了麦克米伦系列词典(Macmillan English Dictionary)的修订再版任务,相信这一研究范式将会在二语学习者所用英语学习词典中施展用武之地。但是,基于该研究范式进行的汉语研究寥寥无几(郝瑜鑫2013b),更不用说对二语学习者所用汉语搭配词典的影响。
4. 语料库数据库的科学使用
词典编写要依据语言事实,这是最基本的原则之一,但是语言事实从哪里得来?以往的搭配词典编写大多是基于编写者个人的语言感觉,然后再通过报刊等书籍中的用例加以佐证,其手段多是靠摘抄卡片。用这种方法得来的材料相对来说问题比较多,至少有四个方面: 其一数量少,其二不够全面,其三典型不突出,其四难以进行统计。这样一来,编纂者对语言事实的描写就会存在问题,编纂出的成品有各种各样的问题也就不足为奇了。
自二十世纪六十年代Francis和Kucera等学者合作建成世界上最早的机读语料库Brown Corpus以来,语言学研究就发生了翻天覆地的变化,越来越多的学者开始采用基于语料库或语料库驱动的方法。随着计算机技术的发展,现在我们已经完全有可能占有大规模的语言材料,并且计算机可以在语言材料分析中提供帮助,虽然人工干预仍然不可缺少。Sinclair(1966)认为基于计算机的搭配研究,目的是为了在大规模文本中发现词项结伴出现的频率,即词项与词项之间形成搭配相互联结的强度,并建议通过设置跨距的方法来进行调查。Smadja(1993)研制了Xtract检索统计工具,该软件可以从大规模文本中获取并确认搭配,还可以用于辅助词典编纂。Smadja、McKeown和Hatzivassiloglou(1996)研制了自动翻译搭配的工具Champollion。Biber(1993)跟Smadja等学者的研究兴趣比较接近,自主开发了搭配自动提取工具Factor analisis。该软件可以识别目标词的典型搭配模式、计算搭配出现的频率、确认经常共现的搭配。汉语界从计算语言学视角对搭配进行观照的学者孙茂松等(1997)在借鉴国外计算语言学搭配研究成果的基础上,提出了确定搭配的三项统计指标,包括强度、离散度和尖峰。在此基础上研制了搭配自动提取工具,通過对“能力”一词的实验,结果发现正确率已经相当可观。在孙氏之后搭配自动提取的方法得到了很大程度的改善,自动识别和提取涉及的范围也越来越广,既有一般性的研究,也有在某种句法框架内的研究,还涉及了部分虚词搭配的自动提取。目前在汉语词语搭配检索方面做得比较成熟的是台湾“中央研究院”语言学研究所开发的“中文词汇特性速描系统”,比如在系统中输入“能力”一词,就可以得到该词不同搭配框架的高频搭配词,如高频定语有“思考、判断、学习、想象、沟通、研发、运算、强大、足够、外语、经济、竞争、消费、心理、思维”等,作为宾语时的高频谓语有“培养、具备、丧失、缺乏、失去、提升、发挥”等,作为主语时的高频谓语有“强、不足、差、弱、好、不错、下降、降低、培养、提高、提升”等,修饰它的高频量词有“种、类、项”等。可见,从技术层面来讲,计算机介入汉语搭配词典编纂的时机已经比较成熟。借助大规模语料库,运用搭配识别软件,借助数据库的强大统计功能,是编纂高质量的汉语搭配词典的必由之路。
参考文献
1. 陳冰冰.国外需求分析研究述评.外语教学与研究,2009(2).
2. 付娜.外向型汉语学习词典配例中搭配信息的呈现原则及实现条件.辞书研究,2010(5).
3. 郭茜,黄昌宁.Benson在搭配方面的研究——兼评《BBI英语搭配词典》.国外语言学,1995(4).
4. 郝瑜鑫.汉语学习词典语法信息的呈现原则与实现条件.西华大学学报,2013a(6).
5. 郝瑜鑫.定量研究与汉语学习词典编纂理念的创新.云南师范大学学报,2013b(5).
6. 郝瑜鑫,刘文,邢红兵.基于大规模语料库和词汇习得理论的学习型词典编撰构想.湘南学院学报,2010(6).
7. 郝瑜鑫,王志军.国外汉语学习词典需求之探讨.华文教学与研究,2013(4).
8. 梅家驹.现代汉语搭配词典.上海: 汉语大词典出版社,1999.
9. 孙茂松,黄昌宁,方捷.词语搭配定量分析初探.中国语文,1997(1).
10. 王建勤.第二语言习得研究.北京: 商务印书馆,2009.
11. 王砚农,焦庞颙.汉语常用动词搭配词典.北京: 外语教学与研究出版社,1984.
12. 王砚农,焦群,庞颙.汉语动词结果补语搭配词典.北京: 北京语言学院出版社,1987.
13. 杨庆蕙.现代汉语正误辞典.北京: 北京师范大学出版社,2009.
14. 杨天戈,刘沫,吴岫光等.汉语常用词搭配词典.北京: 外语教学与研究出版社,1990.
15. 杨同用,司敬新.搭配类型与对外汉语实词搭配词典的编纂.辞书研究,2007(2).
16. 张寿康,林杏光.学生常用词语搭配词典.石家庄: 河北少年儿童出版社,1989.
17. 张寿康,林杏光.简明汉语搭配词典.福州: 福建人民出版社,1990.
18. 张寿康,林杏光.现代汉语实词搭配词典.北京: 商务印书馆,1996.
19. 章宜华,雍和明.当代词典学.北京: 商务印书馆,2007.
20. 赵培庠.常用词语搭配词典.北京: 首都师范大学出版社,1999.
21. Biber D.Cooccurrence Patterns among Collocations: A Tool for Corpusbased Lexical Knowledge Acquisition. Computational Linguistics, 1993(19).
22. Granger S. From CA to CIA and back: An Integrated Approach to Omputerized Bilingual and Learner Corpora.∥Aijmer K, Altenberg B, Johansson. (eds.) Languages in Contrast.Lund: Lund University Press, 1996.
23. Granger S.(ed.) Learner English on Computer.London: Longman, 1998.
24. Granger S. A Birdseye View of Learner Corpus Research.∥Granger S, Hung J, PetchTyson S. (eds.) Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching.Amsterdam: John Benjamins, 2002.
25. Granger S, Tyson S. Connector Usage in the English Essay Writing of Native and Nonnative EFL Speakers of English. World Englishes, 1996(15).
26. Sinclair J.Beginning the Study of Lexis.∥Bazell C E, Catford J C, Halliday M A K. et al.(eds.) In Memory of J. R. Firth. London: Langman, 1966.
27. Smadja F A. XTRACT: An Overview. Computers and the Humanities, 1993(26).
28. Smadja F, McKeown K R, Hatzivassiloglou V. Translating Collocations for Bilingual Lexicons: A Statistical Approach. Computers Linguistics, 1996(22).
(郝瑜鑫华侨大学华文教育研究院厦门361021)
(徐婷婷华侨大学华文学院厦门361021)
(责任编辑李潇潇)