APP下载

论语料库在语法研究中的作用及局限

2013-12-12许素辉

安徽文学·下半月 2013年10期
关键词:分词语料麻雀

许素辉

收集真实语言环境中的语言材料,并将它们作为素材来解释和例证现存的语言现象,或者发现新的语言规律,这是语言研究的基本方法,也可以说是语法研究的基本方法。语言材料不丰富,语言现象和语言规律就很难得到充分例证和解释,因此包含大量语言实际使用信息的语料库就成为了语法研究中不可或缺的帮手。结合语料库在语法研究中的实际应用情况,笔者认为,语料库在语法研究中的作用主要有以下几个方面。

一、为语法研究提供客观的语言事实

英国语言学家Quirk曾批评说:“从这些自己编写的例证出发”,“把材料仅仅当做‘例证’来使用,用来证明先验的、或者是语法学传统规定的、甚至是凭直觉认定的某些语法上的区别和结构,而不是从大量自然语言材料中归纳这些语法上的差别,这只能是一种很不令人满意的权宜之计。”毫无疑问,语法研究需要语言事实提供佐证,如果这些所谓的语言事实仅是研究者依靠经验、凭借语感或者按照语法规则演绎编造出来的,那么其中有些例子就可能与实际的言语事实有差距而不具备充分的说服力。

语法研究讲求科学性和理据性。如果语言事实不客观,依赖其分析出来的语言规律也很难为他人所接受。而语料库的存在就能为语法研究提供大量客观的语言事实。以我们熟悉的国家语委现代汉语语料库为例,它由人文与社会科学、自然科学及综合三个大类约40个小类组成。语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌,能为语法研究提供大量客观可靠的语言事实。

二、通过词频统计可以发现语言事实的典型规则与特征

如果要对某个语言事实进行研究,那么最好的方法究竟是对它进行穷尽式的网罗研究还是只选取部分语言事实做典型研究?举个例子来说,如果要调查麻雀心脏的重量,那么是把全世界所有麻雀的心脏都取出来称一称,还是只选取部分成年麻雀作为研究对象再取其平均值?不言而喻,后一种方法显然可行性更高。当然,这里并非认为做穷尽式的研究有什么不好。事实上,只要研究者精力充沛、时间充裕,穷尽式研究得出的结论远比典型性研究得出的结论精确度要高,但不可否认的是,语言事实复杂多变难以穷尽,很少有人会采用这样的思路进行语法研究。这样一来,对典型语言事实的选取就显得很有必要了。而语料库所提供的词频统计的功能就能很好满足我们对于典型语言事实选取的需求。

还是以麻雀的例子来说,我们可以在北京选取10只麻雀作为研究对象,但不会想说去南极选10只麻雀作为研究对象。原因很简单,北京的麻雀比南极的麻雀(就算那里真的有)更具有典型性。就词汇而言,也存在着高频词汇和低频词汇,高频词汇就可以理解成我们说的典型词汇。如果我们连高频词汇都没有掌握,掌握低频词汇意义又能有多大呢?某一类语法结构中,高频词汇出现的句法位置是怎样的,高频词汇具备的语义特征是哪些,高频词汇与其他词语的搭配组合受到什么限制……对这些问题的研究,都需要我们通过典型语言事实来寻求它们背后的语法规则。

三、有助于从语言事实的实际使用情况中发现和修正语言规律

西方语言学家利用语料库研究语言,特别是语法的经验和成果表明,对语料库提供的大量语料进行分析,有时可以发现一些过去被忽略的语言规律,比如语法书上没有或者没有详细描述过的语言规律。笔者在研究复合趋向结构“V下去”时发现,有些我们仅仅凭借语感或是前人归纳的语法规则觉得并不可行的语例,在语料库中却能找到相关语言事实。如表延续义的“V 下去”中的“V”的语义特征为[+持续],也就是说,表持续义的动词与“下去”搭配才具有延续义。可是我们又发现了这样的语言事实:“养鸡场的鸡不知道得了什么病,每天死三、四只,如不赶紧想办法,每天这样死下去,鸡场就完了。”这里的“死下去”表达的是延续义,但是“下去”前的动词“死”却不具有[+持续]的语义特征。“死”是一个瞬间动词,但用在这里表延续义却依然行得通。再如我们凭借语感很容易否决“上下去”、“下下去”这样的说法,这是因为我们先入为主地将“上”和“下”看做了趋向动词,趋向动词自然是不能和复合趋向动词“下去”搭配的。但是在语料库中,我们可以找到这样的语例:“课是不能上下去了”,“雨再这样下下去,又得出现天灾”。

由此可见,以语料库的大量语料为基础所进行的语言研究,更有可能使语言研究者发现原有对某些语法现象的解释与自然语言中的实际情况不相符合的情况,这就使得他们有机会去修正或补充前人的结论,促进语言研究不断发展。因此,语料库不但有助于汉语语言的应用研究,而且为高效、全面、科学地进行现代汉语的语法研究提供了强大的现代化技术保证,特别是在发现和修正语言规律方面大有可为。

语料库虽然为语法研究提供了很大帮助,但它依然存在着一定的局限性。归纳起来,笔者认为有以下几个方面:

(一)语料检索软件有待改进

我们在上文提到,语料库能够满足我们对于典型语言事实选取的需求。要选取典型语言事实,语料检索软件就必不可少。以我们常用的北大语料库为例,北大语料库在使用说明中为我们提供了多种详备的语料检索方法,但在笔者的实际使用中,依然有感觉到吃力的地方。例如,笔者要查询与复合趋向动词“下去”搭配的动词和形容词情况,出现的语料有三、四万条,这三、四万条中,就包括许多无效语料。就算只选取其中的五千条,也需要人工一条一条去排除确认。因此,笔者认为在这一方面,还需要提高现有语料库的运行速度,引进国外的或者改进现有的标注和检索程序,开发新的工具软件,使语料检索更加方便快捷,功能更加强大。

(二)语料加工的广度和准确度还不够

有些语料库,会对部分语料进行分词标注(语料加工还没有达到很普遍的层面。)分词标注可以依靠相关软件高效率地完成,但是由于汉语语言事实复杂,软件分词的准确度并非百分之百,还需要人工逐一校对。在笔者校对过的分词标注语料中,很多相同的词出现在不同地方标有不同的词性,这就出现了不一致的问题。再者,像专有名词、人名、地名之类,运用软件分词标注也大有出错的地方。另外,不同机构分词标注的标准也不尽相同,这也对语料加工的准确度造成一定影响。

(三)语料库的规模和类型有待进一步完善

郑艳群(2013)虽然提到“数据规模是无法决定数据结果的可靠性的”,但不可否认,就同一个数据库而言,数据规模越大,得出的结论更为可靠。两个同样类型的数据库摆在眼前,一个数据库包含的数据不过两千万字,另一个数据库包含的语料有上亿字,很显然我们会去选择规模更大的那一个。这样我们得到的语言事实可能会更全面。另外,当前的语料库多为书面语语料,类型较为单一,为研究需要,有关部门可以组织力量研制普通话口语语料库、“专用型(specialized)”语料库、双语“平行对照型(parallel)”语料库等,以利于普通话口语语法研究、汉语与外语的双语语法比较研究。

最后,笔者热切期望,具有检索方便快捷、语料加工精准、规模完善类型多样的语料库能够不断涌现,并在此基础上开展更多跨学科、跨语言、多层面、多视角的面向汉语语法研究的语料库应用项目,为汉语语法研究提供强有力的支撑。

[1]卢伟.语料库在对外汉语教学中的应用[J].厦门大学学报(哲学社会科学版),1999(4).

[2]卢英顺.“下去”句法、语义特点探析[A]//语法研究和探索[C].北京:商务印书馆,2002.

[3]郑艳群.语料库技术在汉语教学中的应用透视[J].语言文字应用,2013(1).

猜你喜欢

分词语料麻雀
分词在英语教学中的妙用
拯救受伤的小麻雀
结巴分词在词云中的应用
结巴分词在词云中的应用
1958年的麻雀
麻雀
基于语料调查的“连……都(也)……”出现的语义背景分析
紧盯着窗外的麻雀
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料