语料库词典学的发展过程与趋势预测
2018-01-09唐小宝
唐小宝
摘 要:近年来,在词典学和语料库语言学的碰撞融合下,产生了一门新兴的交叉学科——语料库词典学。作为计算词典学的重要组成成分,语料库词典学的影响日益深远。本文将对语料库词典学的发展过程进行简要介绍,探讨其发展的局限性,并对语料库词典学的发展趋势进行分析预测。
关键词:语料库词典料库 发展过程 趋势预测
中图分类号:H03 文献标识码:A 文章编号:1003-9082(2018)11-0-02
随着语料库在词典学领域的广泛应用,产生了许多新的概念。“语料库驱动词典学”、“基于语料库的词典学”和“语料库辅助词典学”等说法层出不穷,语料库与词典的关系也日趋密切。仔细探究这些新概念,发现它们实际上是新技术、新学说与老传统的嫁接物。新技术主要是日益发展的计算机应用技术和网络技术,而新学说主要是语言学新理论及其日益丰富的研究成果。
实际上,词典学与语料库的关系一直十分密切,有着不解之缘。词典是对大自然语言的描写,而语料库则是语言能力的应用。语料库语言学的技术方法使得词典的编纂发生了翻天覆地的变化,词典学也掀起了语料库的革命。事实证明,词典与语料库的结合是时代与词典学发展的必然结果,语料库词典学也由此应运而生。
一、语料库词典学的兴起与发展
1.语料库语言学与词典学的结合
语料库原本是指为特定的目搜集的一批材料,然而随着语料库与计算机技术结合之后,其含义发生了变化,指的是“在一种语言中或多或少具有一定代表性的文本、话语的汇集,包括书面语、口语,通常以电子数据的形式存储”。而语料库语言学指的是以语料库为手段,来对语言进行研究和分析的一门特色学科。这种新的研究思路,为人们处理大规模真实文本开辟了方法。之后,语料库语言学的研究着眼于“关联模式”的辨认和分析,即一种语言特征与其他语言特征及非语言特征的系统联系。这种研究不仅可以使我们更全面地了解某一语言特征,还可以提取研究各种文本和变体的特征。而这些内容正是词典学所需要的,具有重要的研究价值。于是,词典学就自然而然地与语料库语言学结合起来,诞生出一个新的交叉学科——语料库词典学。
2.语料库词典学的早期发展
在计算机技术兴起之前,早期语料库词典学的雏形是传统的词典学研究方法。传统的词典编纂方法使用的是卡片和阅读项目组,这些方法的代价高、效率低,具有以下两点显著的不足:首先,早期的语料收集缺乏代表性,其内容大多由收集者的兴趣决定,这就与词典编纂所要求的“规范性”和“正规性”相违背;此外,由于当时学界对书面语的重视程度远远高于口语,早期语料库词典学的内容大多是基于书面语的,其所包含的口语信息非常的有限。一方面,传统词典研究观念没能及时进行转变,加之当时的语料收集、处理、存储手段非常落后,早期的语料库词典学未能取得研究者的广泛关注,语料库词典学的地位也没能得到提升。
3.计算机化时代下的语料库词典学
1980年可视为语料库词典学的“零年”,这一点显而易见(并且相当准确)。这一年中,由 Sinclair主持的COBUILD 语料库项目正式启动。在1987年,该项目所编纂出的第一部以语料库为基础的词典投入使用,这标志着语料库词典学的兴起。语料库词典学的兴起为传统词典编纂带来了根本性变革,短短十年之内,所有主要的英语学习词典出版社都把语料库作为其首要的语料来源。后来,随着计算机技术的迅猛发展,语料库规模不断扩大,收集手段不断更新,词典编纂更为正规,语料库词典学也逐渐得到大家的重视。如今,因特网和人工智能的出现为语料库词典学的发展带来了更多机会,语料库词典学在实际生活中有了更大的应用空间。
二、词典与语料库的结合是必然所需
1.词典与语料库相辅相成
词典学与语料库语言学本是两个相互独立的学科,之所以能够结合在一起,是因为二者能够相互影响、相互促进。词典与语料库相辅相成,结合是必然所需。从词典学的角度来看,无论是词典编纂还是语言研究、自然语言处理,都离不开大规模语料的支持。传统的载体纸张显然无法满足词典的实际需求,这就需要能够存储海量数据的语料库来帮助。在语料库的帮助之下,词典学的研究视角得到了极大的扩展,词典功能也从单一的查询面向机器翻译、信息检索等自然语言处理领域。
与此同时,借助于语料库的词典编纂也对语料库的发展起到了潜移默化的影响。不仅语料库的规模在不断扩大,由于词典编纂要求非常严格,语料库的设计和建设也要符合相应的标准,于是语料库语言学的相应研究也就更为细致。在与词典学结合之后,语料库有了以下两点显著发展:一是地区性和国际性语料库的建设开始兴起;二是语料库的设计框架开始朝着多语言的方向发展。正是由于词典与语料库这种相辅相成的关系,才使得语料库词典学的出现成为必然。
2.语料库词典学的优势
语料库词典学的优势可以体现在收集语料、分析语料和编写词典這三个方面。在收集语料阶段,语料库词典学利用计算机取代了人工工作,有效节省了在语料收集时所耗费的资源,提升了收集的效率和质量。此外,因特网以及其他软件工具的出现,使我们能够构建比传统词典大得多的语料库;在分析语料阶段,传统词典编纂方法需要对语料进行人工分类、比较和推敲,这是一项非常艰巨且繁重的工作。而在语料库词典学中,在“索引表”等工具的帮助下,完成同样的工作只需短短几秒钟的时间;在编写词典阶段,语料库词典学所编写的词典可以面向自然语言处理的许多领域,具有很好的实际应用价值。语料库词典学不仅可以利用语料库生成普通词典,还可以开发能够自动提取信息的词典。语料库词典学的研究者还注重在线词库和词汇语义库的建设,我们熟悉的WordNet和FrameNet就是其中之一。
三、语料库词典学的发展局限
虽然语料库词典学的优势是显而易见的,我们还要注意到语料库词典学的发展局限,并非所有的问题都可以通过语料库进行解决。
1.语料库词典学的补充性
语料库词典学最突出的一个优势就是利用计算机等工具取代了传统的人工编纂。一些人会这样认为,有了快捷的方法传统方法就可以完全被代替,在词典的编纂过程中不再需要人工操作。实际上,语料库技术的作用虽然不能被忽视,但却无法完全取代传统的词典学。当语料库的规模不够大,或者语料库中存储的语料不具有足够的代表性时,词典编纂工作就会遇到一些困难。此外,当遇到一些具有很强语域限制性的词义时,这些词义在一般性语篇中出现的非常少,语料库词典学也不能很好地处理这种情况。所以通过上述情况我们可以看出,基于语料库的语言分析的补充性。也就是说,语料库词典学只能是传统词典学的补充,它不能完全取代传统词典学,我们不能忽略在词典编纂过程中人的经验所起到的作用。
2.过度依赖分析工具
基于语料库开发词典,其开发效果很大程度上取决于所使用的分析工具。从这个角度看,语料库词典学过度依赖开发工具,也说明了它无法取代传统词典学,只能起到补充作用。在实际开发过程中,语料库分析工具常常与语料库的规模大小产生“矛盾”。词典编纂对语料库的要求之一就是,规模越大越好,覆盖越全面越好。但是在语料库规模扩大的过程中,就会对分析工具构成相应的困难。就拿检索工具来说,面对一个超大规模语料库,光是完全扫描语料就非常困难了,何谈进行分析检索。所以,语料库词典学要想发挥优势,就离不开一个好的分析工具。有些分析工具还会对语料库提出相应的要求,其分析的效果是与语料库的“代表性”挂钩的。但是代表性问题一直是语料库研究过程中的一个关键性问题,如何界定“代表”的标准是非常困难的,就算是找到一种语言中的一部分的代表都非常困难,更不用说代表一个语言了。从上面两个角度我们可以看出,语料库与开发工具之间的依赖关系,也在一定程度上限制了语料库词典学的发展。
四、语料库词典学的趋势预测
1.面向词典的深加工语料库
在我国,语料库词典学虽然有了一定的发展,北京大学、北京语言大学和国家社会科学院等多家机构也进行了研究并取得了一定的成果,但是他们所开发的语料库大多是面向自然语言处理研究的。在国外,许多大型的语料库都是面向词典编纂而构建的,这种语料库能更好地为词典编纂服务。此外,对语料库进行深加工,构建可以用于词典学研究和词典编纂的语料库是大势所趋,尤其是从语料库中加工提取对辞书编纂有用的原型词汇语义结构和其他语言属性。因此,构建面向词典开发的、经过深层次加工处理的语料库符合语料库词典学的发展方向,也是语料库词典学研究者所要解决的主要任务之一。
2.提供“显性”数据
以前,我们在使用词典时是看不见词典“背后”是什么的,只能单纯地使用词典为我们提供的具体功能。那些隐藏在词典背后的数据库数据只能被词典的编纂者接触,而对词典的使用者“屏蔽”。在近几年中,这些“隐藏”的数据逐渐向词典的使用者开放,词典的信息正以一种越来越显性的方式呈现在我们面前,比如说词典的使用者可以查看有关的例证、获取有关词频和搭配方面的信息等等。
但这只是一个过渡阶段,因为我们即将迎来新的变化,这些新变化将为我们带来更多令人激动的新的可能。目前词典所展示的都是其编纂者对现有语言数据的选择和提炼,但是我们可以构建一种“显性”词典,就是它可以让使用者自己看到这些语言数据,然后他们自己总结出语词的意义和用法。这种词典的显性应用虽然可能面临许多困难与挑战,但是不失为语料库词典学的发展方向之一
3.根据使用者能力区分
为词典用户提供“显性”数据所面临的主要困难就是,词典的使用者可能会被庞大的数据库数据所吓到,甚至数据库中所存储的一些复杂内容会让学习者更为困惑。词典编纂的最后阶段本来就是最为复杂的,为了解决这种显性应用过程中出现的障碍,可以根据词典使用者的能力高低开发适合于不同层次学习者的语料库,同時加强语料库的易读性建设,使语料库更贴近使用者,能被用户更好地利用。当这些障碍被清除之后,将会对传统的词典编纂带来根本性变化,语料库词典学的发展也是可想而知。
结语
语料库词典学是语料库语言学和词典学结合的产物,作为计算语言学的重要组成部分,具有很高的研究价值。语料库词典学经历了两个发展过程,在计算机技术的帮助之下地位逐渐提升,在词典编纂领域发挥着不可替代的作用。但我们也不能过分吹嘘语料库词典学,也要观察到其发展的局限性,提出相应的解决方法,将语料库词典学与新的技术成果相结合。本文只是对语料库词典学进行简要的介绍,作为一门交叉学科,语料库词典学涉及语料库语言学、词典学、计算机科学等多门学科,所涵盖的内容非常的广泛。要想真正了解语料库词典学中的奥秘,还需要我们进行仔细的研究。但是我们可以相信,随着语料库词典学的不断发展,词典编纂的工作也将变得越来越简单高效。
参考文献
[1]本研究受到国家自然科学基金重大项目“多语言言语识别基础理论与建模方法”(项目编号:11590771)的重大支持。
[2]王馥芳.语料库词典学的兴起与发展[J].辞书研究,2004,( 5):45.
[3]章宜华.计算词典学[M].上海:上海辞书出版社,2011.
[4]Biber et al.Corpus Linguistics Investigating Lan-guage Structure and Use .Cambridge :Cambridge University Press , 1998 .
[5]夏立新.语料库词典学的最新发展和未来趋势(上)[J].辞书与数字化,2009,(3):75.
[6]夏立新.语料库词典学的最新发展和未来趋势(下)[J].辞书与数字化,2009,(4):88.