《网络语料库:理论与实践》评介
2015-08-15徐李荣
徐李荣
(浙江大学外国语言文化与国际交流学院,浙江 杭州 310058)
一
《网络语料库:理论与实践》是意大利巴里大学现代语言系英语语言与翻译研究员兼讲师Maristella Gatto 所著,由Bloomsbury Academic 于2014年出版。该书被列入国际知名语料库语言学专家伯明翰大学Wolfgang Teubert 教授以及诺丁汉大学Michaela Mahlberg 教授主编语料库与话语研究系列丛书。
从传统意义上的语料库来讲,网络本身不能称为语料库。根据McEnery and Wilson(1996:21),在理论上,任何本文集只要不少于一个,都可以称为语料库。但在现代语言学的背景下,“语料库”有更多的延伸义,绝非简单的定义就能解释清楚。一般语料库会从以下四个方面进行考察:样本收集及代表性,语料库大小,机器可读以及标准参考。一些语料库学者提出因为网络存在内部信息组织凌乱不规整、不稳定性以及无法操控等问题,所以不太适用于进行语言学研究。Leech(2007:145)也认为,虽然网络能够提供大量文本,但因其内容量大种类冗杂,难以代表一般意义上真实语言的使用。综上,目前大多数有关语料库专著都把网络作为语料库语言学研究的一个辅助,抑或语料库语言学未来的发展方向,鲜有著作把网络本身作为语料库进行研究。然而随着时间的推进和网络科技的进步,网络本身因其巨大的语言数据资源受到越来越多的语言学学者的关注。该书则是在新的网络时代背景下,对网络作为语料库在语言学研究中的各方面问题进行了详尽探讨。
二
该书作者Maristella Gatto 把网络本身作为语料库研究对象,采用网络辅助分析工具进行语言学数据分析,针对目前网络作为语料库这一争议话题进行理论上的探讨和实践上的操作。文章内容通俗易懂,案例解说详细,对语料库语言学以及计算语言学方向的学生和学者来说是一本不错的通识入门读物。
全书共分为七个章节。第一章简要概括介绍了涉及语料库语言学的基本概念、原则以及方法。开宗明义,作者首先提出语料库语言学是语言学的一个重要研究领域,讨论了语言学理论与用语料库研究方法进行语言研究的一些关系,同时作者也指出网络作为语料库这一方法与传统语料库研究方法并不冲突,反而会成为语料库语言学发展的一个重要辅助。继而作者从历史角度着重探讨了电子语料库及其主要的概念定义和标准,包括语料库语言学中不可避免的重要概念:权威性,代表性,数据采集及平衡和语料大小,不同类型的语料库等。之后,作者介绍了用于进行语料库数据分析的索引工具,索引行和上下文关键词,讨论了搭配和类链接等重要概念。其中,从语料库的创建(语料的收集、标记和注解),到语料库的分析(使用Wordsmith Tools,Antcoc 以及基于互联网的数据搜索系统提供大型语料库在线界面的BNCweb,BYU 语料库系列以及词汇素描系统Sketch Engine),作者通过许多案例具体直观展现了这些语料库分析工具在语料分析中的各项功能与作用。
第二章节从网络作为即时、自生的文本库这一角度出发,对网络作为语料库存在的争议进行了简要介绍,并且从理论层面对语料库语言学和网络本身作为文本实体集之间的关系进行了讨论。作者指出(p35),近年来“网络作为语料库”这一概念本身发生了一些变化:最初由于网络并非专门用于语言学研究而进行科学设计和建立,那么从传统的语料库语言学视角看,“网络作为语料库”这一看法并不被学者所认可;随着时间的推移,世界各地的语言学家越来越多地把注意力投向网络:它不仅可以提供大量真实的并且用于传统语料库设计和建设的语言文本,本身作为语料库也越来越引起学者和专家的关注。如今,网络因具备机器可读性,还具有搜索真实文本库的这一特质,其作为语料库的地位被越来越多的语言学家所接受。为了进一步论证“网络作为语料库”的可接受性,作者除了从网络这一角度重新探讨语料库语言学中的若干重要概念和议题,如真实性、代表性、语料库大小和语料库组成等,还加入新的版权问题。与此同时,网络作为语料库进行语言学研究也带了新的问题,诸如网络本身的动态性、可再生性、相关性和可信度。这些新问题也不可避免地对语料库语言学本身的概念产生重大的影响。
网络作为语料库可以带来新问题,第三章节就重点讨论利用普通的搜索引擎,展示网络作为现成语料库在查询方面展现出来的潜能以及局限。首先,介绍由于网络作为语料库可以提供前所未有的大量语言数据,那么连同网络本身的普及,在自然语言处理、机器翻译和词义消歧方面足以发挥的巨大作用。接着,作者对搜索引擎如何运作做了简要概述,并且通过一系列的案例研究对使用商业搜索引擎进行语言学研究进行详细展示,比如,提供既定语言使用的证据、研究短语和测试翻译选项等。作者通过谷歌搜索引擎,从简单的单词等基本搜索到短语搭配语域等高级搜索等一些案例,向读者展示网络作为语料库提供给研究人员巨大的语言使用的资源库。尽管网络作为语料库在呈现语言信息时不如传统的为特定研究而建立的语料库具有针对性,但由于网络呈现结果的迅速以及其背后巨大的语言资源,研究人员仍然可以通过反复精确关键词进行高级查询进而达到研究目的。
在介绍普通搜索引擎进行一般常规查询之后,第四、第五章节作者继而介绍一些从语料库角度对网络资源进行高级索引的工具,展现了如何通过不同的方式利用网络作为语料库去克服网络作为语言资源存在的局限性,并且提供用于特定研究目的和特定背景下及时有用的语言资源。作者首先介绍了有关索引工具的背景知识和技术特点,然后展示了如何通过使用WebCorp 和WebAsCorpus 迅速获取最新、现成的语言资源的一系列案例研究,尤其是在外语教学领域,展现了它们在词汇搭配和研究新词方面的优点。最后,作者重点介绍WebCorp Linguist’s Search Engine在不借助商业搜索引擎的情况下研究当代英语的重要作用。对于WebCorp Linguist’s Search Engine,网络是用来建立线下语料库的数据源,但是这个线下语料库能够一直持续不断由新的网络下载填充,因而被称为“网络小宇宙”。它既是语料库,是具有确定大小和组成的文本集可供线下加工分析;同时它也是巨大的不断更新的网络。目前WebCorp Linguist’s Search Engine 已经建成包含三个语料库:共时英语网络语料库、历时英语网络语料库和伯明翰博客语料库,它们可以通过注册免费使用。
在第五章节中,作者介绍了如何通过网络创建专门语料库和术语列表的工具和方法。首先,作者描述了人工创建小型网络语料库的步骤并且讨论了其中的理论问题,如语料的代表性和真实性。然后,介绍如何使用BootCat 自创特定领域的语料库和专门用途语料库,通过一系列反复的关键词细化,BootCat 能够以极快的速度挖掘网络网页,产出某个特定领域常用的词汇以及具体使用,如旅游、化学、文学等领域。最后,介绍了比较网络语料库的建立和使用,以及在翻译实践领域的应用。作者指出不同语言语料库之间的可比性除了关心语料库的内容之外,还要确保各语料库收集策略的一致性,考虑各语料库之间的平衡性和代表性等。作者详细展示了英语“Renewable Energy”语料库和意大利语“Energie Rinnovabili”语料库制作过程,指出它们在翻译研究领域能够为研究人员提供母语使用者所使用的真实语言材料,方便跨文化研究;在自然语言处理领域能弥补平行语料库稀缺的现象,快速自动生成包括原语文本和翻译文本在内的比较语料库,为训练统计翻译系统或建立术语库提供可靠数据。
在第六章节中,作者探讨了在语料库语言学领域中,利用大型一般用途网络创建语料库的可能性,并且通过一系列个案研究证明在网络作为语料库背景下开发的工具和数据集不但可以用来获取语言使用的信息,而且对话语和社会研究也会有所启发。首先,作者介绍了大型一般用途网络语料库Leeds Collection of Internet Corpora:它包含英语、汉语、日语、德语法语等多语种语料库;所有语料都进行了语法标注,并且可以进行互信息值,T 检验和对数似然检验等搭配统计。还有最近发行的TenTen 包含100 亿词,开发出包括汉语、英语、德语、意大利语等多语种的语料库,这些语料库同样可以通过Sketch Engine进行检索使用。作者重点讲解了Sketch Engine在词汇素描、词语搭配与区分等方面的功能。最后,作者通过使用大型一般网络语料库ukWac对“culture”一词进行研究,并将得到的数据与其在BNC 得到的结果进行比较,进而描述和讨论基于网络语料库得到的数据和基于传统大型语料库得到的数据之间的相似点和不同之处。
在第七章节中,作者简要探讨了由于科技的进步和普及,网络作为语料库本身经历的一些变化,尤其是新一代网络2.0 的出现,使网络成为无处不在、人人参与的场合。作者首先提出了网络2.0 的出现使网络内容的制造者和使用者之间的界限变得模糊,用户既是网络内容的使用者也是制造者。进而作者以多语语料库维基百科作为范例,指出其未来可能的发展趋势。最后,作者提到由于云计算和集体智慧的出现,网络合作范式将成为未来语料库语言学研究的常规模式。
三
《网络语料库:理论与实践》既涉及语料库语言学的一般概念和原则,也将传统的概念和方法与新一代网络2.0 出现之后的语料库研究现状联系起来。本书通过具体直观的案例向语言学习者、教师和研究人员展现了如何使用网络提供的巨大语言资源,同时也探讨了目前网络作为语料库这一研究领域的不成熟和不完善,在对于这些问题做了比较客观的评价同时,也指出未来网络作为语料库在语料库语言学研究领域的发展趋势。除此之外,书本每个章节后附有启发性的研究问题以及扩展阅读,可以为希望深入研究该论题的学者提供更多的背景和学术资源。整体来说,此书将会引发读者对网络在语料库语言学中的地位进行重新审视,并且对语料库语言学的研究产生新的认识。
[1]Leech,G.New resources or just better old ones?The Holy Grail of Representativeness[M].in M.Hundt et al.(eds),2007.
[2]McEnery,Tony and Andrew Wilson.Corpus Linguistics[M].Edinburgh University Press,1996.
[3]Maristella Gatto.Web As Corpus:Theory and Practice[M].Bloomsbury Academic,2014.