APP下载

针对网络用作语料库相关研究的文献综述

2023-12-29张世伟

校园英语·中旬 2023年8期
关键词:爬虫语言学语料库

摘 要:自20世纪90年代起,网络用作语料库(Web as Corpus,简称WaC)已经成为获取大量文本数据的主要方式,其分析研究可被用作验证很多语言学假设的证据,其他应用方法还包括:自然语言处理工具和方法的评估,计算机词典编纂,以及对趋势或话题监测的大量文本实操分析。基于网络来构建语料库的优势有很多,例如低成本、效率高、实效好;但其弊端依然显著,例如,非常有限的源数据(metadata)、难以自动化清理网络文本内容等。这篇文献综述聚焦网络用作语料库过往相关研究,尤其是WaC经典示例和爬虫技术所面临的挑战。

关键词:网络用作语料库 (Web as Corpus/WaC);语料库语言学(Corpus Linguistics);语料库构建(Corpus construction);爬虫(Crawling)

作者简介:张世伟,英国肯特大学精算学研究生,外国语言学及应用语言学专业在读。

一、前言

语料库语言学(Corpus Linguistics)通常是指为了语言学研究的目的,以一种有原则的方式对机器可读的口语和书面语言样本进行的研究。语料库语言学的研究对象是自然语言,它关注真实语境中的语言使用情况。因此,它经常与乔姆斯基的语言学观点形成对比,后者强调语言能力,并经常以虚构的例子作为探索语言的基础。

在20世纪60年代,一百万词的Brown语料库开启了基于基于计算机的语言学研究;随后到80年代初期,Sinclair 和 Atkins的COBUILD项目语料库达到了八百万词;再有自从1988年起Atkins带头建构的British National Corpus (BNC)的词容量达到1亿词;1989年,语料库发展开始进入计算机语言学阶段,虽然初期很多人质疑它的学科性,但1993年Computational Linguistics - Association for Computational Linguistics期刊发表的Church与Mercer合著的Using Large Corpora一文有很大反响;在1999年的ACL会议上,网络在语料库中的应用才开始被广泛讨论,网络语料库研究才慢慢多起来。

二、网络用作語料库的经典案例

2005年英国伯明翰大学举办的WaC研讨会上曾有专家指出,网络用作语料库(WaC)的主要模式分三类:

1.通过搜索引擎获得特定关键词的使用次数;

2.在引擎检索网页上检索关键词,将搜索结果下载下来, 分析归纳整理建成一个新的语料库;

3.利用网络爬虫技术,搭建一个可以同时间处理海量数据的特定检索语料库引擎。

本文列举了几个比较有代表性的网络用作语料库(WaC)案例:

(一)WebCorp

WebCorp语料库 (又称“WebCorp Live”),是由Birm-ingham City University的英语研究发展部门(RDUES)于1998年创建,并一直维护至今,被语料库学者、词典编纂者、语言老师和学生、出版商、记者、广告商和其他领域的研究者广泛使用。它提供一系列的分析工具,允许用户将互联网当作一个语料库,其从互联网上抓取语言数据,揭露某个词汇或短语是如何使用的,提供给用户一个有质量保证的原始的或分析后的语言学输出,尤其针对无法在字典或传统语料库中展现的一些新词或生僻词。通过从互联网页面抓取检索表(concordance lines),WebCorp界面提供给用户很多可自定义的语言研究功能。

(二)iWeb

iWeb语料库,是由Brigham Young University于2018年发布,抓取了近9万5千个网站的2200多万的网页的文本,其库容有140亿词,是COCA语料库(5.6亿词)的25倍,是英国国家语料库BNC(1亿词)的140倍。该语料库提供了前6万个高频词的详览功能,用户可听其发音,观看语境视频和该词的谷歌相关图片,还具有翻译成其他语种和单词收藏功能等。此外,用户输入关键词后,iWeb其检索仅需2-3秒,便可生成一个“虚拟语料库”,提供多种有用信息,包括频次、定义、同义词、词网条目、关联话题、搭配词、词块、索引行和相关网站,该语料库受到众多语言学习者、教师和研究人员的欢迎。

(三)WaCky

WaCky(The Web-As-Corpus Kool Yinitiative)语料库由University of Bologn创建和维护,其是基于网络文本资源构建的几个语料库的集合,包括ukWaC(英语)、deWaC (德语)、itWaC (意大利语)、frWaC (法语),既可提供在线检索界面,又可以下载完整的语录库原生数据。其中ukWaC其库容有20亿词,其只爬取以“.uk”结尾的英国域名网站,以及将BNC的中频词(medium-frequency words)作为“种子”,该语料库可通过TreeTggger将文本进行词性标记(POS-tagging)和词形还原(lemmatization)。

(四)KWiCFinder

KWiCFinder(Key Word in Context) 在线搜索工具,在1999年的CALICO会议上正式发布,其通过一个单独的程序创建研究结果的缓存副本,该程序需要下载并在桌面上运行。通过上文提到的在线工具,可以收集词表、词性、搭配的主要信息,以及URL、时间、文本域的开销信息,作为语料库的来源。从这个角度来看,网络不仅是语料库的“surrogate替代品”,也是语料库文本的来源。因为第三代语料库的数据不限于印刷文本,而是电子文本,这比印刷文本更容易获得,以节省劳动力成本和语料库建设费用。遗憾的是,KWiCFinder目前已经不再继续维护和更新了,只能对其已涵盖的文本进行相应研究。

三、网络用作语料库中爬虫技术面临的挑战

搭建互联网用作语料库(Web as a Corpus)的4個步骤:

Select the “seed” URLs

Retrieve pages by crawling

Clean up the data

Annotate the data

爬虫(crawling)是一个简单的过程;然而,只有复杂的程序实现才能让人成功地进行大规模爬网。当前爬虫技术面临以下6个方面挑战:

效率:当检索到更多页面时,发现的URL队列会变得非常大。因此,爬虫程序必须能够以内存高效的方式管理如此大的列表。

重复:爬虫程序必须确保只将尚未看到的URL添加到列表中。

原则:爬虫程序必须遵守网站管理员在网站机器人中指定的指令txt文件。然而,它也应该避免在短时间内用数千个请求敲打同一个站点,并提供联系爬网所有者的简单方法。

陷阱:爬虫程序应该避免“蜘蛛陷阱”,即试图阻止它的恶意网站,例如,通过引诱它进入一个循环,它将继续下载带有随机文本的动态生成页面。

定制:爬虫器应该易于定制,并且考虑到大型爬虫程序可能需要几周时间才能完成,因此应该可以监控正在进行的爬虫,动态更改参数。

文件处理:考虑到一个大型爬网将检索数百万个文档,爬网程序应该以智能的方式处理检索到的数据。

2022年5月,在法国马赛举行的第12届网络用作语料库研讨会上,Barbaresi等WAC详细论述了当前在扩大素描引擎(Sketch Engine)的背景下构建网络语料库,网络爬取(web crawling)文本信息时可能面临的困难和挑战,并对应对办法进行了讨论,主要包括以下几个方面:

机器翻译普遍存在于网络,翻译质量较低,尤其是小众语种的翻译。

应对方法:采用半自动化方法,即让以该小众语种为母语的人员检查语料库词库。

垃圾网站的存在也会将非自然的和不需要的内容带入到语料库中,并且这些垃圾网站在与标准的商业搜索引擎“对弈”的这些年中,也在不断地提供自己的文本生成算法,包括使用NLP方法。

应对方法:其实一个有经验的NLP工程师在几分钟内就可以甄别出是否是垃圾网站;选择可信的种子域(seed domains)去爬虫;语料库研究者利用搭配(collocations)、正则表达式(regular expression)等分析工具去甄别出垃圾网站内容,并批量剔除掉。

当用浏览器从网络上爬取文本时,一般来说,浏览器都对这些文本进行了渲染(rendered)以保证用户浏览的体验感和功能性,但这就会使得爬虫处理速度下降。

应对方法:以headless模式运行该浏览器,这样文本就会被以HTML形式展现;只要大部分网站不停止为非智能手机提供文本回退(textual fallback)功能,问题就可以得到解决。

越来越多优质的报纸或新闻网站已不再免费,需要用户付费订购或给予限量的免费阅读权限,如果将来这些优质文本都需要付费,那互联网语料库的建设成本将会大大提高。

应对办法:只要某一领域的免费文本资源依然占据多数,那就不会成为大问题。

参考文献:

[1]Baroni M, Bernardini S, Ferraresi A, Zanchetta E. The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora[J]. Language Resources and Evaluation, 2009(3):209-226.

[2]Kilgarriff A, Grefenstette G.Introduction to the special issue on the Web as corpus[J]. Computational Linguistics, 2003(3):333-347.

[3]Wette. The Routledge handbook of applied linguistics [Book Review][J]. New Zealand Studies in Applied Linguistics, 2014(1):62-63.

[4]丁政.互联网用作语料库的原理与实践[J].洛阳师范学院学报,2008(2):93-95.

猜你喜欢

爬虫语言学语料库
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
《语料库翻译文体学》评介
利用爬虫技术的Geo-Gnutel la VANET流量采集
大数据环境下基于python的网络爬虫技术
认知语言学与对外汉语教学
基于JAVAEE的维吾尔中介语语料库开发与实现
社会语言学名词
语料库语言学未来发展趋势
基于认知语言学的“认知修辞学”——从认知语言学与修辞学的兼容、互补看认知修辞学的可行性