俄语大型动态网络语料库建设与应用分析
2018-03-19原伟
原伟
摘要:网络语料库是大数据时代语料库发展的重要方向,GICR作为俄语大型动态网络语料库的最重要代表之一具有较高的研究价值与借鉴意义。通过对GICR语料库总体设计、语料采集方法、处理手段和标注体系的分析述评,深入讨论了该语料库的在语言信息处理及语言学研究领域的应用研究,论述了该语料库的特点与独特优势,对俄语网络语料库研究的深入开展奠定了初步基础。
关键词: 网络语料库;俄语;GICR
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)04-0212-04
A Survey of Building and Using General Internet Corpus of Russian
YUAN Wei1,2
(1.Shanghai International Studies University, Shangha 200083, China; 2.Information Engineering University, Luoyang 471003, China)
Abstract: In the era of large data Web as corpus is an important research direction of corpus linguistics. As one of the most important representatives of Russian web corpora General Internet Corpus of Russian (GIRC) has a significant research value. This paper discusses the main methods of GIRC for texts collection, cleaning, organization and annotation,discusses the characteristics and unique advantages of GIRC, analyses its applications in linguistic studies and natural language processing.
Key words: Web as corpus; Russian; GIRC
1 概述
隨着大数据概念逐渐与语料库研究相融合,该领域的研究方法与范式已经产生了巨大变化。传统语料库的构建通常是需要消耗大量人工的缓慢进程,而这已无法适应学科发展对超大规模语料库的迫切需求,学者们纷纷将目光转向拥有海量语言数据的互联网。Kilgarriff[1]首次提出网络语料库(Web as corpus,WaC)的概念,讨论了基于网络数据驱动的语料库研究问题。2000年初名为WaCky!的学术团体成立,2006至2009年间构建了一系列网络语料库(deWaC, frWaC, itWaC, ukWaC),每个都包含了10-20亿词[2]。2011年启动的COW(COrpora from the Web)项目构建了面向英、德、法、荷、西和瑞典语的网络语料库,至2014年多数语料分库规模已经逼近100亿词[3]。在CLARIN项目框架内面向南斯拉夫语言的构建了一系列网络语料库(bsWaC, hrWaC, slWaC, srWaC),规模从4亿到20亿词不等[4]。与此同时,俄语网络语料库也得到了新发展,规模较大的如Aranea项目框架内构建的网络语料库包含近15种语言,其中俄语分库根据来源网页域名分为三个分库(Russicum Russicum、Russicum Externum和Russicum)每个分库按照语料规模都有Maius(大型)和Minus(小型)版本,如Russicum的大、小型语料分库分别包含8.5和0.9亿俄文词[5];TenTen多语种网络语料库项目中每个语种分库都超过10亿词,俄语分库ruTenTen是最大的分库之一[6];Russian Web corpora通过500个检索词借助搜索引擎获取语料,总规模约1.47亿词[7]等。
一直以来,俄语国家语料库(НКРЯ)成为大部分学者研究俄语的标准配置,然而该语料库中当代俄语的现时数据占比较少,因此并不十分适应面向现代俄语的语言共时研究。上述网络语料库的构建成果是有目共睹,一定程度上丰富了研究者的语料选择,但都不同程度上存在缺陷,如上述Aranea、ruTenTen语料库旨在面向多个语种,缺乏对俄语的定制性标注与研究。除此之外,包括I-RU在内,这三个语料库规模可观但都缺乏元数据信息不易用于语言学研究,其他小型语料库通常数据规模较小而不易把握面向特定俄语使用群体的语言现象,总体来说,鲜有专门面向现代俄语语言学研究、面向特定俄语使用人群的大规模语料库,正是在这样的背景下,ГИКРЯ语料库应运而生。
2 GICR语料库的构建
2.1 概述
GICR(General Internet Corpus of Russian), GICR; Генеральный Интернет-корпус русского языка;本文译:俄语网络语料总库)由俄罗斯国立人文大学于2012年开始筹建[8],是一个面向当代俄语语言学研究的新型网络文本语料库。该语料库构建目的是为面向当代俄语的语言学研究提供可靠数据支撑和技术工具,其语料从互联网俄文网站自动采集,来源包括新闻、社交网络、博客、论坛和网络杂志等,网页文本抽取、筛选清理和标注过程均采用自动化的方式进行,语料标注十分详尽,不仅包含词法和句法标注信息,还包含了大量面向文本的元数据标注信息,如作者的性别、年龄、职业、文本体裁、主题和地域变体等。该库最终构建目标是1000亿词,2016年该语料库的规模已经超过200亿词,已经远超俄语国家语料库(50亿词)。该语料库项目由俄罗斯国立人文大学和莫斯科物理技术学院计算语言学教研室承担主要研究工作,参与研究的还有莫斯科国立大学、英国利兹大学以及ABBYY公司的诸多专家学者。GICR语料库项目得到了俄罗斯联邦科技和教育部、俄罗斯国立人文大学战略发展项目以及ABBYY公司的支持。GICR的主要优势在于:语料获取、处理和更新实现了完全自动化且规模巨大,仅针对俄语一门语言构建,语料构成以最鲜活现代俄语语料为主,专门面向语言学研究进行了详尽的语法标注,同时面向社会语言学研究标注了语料的元信息。以下是语料库的基本构成(表1):
表1 ГИКРЯ语料库语料构成(2016年)
[语料来源 词数(亿词) 文件数(个) Журнальный Зал(网络杂志图书馆) 3.13 56547 Риа, Регнум, Лента ру, Росбалт(网络新闻) 8.51 2964897 Живой Журнал(论坛及博客平台) 81.1 73229158 Блоги Mail.ru(博客平台) 7.07 9882120 ВКонтакте(社交网络) 98.2 193770717 总计 198.01 279903439 ]
2.2 语料采集与处理
ГИКРЯ语料库采集语料所使用的工具以Nutch为基础定制开发。Nutch是一个构建在Java平台上的开源网页采集及搜索引擎项目,包括了网页爬虫(Crawler)和查询器(Searcher)两部分组成。网络爬虫的功能是从网络上抓取网页、获取网页内容并为这些网页建立索引,查询器的功能是利用这些索引检索用户的查找关键词来产生查找结果。GICR网页爬取策略不使用网页排名,而是爬取所有可获得网页,但仅保留网页中面向人类阅读的部分,不收录面向搜索引擎编撰的相关信息。GICR更注重精度而非召回率,因为目前俄语互联网资源的文本数量是GICR最终构建目标的100倍左右。
GICR语料库对所获取的网页文本,进行了垃圾信息清理工作,清理的对象包括网页辅助信息、广告、动态新闻条、邮件、自動生成的文本等,同时进行重复文本删除,这样以来能够减少后期语料入库时的工作量。通常来说,网页样板代码的清除算法基于是否知晓网页结构。GICR对于已知网页结构的博客平台、内容管理系统或论坛平台,通过分析网页源码中带有已知Xpath节点的DOM结构抽取文本,同样也可以把主体文本与评论文本区分开来;对于不知道其数据结构的网页,使用基于混合策略、获取连续字符块的算法抽取网页正文。
GICR语料库构建时,不仅借助Nutch从爬取网页并从中抽取文本正文,同样也抽取文本的元信息,包括文本作者的用户名(网名)、年龄、性别、出生地、受教育程度、常住地等,这些注册信息通常以结构化的文本表示。获取这些元信息,主要是能够借此高效地获取文本创作(使用)者的相关信息,如用户注册信息、消息发布数量等,将用户与用户语料紧密关联起来,这样对分析特定人群的语言使用情况十分有效,能够很好的用于社会语言学研究。获取语料的主要算法基于假设:对于某一用户来说,掌握的相关语料越多,对其年龄、性别等信息的判断与分类就越准确。
2.3 语料标注
GICR语料的标注是通过计算机软件自动进行的,包括词法标注和元信息标注两个部分。首先,词法标注使用的工具是由Сергей Шаров开发的TnT-Russian软件,包括语料的形态标注和词形还原。在形态标注方面,所使用的机器词典不仅使用TnT-Russian自带词库,同时也融合了mystem的词形库,总共包含超过700万俄语词形。在词形还原方面,不仅使用了TnT-Russian原有工具,针对未收录词(新词)的处理,采用了Cstlemma模型(Github开源项目),同时根据GICR的自身特点对TnT-Russian工具进行了定制拓展开发。除此之外,自主研制的标记解析器(Токенизатор)能对所有标点符号及使用连词符组成的搭配进行自动识别。GICR语料库词法标注规范及语料标注示例参见表2。
其次,语料元信息标注。GICR的语料元信息标注是指对从社交网络、论坛、网络杂志等网址获取的网页,获取其关于文本本身的信息以作者信息并加以标注。文本本身的信息包括文本来源、作者、发布时间、网络体裁(博客、微博、论坛文章)等;作者信息包括用户ID、网名、注册时间、性别、年龄、地区(IP地址)、职业、兴趣、文本发布数量、评论数量等。自动处理等起点是获取文本作者的准确信息,并将其以标准化形式表示出来。有些信息可以从IP地址(服务器地址用于地区定位)和网址URL中获得,但往往这类元信息都是不完整的,首先并不是所有的网站都完整提供上述信息,其次IP地址在某些情况下也能够被错误引导等。GICR项目使用页面上可以获取的文本信息为机器学习提供资源,不断改进特定网站的结构信息获取算法,效果较好。
3 GICR的研究与应用
GICR作为一个规模巨大的网络俄语语料库,其构建过程本身就是一个科学命题。首先,GICR的语料获取、标注和分类的整个过程都是通过软件工具自动完成的,为了保证语料处理的准确性和可靠性,就必须在获取了原始语料之后,严格考察和研究自动标注和词形还原的方法,确保语料加工的成熟度,以便用于后期的应用与拓展。其次,从网络获取的语料,数据噪声大且无明晰分类,未分类语料对于语言特征研究、变体研究、社会语言学研究都存在障碍,因此语料自动分类问题也是需要研究的课题。针对上述问题,俄罗斯学界已经开展了比较深入的研究,部分研究成果得到了较好地推广和应用,基于GICR的多方面研究也在顺利开展。
第一,基于GICR语料库的词性标注与词形还原研究。为了处理大规模未标注互联网语料,文献[9]讨论了在不使用任何语言知识的情况下,使用机器学习及纯统计方法处理俄文语料的粒度切分、词形还原和自动标注问题。在随后的研究中,基于研究了形态自动消歧问题,测试了GICR语料词法自动标注工具及标准的可信度和有效程度。文献[10]在GICR项目框架内开发的面向社交网络文本的语料自动形态分析和词形还原工具,并在人工标注的200万词现代社交网络语料库上进行效果测试。文献[11]认为对俄语标准语的自动形态分析和词形还原工具对于社交媒体的文本处理精度不够,原因是存在大量书写变体和错误书写,使用GICR作为数据基础语料修正了算法,提升了词形还原和形态分析的水平。
第二,基于GICR语料库的文本分类研究。文献[12]研究了GICR语料库中文本自动分类问题,初始以少量文本特征参数为基础,通过迭代的机器学习算法构建分类框架,建立主体后用于后期的文本聚类;文献[13]使用多维度分析手段对GICR语料库的多样化文本分类进行了研究,以此方法寻找分类依据以及分类的维度特征,使用软件工具识别出的一系列语言特征,研究结构表明语言特征纬度对理解与处理俄语网络语料的分类问题作用很大;文献[14]研究了网络语料的自动区域识别与分类问题,使用了GICR的Живой Журнал子库,从文本特征词汇、文本作者结构信息中抽取的地域信息,通过机器学习训练特征集建立语料与地区的关联。
第三,基于GICR语料库的社会语言学研究。文献[15]基于对GICR语料库的研究,认为面向大多数语言学和词汇学研究来说,对语料库进行明晰的体裁及社会语言学划分是十分必要的,而不应该将基于少量数据的语言现象研究结果简单地推广到整个语言。在此基础上,他们使用GICR语料库开展文本元信息抽取研究,对文本作者信息进行了抽取,研究了不同性別、不同地区的语言使用差异,包括不同性别作者在语句、搭配和成语使用方面的差异。
第四,基于GICR语料库的俄文拼写检查与自动纠错研究。在“Dialogue Evaluation”项目框架内开展的俄文自动拼写纠正评测——SpellRuEval主要是面向社交网络文本的拼写检查与自动纠正研究,使用GICR的Живой Журнал子库作为实验测试集。七个队伍参加了评测,测试效果最好的队伍使用了基于词汇距离和语音相似度的候选词查询,随后借助N元语法模型进行排序后输出结果。文献[16]采用了一种基于混合方法的俄文拼写检查和自动纠正策略,综合使用了黑名单、错误词典、词向量模型、N元语法模型和三重错误检测的方法,同样使用了GICR作为测试数据集。
第五,其他研究。文献[17]基于GICR语料库对俄语固定搭配进行了研究,借助语料库手段可以拓展固定搭配词典,量化评估了固定搭配使用时对共时特点以及历时形成特征。文献[18]使用三个大型:俄语国家语料库、GICR和包含词句法关系和共现信息的语料库(CoSyCo)研究了形容词“гордий”在现代新闻文本中的使用问题,研究结果表明包含了清晰语料类型划分和文本来源信息的语料库对于词汇研究更加有利。
4 结束语
网络语料库是大数据时代语料库语言学研究和发展的必然产物,GICR语料库的出现正是这一趋势的有力证明。随着该语料库在语料规模、组织结构、标注精度、检索方法等方面的不断进步,必将越来越广泛地运用到现代俄语语言学研究、翻译研究、社会语言学研究等诸多领域,成为俄语语言现象量化研究、语言信息自动处理的重要数据支撑和依据,未来研究潜力与应用前景十分广阔。
参考文献:
[1] Kilgarriff, A.&G. Grefenstette. Web as corpus[A]. Proceedings of Corpus Linguistics 2001. Corpus Linguistics[C]. Readings in a Widening Discipline, 2001.
[2] Baroni, M., S.Bernardini, A.Ferraresiet al. The WaCky wide web: a collection of very large linguistically processed web-crawled corpora [J]. Language resources and evaluation, 2009(43).
[3] Sch?fer, R. & F.Bildhauer Building Large Corpora from the Web Using a New Efficient Tool Chain[A] LREC-2012[C]. 2012.
[4] Ljube?i?, N. &T.Erjavec. hrWaC and slWaC: Compiling web corpora for Croatian and Slovene[A]. International Conference on Text, Speech and Dialogue[C]. Springer Berlin Heidelberg, 2011.
[5] Benko,V. Aranea: Yet another family of (comparable) web corpora[A]. International Conference on Text, Speech, and Dialogue[C]. Springer International Publishing, 2014.
[6] Jakubí?ek, M., A.Kilgarriff, V.Ková?et al. The tenten corpus family[A].7th International Corpus Linguistics Conference CL[C]. 2013.
[7] Sharoff, S. Creating general-purpose corpora using automated search engine queries[J]. WaCky Working Papers on the Web As Corpus Gedit, 2006.
[8] Беликов, В., П.Селегей, А.Шаров. Пролегомены к проекту Генерального интернет-корпуса русского языка (ГИКРЯ)[A]. Компьютерная лингвистика и интеллекту- альные технологии: По материалам ежегодной Международной конференции ?Диалог?[C], Бекасово, 2012.
[9] Sharoff, S.&J.Nivre. The proper place of men and machines in language technology: Processing {Russian} without any linguistic knowledge[A]. In Dialogue, Russian International Conference on Computational Linguistics[C] Bekasovo, 2011.
[10] Селегей, В., О.Шаврина, П.Селегейet al.Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C]. Москва, 2016.
[11] ШавринаО.&А.Сорокин.Моделирование расширенной лемматизации для русского языка на основе морфологического парсера TnT-Russian[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C]. Бекасово, 2015.
[12] Sorokin, A., V.Baytin, E.Galinskayaet al. SpellRuEval: the First Competition on Automatic Spelling Correction for Russian[A]. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”[C]. Moscow, 2016.
[13] Katinskaya, A. &S.Sharoff. Applying Multi-dimensional Analysis to a Russian Webcorpus: Searching for Evidence of Genres[A]. In Proc. of the Workshop on Balto-Slavic Natural Language Processing associated with the International Conference RANLP[C]. Hissar: Bulgaria, 2015.
[14] Сорокин, А.Автоматическая региональная классификация на основе словаря региональной лексики: пробное исследование[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C]. Бекасово, 2015.
[15] Беликов, И., Ю. Копылов, Ч. Пиперскиetal. Корпус как язык: от масштабируемости к дифференциальной полноте[A].Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C].Бекасово, 2013 (12).
[16] Dereza,V., A.Kayutenko, A.Marakasovaet al. A Complex Approach to Spellchecking and Autocorrection for Russian[A]. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016” [C],Moscow, 2016.
[17] Захаров, П.Сочетаемость через призму корпусов[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C], Бекасово, 2015.
[18] Lukashevich, Y., S.Klyshinsky&M.Kobozeva. Lexical Research in Russian: are Modern Corpora Flexible Enough?[A]. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016” [C]. Moscow, 2016.