APP下载

面向俄汉机器翻译的双语语料库建设与管理

2022-04-01李思迪胡萌萌陈懿懿

数字通信世界 2022年3期
关键词:俄文俄语语料

李思迪,胡萌萌,陈懿懿

(中南林业科技大学,湖南 长沙 410004)

1 俄汉双语语料库的设计背景与思路

1.1 设计背景

近年来,已经有多种与双语语料库有关的机器翻译技术,例如,基于实例的机器翻译技术(example-based)、基于数据库存储的机器翻译技术(translation memory)等,都是通过直接使用经过分析和对齐的单语语料,提高了机器译码工作的质量。此外,还有一种翻译技术通过统计模型等从双语语料数据库中提取到的双语语料和翻译模型进一步完成传统机械化翻译。

目前,关于双语语料库的研究大致可分为3类:一是拥有关于双语语料的自动对齐技术,现在市场上已经出现了一些关于自动对齐语料的程序或工具;二是各种专门研究双语语料库的实际应用的科学技术,如在基于数据和统计的机器翻译技术、基于实际案例的机器翻译技术,甚至在对双语单词词典进行编纂的过程中,双语语料库都起到了很大的作用;三是争取解决对双语语料库设计、采集、编码、管理等方面的问题。对于双语或者多语言信息库的研究,国内已有许多工作正在逐步展开,但对于在双语信息库构建方面以及双语信息库编码和算法方面的探索,国内基本上还处于初步阶段。因此,建立一个具有一定规模的能够经过对齐处理来运作的俄汉双语平行语料库迫在眉睫[1]。

1.2 设计思路

首先根据语料库建设存在的相关问题,有针对性地进行了前期准备工作,包括采用网络挖掘技术和网页内容收集算法收集、整理语料、词对齐模型升级和平行句子对入库四项内容,以便顺利进行接下来的俄汉双语语料库的建设和管理工作。下文具体介绍基于俄汉机器翻译的双语语料库的前期准备以及收集、标记和加工具体构建过程。如图1所示。

图1 设计流程

2 俄汉双语语料库构建前期准备

2.1 基于Web的俄汉语料获取

基于Web的俄汉语料获取模块的主要功能是通过爬虫程序对俄文网站进行抓取,获取语料库文档,并从文档中提取有价值的俄文信息,作为人工翻译模块的语料库输入源[2]。该模块集成了一个基于宽度优先数据搜索策略的通用网络爬虫程序,爬虫程序通过分析俄语“导航网站”HTML文档,提取多个俄语网站URL的种子集,依次选择种子URL对每个俄语网站进行抓取,并下载保存网站网页文档。通过HTML标签过滤、俄语字母识别算法、句子重复过滤、短句子过滤和单词拼写查询步骤,提取具有完整表意功能的俄语单句语料库,并将其保存在XML文档中作为语料库源。宽度优先策略的优点是保证了浅HTML文档的优先处理,可以有效避免“爬虫迷失”的情况出现。

2.2 将句法知识引入词对齐模型之中

原始的单词对齐模型是来源于IBM的模型,但严格意义上的单词对齐很难得到,而简单的解释语序难以适应汉语语序复杂多变的特点,导致语序对齐效果不佳。为了大幅提高单个词语对齐的准确度和质量,本文提出了一种对数式线性单个词语的对齐模型。在当前的语言特征为对数线性的模型中,语言特征比较简单,如何有效引入语言句法知识,较为有效地提高对齐能力是一个研究热点。

本文主要通过对基于语料库的统计机器翻译进行分析,考虑到汉俄语之间的差异及汉语句法分析工作的难点,重点探讨如何把形式语法直接引入到机器翻译中,提升双语机器翻译的口译能力和易记性能力;同时,充分利用已经掌握的基本语言知识,并进行语言的句法整合。将语言形式句法知识(ITG)与单词和语言句法知识(简称句法树)巧妙地结合,可以有效地分析和解释两个单词在对齐的两个双语句子之间复杂的结构关系。形式语法模型的灵活度使其更易于读写,避免了分析语法所带来的困难。

2.3 俄汉双语语料网页内容收集算法的设计

首先,根据研究的需要和目的,选择双语语料库采集方法,从网络上下载相同主题的文本进行语料库采集。此外,为了扩大语料库来源的广度,提高语料库的质量,还通过收集俄汉双语教材和扫描特定文本,获得一些双语语料库。双语语料库的采集应根据采集对象的不同来采取不同的方法。以网页内容采集为例,首先分析双语语料库采集对象(网页)的源代码,网页爬虫程序必须根据网页源代码编写,否则无法获取网页内容,然后整理出要采集的双语语料库地址进行研究,网站地址存储在“wz”中。最后,根据wz中的地址收集相关的文本内容。具体流程如图2所示。

图2 具体流程

3 俄汉双语语料库构建过程

3.1 语料的采集

3.1.1 语料的来源由于俄汉机器翻译对数据的要求比较高,所以需要大量俄汉双语语料,而数据获取的方法较为多样。考虑到需要保证语料的充足性,最终选择爬取《俄汉详解大字典》与Python爬虫技术相结合的方式。

3.1.2 语料的录入

(1)在确认爬取取字典后,便开始进行中俄文语料的录入。首先使用高速扫描仪扫描《俄汉详解大字典》,但需要注意的是扫描后的格式为PDF,需要再将PDF格式转换为语料库的文本格式即TXT格式。

(2)基于Web的俄汉语料获取方法,即通过爬虫程序爬取俄文网站,进而获取语料文档,从中抽取有价值的俄文信息作为语料输入源。利用基于宽度优先数据的搜索策略通用网络爬虫程序,通过对俄文“导航网站”HTML文档分析,提取出多个俄语网站URL的种子集,然后依次选取种子URL对各个俄文网站爬取,并且下载保存网页的文档。经过HTML标签过滤、俄文字母识别算法、短句过滤句、重复过滤及单词拼写检查五个步骤提取可用的俄语语料,最后保存在XML文档中作为语料源。

3.2 语料的整理

3.2.1 语料的预处理

为了保证语料库的质量和研究的准确性,有必要对扫描后的语料库文本进行仔细校对,检查语料库是否有乱码、拼写错误以及具体内容是否与原文意思不同,并及时校对和改正。语料库的预处理主要包括统一格式、去除各种杂质,来达到实现中俄语料库准确共享的作用。在输入校对语料、统一语料格式、去除杂质后,将中俄文语料分为不同的文档,每份文件都用字母命名,方便文件的查询及加载。文件名分别以“1-z.txt”“1-e.xt”格式命名,z指“中文”,e指“俄文”,以此标明文本语言是中文还是俄文。

3.2.2 语料的分类标记

(1)分类标准。在对语料库信息进行归类时,存在着不同的分类标准。针对这一点,可通过将每个语料库的风格、样式和领域3个基本属性都标记在一起,对各个语料库中的文本水平进行多层次地分类。语料库根据语体可以划分两类(包括书面语和口头语);语料库根据文体可以被划分为3种类型(包括文学、新闻和实用性写作);按照学科和领域划分,被细化成6大学科:包括艺术、产业、政治、科学、体育和其他社会文化[3]。这种多层次的分类法,一方面能够灵活地反映出各种语料库的组成和类别,另一方面也有利于在整个语料库的基础上再次抽取其他子语料库。最重要的是,分类和收集到的信息进行统计分析结果会从不同的角度为构建均衡的大型双语平行语料库起到引领作用[4]。

(2)偏误标注。俄汉双语语料库的成功建立,目的是能够更好地服务于机器翻译和语言学习者掌握机器翻译语言的使用和其发展过程[5]。语料库中错误的类型可能会导致其他错误的因素产生。为了客观准确掌握学习者对特定的单一术语或表达形式的使用频率、语言要素之间的组合或联系,有必要对语料库中错误的类型进行明确的识别和标注[6]。目前我国语料库的标注工作仍存在部分问题。张宝林[7]指出了当前我国的资源数据库建设中应当始终坚持“全面性”的原则,应该是做到在字、词、短语、句、篇、语体、意思、语义、标点符号等各种层面上都要对相关语言和文化现象进行了标注,这样我们才能够有效地保证语料库的功能全面,即主张“偏误标注+基本标注”的一种新型标注方法。肖奚强、周文华[8]则从其所标注出来的广度、深度、角度和准确度四个维度探讨中介语语料库标注的全面性问题,主张采取“正确信息+错误信息”的标注方式。俄汉双语语料库根据研究需要,可以从音位、语素、词、节、句法结构和语用信息等方面对俄汉双语语料库进行编码和标注[9]。由于国内俄语错误标注的语料库系统建设只是处于探索的最初阶段,本文基于真实性和客观性原则,仅从词汇与语法两个方面进行探讨。至于正确的俄文信息标注、风格标注、语用标注等多个层次的标注,需要在与俄文语料数据库和相关研究工作中取得一定的研究成果之后才能够开始[10]。对于排序结果,首先利用测试/统计工具检查标签的有效性,并根据具体需要进行必要的统计,如语料库类型、句子对数量、错误率等[4]。

3.2.3 语料的加工

用自动对齐程序标识句子/段落边界从而变成段落级/句子级的双语对齐[4],在对数线性单词的对齐模型中,引入IGT模型的约束,进而对全局语境范围内单词序列进行改变;为进一步加强词序,把句法树约束融入到基于IGT的单词对齐模型中。经过两个类型的句法知识点的整合,能够有效地在全局及其他局部区域的范围内限制词语对齐时的字序变异[11]。将自动化技术与人工检查相结合,对自动对齐结果进行人工审核,得到正确的句子/段落边界标记和对齐标记的俄汉双语平行语料库[4]。

4 语料库在机器翻译系统中的检验和应用价值

4.1 语料库在俄汉机器翻译系统中的检验

在语料库建立之后,采取将语料库实际应用在翻译软件中来检验结果的方式,通过基于机器学习的机器翻译程序系统完成检验。该系统主要由三个重点模块构成:译码器、语言模型及其解码器。在基于机械科学的俄汉机器翻译语言系统中,现有一些基于俄语语言模型的工具,例如srilm、cmu等,对俄语文本信息进行了专业化的语料库训练,从而可以获得既覆盖了语料库的内容又完全符合俄语基本话题和语法原理规则的语言模型[12]。

4.2 语料库在俄汉机器翻译系统中的应用价值

4.2.1 语料库为翻译引擎提供资源支持

在基于实例或者是基于数据存储的翻译引擎研究工作中,需要大量的实例。这些实例至少以一种句子层次对齐的形式被存储在基于数据实例的翻译引擎记忆库中。在俄汉双语句子对齐的语料库中,对单个短语的对齐做了一些具有探索意义的研究工作,包括一些俄汉两种双语句子的基础名词短语和最为普遍的名字单语对齐。标注句子与俄汉双语的对齐信息,便于提炼俄汉两种语言的相反句意。标记句子一级对齐的相关信息,便于提取俄汉两种双语的句子。这些句子既可以被直接存储在基于编程器翻译的引擎数据库中,也可以被存储在基于翻译引擎的记忆翻译数据库中。这些语料库资源都是俄汉机器翻译系统的有力支持。

4.3 提升机器翻译的效率和准确性

利用俄汉多语言的数据库自动提取翻译过程中必须的统计学基础知识,提高机器翻译系统的构建和效率;此外,采用大量的统计学基础知识,以提高翻译的可靠性。开发相关语料库可有效增加数据库的相关信息,因此当使用一个足够大的语料库或者输入准确匹配到实例时,翻译质量会相对更好。该语料库还可以为机器翻译系统的测试和评价提供一个平台。通过数据库对比机器翻译系统的源词和目标语两种翻译方法的分析研究结果,以及翻译后的结果和语料库中源词和目标语之间的相互对应性关系,可以获得大致的综合性评价。

猜你喜欢

俄文俄语语料
基于归一化点向互信息的低资源平行语料过滤方法*
俄语歌曲在俄语教学中的应用策略探究
浅议如何提高职业教育的俄语教学质量
三亚将替换错译俄文路牌
俄文网站新闻的篇章及句法特征
濒危语言与汉语平行语料库动态构建技术研究
改进俄语教学方法 提高俄语教学质量
国内外语用学实证研究比较:语料类型与收集方法
英语教学中真实语料的运用
中国“俄语年”俄语知识竞赛启动