基于跨语言信息检索的可比语料库构建方法研究∗

2017-01-04史雅莉

国家图书馆学刊 2016年6期

司莉史雅莉

司莉史雅莉

为满足用户对多语言信息表达与获取的迫切需求，可比语料库的研究和开发逐渐成为信息检索领域研究者和系统开发人员的关注重点。从跨语言信息检索视角出发，可比语料库的构建方法主要有提问式翻译法、特征过滤法、中间语言翻译法、文本翻译法和同源匹配法等。我国可比语料库的建设，应在充分考虑系统整体性能的前提下，根据用户需求选择适用的构建方法，完善文本翻译及术语抽取技术，并优化文本对齐方式。图4。参考文献18。

可比语料库构建方法跨语言信息检索

语料库是指为一个或多个应用目标而专门收集加工的具有一定规模和结构，并且可被计算机程序检索的规范化原始语料集合，可分为平行语料库和可比语料库两种类型。目前，多语言信息语料库已经成为机器翻译、机器辅助翻译、翻译知识获取、跨语言信息检索（Cross Language Information Retrieval，简称CLIR）等研究中不可或缺的重要资源。在此背景下，不少信息检索领域研究者和系统开发人员开始将工作重点聚焦于可比语料库的研究和开发，以满足用户对多语言信息表达与获取的迫切需求。本研究对基于CLIR的可比语料库构建方法进行探讨与比较，旨在为当前国内跨语言检索系统中可比语料库的构建和完善提供借鉴和参考。

1 可比语料库的特点及其应用领域

1995年，Baker首次提出了可比语料库的概念，他认为特定语言的非翻译源文本资源和该文本资源的其他语言译本共同构成了可比语料库（Comparable Corpus）［1］。因而，可比语料库是一种资源仓储，其资源是对同一主题、不同语种的文本资源进行系统化、规范化处理之后，形成的文本对数据。通过对相关研究成果的深入分析，我们发现可比语料库主要有以下特点：（1）侧重于源文档和目标文档是否是对同一事件的描述，是否具有同一主题，而非句子与句子之间的对齐；（2）库中的翻译词对受语料库质量的影响更加显著；（3）对未登录词（通常指自然语言处理所用词典中未包含的词，它既可能是随着技术和社会发展新出现的词，也可能是在构建词典过程中遗漏的词［2］）的处理能力较强。由于其主要通过互联网收集语料，获取未登录词的可能性相对较高［3］。

由此可见，可比语料库应用于CLIR，其优势主要表现在主题关联方面，有助于关联主题的检索。同时，由于其语料来源于网络，还可从语料规模和文本对质量方面为大型CLIR系统的构建及运行提供资源保障。相关研究对阿拉伯语-英语跨语言信息检索系统的调研数据表明，可比语料库对CLIR任务有效，可单独将其作为资源模块运用于CLIR系统［4］。可比语料库主要借助网络爬虫技术智能获取语料，语料规模可根据系统需求进行扩展，因而有助于大型CLIR系统的开发与构建［5］。此外，可比语料库对语料的对齐处理不再局限于严格的形式对齐，而是强调源语言文档与目标语言文档的主题关联性，可有效提高CLIR系统的资源检准率，更加贴近用户需求［6］。

国内目前所构建的可比语料库以双语可比语料库为主，大多为中英可比语料库。且多数采用单向翻译构建模式，一般是将同一主题的中英文文档分别作为源语言文档和目标语言文档，通过单向翻译（在关键词抽取和文档检索上采用单向处理，将源语言文档关键词翻译为目标语言检索词进行检索，不再对目标语言文档进行关键词抽取及翻译）和对齐处理形成可比文档对，构成语料库。由此可见，我国在可比语料库建设方面，采用的方法较为单一，除单向翻译构建模式外，对其他构建方法的研究及运用相对较少。基于此，笔者结合相关研究及实践，对目前几种较为常见的可比语料库构建方法的基本原理进行探讨，并提出构建国内可比语料库的相关建议。

2 基于CLIR的可比语料库构建方法

CLIR系统中可比语料库的构建方法主要分为：提问式翻译构建法、特征过滤构建法、中间语言翻译构建法、文献翻译构建法和同源匹配构建法。以下将对这些方法的原理及特点等进行深入分析。

2.1 提问式翻译构建法

目前，提问式翻译构建法是用于构建可比语料库较普遍的方法。其基本原理是：将源语言文档中的关键词翻译为目标语言，再对目标语言文档进行单语检索，形成对齐文档对。在实际应用中，该方法又可分单向与双向翻译两种构建方式。

2.1.1 单向翻译构建法

利用单向翻译法构建可比语料库的基本流程主要涉及五个环节，即文档搜集关键词提取关键词单向翻译检索查询文档对齐，如图1所示［7］。

图1 可比语料库单向翻译构建方法

具体步骤如下：

（1）文档搜集。文档搜集大都通过网络爬虫技术抓取网页信息加以实现。目前，常用的爬虫工具主要有Python、MetaSeeker、Heritrix、Nutch等。由于其在开发语言、运行环境以及网页处理方式等方面存在着差异，在搜集文档时应充分考虑系统兼容性和功能需求选择合适的爬虫工具。

（2）关键词提取。可比语料库的构建更多地采用了基于主题特征的关键词提取法。该方法根据LDA（Latent Dirichlet Allocation）文档主题生成模型中主题和词的分布情况，使用给关键词赋值的方法直接抽取文档关键词，抽取出各主题的代表性词汇［8］。一般情况下，关键词提取分为五个步骤，即：1）预处理；2）主题分析；3）TF∗ITF权值计算；4）候选关键词合并；5）冗余短语消除［9］。

关键词提取的关键是利用TF∗ITF算法计算词在文档中的频度与其反文档频度的权值，获取词汇对文档的权重。TF∗ITF是关键词提取的基本算法，假设关键词j至少存在于一个文档d（dj≠0），dj／N是包含关键词j的文档数占整个文档集合的比例，则其逆文档频率IDFj为：

关键词j对文档i的权重Wij（TF∗ITF值）被定义为关键词j在文档i中的词频率乘以其逆文档频率，其计算公式为：

注：N：文档集合中的文档总数，dj：包含关键词j的文档数，fij：关键词j在文档i中的频率，Wij：关键词j在文档i中的权重［10］。

（3）关键词单向翻译。在CLIR中，可比语料库系统通常利用在线双语或多语词典对关键词或查询词进行翻译。在线词典翻译速度快，词汇量丰富且交互性强。目前，常用的在线翻译词典（软件）主要有Google翻译、有道词典、金山词霸等。但利用在线词典翻译仍然存在以下问题：1）未登录词问题，即尽管网络词典词汇丰富，但仍有些词找不到其对应的翻译；2）一词多译问题，即同一个词有不止一条翻译结果［11］；3）全文翻译问题，即在线翻译系统尚无法有效识别不同语言之间的语法和文字对应规律［12］。

（4）文档检索与对齐。这是构建可比语料库的关键环节。完成关键词抽取工作之后，需要借助一定的检索算法对所抽取的关键词进行规范化处理，形成检索式。利用检索式通过可比语料库检索系统查询目标语言文档，形成文档对并做对齐处理。在可比语料库系统中，用于信息检索的开源系统主要有 Lueene、Zettair、Smart、Lemur及Indri（Lemur子项目）等。其中，Indri因其在结构化查询方面的强大功能优势和灵活易用性得以广泛应用［13］。最初的对齐方法主要是通过检索系统对查询结果按照相关度进行初步排序，根据发布日期以及语料库规模选择与源语言文档相似度较高的目标语言文档形成可比文档对。

2.1.2 双向翻译构建法

利用双向翻译法构建可比语料库，其基本原理与单向翻译构建法相似，如图2所示。但该方法在关键词抽取和文档检索上采用双向处理，即在文档收集工作完成之后，分别提取源语言文档与目标语言文档的关键词来代表当前文档，并将提取出来的关键词进行互译。以中英文语料为例，即将中文关键词翻译成英文，英文关键词翻译成中文并对其进行规范化处理，分别形成检索式。利用英文检索语句到英文文档集合中检索候选英文文档，利用中文检索语句到中文文档集合中检索候选中文文档。最后，根据发布日期和相似度对候选文档进行过滤，形成可比文档对［14］。

图2 可比语料库双向翻译构建方法

2.2 特征过滤构建法

基于特征过滤的方法是对提问式翻译构建法的进一步完善，主要用于构建大规模的双语可比较语料库。这种方法是在单向翻译检索的基础上，基于日期、相似度等特征指标对已生成的文档对进行过滤，目的是过滤掉相关性小的文档对，如图3所示。具体来说，其从检索构建的可比文档对中抽取三个特征值进行过滤，这三个特征指标分别是日期（Date），即新闻文档的发布日期；文档对相似度（Similarity of Document Pair，SDP），即由Indri检索系统返回的查询语句与目标语言文档的相似度；关键词集合相似度（Keywords Similarity of Docuemts，简称KSD），即源语言文档与目标语言文档对应关键词间的相似度［15］。

图3 候选文档对特征过滤

Date指标：在通过单向翻译检索词检索目标语言文档时，优先考虑日期与源语言文档相近的目标语言文档。为了更好地衡量文档日期间的差异，可把检索范围限制在日期与源语言文档相同或前后相差最近的目标语言文档中。

SDP指标：在相关文档池中，按相似度大小选取n个相似度最大的文档与源语言文档组成可比文档对。然后，再将这些可比文档对按照相似度大小进行排序并设置相似度阀值进一步过滤。

KSD指标：该指标主要通过FIS关键词频度信息分值来衡量（与FIS值呈正相关），测算过程基于以下假设：翻译后的关键词在某个目标语言文档中出现的频次越多，则该目标语言文档与源语言文档越相关。FIS算法的基本思想是：在累计两篇文档相似度时，为每对词赋权值以适当增加或削减其对整个文档间相似度的影响［16］。具体测算方法为：定义源语言文档ds，目标语言文档dt，从ds中抽取的关键词集合ks，翻译后关键词集合kts，利用词频、反文档频度等信息为ks及kts分配权重，则计算结果为［15，17］：

注：ktsLen：kts集合的大小，xi：ks中的元素，yi：kts中的元素（yi与xi互译），BM25（w，d）：w在文档d中的标准化词频（TF），IDF：反文档频度，Dif（x，y）：BM25（x，ds）与BM25（y，dt）的差值。

上述计算过程中，主要考虑了TF·IDF和Dif（x，y）两类参数。TF·IDF的主要思想是：如果某个词或短语在某篇文档中出现的频率TF较高，且在其他文档中的逆文档率IDF也较高，则该词或者短语对这篇文档具有较好的类别区分能力，同时也最能反映文档主题［17］。因此，当 xi与 yi为互译关系时，关键词对xi、yi在文档ds、dt中的TF·IDF值越高，文档ds与dt的相似度就越高。Dif（x，y）为词频差值，即两篇文档内容越相似，其关键词信息也越相似，词频差值则越小。

2.3 中间语言翻译构建法

中间语言翻译法是为解决源语言与目标语言间翻译资源不存在或极少的问题而开发的一种可比语料库构建模式。该方法引入除源语言与目标语言之外的一种中间语言，把源语言与目标语言都翻译成中间语言，以中间语言再进行文档的检索和匹配，如图4所示。在实际应用过程中，这种通过中间语言翻译的方法进行源语言与目标语言之间的转换，大大降低了可比语料库系统开发过程中跨语言翻译的难度。

图4 可比语料库中间语言翻译构建方法

利用中间语言翻译法构建可比语料库的核心问题在于：（1）中间语言的确立。作为中间语言必须满足两个条件，其一是该语言为泛在语言，具有较广泛的适用范围，便于语料库资源的充分利用；其二是通过在线翻译能够实现该语言与源语言和目标语言文档之间的语义对齐处理，以保证可比语料库资源的质量。在实际应用过程中，研究人员或系统开发者通常都会根据当前网络翻译资源的语种分布情况和语言的覆盖范围进行选择，中间语言通常以英语居多。（2）翻译工具的选取。CLIR的关键即源语言与目标语言之间的翻译问题，很多翻译方法都依赖于机器翻译、双语字典或语料库等翻译工具。就目前实际情况而言，词汇量规模和翻译准确度通常是翻译工具选取过程中应考量的重要因素。

2.4 其他构建方法

除提问式翻译构建法、特征过滤构建法、中间语言翻译构建法之外，相关研究者和系统开发人员还尝试通过其他方法来构建可比语料库，主要包括文献翻译法和同源匹配法。

与提问式翻译方法不同，文献翻译法通过把信息库中用目标语言描述的文献全部翻译成用源语言描述的形式，再进行检索。运用该方法进行CLIR，检索结果是用源语言描述的。由于目前文本机器翻译技术的正确率较低，而且把信息库中目标语言描述的文献翻译为源语言的工作量也是巨大的，所以文献翻译方法只有在语料库规模不大且文档内容相对简单的情况下才具有可行性。

同源匹配法主要依据两种不同语言词语的书写形式或者语音方面的相似性来判断它们之间的匹配程度，无须翻译转换。由于该方法主要是通过词语的形式特征来进行匹配，文本对的语义对齐程度较低，因此，在可比语料库的实际构建过程中，同源匹配构建法应用较少。

3 我国可比语料库构建的建议

通过以上的对比分析可以看出，各种可比语料库构建方法各具特色，这些方法的不断发展和完善也为我国可比语料库的构建提供了新思路。根据我国可比语料库建设现状，我国在该领域的发展应注意以下三个方面。

3.1 根据需求选择适用的构建方法

构建方法的选取是可比语料库建设的关键问题。由前文分析可知，目前我国可比语料库的构建仍以单向翻译构建法为主，在方法的采用上相对比较单一。但要真正满足不同层次用户的需求，提高库内资源的利用率，就必须充分结合实际情况选择最佳建设方案。目前，除特定需求外，借助文献翻译或同源匹配方式构建的小型可比语料库已无法适用于当前信息环境。中间语言翻译法主要解决的是翻译资源极少或者不存在的可比语料库的构建问题，在实际应用过程中对小语种可比语料库的构建将会发挥重要作用。提问式翻译构建法是当前发展较为成熟的可比语料库构建方法，大多研究者和系统开发人员借助于该方法进行可比语料库系统的研发。特征过滤构建法是对提问式翻译构建法在文本对齐方面的进一步完善，能够有效提高语料库质量，应用前景比较广阔。随着数据量的迅速增长和用户信息需求的不断升级，我国在可比语料库的建设过程中，可在充分了解用户需求的基础之上，对现有的几种构建方法进行适用性分析，从而制定出最合适的建设方案。

3.2 完善文本翻译及术语抽取技术

由前文分析可知，可比语料库构建过程中主要涉及网页爬虫、机器翻译、术语抽取等相关技术。其中，文本翻译准确率较低、提取的关键词对文档揭示度不高是国内可比语料库建设中面临的较为普遍的问题。未来我国在关键技术方面可从以下两方面着手：（1）文本翻译方面，可借鉴Google在线机译模式，除单词、语句常规翻译之外，开发文档翻译模块，对语料库文档进行全文翻译。同时，建立在线翻译社区，对文本翻译中的术语表达、文本结构、语义分析等问题进行互动交流和探讨，不断提高语料库资源质量。（2）术语抽取方面，为克服基于主题特征的关键词提取法在文档语义揭示方面的不足，可借鉴Dhouha等2013年基于WordNet语义相似度度量构建的词义消歧处理法［18］。该方法以单义词作为消除歧义的种子集，并以此推断多义词的翻译，提高双语词汇提取性能。

3.3 优化文本对齐方式

文本对齐处理效果的优劣在很大程度上决定着语料库数据资源质量的高低。目前，我国可比语料库构建过程中多采用提问式翻译法，其在文本对齐方面通常是通过日期和相似度等传统指标对候选文档对进行过滤，可在一定程度上排除相似度较低的文档对，但在文档对的语义对齐上仍需进一步完善。特征过滤构建法的特色即在于其在文档对齐方面的突破，该方法除结合传统的日期、相似度等特征指标，还融合了KSD指标，并采用FIS算法对候选文档对进行系统过滤，有效提高了文档对相似度。因此，在文本对齐处理方面，可尝试借鉴特征过滤法，对候选文档对进行更加精细地对齐处理，同时也可在特征指标上做进一步地研究及拓展。

4 结语

为满足用户多元化、跨语言的信息需求，研究者和系统开发人员尝试采用不同的方法构建可比语料库，以提高CLIR效率。这些构建方法各具特点：提问式翻译构建法开发较早并与现有查询检索系统具有较高的契合度，目前在研究和实践中已得到较为广泛的关注。但其在文本对齐方面以传统的日期、相似度指标进行文本对处理，使语料库质量难以得到有效保障。特征过滤构建法针对这一问题进行了改进和完善，通过KSD指标和FIS算法有效地提高了可比语料库中文本对的相似度，这对大规模可比语料库的构建具有重要意义。中间语言翻译构建法引进中间语言翻译机制，解决了翻译资源较少或没有对应的翻译资源时可比语料库的构建问题，是对提问翻译构建法和特征过滤构建法的有益补充。文献翻译构建法和同源匹配构建法，由于目前全文翻译技术和字形、语音智能识别等技术的发展尚不成熟，只能用于构建小规模的本地语料库，并且构建成本较高。因此，我国可比语料库建设过程中，应在充分考虑系统整体性能的前提下，对不同构建方法进行比较分析，注重关键技术的引进与完善、文本对齐处理问题的优化，选择真正适合用户需求的构建策略。

1 Baker M.Corpora in Translation Studies：An O-verview and Some Suggestions for Future Research［J］.Target，1995，7（2）：223-243.

2 段宇锋，等.条件随机场与领域本体元素集相结合的未登录词识别研究［J］.现代图书情报技术，2015（4）.

3 康小丽，等.基于可比语料库的双语术语抽取研究述评［J］.现代图书情报技术，2009（10）.

4 Azadeh S，Chengxiang Z.Leveraging ComparableCorpora for Cross-Lingual Information Retrieval in Resource-Lean Language Pairs［J］.Inf Retrieval，2013（16）：1-29.

5 Homa B.，et al.Mining a Persian-English Comparable Corpus for Cross-Language Information Retrieval［J］.Information Processing and Management，2014，50（2）：384-398.

6 Tuomas T，et al.Creating and Exploiting a Comparable Corpus in Cross-Language Information Retrieval［J］.Acm Transactions on Information Systes，2007，25（1）：79-82.

7 房璐，等.可比较语料库构建及在跨语言信息检索中的应用［J］.广西师范大学学报，2010（3）.

8 刘俊，等.基于主题特征的关键词抽取［J］.计算机应用研究，2012（11）.

9 朱泽德.网络双语语料挖掘关键技术研究［D］.合肥：中国科技大学，2014.

10 IA El-Khair.TF∗ITF［J］.Encyclopedia of Database Systems，2009（12）.

11 房璐.英汉可比语料库的构建与应用研究［D］.苏州：苏州大学，2011.

12 李韩芬.互联网免费在线翻译工具述评［J］.农业网络信息，2007（4）.

13 陈燕.基于Indri的动态索引机制探讨［J］.电子设计工程，2014（9）.

14 王珊珊.中英可比语料库的构建［D］.大连：大连理工大学，2013.

15 赵莲.大规模中英可比语料库构建［D］.大连：大连理工大学，2010.

16 TAO T，Chengxiang Z.Mining Comparable Bilingual Text Corpora for Cross-Language Information Integration［C］.In Proceedings of the 11th ACMSIGKDD International Conference on Knowledge Discovery in Data Mining，Chicago，USA，2005：691-696.

17 tf-idf［EB／OL］.［2016-04-23］.http：／／baike.so. com／doc／433640-459181.html.

18 胡小鹏，等.构建和剖析中英三元组可比语料库［J］.计算机工程与应用，2014（13）.

（司莉教授武汉大学信息资源研究中心信息管理学院图书馆学系主任，史雅莉武汉大学信息管理学院图书馆学专业2015级博士研究生）

Study on the Construction Methods of Comparable Corpus Based on Cross Language Information Retrieval

Si Li Shi Yali

In order to satisfy the urgent need of users in multi-language information expression and retrieval，the research and development of comparable corpus have gradually become the focus of researchers and developers in information retrieval.From the perspective of cross language information retrieval，this paper studies several comparable corpus construction methods，which include questions translation method，feature filtering method，intermediate language translation method，text translation method and homologous matching method. The construction of comparable corpus in China should take a full consideration of the whole performance of the system，and then choose the appropriate building method based on user requirements，improve text translation and terminology extraction technology，optimize text alignment method.4 figs.18 refs.

Comparable Corpus；Construction Method；Cross Language Information Retrieval

2016-06-14

∗ 本文系教育部人文社会科学重点研究基地重大项目“基于内容的多语言信息组织与检索研究”（项目编号：14JJD870001）研究成果之一。