APP下载

跨语言查询扩展技术研究进展

2018-01-17兰慧红

电子技术与软件工程 2017年23期
关键词:本体

摘 要 跨语言查询扩展是改善和提高跨语言信息检索系统检索性能的核心技术之一。本文以跨语言查询扩展技术的发展为主线,将目前的研究方法主要分为三类:基于相关反馈的跨语言查询扩展、基于潜在语义的跨语言查询扩展和基于本体的跨语言查询扩展。对这三类跨语言查询扩展技术的研究进展进行了详细的介绍和阐述,并对它们的优缺点进行分析,最后对其发展前景进行展望。

【关键词】跨语言信息检索 查询扩展 相关反馈 潜在语义分析 本体

随着互联网的迅速发展和用户需求的提高,单一语种检索的局限性越来越明显,人们已不再满足于在单一语种中进行检索,而是迫切希望能检索到更多其它语种的相关信息。由于用户所掌握语言的有限性和网络语言的多样化导致当前用户从互联网自由获取多种语言信息的困难。为了消除语言障碍,将网络信息资源提供给不同的用户,跨语言信息检索应运而生,并已成为突破信息存取语言障碍的关键。

跨语言信息检索(Cross-Language Information Retrieval, CLIR)是指用户以一种语言检索出另一种或多种语言信息的方法。跨语言信息检索涉及至少两种以上语言,其关键问题是如何实现源语言与目标语言之间翻译匹配的问题。目前跨语言信息检索方法主要有查询翻译、文档翻译、中间语言翻译和基于同源匹配等四种方法。可见,翻译可以说是跨语言信息检索技术的核心问题,然而,翻译的歧义性和多义性问题常常导致跨语言信息检索性能低下。

跨语言查询扩展(Cross-Language Query Expansion) 是解决跨语言信息检索中查询翻译歧义和多义性问题的核心技术之一,它通过对用户的初始查询进行扩展和重构,把与原查询相关的词或者与原查询语义相关的词添加到原查询,构建更明确清晰的新查询,然后再次检索,以弥补原查询信息的不足,提高跨语言检索性能。跨语言查询扩展按其发生的先后,可以分为翻译前查询扩展、翻译后查询扩展和结合翻译前翻译后查询扩展三种。与单语言查询扩展类似,跨语言查询扩展词的来源主要有三种:一是来自于初检结果相关文档;二是基于语料库的方法;三是利用聚类技术或文本挖掘技术从文档集中获取查询扩展词。目前跨语言查询扩展研究主要集中在基于相关反馈、基于潜在语义和基于本体的方法。本文主要对这三类跨语言查询扩展技术的研究进展进行详细的介绍和阐述,以期对感兴趣的同行有一定的参考作用。

1 基于相关反馈的跨语言查询扩展

相关反馈是一种查询重构技术,其在跨语言信息检索过程中利用跨语言初检结果的前列文档作为扩展词的来源,实现跨语言查询扩展,然后再进行二次检索。相关反馈技术按照用户是否参与可分为用户相关反馈(也称为交互式相关反馈)和伪相关反馈(也称为自动相关反馈)。

1.1 用户相关反馈

基于用户相关反馈的跨语言查询扩展融入了用户的参与,用户不仅能够对初检结果文档进行相关性判断,而且还可以控制和修改查询。其基本思想是:由用户对初检结果的文档进行相关性判断,系统根据这些判定重新构建更接近用户需求的查询,然后再次检索文档。

国内外学者对基于用户相关反馈的跨语言查询扩展都作了一些研究,Orengo等[1]基于用户相关反馈进行了英语-葡萄牙语跨语言查询扩展实验,由27位葡萄牙语志愿者对检索结果列表的前10篇文档进行相关性判断,然后再进行跨语言查询扩展,研究成果表明该方法有效的提高跨语言检索性能。吴丹[2]将用户相关反馈应用于跨语言信息检索全过程,由54位志愿者分别采用三种方法对检索主题进行跨语言信息检索并对检索结果进行相关性判断与反馈,根据反馈结果进行查询扩展,实验结果表明用户的参与有助于提高查询准确率,能够获得较好的检索效果。但该方法的主要缺陷是需要大量的用户参与,给用户带来很大的负担,成本较高。

1.2 伪相关反馈

基于伪相关反馈的跨语言查询扩展方法不需要用户参与,完全自动进行,是一种相对简单实用的自动优化策略,被大量应用于相关反馈实验中。其基本思想是:通过假定检索结果列表的前n篇文档为相关文档并将其作为扩展词来源进行查询扩展,再进行二次检索。

其典型算法是微软亚洲研究院提出的两步伪相关反馈法[3]。该方法首先使用源语言查询式进行检索,然后从检索结果的前n篇文档中选出出现频率最高的m个词作为查询扩展词,再用双语词典将源语言查询词翻译为目标语言查询词进行二次检索,实验结果表明该方法能够较好的提高跨语言检索性能。但其主要缺点是过分依赖于前n篇文档的精确度,当检索到的前n篇文档与查询式无关时,会连带造成扩展偏差。

Paul McNamee[4]以及吴丹等[5]在文献[3]基础上对基于伪相关反馈的跨语言查询扩展进行了深入研究,并对翻译前查询扩展、翻译后查询扩展以及两者不同的组合进行了一系列的实验。吴丹[6]还通过伪相关反馈实验比较4种跨语言信息檢索查询翻译优化技术,取得较好的研究成果。

为了解决翻译歧义性问题,Abdelghani Bellaachia[7]等结合WordNet和伪相关反馈的方法进行英语-阿拉伯语跨语言查询扩展研究,通过伪相关反馈获得候选扩展词后,利用WordNet对候选扩展词进行共现检查,以达到消歧的目的。

近年来,基于主题模型的跨语言伪相关反馈查询扩展方法也受到了研究者的青睐。王序文等[8-11]先后进行了基于潜在狄利克雷分配主题模型、基于双语主题模型以及基于弱相关主题对齐的跨语言伪相关反馈查询扩展进行研究,利用主题层进行相关反馈,减少无关主题的干扰,提高跨语言检索性能。文献[12-13]利用主题模型对相关文档的主题进行划分,并将其用于伪相关反馈查询扩展词的选取,提高跨语言检索准确率。

2 基于潜在语义的跨语言查询扩展

为了解决1.2节中的缺陷,一些学者提出了基于潜在语义的跨语言查询扩展方法。其基本思想是:利用潜在语义分析技术建立不同语言之间的对应关系,然后从扩展双语文本集合中找出与原查询相关的目标语言特征词作为查询扩展词,实现跨语言查询扩展。endprint

潜在语义分析法是由S.T.Dumais[14]等人提出的,它假设文本集中词与词、词与文本、文本与文本之间存在着某种潜在语义结构,通过统计计算的方法对文本集进行分析,提取出这种潜在的语义信息,从而达到消除词之间的相关性,简化文本向量的目的。他们将潜在语义索引(Latent Semantic Indexing,LSI)模型应用于法语-英语跨语言信息检索中,利用奇异值分解技术对双语检索词-文档关联矩阵进行奇异值分解,构造出法-英双语潜在语义空间,实现无需翻译的跨语言查询扩展,实验结果表明该方法能够获得较好的检索结果。

国内学者对基于潜在语义的跨语言查询扩展也进行了一系列的研究。闭剑婷等[15]结合文本聚类和潜在语义分析的方法进行了中英跨语言查询扩展研究,利用k-means聚类提高扩展文本集合的精度,并用潜在语义分析实现无需翻译的跨语言查询扩展,提高查询准确率。魏露等[16]对文献[15]进行改进,采用奇异值分解和非负矩阵分解相結合的方法建立双语空间,实现查询扩展优化,改善跨语言检索性能。宁健等[17]利用改进的潜在语义分析方法实现生物医学双语摘要跨语言信息检索,实验结果表明该方法能够提高跨语言检索的准确率。罗远胜等[18]通过双语平行语料库构造每种语言的潜在语义空间,提取不同语言之间的语义对信息,改善和提高跨语言检索性能。郭文等[19]把语义词典和马尔可夫随机域的潜在语义扩展相结合,将查询词的近义词、同义词、上位词和潜在语义相关词作为查询扩展词进行查询扩展,较好地解决跨语言信息检索翻译歧义性问题,改善检索性能。

基于潜在语义的跨语言查询扩展的缺点是:实验所需的双语训练文档较难获得,奇异值分解技术的计算所花费的时间较长。

3 基于本体的跨语言查询扩展

本体是对概念及概念之间关系规范化、明确化、形式化、可共享的一种描述,其目标是捕获相关领域知识中词与词之间相互关系的明确定义。基于本体的跨语言查询扩展的基本思想是:通过对本体概念的描述,将源语言与目标语言在该概念下进行统一,并根据含义建立双语映射。当用户输入源语言查询词时,系统根据本体的概念内涵及概念关系找出对应的目标语言查询词,实现跨语言查询扩展。

王进等[20]利用本体在知识表示和语义描述方面的优势,提出了一种基于本体的跨语言信息检索模型,解决查询在从源语言到目标语言转换过程中出现的语义损失和曲解等问题,改善跨语言检索性能。吴芳等[21]提出了一种基于双语本体的跨语言查询扩展,利用旅游领域本体实现基于概念的智能查询扩展,取得了较好的效果。

该方法的缺陷是:对语义信息的利用完全依赖于本体库,因此本体库的语义完整性将很大程度上决定了跨语言信息检索性能。

4 结束语

本文以跨语言查询扩展技术的发展为主线,将目前的研究方法主要分为三类,对这三类研究方法进行了详细的介绍和阐述,并对它们的优缺点进行分析。由于跨语言查询扩展受到语词匹配、翻译资源类型、翻译资源质量及语种等问题的影响,跨语言查询扩展技术的研究将是一个长期的、值得探讨的研究课题。用户是信息需求的主体,如何通过用户行为更好地提取用户的查询语义从而进行跨语言查询扩展将是未来的一个研究方向。

参考文献

[1]Orengo V M,Huyck C.Relevance feedback and cross-language information retrieval[J].Information Processing and Management,2006,42(05):1203-1217.

[2]吴丹.交互式跨语言信息检索中用户行为研究[J].中国图书馆学报,2012,38(199):78-90.

[3]Gao J F,et a1.TREC-9 CLIR Experiments at MSRCN[C]// Proceedings of the 9th Text Retrieval Evaluation Conference,2001:343-353.

[4]McNamee P,Mayfield J.Comparing cross-language query expansion techniques by degrading translation resources[C].Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2002:159-166.

[5]吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(02):232-239.

[6]吴丹,何大庆,王惠临.一种基于相关反馈的跨语言信息检索查询翻译优化技术研究[J].情报学报,2012,31(04):398-406.

[7]Abdelghani Bellaachia and Ghita AmorTijani.Enhanced Query Expansion in English-Arabic CLIR[C]//Proc of the 19th IEEE International Conference on Database and Expert Systems Application,IEEE Computer Society Washington,DC,USA,2008.

[8]Wang X W,Zhang Q,Wang X J,et a1. LDA Based PSEUDO Relevance Feedback for Cross Language Information Retrieval[C].Proceedings of the 2nd International Conference on Cloud Computing and Intelligence Systems.IEEE,2012.endprint

[9]Wang X W,Wang X J,Zhang Q,et al.A Web-Based CLIR System with Cross-Lingual Topical Pseudo Relevance Feedback[C].Proceedings of the 4th International Conference on Conference and Labs of the Evaluation Forum (CLEF) Initiative,ValenciaSpain.2013.

[10]王序文,王小捷,孙月萍.双语主题跨语言伪相关反馈[J].北京邮电大学学报,2013,36(04):81-84.

[11]Wang X W,Zhang Q,Wang X J,et al.Cross-lingual Pseudo Relevance Feedback Based on Weak Relevant Topic Alignment[C].Proceedings of the 29th Pacific Asia Conference on Language,Information and Computation Shanghai,China.2015:529-534.

[12]张博,张斌,高克宁.一种用于查询扩展词选取的主题模型[J].东北大学学报(自然科学版),2013,34(03):348-350.

[13]高璐.基于主题模型的藏汉跨语言信息检索查询扩展研究[D].北京:中央民族大学,2017.

[14]Dumais S T,Letsche T A,Littman M L,et al.Automatic cross-language retrieval using latent semantic indexing[J].Aaai Symposium on Cross language Text & Speech Retrieval,1997:51-62.

[15]闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,35(10):49-53.

[16]魏露,李书琴,李伟男等.跨语言查询扩展优化[J].计算机工程与设计,2014,35(08):2785-2788,2803.

[17]宁健,林鸿飞.基于改进潜在语义分析的跨语言检索[J].中文信息学报,2010,24(03):105-111.

[18]羅远胜,王明文,勒中坚等.跨语言信息检索中的双语主题相关模型[J].小型微型计算机系统,2013,34(12):2758-2763.

[19]郭文,陈毅东,赵欣.跨语言信息检索中的查询扩展[J].心智与计算,2009,3(0l):1-8.

[20]王进,陈恩红,张振亚等.基于本体的跨语言信息检索模型[J].中文信息学报,2004,18(03):1-8,60.

[21]吴芳,丁玲,张杰等.跨语言信息检索中基于本体的查询扩展模型研究[J].计算机教育,2009(17):122-124.

作者简介

兰慧红(1985-),女,广西壮族自治区河池市人。硕士学位。现为广西教育学院教师,讲师。主要研究方向为数据挖掘和信息检索。

作者单位

广西教育学院 广西壮族自治区南宁市 530023endprint

猜你喜欢

本体
Abstracts and Key Words
灰铸铁缸体本体抗拉强度提升的研究
眼睛是“本体”
对姜夔自度曲音乐本体的现代解读
领域本体的查询扩展和检索研究
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
《我应该感到自豪才对》的本体性教学内容及启示
一种基于本体的语义检索设计与实现
媒介生存:关于新闻史研究本体的思考