跨语言信息检索及其相关问题
2014-02-28张彦文
张彦文
(桂林电子科技大学 图书馆,广西 桂林 541004)
跨语言信息检索及其相关问题
张彦文
(桂林电子科技大学 图书馆,广西 桂林 541004)
网络信息技术的飞速发展产生了丰富的海量信息资源。信息资源所采用语言的多样性和用户所掌握语言的差异性,带来了信息检索的多语言或跨语言困难。跨语言信息检索是为了适应这一发展要求而诞生的信息检索检索方法和技术。本文对跨语言信息检索的渊源、跨语言信息检索方法以及跨语言信息检索模型等进行了讨论。
信息检索;跨语言检索;检索模型;多语言信息资源
信息技术的发展产生了大量的数字信息,人们进入了海量信息资源和大数据时代。特别是互联网技术的快速发展,因特网上的信息资源类型和数量愈来愈丰富,所使用的语言愈来愈具有多样性。网络资源语言的多样性和网络用户所掌握语言的差异性不可避免地给人们利用网络检索信息带来了语言障碍。这种语言障碍极大地限制了人们对信息资源的有效获取,跨语言信息检索由此应运而生。跨语言信息检索由康奈尔大学的Salton于20世纪70年代初首先提出。他利用手工编制的英语—德语双语种词表,进行了跨语言信息检索的尝试;1973年,他又编制了英语—法语词表,并对跨语言信息检索的效率进行了评价。1964年,法国道路研究实验室开发了“国际道路研究文献系统”,该系统通过英、法、德三种语言索引词构成的多语言受控词表来实现跨语言信息检索。跨语言信息检索是指用户以自己熟悉的一种语言来构建和提交查询提问式,从多语言信息资源系统中检索出符合用户需求的另一种或多种语言描述的相关信息资源。例如,输入中文的提问式,从多语言信息资源系统检索出英文、法文或中文及其他语言描述的相关信息资源。用户查询提问时所使用的语言称之为源语言,而系统检索出的信息资源所包含的语言称之为目标语言。跨语言信息检索,可分为双语言信息检索和多语言信息检索。双语言信息检索是指用户以自己熟悉的语言提交查询请求,除源语言之外,系统可检索到另外一种语言表达的文献信息,即目标语言为另一种语言。多语言信息检索是指用户以自己熟悉的语言提交查询请求,除源语言之外,系统可检索到另外多种语言表达的文献信息,即目标语言为多种语言。相对于双语言信息检索,多语言信息检索往往更符合网络用户的查询需求。与跨语言信息检索相对应,查询提问式语言和检索出信息资源表述语言相同的信息检索称为单语言信息检索。跨语言信息检索是传统计算机信息检索技术和语言自动处理技术的有机结合,涉及语言学、情报学、计算机科学等多门学科知识,是一个综合性强、富有挑战性的研究领域。源语言和目标语言的统一是跨语言信息检索的关键技术,信息检索模型则是实现查询和信息资源匹配的重要理论基础。本文对此都进行了讨论,以利于图书馆员们更好地了解和掌握跨语言信息检索相关技术。
一、跨语言信息检索方法
跨语言信息检索一般可以分为如下三个过程:①多语言信息资源的搜集以及多语言信息索引的建立;②应用语言自动处理技术实现提问语言(源语言)和信息资源表述语言(目标语言)的统一;③应用单语言信息检索技术实现查询提问式与索引信息的匹配,得到检索结果。其中源语言和目标语言的统一是实现跨语言信息检索的关键技术,主要通过提问式翻译、文献翻译、中间语种转换及非翻译方法等四种方式来实现。提问式翻译是指将用户提交的查询请求翻译成系统支持的多种语言,然后对不同语言的信息集进行查询。提问式翻译主要有字典和语料库两种方法。其核心思想在于通过语料库中不同语种同一信息的对应关系对提问式进行翻译并且过滤提问式翻译后产生的非正常翻译结果。提问式翻译是实现跨语言信息检索较为经济的方法。其缺陷在于,系统返回的信息仍然用目标语言表达,只能算一种不完全的跨语言信息检索。文献翻译是指在信息检索之前,将文献信息资源表述的目标语言转化为查询提问式的源语言。目前实现文献翻译的方法主要有机器翻译和基于字典翻译文献索引词方法。文献翻译的优点是检索结果用提问语言描述,用户能够方便地选择利用。同时,文献层次的翻译与提问层次的翻译相比,其语境更加宽泛,比较容易消除歧义。不足之处在于要求所有被检索信息改变语言表述,而现有机器翻译系统的正确率还难以达到令人满意的程度,无法达到实用水平;此外,将数据库中全部文献从目标语种翻译到提问语言工作量大,代价昂贵。中间语言转换是将提问的源语言转换成中间语言,再把中间语言转换为信息资源的目标语言,或者是把提问的源语言和信息资源的目标语言都转换为中间语言。中间语言通常是计算机容易自动处理的语言。这种方法常用于多于两个语种的跨语言信息检索或者两种语言之间不存在直接对应转换的跨语言信息检索。非翻译方法是指不对提问语种或者信息语种进行翻译而实现跨语言信息检索的方法,即潜语义索引。这种方法的实现方式是,首先将原始文档与相对应的翻译文档建立联系,构建训练文档集,然后利用奇异值分解技术对其进行分析,获得双语文档集的特征信息和检索词的映射关系,最后以平行文档中的语词检索出另一语言的相关信息。这种方法的优点是,不需要字典、词表和机器翻译系统,也不存在翻译过程中消除歧义的问题,具有很高的灵活性和适应性;不足之处在于对具体问题构造优化的向量空间模型是一种经验型的工作,且向量空间模型的奇异值分解计算需要时间,训练文档不容易获取。
二、跨语言信息检索模型
信息检索模型是信息检索中的一个重要理论问题。已有的单语言信息检索模型包括布尔模型、向量空间模型、概率模型、统计语言模型和语义处理模型等。这些信息检索模型在跨语言信息检索中有着重要的作用。布尔模型是一种基于集合论的检索模型。在该模型中,一篇文档通过称之为标引词的关键词来表示,文档语义内容中标引词的重要性用一个二值权值来表示,一个查询表示为多个标引词通过逻辑联结词连接的表达式。布尔模型结构简单、容易实现,但只能判断文档相关或不相关,无法描述与查询条件的匹配程度情况。模糊集合模型和扩展布尔模型在此方面进行了改进。在模糊集合模型中,将文档看成与查询在一定程度上相关,每一标引词都存在一个模糊的文献集合与之相关。扩展布尔模型吸取了模糊集合模型和向量空间模型的长处。在该模型中,一篇文档对应的标引词被赋予了一个0~1之间数值的权值,文档与查询的相似度通过公式来计算。布尔模型及其扩展模型在跨语言信息检索的查询翻译消歧中得到成功应用。向量空间模型是将文档和查询表示为向量的检索模型。在该模型中,标引词在一篇文档中的权值是一个0~1之间的实数。查询中的标引词也有一个正的加权值。文档向量与查询向量夹角的余弦用来计算它们之间相似度。向量空间模型能根据相似度对检索结果进行排序,有效地提高了检索效率。其不足之处在于标引词被假定为相互独立,这样会丢掉大量的文本结构信息,且相似度计算量大。为此,人们对向量空间模型进行了改进,提出了广义向量空间模型。广义向量空间模型已应用于跨语言信息检索,其基本思想在于根据双语言训练文档集分别建立源语言与目标语言的检索词——文档关联矩阵。在源语言与目标语言之间建立映射关系,在不需要翻译的条件下实现跨语言信息检索。概率模型是基于概率和随机过程理论的检索模型。在该模型中,一个用户查询对应一个由相关文档构成的集合,称之为理想集合。如果知道理想集合的特征,就可以找到所有的相关文档,剔除所有的无关文档。概率模型具有严格的数学理论基础,采用相关反馈原理克服了不确定性推理的缺点。但其参数估计难度较大,缺乏理论知识。于是人们将统计学引入到概率模型中,形成了各种基于贝叶斯网络的检索模型。推理网络模型是概率模型的一种扩展形式,它模拟人脑的推理思维模式,将文档与用户查询匹配的过程转化为一个从文档到查询的推理过程。跨语言信息检索系统InQuery是基于贝叶斯推理网络模型的信息检索系统,InQuery允许使用查询算符,这在跨语言信息检索中是非常有用的。统计语言模型是关于某种语言所有语句或者其他语言单位的分布概率,也可以将统计语言模型看作是生成某种语言文本的统计模型。根据马尔可夫链的阶数,统计语言模型分为一元语言模型和多元语言模型。一元语言模型假设词与词之间是相互独立的,一个词出现的概率与这个词前面的词没有必然联系。多元语言模型假设词与词之间是相互关联的,一个词出现的概率与这个词前面的词存在一定的关联。根据目标词前面其他词个数的多少,多元语言模型可被划分为二元语言模型、三元语言模型等。统计语言模型检索方法能够利用统计语言模型来估计与检索有关的参数,在如何改善检索系统性能方面有更加明确的指导方向。但该方法隐含着词汇相互独立关系,没有考虑词汇间的相互影响。统计语言模型已经应用于跨语言信息检索,并在解决查询翻译的语言歧义性中发挥重要作用。概率模型和统计语言模型可以看作在同一概率框架下不同的推导结果,然而统计语言模型却克服了传统概率模型在概率估计上的不足。如果不进行查询扩展,概率模型的效果要稍好于统计语言模型。如果进行查询扩展,那么统计语言模型进行跨语言信息检索的效率更高。语义处理模型能够探究词语背后所指代的本质概念,明确词语的主题范畴,识别同一概念的各种表示形式。在该模型中,词语的含义、词语和文档之间的语义关联、文档的相似度分析,采取了从文档结构入手的潜在语义分析方法,以及从内容入手的利用知识组织体系的本体方法。潜语义标引模型将标引词之间、文档之间的相关关系以及标引词与文档之间的语义关联都考虑在内,将文档向量和查询向量映射到与语义概念相关联的较低维度空间中,从而将标引词向量空间转化为语义概念空间,并在降维后的语义概念空间中,计算文档向量和查询向量的相似度。潜语义标引模型克服了同义词和多义词对检索结果的影响。本体模型将用户的信息需求通过共享本体转化为计算机可理解的查询表达。为了提高查全率,再通过共享本体中概念与概念之间的关系扩展查询表达。在跨语言信息检索中,潜语义标引模型将有代表性的文档与其对应的翻译文档联系起来形成训练文档集,利用奇异值分解技术对双语检索词——文档关联矩阵进行奇异值分解,获得双语文档集的特征信息以及检索词用法上的映射关系,最后根据平行文档中语词的用法特征检索出另一种语言的相关信息。基于本体的跨语言信息检索比常规的单一语言信息检索在查全率和查准率方面有明显的优势。
传统的信息检索技术,往往只能帮助用户使用自己熟知的一种语言提出查询。互联网技术与数字图书馆技术的发展产生了大量的多语言信息资源。这样,不同的用户可能会使用不同的语言提出查询,同一个用户也可能采用同一种语言来查询不同语言表述的信息资源。由此,表述信息资源的语言的多样性以及用户使用语言的差异性,带来了信息检索的语言障碍。跨语言信息检索是为满足此要求应运而生的新方法和技术。数字图书馆以及网络信息资源服务是图书馆业务拓展的新平台,跨语言信息检索是这些资源服务中必须采用的技术手段,了解和掌握跨语言信息检索相关技术对于图书馆员有着重要的意义。
[1]Witten Ian H.et.al.Greenstone:Open-Source digital Library Software[J].D-Lib Magazine,2001,7(10):288-298.
[2]Wiederhold Gio.Digital Libraries:Value and Productivity[J]. Communication of the ACM,1995,38(4):85-96.
[3]Douglas W Oard,Anne R Diekema.Cross-language Information Retrieval[J].Annual Review of Information Science and Technology,1998,(6):223-256.
[4]骆卫华.跨语言信息检索方法概述[J].数字图书馆论坛,2006,(9):1-7.
[5]Kazuaki Kishida.Technical issues of cross-language information retrieval:a review[J].Information Processing&Management,2005,(41):433-455.
[6]吴丹,齐和庆.信息检索模型及其在跨语言信息检索中的应用进展[J].现代情报,2009,29(7):215-221.
G2
A
1674-9324(2014)01-0132-03