基于关键词共现关联关系的跨语种文本检索研究
2017-05-02尹娜高湘韩进王小花黄晓鸣
尹娜++高湘++韩进+王小花+黄晓鸣
摘 要:跨语种文本检索是在不同语种文献之间实现检索。本文基于语境思想,提出了一种新的以文搜文的跨语种检索方法。本文方法将用户提交的检索文本转换成关键词共现关系的数组,再通过平行语料库的关键词共现关系映射分布模型映射成其他语种的关键词共现关系矩阵,再使用该矩阵实现其他语种文献的检索。该方法通过关键词的共现关系分布统计,有效地解决了词翻译歧义、词意模糊等问题,具有较好的检索准确率。
关键词:关联关系 跨语种 文本 检索
★基金项目:该论文为2015年江苏省省级一般大创项目结题论文,项目名称:基于语境的日文情报检索与分类技术研究,项目编号:201510300060Y
一、引言
近年来,由于互联网技术的发展,网络中开放的文本资源呈爆炸式增长,单一语种检索的局限性越来越明显。能在不同语种中检索,获取多渠道多方面的信息成为互联网时代信息获取新的需求[1]。由此,跨语种检索的研究成为文本检索研究领域中新的热点。
跨语种检索研究目前主流的方法可以分成两类,一类是基于机器翻译理论,该类方法主要是基于机器翻译研究领域理论[2]实现的,有提问式翻译、文献翻译、中间语种转换等[3];另一类是基于语料库的统计方法[4],通过对平行语料库中文献的特性进行统计来实现跨语种检索。
本文提出的方法即属于第二类,但与其他跨语种检索方法不同的是,本方法基于语境思想,认为检索的关键词应放置于一定的语境下才能突出其真实的语义,因此提出以文搜文的检索方式,也即用户提交的不是关键字组合,而是包含关键字的文本。本文方法基于该文本提取关键词关联关系,然后再利用已建立好的平行语料库中不同语种之间关键词共现关系的映射分布模型实现映射,变换成其他语种的关键词共现关系矩阵,基于该矩阵实现异种语言文献库的检索。以中日二种语言为例,创建了中日平行语料库,并实现了中日平行语料库中关键词共现关联关系的统计与分析,建立中日关键词共现关系的映射分布模型,并做了一定量的实验,结果表明该方法具有较好的跨语种检索准确率。
二、关键词共现关联关系与跨语种映射分布
(一)基于关键词共现关联关系的可计算语境模型
语境这一概念是1923年由英国民俗学家马林诺斯基首先提出来的[6]。他认为:语言环境对于理解语言来说是必不可少的。马林诺斯基将语境分成三个层次:一个是最表层的,指人们谈话当下的语言上下文环境;另一个是扩大的语义环境,指的是人们一般习惯意义上的语意环境;最后一个是指深层或沉淀的语言环境 ,是指基于某种文化背景上的语意环境。语境研究在语言学上有着长期的研究,不同的学者从不同的角度来分析与解释语境的结构与内涵,如[7][8],但这些研究成果都是定性的,难以转换成可计算的语境计算模型,因而不能直接应用于计算机算法,实现文本的语境计算。
在此本文结合现有的语境研究成果,提出以關键词共现关联关系作为句子语境的潜在表达。其中关键词是指除去句子中副词、介词、连词、助词、语气词等虚词,而剩下的名词、动词等。位于同一个句子的实词,称它们之间具有共现关系,本文认为这些共现关系某种程度上体现出该句的语境,如下图1所示。例如:当“吃”和“苹果”共句时,“苹果”自然而然地被释义为一种水果,而当其与“手机”或者“性能”共句时,其将会被释义为一种电子产品。因此,本文使用一个句子的这些实词之间的共现关联关系作为该句子的语境模型。关键词共现关联关系是可以通过计算机算法进行统计分析,因而该语境模型也可称之为可计算语境模型。
(二)基于平行语料库的跨语种关键词共现关系映射分布模型
图一:基于关键词共现关联关系的语境模型
语料库是格式化添加诸多标识属性文本资料库,是语言学研究是基础。平行语料库是语料库的一种,其中存储的是两个或多个异种语言一一对应的语料,有的平行语料库是以句子为单位的,实现同一语句不同语言的一一对应存储,有的平行语料库是以文本为单位的,即同义文本不同语言的一一对应存储。由上文所述可知,本文使用的关键词共现关联关系是以句子为单位的,因此本文使用的平行语料库也必须由句子为单位的语料组成。
假定现有一平行语料库C,其中存储有两种语言L1,L2,其中任一条语料分别于相同句义的S1,S2组成。针对平行语料库C,可以使用以下步骤,创建跨语种的关键词共现关系映射分布模型,如下所述。
1.在语料库C中,取出任一属于L1语言的两个关键词w1,w2,它们的共现关系记作(w1,w2);
2.考察C中L1语言的所有句子,取出所有包含(w1,w2)的句子组成集合{S1};
3.遍历集合{S1},取出其中任一条,找到其对应语种的语句S2,将所有对应的S2组成集合{S2};
4.遍历集合{S2},取出其中任一条,构建该语句的关键共现关联关系语境模型,统计每一个(w1,w2)关键词共现关系出现的频率;
5.通过查寻语言词典,过滤与(w1,w2)词义无关的所有(w1,w2),即得一个关键词共现关系统计频率的集合,记作{
6.将集合中的元素{
同上所述,对于语料库中L2语言的语料作相同处理。如此,语料库处理完成之后,将得到其中一语种的任一关键词共现关系R所对应的异种语言共现关系的统计频率集合,该集合即称之为R的跨语种关键词共现关系映射分布模型。这个模型实际反映了某语种中两个关键词翻译成其他语种中对应关键词的分布概率。因为存在有同一关键词翻译成异种语种不同关键词的情况,因此该映射分布概率模型是一个关键词关联关系的统计频率集合。跨语种关键词共现关系映射分布模型是本文所提跨语种文本检索方法的实现基础。
三、基于关键词共现关联关系的跨语种文本检索
本文的检索方法是基于上述可计算语境模型来实现的,所以一般以关键词检索的方式并不适应于本方法,原因在于少数的几个关键词无法用来构建语境模型。因此,本文提出以文搜文的检索方式。用户可以首先使用自己熟悉的语种关键词来检索,通过对检索的结果过滤检查后,选择最符合用户检索意图的该语种文本,从该文本出发来实现跨语种检索,获取其他语种对应的检索结果。
在进行检索之间,需要对检索的目标文献库中的文本进行预处理,即遍历库中每一个文本,将其拆分成句,然后构建每个句子的语境模型,提取出每个句子中关键词的共现关系,汇总在一起,统计如上文所述的关键词共现关系统计频率的集合,同样对集合中的元素进行从大到小的排序,以该序列形成的向量,作为备检索的依据,称之为检索匹配向量。
本文跨语种文本检索的算法过程,如下所述。
1.针对用户提交L1语种的文本T,将T拆分成句子集合,针对每个句子集合构建对应的句子语境模型;
2.统计整个文本T所有句子语境模型中关键词共现关系R出现的频率;
3.使用阀值σ过滤掉所有出现频率少于σ的关键词共现关系R,将剩余的关键词共现关系组成集合{R},设集合中R的个数为n,将n个R组成向量N;
4.遍历集合{R}中任一关键词共现关系R,查询平行语料库中该R共现关系所对应的语种映射分布概率模型;
5.针对由第四步得异种语言对应的映射分布概率列表中的每行,截取前N个
6.计算矩阵乘积结果,N * MT,其中MT为M矩阵的转置矩阵;
7.将所获乘积结果矩阵中
8.再遍历待检索的文献库,遍历该库中每个文本对应的检索匹配向量L,计算序列L与L的欧式距离s;
9.以欧式距离s小于某个预定值γ的文本作为跨语种检索的返回结果。
以上算法的主要思想是首先统计出待检索文本中出现频率最高的n个关键词序列,再针对此序列中每个元素,依据平行语料库,取出该元素对应的共现关系映射分布模型。其后算法中的矩阵相乘是以待检索文求得的共现关系序列中各元素的出现频率作为权重,实现对映射分布模型中异种语言关键词共现关系频率的求权计算。最后,根据所得的异种语言关键词共现关系序列来求出与该序列最为接近的被检索文本。
四、实验
(一)中日平行语料库的构建
平行语料库是本文跨语种检索的数据基础,由于本文方法是使用计算机处理分析,因此所需的语料库除了有上文所述的结构之外,库中的语料必须达到一定的量才具有统计学上的意义。本文实验以中日两种语言来构建的平行语料库,语料库构建的素材来自于影视文件的字幕。在网络上有很多日漫、日剧,而其中有部分被一些字幕爱好者加上了双语字幕。这些双语字幕以.ass或者.srt 的文件形式存在,可以从一些字幕组平台中免费下载。
针对下载的字幕文件,按文件格式进行解析,根据字幕文件中的标明的时间戳,提取出其中一一对应的中文与日文台词,再将得到的中日文句子分别进行各自的分词器分词,如下表1和表2所示,组织成如图3所示的语料,然后使用上文所述的算法最终构建出各句子的可计算语境模型。
由于中日两种语言在句子中都没有特定的词分割符号,因此构建中日平行语料库首先要的是针对中日句子进行分词。在此本文采用IK来作为中文的分词器,而Kuromoji作为日文分词器,从整体上看,这两个工具的分词效果较好,基本能满足本文方法的需要。
另外一个需要注意的事项是,由于中日平行语料库中的语料来源于影视文件字幕,因此有一定量口语化的简单短小的句子,为了不让这些句子对实验产生干扰,本文在构建语料库过程中,将这些句子滤除,不录入语料库中。最终构建形成的中日平行语料库中语料的数量达到十万余条。
(二)跨语种检索的实验
由于本文侧重于检索方法的研究,因此并没有准备跨语种的文献库。对此,本文采用变通的方式来进行本文跨语种检索方法的实验。
首先,通过百度用户输入待检索文献的关键词,针对百度的检索结果,提取出最适合用户检索目标的网页,再从网页中提取文本作为待检索的中文文本。然后按上文所述检索算法构建关键词共现关联关系序列后,得到对应日文的关键词共现关系映射分布模型,并得到最终日文的关键词共现关系序列。
由于没有对应日文的文献库,因此在本文实验中对于得到的日文的关键词共现关系序列,登录到Google日文网站,以序列中的关键词进行检索,对获得的检索网页抽取文本,然后再按前所述方法计算各文本与日文关键词共现关系序列的欧式距离,获得最终的检索结果。
因为本文实验并未有专门的实验文献库,因此只能从检索结果的准确率来分析检索方法的效果。据统计,经过53次检索实验,其中每次检索获得的结果平均准确率在32.3%左右,与其他同类检索方法接近。
五、结语
本文提出了一种新的跨语种文本检索方法,主要依据语境研究思想,使用关键词在句子中的共现关系来构建可计算的语境模型。通过预先构建的平行语料库,实现对语料库中各语言每一关键词共现关系构建异种语言的关键词共现关系映射分布模型,以此映射分布模型為跨语种检索的转换关系,来实现对不同语言文献的检索。本文中详细阐述了相关算法以及构建平行语料库和实验过程,从实验结果来看,本文方法取得了与同类检索方法接近的准确率。但是本文方法仍然有较大的提升空间,主要原因有:第一,语料库的来源不全面,因为语料库来自动漫等日文影视字幕,在内容上有所偏颇,影响了语料对检索的效果支持。第二,库中的语料数量仍然不够,在统计意义上支持不足;第三,可计算语境模型仍需要进一步研究,对关键词共现关系的处理还要进一步细化;因此,后期的工作将围绕这些方面进行。
参考文献
[1] 张俊林, 曲为民, 杜林,等. 跨语言信息检索研究进展[J].计算机科学,2004,31(7):16-19.
[2] Wu D, He D, Ji H, et al. A study of using an out-of-box commercial MT system for query translation in CLIR[C]// ACM Workshop on Improving Non English Web Searching. ACM, 2008:287-96.
[3] 牛亚萌.跨语言信息检索技术的研究与实现[D].西安电子科技大学,2011.
[4] Nie J Y, Simard M, Isabelle P, et al. Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from the Web[C]// SIGIR '99: Proceedings of the, International ACM SIGIR Conference on Research and Development in Information Retrieval, August 15-19, 1999, Berkeley, Ca, Usa. 1999:74-81.
[5] 王进,陈恩红,,张振亚,等.基于本体的跨语言信息检索模型[J].中文信息学报,2004, 18(3):1-8.
[6] 陈进.语境的本质及其特征[J].西安外国语大学学报,1999(3):18-20.
[7] 陈颖.语境与翻译[D].兰州大学,2006.
[8] 谭弘剑,刘绍忠.近年来国外语境研究综述[J].外国语文,2002,18(6):106-110.
[9] 鲁晶石.中日同形语的释义演化——以“雪”为例[J].安徽文学,2016.6