结合句子级别检索的信息检索模型
2016-05-04左家莉王明文吴水秀万剑怡
左家莉,王明文,吴水秀,万剑怡
(江西师范大学 计算机信息工程学院,江西 南昌 330022)
结合句子级别检索的信息检索模型
左家莉,王明文,吴水秀,万剑怡
(江西师范大学 计算机信息工程学院,江西 南昌 330022)
查询词之间的距离较为接近的文档,相关的可能性更大,将这种距离信息用于信息检索模型的构造可有效提高检索的性能。然而直接估计查询词在文档中的距离需要大量的训练文本,且计算复杂度高。该文提出了一种结合句子级别检索的信息检索模型,将文档分为若干个窗口,通过计算句子和查询的相关度考察查询词在给定窗口中的共现性,该方法可增大那些查询词彼此靠近的文档的相关度,从而使得检索模型可返回更为相关的文档。标准数据集上的实验结果表明所提出的模型可以取得较好的性能。
信息检索模型;句子级别检索,句子相关度
1 引言
随着因特网的快速发展和全球化进程的加快,互联网信息资源呈爆炸式的增长。信息检索也因此成为应对海量信息挑战的关键技术,为人们有效利用网络信息起着至关重要的作用,在最近几十年里得到了众多关注和长足的发展。信息检索模型作为信息检索领域的核心问题,直接决定信息检索的性能,也是研究者们关注的焦点。近年来,很多经典的信息检索模型,诸如布尔模型[1]、向量空间模型[2-5]、经典概率模型[6-10]、统计语言模型[11-13]等,已有成熟的研究和应用。尽管如此,若想要提高用户满意度,仍需改进检索模型,以获得更好的检索结果。
本质而言,信息检索的目标在于尽可能将相关文档返回给用户,并使得相关度大的文档排序靠前。现有的模型大多基于索引项词频tf与逆文档频率idf[13-14],并结合文档长度等信息[14],通过计算文档和查询之间的匹配程度,获得计算文档和查询之间的相关度,并按照相关度大小对文档进行排序。在实际的应用中,常常会出现类似这样的状况:一些文档由于包含相同数量的查询词,且文档长度接近,检索模型计算文档的相关度大小相同,然而这些文档真实的相似度往往差别很大。原因在于,为描述信息需求,用户会使用多个查询词构造查询,由于大多数词往往含有多个语义,某个查询词在文档中的语义和其在查询中的语义可能并不一致,而传统的检索模型会因为文档包含了查询词而将其判为相关,这使得一些不相关文档被判为相关返回给用户,降低了检索的精度。若要直接分析词的语义,将语义信息加入至检索模型,会增加检索模型的复杂度,且语义信息并不易于处理,反而有可能影响检索的性能。
正如一些研究者所言:相关文档是那些包含所有查询项,且查询项彼此紧密相连的文档[14]。也即,查询词出现更为紧密的文档,换而言之,查询词之间距离更为接近的文档,其与查询相关的可能性更大。实际上,基于语言学的角度,我们知道词语会因为彼此之间的特殊相连而影响其各自的语义,若两个或多个查询词在某篇文档中出现较为紧密,则这些查询词在文档中的语义也应较为相关,并且,与其在查询中的语义一致的可能性会加大,那么文档与查询相关的可能性也就更大。因而,查询词在文档中的位置信息有助于检索模型获得更为准确的相关性判断。
已有一些研究将查询词之间的位置关系应用到统计语言模型中,其主要的处理方法是在建模时估计查询词之间的位置关系。上述检索模型由于考虑了查询词在文档中的位置关系,检索的性能得到了提升[15-16]。然而,其需要估计的参数太多,往往需要大量的训练文档集,且计算复杂度高。
本文提出了一种结合句子级别检索的信息检索模型,该模型不直接估计查询词之间的位置关系。而是采用另一种方式,将文档分为若干个窗口,考察查询词在给定窗口中的共现性,来加权文档与查询的相关度。本文将窗口的大小设定为句子,计算每个句子和查询的相关度,并将其加入至检索模型中,文档中查询词彼此靠近,则其句子和查询非常相关,模型可使得该文档的相关度更大。这种方式计算简单且易于实现。
论文按以下几个部分展开,第二部分介绍论文的主要思想;第三部分是句子的相关度计算方法;第四部分介绍本文提出的结合句子级别检索的信息检索模型;第五部分是实验和结果分析;第六部分进行总结和展望。
2 相关研究
信息检索模型的目的是根据用户的查询从文档集合中检索出相关文档返回给用户。检索模型需计算查询和文档的相关度,尽可能返回相关文档。为提高检索性能,文献[15]中提出了位置语言模型,将查询词之间位置信息加入至语言模型中。其具体思路是估计文档D中的位置i出现词w的概率p(w|D,i)。最为简单的p(w|D,i)估计方法是使用频率方法:将词w在位置i出现的次数记为c(w,i)除以位置i上所有词w出现的总次数。
最为关键是获得c(w,i),若c(w,i)仅取0和1用于表示词w在位置i出现与否,则过于简单和粗糙,为获得更好的检索结果,文献[15]修正了对c(w,i)的计算,具体的计算基于:(1)若词w文档D中位置j也出现,则词w在位置i的出现次数要小于1; (2)文档D中与位置i最为越近的位置j,其对位置i的“贡献次数”应该越大,权重函数k(i,j)被用来度量位置j对于位置i的贡献,若位置j与位置i越接近,k(i,j)取值就越大。由于k(i,j)的计算是基于词与词的位置关系计算,未考虑词与词之间的语义关系。基于此,文献[16]提出了一种结合语义的位置语言模型,利用互信息来度量词与词的语义关系。上述模型由于考虑了词之间的位置关系,取得了较好的结果,但是均需要大量的训练文档,计算复杂度较高。
3 句子相关度模型
3.1 本文思想
给定某个查询,相关文档中查询词应靠近彼此,也即这些查询词在相关文档中应集中出现,若将文档分为若干个窗口,则查询词应在这些特定窗口中同时出现。基于上述思想,考察查询词之间的位置关系,可转化为考察查询词在给定窗口中的共现性。若某篇文档中存在多个查询词在给定窗口中同时出现,则查询词在该文档中的位置彼此靠近,其为相关文档的可能性就会增大。
由于句子可表达完整的意思,同一个句子中出现的词存在着较强的语义关系。前期工作中,我们发现查询词在句子中的共现性可有助于提高检索的性能[17,18],因而本文选取句子作为窗口,构造结合句子级别检索的检索模型。首先构建句子相关度模型计算句子与查询之间的相关度,以度量查询词在文档中的共现度。进一步结合传统的文档相关度模型,构建基于句子的文档相关度模型。
3.2 句子相关度模型
首先需要构造句子相关度模型Score(Q,S),以度量查询词在句子中的共现度。句子中包含查询词,则句子与查询相关,句子中包含的查询词的数量越多,该文档与查询的相关性就越大。我们通过式(1)来计算句子与查询的相关度:
(1)
其中:
(2)
3.3 基于句子的文档相关度模型
获得句子相关度Score(Q,S)之后,就可构造基于句子的文档相关度模型Scoresen(Q,D),本文构造了以下三种模型。
3.3.1 模型1
(3)
模型1将文档中每个句子的Score(Q,S)进行累加获得Scoresen(Q,D),可加强那些包含多个查询词的文档的相关度。
3.3.2 模型2
Scoresen(Q,D)=
(4)
Scoresen(Q,D)=
(5)
模型1可能会使得某些长文档获得较高的相关度,为消除文档长度的影响,本文构造了模型2,分别将文档的句子个数和相关句子的个数作为长度因子加入至模型中。
3.3.3 模型3
(6)
模型3取一篇文档中的最大Score(Q,S)作为Scoresen(Q,D),即我们希望在相关文档中,查询词尽可能集中出现在某些句子中。
上述模型中,模型2将文档的句子个数作为长度因子,可以避免一些长文档获得较高的相关度;而将相关句子的个数作为长度因子,会使得查询词集中出现的文档的相关度更大。而模型3只在文档中存在某个句子包含了多个查询词的情况下,才会使得该文档具有较大的Scoresen(Q,D)值。
4 结合句子级别检索的信息检索模型
考虑到传统的文档级别的检索模型已取得了较好的性能,且仅使用Scoresen(Q,D)度量文档的相关度不一定能确保相关文档被检出,因而本文构造的基于句子级别检索的信息检索模型,是在传统的检索模型的基础上,加入了句子相关度Scoresen(Q,D)。
本文的文档相关度模型Score(Q,D)将包含两部分:经典的文档级别的相关度Scoredoc(Q,D)和句子级别的文档相关度Scoresen(Q,D)。
(7)
式(7)中λ1+λ2=1。公式表明,若在某篇文档中,查询词在句子中的共现度较大,则模型会给予这些文档更大的相关度。实验部分我们将考察Scoresen(Q,D)和Scoredoc(Q,D)对检索结果的影响。
5 实验
5.1 数据集及评价指标
本文在标准数据集Med、Cran和Cisi上进行实验。其中,Med为医学数据集,包含1 033篇文档、8 567个词和30个查询,Cran为航空数据集,包含1 398篇文档、4 873个词和223个查询,Cisi为图书馆科学数据集,包含1 460篇文档,5 254个索引项和76个查询。我们对数据集进行了预处理,提取每篇文档中的
5.2 基准模型
基准模型选取BM25和统计语言模型(Dirichlet分布,参数取1000)为特征函数[19],并和前期研究中提出的基于Markov网络表示的信息检索模型(MNR模型)进行比较[17,18]。
5.3 实验结果及分析
表1~表3中给出了详细的实验结果。本文所提出的模型表示为SRIR,基于模型1、模型2和模型3的检索模型分别表示为SRIR1、SRIR2和SRIR3,由于模型2有两种计算方法,故分别用SRIR2-1和SRIR2-2表示,最优结果加粗显示。
表1 各模型实验结果对比(数据集为Med)
表2 各模型实验结果对比(数据集为Cran)
表3 各模型实验结果对比(数据集为Cisi)
表1~表3的结果表明本文所提出的模型相较于基准模型和MNR模型平均有10%~20%的性能提升,这说明模型是非常有效的。SRIR1模型在Cisi和Cran两个数据集上取得了最好的结果,而SRIR3模型在Med数据集上最优。SRIR2的两种不同计算方法并未表现出较大的差异,这两种方法虽不及SRIR1和SRIR3,但仍然要优于基准模型,并在大部分情况下要好于MNR模型。模型2两个方法的结果无明显差异且与MNR模型结果接近,表明SRIR2并未如我们预期那样为相关文档加权。
在最终的检索公式(7)中,λ1的值代表Scoredoc(Q,D)和Scoresen(Q,D)的信息量在最终的检索结果中分别所占的比重,为进一步考察λ1的选取对检索结果的影响,我们在Med数据集上对SIR1和SRIR3,在Cran和Cisi对SRIR1模型上进行了实验,比较了不同的参数取值对最终检索结果的影响,结果显示在图1中。
结果显示,SRIR1和SRIR3最优结果的λ1取值均大于0.5,且随着λ1的值减小,λ2增大,检索的性能有所提升,一旦λ2的值增大到某个值,检索的性能又会有所下降。在Med和Cran数据集上,SRIR3在λ1取0时,也即仅使用模型3所得到的检索结果要优于LM模型。式(6)显示,这种方式实际上仅使用文档中与查询最为相关的句子的相关度来度量一个文档的相关度,这表明在大多数的相关文档中,查询词往往会集中出现,因而模型3可较好地度量文档的相关度。然而整体最优的结果大多是SRIR1,也即,单独使用模型1的结果虽然不如模型3,但是模型1若加入基于文档级别的模型,就可更好地度量文档的相关度,表明所有的查询词可能并不全集中在一个句子中,一个文档是否和查询相关,不仅文档中需存在于查询相关的单个部分如句子,文档整体也必须与查询相关。
图1 参数λ1取值对检索结果的影响左上(a)和右上(b)分别为Med数据集上的SRIR1和SRIR3模型结果,左下(c) 右下(d)分别为Cran和Cisi数据集上的SRIR1模型结果
SRIR2的检索结果虽优于基准模型,但并不比MNR模型表现出更好的性能,这是由于MNR模型考虑了索引项之间的相关性信息,SRIR2模型中也加入了句子的个数作为长度因子,效果和MNR模型接近,因而两个模型没有明显的性能差异。基于此,我们可以这样设想:相关文档可能存在一些区别于不相关文档的性质,在构造检索模型时可以考虑这些性质,使得检索模型能给予相关文档更大的相关度,从而获得良好的检索性能。模型1、模型2和模型3给出了不同的句子相关度的度量方法,每一种模型显然都只能较好地度量某一类相关文档,那么,是否组合这三个模型能使得检索模型更好地区分相关文档,在以后的研究中也可以进一步探讨。
图1(a)和1(b)显示,在考察SRIRI1和SRIR3中参数λ1的选取对最终检索结果的影响时,我们选择了不同的标度,这是由于SRIR3中的Scoresen(Q,D)要小于SRIR1所加入的Scoresen(Q,D),若要使得Scoredoc(Q,D)能在SRIR3模型的检索结果中获得更大的权重,SRIR3模型中最优的λ1取值要略大一些。因此,为了能更好地表明λ1对检索结果的影响,我们采取了两种标度进行实验。
6 总结与展望
已有研究表明将查询词在文档中的位置关系应用于检索模型中,可有效提升信息检索的性能。然而这需要估计大量的参数,因而需要较多的训练文档集,且计算复杂度高。基于此,本文提出了一种结合句子级别检索的信息检索模型,该模型不直接估计查询词之间的位置关系,而是通过计算句子与查询之间的相似度来度量查询词在文档中的共现程度,替代查询词在文档中的位置关系,上述信息通过构造基于句子的文档相关度加入检索模型中,实验结果表明所提出的模型具有较好的性能。
未来,我们将在更大规模的数据集上对所提出的模型进行实验,考虑到文中所提出的句子相关度模型从不同侧面考察了查询词在文档中的共现度,我们还可结合几个模型构造检索模型,并进一步展开查询扩展的研究。
[1]ChristopherD.Manning,PrabhakarRaghavan,HinrichSchutze.IntroductiontoInformationretrieval[M].Cambridge:CambridgeUniversityPress, 2009.
[2]GerardSalton.AutomaticInformationOrganizationandRetrieval[M].NewYork:McGraw-Hill, 1968.
[3]GeradSalton,AnitaWong,Chung-ShuYang.AVectorSpaceModelforAutomaticIndexing[J].CommunicationsoftheACM, 1975, 18(11):613-620.
[4]GeradSalton,Chung-ShuYang,ClementTYu.ATheoryofTermImportanceinAutomaticTextAnalysis[J].JournaloftheAmericanSocietyforInformationScience, 1975, 26(1):33-44.
[5]GerardSalton.TheSmartRetrievalSystem-ExperimentsinAutomaticDocumentProcessing[M].NewJersey:Prentice-Hall, 1971.
[6]StephenPHarter.AProbabilisticApproachtoAutomaticKeywordIndexing(partI&II)[J].JournaloftheAmericanSocietyforInformationScience, 1975, 26:197-206, 280-289.
[7]StephenERobertson,CornelisJ,VanRijsbergen,etal.ProbabilisticModelsofIndexingandSearching[C]//Proceedingsofthe3rdAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGRIR’80),Cambridge,UK, 1981: 35-56.
[8]NorbertFuhr.ProbabilisticModelsinInformationRetrieval[J].TheComputerJournal, 1992, 35(3):243-255.
[9]MEMaron,JLKuhns.OnRelevance,ProbabilisticIndexingandInformationRetrieval[J].JournaloftheACM, 1960, 7:216-244.
[10]StephenERobertson,CornelisJ,VanRijsbergen,etal.ProbabilisticModelsofIndexingandSearching[C]//Proceedingsofthe3rdAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGRIR’80),Cambridge, 1981: 35-56.
[11]JayMPonte,WBCroft.ALanguageModelingApproachtoInformationRetrieval[C]//Proceedingsofthe21stAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGIR’98), 1998: 275-281.
[12]ChengXiangZhai.StatisticalLanguageModelsforInformationRetrieval(SynthesisLecturesSeriesonHumanLanguageTechnologies)[M].SanRafael:Morgan&ClaypoolPublishers, 2008.
[13]ChengxiangZhai.StatisticalLanguageModelsforInformationRetrieval:ACriticalReview[J].FoundationsandTrendsinInformationRetrieval, 2008,2: 137-215.
[14] 黄萱菁, 张奇, 邱锡鹏. 现代信息检索(第二版)[M]. 机械工业出版社, 2012.
[15]YHLv,CXZhai.PositionalRelevanceModelforPseudo-RelevanceFeedback[C]//Proceedingsofthe33rdInternationalACMSIGIRconferenceonResearchandDevelopmentinInformationRetrieval.Geneva, 2010: 579-586.
[16] 余伟, 王明文, 万剑怡,等. 结合语义的位置语言模型[J]. 北大学报, 2013, 2: 203-212.
[17]MIwayama,AFujii,NKando,etal.AnEmpiricalStudyonRetrievalModelsforDifferentDocumentGenres:PatentsandNewspaperAriticles.IntheProceedingsofthe26thACMSpecialInterestGrouponInformationRetrieval(SIGIR03), 2003: 21-25.
[17]JialiZuo,MingwenWang.AQueryReformulationModelUsingMarkovGraphicMethod[C]//ProceedingsoftheIALP2011.
[18]JialiZuo,MingwenWang,HaoYe.MarkovGraphicMethodforInformationRetrieval[C]//ProceedingsoftheLNAI, 2011: 487-494.
Information Retrieval Model Combining Sentence Level Retrieval
ZUO Jiali, WANG Mingwen, WU Shuixiu, WAN Jianyi
(School of Computer Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China)
Models exploiting the position and proximity information of query terms in the documents improve the retrieval performance withit’s a high computation complexity. The paper presents an approximation method by compute the relevant degree of the sentence to query, resulting an information retrieval model combining sentence level retrieval. Experiment results show our model can get better performance than baseline models.
information retrieval model; sentence level retrieval; sentence relevant
左家莉(1982—),通信作者,博士,副教授,主要研究领域为信息检索、文本挖掘。E⁃mail:august813cn@hotmail.com王明文(1964—),博士,教授,主要研究领域为信息检索、数据挖掘、机器学习。E⁃mail:mwwang@jxnu.edu.cn吴水秀(1975—),硕士,副教授,主要研究领域为信息检索、分布式数据库。E⁃mail:18970829895@189.cn
1003-0077(2016)02-0107-06
2013-08-15 定稿日期: 2014-01-09
国家自然科学基金(61462043,61462045,61562042);江西省自然科学基金(20151BAB217014)
TP391
A