基于科技文献引用关系扩展的信念网络模型
2013-10-28徐建民王丹青谢朋林
徐建民,王丹青,谢朋林
(河北大学 数学与计算机学院,河北 保定 071002)
基于科技文献引用关系扩展的信念网络模型
徐建民,王丹青,谢朋林
(河北大学 数学与计算机学院,河北 保定 071002)
信念网络信息检索模型提供了一个可以组合不同证据的基本框架,通过组合证据可有效提高检索效果.科技文献之间的引用关系是一种有价值的信息.本文把这种引用关系量化为文献关注度和文献价值度,并将其作为证据扩展基本信念网络模型.考虑到文档内容证据、关注度和价值度对查询结果排序的影响不同,引入了2个系数α和β来调整3种证据在排序中的作用大小.实验通过样本训练确定了α和β的最优值,验证了扩展模型的有效性,并分析了扩展模型用and和or方式组合证据的优劣.
信念网络;信息检索;引用关系
信念网络模型[1](belief network model)是由Ribeiro和Muntz在1996年提出的信息检索模型,该模型具有很大的灵活性,可用于表示任何经典的信息检索模型,即布尔模型、向量模型和概率模型.此外,该模型可以方便地组合不同的证据信息,形成扩展模型.
提取并组合合理的证据信息是对基本信念网络模型进行扩展的基本方法.文献[1]将用户过去的查询结果作为证据扩展了基本信念网络模型,得到了良好的检索效果.Kleinberg的研究[2]定义了表示链接信息的网页权威度和中心度概念,并提出了著名的HITS算法,这些信息已被Silva和Ribeiro应用于Web信息检索[3-4],同样得到了很好的效果.在信息检索中,合理考虑术语之间的关系是一种有效地提高检索性能的方法[5],如文献[6]依据同义词词林得到术语的同义词,并将其作为证据扩展基本信念网络模型.文献[7]依据领域本体得到了术语的本体关联词,将其作为证据对基本信念网络模型进行扩展.
科技文献的引用关系是一种类似于网页间链接关系的有价值信息[8],这种信息应用于信息检索同样会起到积极作用.本文将量化的科技文献引用关系作为证据扩展基本信念网络模型,得到了基于科技文献引用关系扩展的信念网络模型,并通过实验验证了其有效性.
1 基本信念网络模型
如图1所示,基本信念网络模型包括3类节点:查询节点q、术语节点ki(1≤i≤t)和文档节点dj(1≤j≤n).有向边用于表示索引关系,如果从术语节点ki指向查询节点q,则表明该用户查询中包含索引术语ki,从术语节点ki指向文档节点dj表示术语ki是文档dj的索引术语之一.
图1 基本信念网络模型
基本信念网络模型的样本空间由所有索引术语组成,即U={k1,k2,…,kt},其中t为U中术语的个数.每一个术语称为一个基本概念,若干个术语的集合称为概念.用户查询q和每个文档dj都是由1个或多个术语构成的,都可以看作是U中的一个概念,因此U也被称为概念空间.
信息检索的过程可以看作是用户查询q与文档概念dj的匹配过程,由式(1)可得查询结果的排序依据.
(1)
在具体实施中,对P(dj|u)和P(q|u)的计算做出不同的规定将得到不同的经典信息检索模型,如令
(2)
(3)
P(u)=(1/2)t,
(4)
其中,wi,d是术语ki在文档d中的tf-idf权重,wi,u是术语ki在概念u中的权重.将公式(2),(3),(4)代入公式(1)即可得到向量模型的计算式.
2 科技文献引用关系
2.1引用关系分析
科技文献间的引用关系具有以下4个特点:
1)存在引用关系的科技文献多数情况下属于同一个主题,但也存在跨主题的情况;
2)科技文献之间的引用关系是跨越一定时间段的,即一个文献只能引用比它更早发表的文献,该文献和其引用的文献在时间上跨越了一定时间段;
3)科技文献发表后,它的内容是无法修改的,它的引用关系也就不能改变;
4)引用关系隐含着文献的重要程度.如果一篇文献被许多同领域的文献引用说明该文献受到了广泛的关注,是该领域重要的文献.如果一篇文献引用了若干同领域的重要文献,则通过它可以找到重要文献,说明此文献在该领域中也是有价值的.因此,通过引用关系可以知道一篇文献在该领域中的重要程度.
图2描述了科技文献引用关系,图中节点表示文献,越靠上,发表时间越早.引用关系用带权重的有向边表示,例如文献2指向了文献1,说明文献2引用了文献1.边的权重代表2篇文献主题的紧密程度,权值越大,说明2篇文献主题越紧密.
图2 引用关系示意
2.2引用关系的定义
文献[9]给出了关注度和价值度的定义,但不够规范,下面重新给出二者的定义:
定义1 关注度:科技文献D在其所属领域的关注度定义为它被该领域其他文档引用的程度,记为attention.
定义2 价值度: 科技文献d在其所属领域的价值度定义为它对该领域其他文档的参考程度,记为value.
由引用关系的分析和关注度、价值度的定义可知,一篇文献被同领域价值度高的文献引用次数越多,则该文献的关注度越大;一篇文献引用的同领域关注度高的文献数量越多,则该文献的价值度越大.综上,文献的关注度受到3个因素的影响:1)文献被引用的次数;2)引用该文献的文献的价值度;3)引用文献和被引用文献之间的主题紧密程度.同样,文献的价值度也受到3个因素的影响:1)文献的引用文献数量;2)该文献引用文献的关注度;3)引用文献和被引用文献之间的主题紧密程度.
每篇文献都会引用其他文献,也可能被其他文献引用,所以每篇文献都有一个关注度值和一个价值度值.本文将科技文献的关注度和价值度作为证据对基本模型进行扩展,得到了扩展的信念网络检索模型.
3 基于引用关系扩展信念网络模型
3.1拓扑结构
基于引用关系扩展的信念网络模型拓扑结构如图3所示,左侧部分是基本信念网络模型.文档节点di改写为dcj,表示以文档内容为证据得到的查询结果.右侧增加了一组关注度节点daj和一组价值度节点dvj,它们组成的空间A和V分别代表文献的关注度和价值度证据.
当用户提出查询时,依据拓扑结构将结合证据C、证据A和证据V计算每篇文档和查询的相关度,对于证据的结合可以采用析取、合取2种方法[10],后面的实验将对2种方式的优劣进行验证.
图3 基于引用关系扩展的信念网络模型
3.2概率推导
本文的扩展模型仍采用P(dj|q)作为最终排序依据.由于扩展模型的证据来自3方面,即基于文档内容、基于文档关注度和基于文档价值度,因此公式(1)中的P(dj|u)在扩展模型中需要赋予新的含义.
在扩展模型中,令P(daj|u)表示关注度证据,取值为文献dj的关注度值;令P(dvj|u)表示价值度证据,取值为文献dj的价值度值;仍令P(dcj|u)表示基于文献内容的证据,其计算方法同公式(3).3种证据均为0到1之间的数值,可以单独作为排序依据,也可以将其进行组合.如果进行组合,组合方式有2种,即:合取和析取.合取用and表示,含义是集合求交;析取用or表示,含义是集合求并.采用不同的组合方式可以得到不同的排序计算式.
当使用and方式组合证据时,含义是如果一篇文献的3种证据值都相对比较大,它的最终排序就应当更靠前.依据这个思想和条件概率可得以下公式:
P(dj|u)=P(dcj|u)×P(daj|u)×P(dvj|u).
(6)
代入公式(1)可得
P(dj|q)=η∑u[P(dcj|u)×P(daj|u)×P(dvj|u)]×P(q|u)×P(u).
(7)
此公式存在一个问题,即扩展进来的关注度证据和价值度证据如果有1个取值为0,即使文献内容证据很大,P(dj|q)值也将为0,这明显是不合理的.针对这个问题,对公式(7)进行如下修正:
(8)
当使用or方式组合证据时,含义是如果一篇文献3种证据中有一种的值比较大,它的最终排序应当靠前些.此操作相当于求3个集合的并集,由条件概率可得公式
P(dj|u)=1-[(1-P(dcj|u))×(1-P(dcj|u))×(1-P(dvj|u))],
(9)
代入公式(1)可得
P(dj|q)=η∑u{1-[(1-P(dcj|u))×(1-P(daj|u))×(1-P(dvj|u))]}×P(q|u)×P(u).
(10)
信息检索就是要查找同查询术语匹配的文档,内容的相似程度是最重要的因素,对最终排序起主要作用,文档关注度和价值度只能作为辅助证据,对最终排序起次要作用.由关注度和价值度的定义可知,关注度高的文献被广泛引用,一定是重要的;价值度高的文献引用了很多有重要的文献,但它本身内容不一定很重要.因此,关注度所起的作用应当大于价值度.
考虑到文档内容、关注度和价值度对查询结果排序的影响大小不同,故增加了2个系数α和β来调整3种证据在排序中所起作用的大小.α代表关注度相对于内容证据作用的大小,β代表价值度相对于关注度证据作用的大小,其值均在0到1之间.由于公式(8)乘以任何系数都不会影响最终排序结果,因此and组合方式没有办法调整3种证据的作用大小.对于or组合方式,公式(10)加上调节系数后变为
P(dj|q)=η∑u{1-[(1-P(dcj|u))×(1-α×P(daj|u))×(1-α×β×P(dvj|u))]}×P(q|u)×P(u).
(11)
公式(8)和公式(11)中P(q|u),P(dcj|u),P(u)可分别由公式(2),(3),(4)计算.
4 实验
4.1测试集
实验采用的测试集是从中国知网下载的679篇科技文献,其内容涉及计算机技术、数据挖掘、软件工程、计算机网络、信息检索等领域.测试集中的文献在逻辑上形成多个文献簇,每个文献簇内的所有文献之间都存在着直接或间接的引用关系.在程序中每篇文献以文档向量的形式出现,即di={(ki1,wi1),(ki2,wi2),…,(kit,wit)}.文档di的关注度和价值度表示为di(attentioni,valuei).
测试集还包括10个由自然语言构成的查询,对于这些查询分别构建了相关文档集,即通过人工主观判断的方式为每个查询找出相关文档集合.程序通过对查询结果文档集中每篇文档与相关文档集进行对比,就可以判断检出的文档是否为相关文档,从而可以计算查准率/查全率[11].
4.2实验过程
图4 查准率/查全率曲线Fig.4 Precision/Recall curve
在实验过程中,程序分别按基本模型、扩展模型的and和or组合方式进行.每种方式都输入准备好的10个查询,并将结果从大到小排序显示到一个表格中,结合排序结果和该查询的相关文档集计算出对应的查准率/查全率.然后对这10个查询的查准率/查全率求取平均值,该平均值连成的曲线即代表指定方式的检索效果.图4直观地显示出了3种方式的优劣.
对于or组合方式,需要找出其调节系数α和β的最优值.因此,在运用or组合方式进行计算时,实验对α和β选取不同的值进行多次验证,最终找出其最优值.
4.3实验结果及分析
由于α和β不同值的组合方式非常多,依次测试每种组合不是科学的方法.本文考虑到关注度作用大于价值度,故先令β=0,α分别取值0.9到0.1,先找出关注度的最优系数.此时or组合方式的查准率/查全率值如表1.
表1 α不同取值情况下的查准率/查全率值
观察可知,当α=0.5时,检索效果最优.然后再令α=0.5,β分别取值0.8,0.6,0.5,0.4,0.2,0.1.由结果可知,当β=0.5时,检索效果最好.因此选定α=0.5,β=0.5作为最优调节系数.
当α=0.5,β=0.5时,扩展模型同基础模型的比较如图4所示.
图4显示的and组合方式仅在查全率低的情况下具有比较高的查准率,其他情况下的查准率都比原始模型和or组合方式低.原因是由于它的计算方式没有办法调整3种证据影响作用的大小,无法使内容证据起主要作用,一些具有较高关注度或价值度而内容证据不高的文档排到了前面,导致了整体查准率都比较低.
or组合方式在所有查全率情况下几乎都具有比原始模型更高的查准率.or组合方式加上调节系数后,考虑了内容证据起主要作用,关注度和价值度证据起次要作用,并且关注度作用大于价值度作用,所以检索性能最优.因此扩展模型的or组合方式在一定的调节参数范围内检索性能是优于原始模型的,调节参数的最优值为α=0.5,β=0.5.
5 结束语
将科技文献的关注度和价值度作为证据应用到信念网络模型的扩展中,分析了扩展模型的2种组合证据的方法,并通过实验证明or组合方式在一定的调节系数作用下,可以有效提高检索性能.但本文仍有一些不足之处需要在以后的研究中继续完善,如实验中使用的测试集规模不够大、求取α和β的过程比较繁琐等.
[1]BERTHIER RIBEIRO-NETO, RICHARD MUNTZR.A belief network model for IR[Z].Proceedings of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich,Switzerland,1996.
[2]KLEINBERG.Authoritative sources in a hyperlinked environment[Z].Proceedings of the 9th Annual ACM-SIAM Symposium on Discrete Algorithms, San Francisco, California, 1998.
[3]SILVA I,RIBEIRO B,CALADO P, et al.Link-based and content-based evidential information in a belief network Model[Z].Proceedings of 23rd annual international ACM SIGIR conference on Research and development in information retrieval, New York,USA,2000.
[4]CALADO P, ZIVIANI N.Local versus global Link information in the web[J].ACM Transactions on Information Systems, 2003(1):42-63.
[5]徐建民,唐万生,陈振亚.贝叶斯网络在信息检索中的应用[J].河北大学学报:自然科学版,2007,27(1):93-98.
XU Jianmin,TANG Wansheng,CHEN Zhenya.Application of Bayesian network for information retrieval[J].Journal of Hebei University:Natural Science Edition,2007,27(1):93-98.
[6]徐建民,吴树芳,白彦霞.一个基于同义词证据扩展的信念网络检索模型[J].广西师范大学学报:自然科学版,2006,24(4):9-13.
XU Jianmin,WU Shufang,BAI Yanxia.A belief network retrieval model expanded with Synonym-based evidence[J].Journal of Guangxi Normal University:Natural Science Edition,2006,24(4):9-13.
[7]XU Jianmin, TIAN Jinkun, ZHANG Yanchun,et al.Using ontology evidences to extend belief network IR model[J].Proceedings of 10th Computer Application and System Modeling(ICCASM),2010,10:31-35.
[8]XU Jianmin, FU Tingting, LI Huan.Application of extended belief network model for scientific document retrieval[Z].Proceedings of 6th International Conference on Fuzzy Systems and Knowledge Discovery(FSKD’09) , Tianjin,2009.
[9]付婷婷.用于科技文献检索的扩展信念网络模型[D].保定:河北大学,2010.
FU Tingting.Application of extended belief network model for scientific document retrieval[D].Baoding: Hebei University ,2010.
[10]吴树芳,刘永立,朱杰,等.信念网络检索模型扩展研究[J].计算机工程与应用,2009,45(10):151-153.
WU Shufang, LIU Yongli, ZHU Jie, et al.Extended research on belief network retrieval model[J].Computer Engineering and Applications,2009,45(10):151-153.
[11]RICARDO BAEZA-YATES,BERTHIER RIBEIRO-NETO,等.现代信息检索[M].北京:机械工业出版社,2005.
Extendedbeliefnetworkmodelbasedonreferencerelationshipofscientificliteratures
XUJianmin,WANGDanqing,XIEPenglin
(College of Mathematics and Computer, Hebei University, Baoding 071002, China)
The belief network retrieval model which provides a framework for combining different evidences is advantageous to improve retrieval effectiveness.The reference relationship between scientific literatures is a kind of valuable information.This reference relationship was quantified as attention and value in this paper, and it was the evidence for extending the belief network model.Consider the affections of the document content, attention and value were different for the sort of query results, we introduced two coefficients and to adjust the role of the three kinds of evidence for the sort.In our experiments, we determined the optimal value of and through certain sample training, testified the effectiveness of our extending model, and we also analyzed the advantages and disadvantages of the evidences combined byandandor.
belief network; information retrieval; reference relationship
10.3969/j.issn.1000-1565.2013.01.015
2012-09-10
中国博士后科学基金资助项目(20070420700)
徐建民(1966-),男,河北馆陶人,河北大学教授,主要从事信息检索、不确定信息处理方向研究.
E-mail:hbuxjm@hbu.cn
TP391
A
1000-1565(2013)01-0077-07
(责任编辑孟素兰)