APP下载

HITS算法在论文引用关系中的应用

2021-03-01

内蒙古科技与经济 2021年24期
关键词:枢纽权威排序

黄 印

(南京大学 信息管理学院,江苏 南京 210023)

目前,绝大部分传统文献数据库检索系统,对于检索结果文献的组织都是基于文献的外部特征和内部特征,外部特征主要包括篇名、作者姓名、发表时间,内部特征包括关键词、标题词、叙词等等。在互联网化的学术平台上,被引次数和下载次数作为重要的外部指标,也常常被使用。以CNKI为例,检索结果可以按照“相关度”、“发表时间”、“被引”和“下载”等进行排序。

引用关系是论文间的重要关系。一篇论文被引用,证明了这篇论文的影响力。目前引用关系的常用量化指标是“被引次数”。但是这个指标存在一些问题,许多学者认为,被引次数只有当引用是真引用才是合适的[1]。除此之外,不同论文对文献的引用也不应该视作等价。在现有的“被引次数”指标中,一篇领域内重要论文的引用和一篇普通论文的引用次数是相同的,体现的是引用关系的数量特征,掩盖了引用关系的质量特征。

对于引用关系的质量特征的量化,目前并没有广泛应用的方法。但是论文之间的引用关系与网页之间的链接关系具有很高的相似性,因此对于论文之间的引用关系的质量特征的量化一定程度上可以借鉴、参考搜索引擎中网页的排序方法。

杨思洛按照排序技术进行分类,将搜索引擎分为三代,我们目前正处于第二代搜索引擎,即按照链接分析的方式进行排序,主要有PageRank算法[2],HillTop算法[2]。除此之外,页面排序算法还有:HITS算法,主题敏感 PageRank算法 (TSPR)等[3]。

为了量化引用关系的质量特征,对“被引次数”指标进行补充,参考了搜索引擎链接分析的排序机制,提出了使用HITS算法对检索结果进行计算,使用计算值来量化引用关系的质量特征,并实验了HITS算法在量化引用关系的质量特征中的实际效果,进一步研究了HITS算法在不同数量级别下的可靠性。

1 相关研究

1998年,就职于Cornell University的克莱因伯格博士提出了HITS 算法(Hypertext-Induced Topic Search)[4]。HITS算法的原理基于这样的假设:一个高质量的权威(Authority)页面会被很多高质量的枢纽(Hub)页面所指向,反之亦然。

在搜索领域,相对于PageRank算法,HITS算法存在一些缺点,没有被目前主流的搜索引擎所采用。主要有两点:①HITS算法是基于某一检索主题的,而 PageRank 算法不受限制。②HITS算法是在得到结果集后进行计算,耗时较长。

将链接分析方法应用应用于文献引用中,是因为两者在本质上十分相似:两者研究的都是一个网络模型中两个元素之间的影响关系及其形成过程,都具有高度的目的性和理性。也有学者做过类似的尝试,比如李江等学者从算法角度对网页评价和文献评价进行了对比,将PageRank算法应用于论文中,提出了Paperank算法。该算法倾向于挑选出高被引的、被高质量且少出度的论文引用的论文,是对被引次数的一种修正。 笔者尝试将HITS算法应用到检索文献的排序中,并初步评价其效果。

2 HITS算法

具体而言,应用于文献中的HITS算法需要计算两种值,即权威值(Authority Scores)和枢纽值(Hub Scores)。所有引用该文献的文献的枢纽值的和即权威值。该文献所有引用的文献的权威值的和即枢纽值。

HITS算法的数学计算步骤如下所示[6]:

①a(i)表示文献i的权威值,h(i)表示文献i的枢纽值,所有文献的权威值和枢纽值初始设定为1。

②迭代计算,a(i)等于所有引用文献i的文献的枢纽值之和,即:a(i)=Σh(j)

j指所有指向文献i的文献。

③h(i)等于文献i所有引用的文献j的权威值之和,即:h(i)=Σa(j)

④将所有文献的a(i),h(i)进行标准化,即都除以其最大值。

n是指所有文献。

⑤计算上一轮迭代计算中的值和本轮迭代以后值的差异,在达到允许的误差之前,不停地重复上述②③④步骤。只有当对于总体来说差异在允许的范围内,证明数据已收敛时,才可以结束计算。

3 HITS算法实证分析

3.1 数据来源

由于CNKI中大批量的检索结果难以快速直接地导出,为了方便收集、计算数据,笔者选取人工智能领域来源于2015年度中国计算机学会(CCF)于人工智能方面推荐的A、B、C三类共39个国际学术会议论文,作为数据集,作为使用某一检索策略进行检索,所得到检索结果的模拟,具体会议如表1所示。

表1 CCF于人工智能方面推荐的国际学术会议

2016年,清华大学唐杰教授团队建立了Aminer,该数据库是计算机及相关领域的知名数据库,收集了大量关于人工智能的学术论文成果。Aminer被设计为面向新一代的科技情报分析与挖掘,而且完全不依赖外国知识产权。笔者以Aminer中的Open Academic Graph(OAG)作为数据来源,下载了截止到2017年3月22日的所有论文题录信息,共得到113 195篇文献。

3.2 数据处理

数据中,存在文献的“被引次数”和“引用的文献”字段。由于本文的研究对象是113 195篇文献,所以在“被引次数”之外,根据“引用文献”计算“数据内被引次数”——数据内是指作为计量对象的113 195篇文献。

将“被引次数”和“数据内被引次数”进行对比,发现存在一些文献“被引次数”为0,但是“数据内被引次数”很高的情况。比如,其中3篇的“被引次数”是0,但是 “数据内被引次数”却分别高达1 128、981和999次。经过查证,这3篇文献的标题都是各类会议的总集文件。通过对比“被引次数”和“数据内被引次数”数据,再进行人工检查,发现这类文献共有526篇,去除这些文献,剩余112 669篇。最后计算112 669篇文献的权威值和枢纽值。

3.3 数据分析

112 669篇文献的权威值和枢纽值按照权威值、枢纽值排序前20分别如表2、表3所示。

表2 权威值排序前20文献情况

表3 枢纽值排序前20文献情况

可以明显地看出,权威值较高的文献大都有着较高的“数据内被引次数”,枢纽值较高的文献大都有着较多的“数据内引用文献”。

为了探究指标之间的关系,对其进行相关性检验。使用SPSS工具对所有数据进行统计分析,结果显示,所有指标都是非正态分布的。而斯皮尔曼相关系数法可以适用于非正态分布的数据,故采用次方法,结果如表4所示。

表4 相关性检验

从表4可以看出,“权威值”与“数据内被引次数”相关度很高,相关系数为0.814,属于高度相关;“枢纽值”与“数据内引用文献”相关度很高,相关系数为0.870,属于高度相关。“权威值”与“被引次数”的相关性不如“数据内被引次数”,相关系数仅为0.549。

可以初步得到一个结论,“权威值”与“数据内被引次数”高度相关,可以揭示某个领域内的引用情况,而且与“数据内引用文献”相关,兼顾了文献引用的文献的影响。

3.4 进一步研究

上文的研究基于的数据是112 699篇文献,但是很多时候,检索结果往往只有几十篇,几百篇。为了探究HITS算法在不同规模数据下的效果,笔者选择在这112 699篇文献中,以摘要中包含“AI”和“Artificial Intelligence”的1 046条数据为例,计算各指标之间的相关性。得到结果如表5所示。

表5 相关性检验(1 046篇)

可以看出,在数据量较少的情况下,各个指标之间的相关度明显降低。为了找出HITS算法具有较好效果的数据集大小界限,选择AAAI,CVPR两个会议的11 932条记录作为研究数据。得到结果如下表6。

表6 相关性检验(11 932篇)

3种数据量得到的结果的“权威值”与“数据内被引次数”的相关性进行对比,得到表7。

表7 3种数据量下“权威值”与“数据内被引次数”的相关性

可以看出,当数据量在一万级以上时,HITS算法具有较高的可靠性;当数据量在一万以下时,可靠性急剧下降。

4 总结与展望

综上所述,“权威值”指标与“数据内被引次数”指标高度正相关,与“数据内引用文献”也有一定的相关性。这表示,将“权威值”作为指标,与“被引次数”相比,有以下优点:①可以更好地反映一个主题内(或者一个检索结果内)的文献被引情况。②根据权威值和枢纽值的算法,“权威值”是引用文献的枢纽值之和,“枢纽值”与“数据内引用文献”高度相关,可以说权威值是综合了“数据内被引次数”和“数据内引用文献”两个指标。相比于“被引次数”,权威值能够选出既被广泛引用地,也引用了高质量文献的文献。

“权威值”也存在以下缺点:①计算速度可能比较慢。②如果检索结果数量少于一万,会导致文献间的引用关系数量不足,使得HITS算法的“权威值”不能很好地反映真实情况。

猜你喜欢

枢纽权威排序
作者简介
枢纽的力量
恐怖排序
各大权威媒体聚焦流翔高钙
淮安的高铁枢纽梦
期待已久,连接传统与潮流的枢纽 Sonos AMP无线立体声功放
节日排序
枢纽经济的“三维构建”
跟踪督察:工作干得实 权威立得起
权威发布