期刊引文概率分布模型的建立与应用
2019-10-23
随着互联网的快速发展,网络上的信息资源越来越丰富,搜索引擎的性能越来越强大,读者获取文献资源越来越方便,但也带来了更为棘手的问题,即如何从海量文献中快速锁定最需要的文献。图书馆员为读者准确推荐所需文献是学科服务中面临的巨大难题。已有学者关注这方面的内容[1-2],指出在大数据环境下文献推荐的必要性,也有关于科研机构内部的推荐方案,如构建个人知识库或机构知识库[3]。因此建立适应各个学科的自动文献筛选算法是十分必要的。
关于自动文献筛选算法研究有很多,如根据关联规则[4-5]或内容相似性[6-7]进行文献推荐的算法,根据用户特征进行个性化推荐的算法[8-10],根据引文网络中的引证关系进行文献推荐的算法。这些推荐算法的共同点是对推荐内容进行特征提取、建模分析,并根据用户进行特征匹配,然后根据匹配程度为用户推荐相应的文献。推荐算法主要分为内容推荐[7]和协同过滤推荐[11]两种,都有相应的优缺点,内容推荐方法的推荐准确率高一些,但计算量过大。当前内容推荐的主要算法是通过关键词计算,但文章的主要特征很难靠关键词全面反映,使用关键词不能做到全面、准确的推荐,还需要考虑使用全文内容,如摘要、结论等,这会使计算量大大增加。有很多相关的算法研究[12-17]。因此需要对推荐的目标内容做多层次的简化分析[7-9],将相关度不高的各个方向内容分别做剪枝处理,得到比较简化的模型。在多层次分析中,先对期刊引用数据进行分析和筛选,列出引用概率比较大的一些期刊,再进行语义分析或内容推荐等,会大大提高计算效率,有助于进行海量数据分析。当前进行期刊数据分析和筛选的算法精度都比较低,严重限制了算法的应用。
对统计分布的研究有效地简化了文献推荐算法,对期刊的计量指标的精确描述影响很大。当前关于引文统计分布的研究结果表明,统计分布偏离了布拉德福定律描述的幂律分布。本文对引用过程和物理中的扩散过程进行类比,建立能够描述偏离幂律分布的文献引用模型,应用文献引用模型对文献推荐模型中的期刊优化部分进行建模,然后对吉林大学农学部的发文数据进行分析,并用2018年发表文章中的引用数据进行验证,为文献推荐服务做准备。
1 引文概率分布模型的构建
为了能更好地解释和利用引文的概率分布,需要建立准确的模型和拟合公式。本文以吉林大学农学部发文的引文概率分布为例,对发文中引用的期刊进行统计分析,得到其统计分布,归一化后得到其概率分布。为了能得到精确的概率分布公式,需要对引文分布进行建模分析。通过类比扩散过程建立引文概率模型,并给出引用概率分布的拟合方程(相当于考虑了各个期刊之间被引用的相关概率),可以用于优化文献推送模型,有望增加当前文献推送结果的精度或者减少当前推算法的计算量,缓解当前各种高精度优化算法计算量过大的问题。
1.1 数据采集
本文数据来源于Web of Science(WOS)核心合集,数据采集时间为2018年12月9日,采用高级检索的方式,检索并下载吉林大学农学部被SCI核心合集收录的论文2 071篇,导出包括引文题录信息的文献作为原始数据集。对这些记录中2017年12月31日前发文的引用文献做统计,共下载2 071条发表记录、68 363条引用记录,通过文字匹配分析提取出所有文献的发表时间及包括引文的期刊名称和发表年代的引文信息。将被引文献按期刊和年代分类,统计期刊分布和时间分布。2018年发表的265篇文章用来验证文献推送。
1.2 引文概率分布模型的建立及研究方法
本文以WOS中吉林大学农学部发表文章中的引文数据为研究对象,经过统计可以得到按期刊区分的概率分布,其中高被引文献在一定程度上反映了研究领域的学术影响力和经典文献[18]。引文分布也能为学科服务研究提供帮助,包括文献保障、文献传递、文献支持、文献推送等。对获取的研究数据进行进一步的统计分析,并对期刊的数量按被引期刊的降序排列,可以得到引文的期刊分布是略偏离Zipf的幂律分布的(图1)。图中蓝圈是数据统计结果,红线是根据幂律分布拟合结果,绿线是拟合残差。图1(a)是正常坐标下的统计分布模型。从图中可以看出,随着文章序号的增加被引量急剧减小,也就是说单一学科中的引用一般都发生在少数期刊中。为了更准确地看出被引数量的分布情况,我们对期刊排名序号和被引量都取对数,得到图1(b)的结果,从图中可以看出,数据结果是偏离直线分布的,直线分布对应着Zipf的幂律分布。为了更精确地描述期刊被引分布,本文类比随机扩散的模型,建立了文献引用模型,并给出了统计分布的解析公式,用它对吉林大学农学部发表文章的统计数据进行拟合分析。为了更好地解释和利用引文的概率分布,需要建立符合引用过程的微观描述模型,列出可以用来拟合数据的概率分布公式,以便进行后续的研究和应用。
图1 期刊引用概率的统计分布
本文通过类比物理中的随机扩散过程来建立引用模型。
科技论文完成过程主要包括思路构建、实验过程、数据分析等,每个过程都需要查找相应的文献进行参考和支持。对于同一个研究方向的课题,不同的人有不同的想法,需要的文献也不同,引用的文献也不同,发表时间也有较大的随机性,又因为科研单位总体发文的引文是所有个人引用行为的总体统计,所以科研单位总体发文中的引文也具有随机性。
同样,某个期刊被引用的次数也是一个随机变量,这和粒子在溶液中的扩散行为比较像,因此可以类比溶液扩散的行为建立引文的概率分布函数。
把引用过程类比成物理中的随机扩散过程,扩散过程描述的是在溶液中随机分散一些均匀粒子,粒子可以在溶液中做随机扩散运动。由于粒子周围各个方向上受力不同,而会向各个方向做随机的布朗运动。在这个扩散体系中如果只观察一个很小的区域,看是否有粒子通过,由于粒子运动的随机性,那么这个观测信号的时间序列也是随机的,也就是说,在这个区域内观察,我们会看到粒子随机地出现在这个区域。但由于大量粒子的统计性,每两个粒子出现的时间间隔会有一定的相关性。相关性代表着当一个粒子出现以后,另一个粒子在间隔t时间出现的概率,p(t)是一个统计意义上的常数。不同时间间隔对应的概率不同,物理上可以通过求解扩散方程和相应相关方程得到p(t)的曲线,也就是对应的自由扩散的方向。被研究的科研单位中的每个科研人员都在搜索文献,相当于溶液中自由粒子的扩散行为,当某个期刊被引用,相当于在观测区域观察到这个粒子。
因此,对研究对象单位总体的引用行为可以类比成这个扩散行为,所以可以用如下的扩散方程来描述。文献引用概率模型如公式(1)所示。
(1)
公式(1)中,A是概率密度的归一化常数;V是观测体积,在文献引用模型中代表用户对某个具体问题检索时能精确到的范围;nD是扩散系数,代表用户在检索文献时在文献之间选择的能力;n是引用期刊的序号。
1.3 引文概率分布模型的验证及拟合
对吉林大学农学部发文中的引用记录按照期刊进行统计,得到其统计分布(图2)。
图2中蓝圈是数据统计结果,红线是本文建立模型的拟合结果,绿线是拟合残差。
用本文建立的引文概率模型对统计分布数据进行拟合可以得到如图2(a)所示的结果。从图2(a)中可以看出拟合的整体效果很好,拟合结果对应的残差也在0附近波动,说明该模型应用到引用分布中是合理的。
为了查看更精细的拟合效果,在图2(b)中给出了双对数坐标下的拟合结果。从图2(b)中可以看出,在双对数坐标下整体的拟合效果都很好,残差也一直在0附近波动,说明应用本模型可以准确拟合偏离Zipf的幂律分布的引用概率分布。
图2引用期刊的统计分布及拟合结果
1.4 引文概率分布模型讨论及参数意义的解释
为了将引文概率模型应用到实际的文献推送中,需要对参数的物理意义及其对统计分布的影响进行详细分析。通过计算不同参数对应的统计分布和比较统计分布形状的变化规律,有助于我们理解引文概率模型。分别改变nD和V的值,计算的统计分布结果如图3所示。图3(a)中给出了扩散系数变化对统计分布的影响。为了能更精确地反映曲线的变化趋势,这里直接采用双对数坐标表示趋势的变化。从图3可以看出,随着扩散系数的增加,引用排名靠前的文献数量减少,引用排名靠后的文献数量增加。也就是说随着扩散系数的增加,文献的引用概率向着均匀分布进化,这和我们的直观感觉一致。当所有文献都能快速进入读者的观察视野内时,会增加其被引用的概率,引用也将会变得更加均匀。图3(b)中给出了观测体积对引用概率分布的影响。随着观测体积的增加,引用概率分布更加集中,原因可能是由于读者可以在比较大的文献群体内选择文献。因此对应选择的文献将更加准确,反映在统计分布曲线上是对应统计分布将更加集中。
图3 拟合参数变化对引用分布曲线形状的影响
2 引文概率分布模型的应用
本文建立的文献引用模型能为当前许多推荐算法进行期刊推荐筛选。为了验证本文建立的文献引用模型对文献的推送效果,本文选择概率推送模型做验证。根据拟合得到的概率密度随机选择期刊推送给用户,并根据2018年发文计算推荐准确率,参比结果是通过完全随机推送得到的推荐准确率。根据本文拟合的概率模型推送的结果如图4所示。图中横坐标代表一次推荐文献数量,图中的不同颜色代表推荐准确率。准确率是指推荐的文献在发表文章中被引用的比例,是通过2018年发表的文献中的引用记录为标准计算的。纵坐标是群体推荐准确率,是根据推荐的文献计算2018年发表文章中超过指定准确率的比例。从图4中可以看出,随着推荐文献数量的增加,推荐准确率会先增加再减小,并且随着准确率的增加文献推荐人群的准确率逐渐降低。目前测试的推荐只是通过概率计算对单位内所有人群的整体推荐。如果配合其他推荐算法[19],那么针对个人或者比较小的课题组,准确率或者推荐算法的计算量会大大减少。在文献推荐的过程中,不同的人群有不同的喜好,有不同的推荐准确率需求。如有人喜好被推荐比较全的文献,即使推荐准确率差一些也可以;有些人喜好被推荐几率最高的几篇文献。这个概率模型推送算法可以很容易设置这样的推荐参数。从图4中可以看出,不同的准确率对应不同的群体推荐准确概率的结果,所以这个准确率可以作为用户个性化参数,可以进行精确的群体推荐准确率的调控。
图4 概率推荐准确率结果
为了对比本文中所用的概率推荐模型,本文还给出了完全随机模型的推荐结果(图5)。从图5中可以看出,完全随机模型也有图4所示中的变化规律,随着推荐文献数量的增加,群体的推荐准确率急剧下降。但整体的推荐准确率都特别低,可见应用本文所建立的模型,只是通过简单的概率分布就能给出很明显的推荐准确率增加的结果。这个推荐算法很容易扩展到其他推荐算法内,用于多层次推荐分析,增加推荐准确率和减少一般推荐算法的计算量。
图5 完全随机模型推荐准确率结果
本模型是通过对引文的概率分布的统计分析得到目标群体(学院或者课题组)的需求特征参数,通过这个特征参数简化已有的文献推荐算法或者直接进行概率模型推荐。该算法应用简单,计算量少,与其他算法的兼容性强,没有严格的样品量限制,只需要得到比较好的统计分布的拟合结果即可。通过设置用户推荐喜好参数进行推荐期刊准确率的筛选,可以大大减少其他推荐算法的初始计算样品量,弥补当前推荐算法计算量过大甚至无法完成计算的不足。
3 结论
本文通过对吉林大学农学部发文的引文进行统计,并按照期刊引用的多少排序,得出期刊引文分布是偏离幂律分布的,已经从布拉德福定律[20]和幂律分布[21]逐渐出现偏离的情况。建立了通用的引文概率分布模型进行数据拟合,得到拟合参数,分析了参数变化对引用概率分布的影响。考虑了各个期刊之间的相关概率,得到了比较好的拟合效果,可以用于完善文献推送模型,使文献推送结果更加精确。
传统的文献推送,只能对引用分布中比较高的和比较低的部分进行拟合,会带来一些推荐偏差。期刊引用数量的多少不代表它的重要程度,因此无论忽略哪个部分,对文献推送的效果影响都会很大。采用本文的引用文献分布模型,可以更加精确地描述引用文献分布,根据用户期望推荐准确率进行数据筛选,有助于简化当前各种文献推荐算法,减少其计算量。和简单的随机推荐比较,概率模型推荐能够很好地提升群体推荐准确率。