APP下载

文献耦合网络与同被引网络比较实证研究

2019-04-20孙海生

现代情报 2019年4期
关键词:复杂网络

孙海生

摘要:[目的/意义]已有研究对文献耦合关系和同被引关系比较的研究较少,本文比较两种关系在文献间建立联系的差异,并且比较耦合/同被引强度与文献相似度的相关性,分析耦合分析和同被引分析各自更适合哪些方面的应用。[方法/过程]根据复杂网络理论,构建文献耦合网络和同被引网络,实证比较文献耦合网络和同被引网络的拓扑性质。利用QAP关联分析,研究耦合关系、同被引关系与文献内容相似度的关系。[结果/结论]网络拓扑结构分析表明,耦合关系在文献之间建立的联系更普遍而且更稳定,更利于检索被引用次数较少的大多数文献;同被引关系在高被引文献之间建立的联系更紧密,利于检索和确定领域内的核心文献。QAP关联分析表明耦合强度和文献相似度的相关性更强,在文献聚类分析研究主题时,耦合强度更可靠。

关键词:文献耦合;同被引;复杂网络;网络特征;QAP关联分析

DOI:10.3969/j.issn.1008-0821.2019.04.016

〔中图分类号〕G250252〔文献标识码〕A〔文章编号〕1008-0821(2019)04-0134-09

Empirical Research Comparison of Bibliographic

Coupling Network  and Co-citation Network

——A Case Study of Articles Published in Scientometrics

Sun Haisheng

(Library,Liaocheng University,Liaocheng 252059,China)

Abstract:[Purpose/Significance]There are fewer compare studies  on bibliographic coupling and co-citation  analysis.In this paper,we  compared connection between  documents in bibliographic coupling network and co-citation network,furthermore,we studied  the correlation between document similarity and strength.finally,we analyzed what applications theyre more suitable for.[Method/Process]Based on complex network theory,bibliographic coupling network and co-citation network were constructed,and,some topological properties of bibliographic coupling network and co-citation network were compared empirically.QAP relational analysis was applied to study relationships between bibliographic coupling,co-citation and similarity of documents.[Result/Conclusion]From the point of view of topological properties of networks,bibliographic coupling established more common and more stable relations among documents,it was effective for retrieving most documents which were cited fewer times.Co-citation made higherly cited papers more connected,it was more effective for identifying and retrieving core documents of domains.QAP analysis showed that bibliographic coupling strength  was a more reliable indication of subject similarity than co-citation.

Key words:bibliographic coupling;co-citation;complex networks;network characteristics;QAP

科學文献之间的引用是一种普遍的学术现象,在直接引用关系的基础上,文献之间形成耦合和同被引关系。文献耦合(Bibliographic Coupling)的概念最早是Kessler M提出的[1],如果两篇文献引用了相同的参考文献,就称它们具有耦合关系,耦合强度是两篇文献引用相同参考文献的数量。Kessler M最初提出文献耦合的目的是把耦合关系作为一种新的检索方法,Glanzel W等进一步提出文献耦合可以用于信息检索、科学结构分析、探测研究前沿、确定学科领域核心文献[2]。文献同被引(Co-citation)的概念由美国情报学家Small和前苏联情报学家Marshakova分别在研究文献引证结构和文献聚类时提出[3],是指两篇文献同时被后来发表的文献引用的现象,同时被引用的次数称为同被引强度,同被引强度越大,说明它们之间的关系越密切。科学文献的耦合与同被引都可以反映文献之间的联系程度和结构关系,从引文的角度揭示文献的主题相似性,以及相互之间的联系,因此这两种分析方法都用于研究文献关系、文献检索和揭示学科结构,并且在实践中得到了大量应用。

在概念层面,邱均平教授分析了耦合与同被引的异同,认为它们的相同之处在于都是指两篇论文通过其他文献建立的关系,都反映文献之间的引用规律和结构关系,在引文分析中同属于一种类型,从引文角度反映文献主题的相似性,可以用于研究文献关系、进行文献检索、揭示学科结构等。二者的区别在于:耦合关系是两篇引证文献主动引用其它被引证文献建立的关系,回溯性反映引证文献信息来源,两篇文献一旦正式发表,耦合关系就完全确定下来,是静态的;同被引关系是两篇文献由于被其它文献引用而被动建立的关系,展望性反映文献发表后被使用的情况,随着文献发表时间的延长,两篇文献之间同被引的强度是动态变化的,因此适合用于分析科学发展的动态结构[4]。

在实际应用层面,研究人员对耦合分析方法和同被引分析方法也进行了比较。Small H在提出同被引方法时认为作为主题相似性的指标,耦合的可靠性比同被引差一些。Newman M则认为强同被引关系局限于高被引文献之间,文献耦合是文献之间相似性更为均匀的指标[5]。这两种观点都没有严格的理论证明,也缺乏实验结果的支持。有实证研究从研究前沿探测效果的角度,对耦合分析和同被引分析进行了比较。Boyack K等通过对生物医学研究前沿探测的实证研究,认为耦合分析方法略优于同被引分析方法,更准确的分析结果来自对多种方法的综合使用[6]。Shibata N等以氮化镓半导体材料、复杂网络和碳纳米管3个研究领域为实证研究对象,对文献直接引证网络、同被引网络和文献耦合网络探测研究前沿的效果做了对比,他们认为直接引证网络的效果最好,能够最快地探测到新兴前沿的出现,同被引分析的效果最差[7]。

总体来看,对耦合分析和同被引分析进行比较的研究成果还较少,集中于概念层面和研究前沿探测效果的实证对比。一般认为耦合分析和同被引分析都可以应用于文献检索和揭示学科结构,但是对于耦合分析、同被引分析更适合于哪方面的应用,还缺乏研究。实际上,大量文献由于引证关系而形成相互关联的复杂系统,对耦合关系和同被引关系比较的研究有必要引入网络科学理论和方法,为文献引证网络研究提供宏观指导和具体手段,其中,网络拓扑学研究有助于人们对引证网络结构的认知,网络动力学有助于揭示引证网络的演化形成机制。早在1965年著名计量学家Price D就利用复杂网络模型研究了文献直接引证现象,把论文之间的引用关系抽象为有向网络,发现引文网络的入度服从幂律分布,并提出了增长和累积优势机制解释网络的形成[8]。Yan E等采用网络模型研究了作者、论文的学术影响力[9-10],在文献[11]中,他们研究了20个研究机构的耦合网络、引用网络、同被引网络、主题网络、合作网络和共词网络的相似度,发现耦合网络和同被引网络的相似度较高,和引用网络的相似度最高。这是利用网络模型对耦合和同被引关系进行比较的典型文献。他们采用的方法是把矩阵转化为一维向量,计算向量的余弦相似度作为网络的相似度,这樣的处理比较粗略,缺乏对网络拓扑结构更细致的比较。实际应用中两种方法所表现出的不同源于网络特征的差异。因此,本文尝试比较文献耦合网络和同被引网络的拓扑结构有什么差异?从结构特征的角度分析它们更适合哪些方面的应用?

另外,耦合和同被引都是从引文角度揭示文献的主题相似性,对主题相似性的测度建立在一个重要的假设之上:耦合或同被引的强度越大,则文献之间的相似度越大。这一假设本质上是以文献之间引证的次数测度文献主题的相似性,而不是直接以文献自身的内容为依据。实际上,施引文献和被引文献之间的关系比较复杂,同一篇文献被不同的研究人员引用,引用的具体内容会存在很大差异,研究方法、研究结论、数据、图表等都可能成为被引用的对象,Elkiss A把这一现象比喻为盲人摸象[12]。而且,研究人员的引用行为具有很强的主观性,关于引用动机的研究表明研究人员的引用行为具有复杂性和多样性等特征,甚至还存在不良引用行为。耦合、同被引是建立在直接引用关系之上的二阶特征,丰富了文献之间的物理关联形式,但是,文献之间具有耦合或同被引关系是否一定意味着文献的研究主题相似度高?以耦合、同被引关系作为文献主题相似度的测度指标值得关注。在比较网络拓扑结构的基础上,本文尝试探讨耦合关系、同被引关系与文献研究主题相似度之间的相关性;研究耦合或同被引网络中强度的分布情况,强度越大,文献之间的相似度是否越大?判断文献主题相似度时,耦合强度和同被引强度哪一个更可靠?

1研究方法

复杂网络理论:复杂网络研究以数学、统计物理学、计算机科学等为分析工具,以复杂系统为研究目标,主要利用网络特征描述物理、生物和社会等现象,建立这些现象的预测模型或分析模型,并利用网络的静态特征和动力学特性来解释这些现象,是描述自然科学、社会科学、管理科学和工程技术等领域复杂系统的理论模型[13]。其理论、研究方法成为广泛的交叉科学思想方法,用来研究在自然界和人类社会中普遍存在的网络现象,在情报学研究中已经成为一种研究范式,应用在引文分析、科学合作、共词分析、网络舆情等研究中。构建文献耦合网络和同被引网络,可以从网络结构特征的角度分析耦合和同被引在文献之间建立联系的差异。

向量空间模型:向量空间模型是常见的文本表示模型,把文本内容看作它所含有的特征项的集合,根据描述文献内容的特征项测度文献之间的相似度,一个文本对应向量空间中的一个向量,向量之间的夹角余弦测度文档之间的相似性。本研究提取表征文献内容的特征项,样本数据中的每一篇论文都表示为一个向量,以向量夹角的余弦作为文献研究主题的相似度。

QAP方法:QAP方法可以用来研究关系之间的关系,通过比较两个(或多个)矩阵中的对应元素,得出矩阵之间的相关系数,同时对系数进行非参数检验。作为一种检验关系矩阵之间关系的方法,QAP方法可以计算出显著性水平,对关系性命题进行检验[14]。耦合关系、同被引关系、文献之间的相似度均可以以矩阵的形式进行描述,3个矩阵中的各个元素分别代表文献之间的上述3种关系,QAP方法可以给出3个关系矩阵的相似性测量结果,以此来分析耦合、同被引与文献研究内容相似度之间的关系,比较测度文献主题相似性时耦合关系与同被引关系的可靠性。

2实证研究

21数据来源

期刊是文献的发布类型之一,尤其是学术期刊,主要以刊载论文的形式展示本领域的最新研究成果,对于科学交流和信息传播具有十分重要的作用。随着网络技术的发展,期刊数据库建设日趋完善,利用引文数据库能够很方便地获得学术论文的各种题录信息,并且能提取论文之间的各种引证关系数据,相比较而言,其他出版形式的学术文献引证关系的提取还困难得多。因此本文选择的文献形式为期刊学术论文,研究论文之间的耦合关系和同被引关系。各学科已发表的学术论文数量庞大,仅Web of Science数据库核心合集中的文献记录就已经超过了几千万条,普通网络用户不易获得全部数据,因此,本文定位于实证研究中的个案研究,以科学计量学为例,利用上文提出的方法,對文献耦合/同被引关系进行对比。由于网络的性质与网络规模有关,网络规模扩大,有些网络性质会发生改变,比如,社交网络随着时间的演化,用户增加,整个网络会出现直径收缩现象[15]。因此,根据比较研究的同一性原则,本文构建了节点数相同的4个引证关系网络,以保证网络的规模相同。学术论文被引用的高峰期在一般发表后的2~5年,本文以2008-2012年科学计量学专业学术期刊《Scientometrics》的题录数据为样本,构建1 049篇论文之间的耦合关系和同被引关系网络,比较同一部分文献,耦合网络与同被引网络的差异;同被引方法在实际应用时,通常选择领域内的高被引文献,因此,选择《Scientometrics》创刊以来1 049篇高被引文献为第2部分样本数据,构建这些文献的耦合关系和同被引关系网络,研究高被引文献耦合关系和同被引关系的差异。为行文方便,这两部分样本数据分别称为数据Ⅰ和数据Ⅱ,对应的关系网路分别为耦合网络Ⅰ、同被引网络Ⅰ、耦合网络Ⅱ、同被引网络Ⅱ。

22网络构建

以Web of Science为数据源,下载《Scientometrics》期刊的引文数据,提取论文之间的耦合关系和同被引关系,采用复杂网络分析方法,分别以耦合关系和同被引关系,构建论文耦合网络和同被引网络,以论文为节点,连线分别代表耦合关系或同被引关系,节点和连线构成一个加权无向网络,对应一个由节点和边组成的图G(V,E,W),其中,V是网络中代表论文的节点集合,节点数N=V,E是代表耦合或同被引关系的边的集合,边数M=E,W为连线权重,在各自的网络中分别等于耦合强度和同被引强度。

23网络节点联系紧密程度的比较

节点之间联系的紧密程度可以用度和网络密度两个指标来衡量。其中,密度是网络的静态指标,等于网络中实际存在的边数与最大可能的边数的比值,从整体的角度测度网络中节点之间联系的紧密程度,耦合/同被引网络的密度从整体上刻画耦合/同被引使文献之间建立联系的紧密程度,密度越大,说明关系越普遍。从表1可以看出,同被引网络Ⅱ的密度最大,达到了01214,是同被引网络Ⅰ密度值的456倍。两个耦合网络的密度分别为0081和0088,差别比较小。节点的度分布从个体的角度,揭示节点之间连接的状况,每个节点的度是和该节点直接相连的邻居节点的个数,网络的平均度分布〈k〉等于平均每个节点连接邻居节点的数目。度越大,说明与该文献存在耦合/同被引关系的文献越多,在耦合/同被引网络中,平均度〈k〉分别是指每篇文献所具有的耦合文献或同被引文献的平均数。由于复杂网络的度分布呈不均匀状态,采用均值和基尼系数两个参量描述4个网络中节点度值的分布情况。从表1可以看出,两个耦合网络中度值的均值分别为80、88,基尼系数分别为039、045,说明两个耦合网络中度值的分布情况很相似,样本数据不同对耦合关系的影响不大,耦合关系表现比较稳定。两个同被引网络中度值的均值、中位数差别较大,高被引论文同被引网络的平均度〈k〉为121,即:与每篇文献具有同被引关系的文献平均有121篇,同被引网络Ⅰ的平均度只有26,前者是后者的465倍;而且同被引网络Ⅱ度值的基尼系数明显较小,说明该网络中节点度值普遍较大,度值的差异程度相对较小,度分布相对均匀;同被引网络Ⅰ中节点度值普遍较小,说明样本数据Ⅰ中的文献通过同被引关系建立的联系要少于耦合关系,和高被引论文之间的同被引关系相比较,差距更大,而且该网络中度分布不均衡的程度最大,基尼系数达到了0504。从节点联系紧密程度来看,耦合网络中节点的联系更普遍,而且表现更稳定,样本数据不同,对耦合网络密度和平均度的影响不大;而同被引关系把领域内高影响力的文献紧密联系在一起。产生这种现象的原因在于引文的集中现象,研究人员在撰写学术论文时都会引用一定数量的先前发表的研究成果作为参考文献,而在论文发表后,只有少数论文被大量引用,大多数论文很少被引用甚至被引用次数为0。对SCI数据库的统计表明,SCI所有论文大约47%的论文从未被引用过,9%的论文只被引用过1次,6%的论文只被引用过2次,只有21%的论文被引次数大于等于10次[16]。著名文献计量学家Egghe L等认为绝大部分论文之间不会产生同被引关系[17]。论文的参考文献的数量分布相对于被引次数的分布更均匀,而且,研究人员往往倾向于引用热门文献或权威性高的文献,这又造成参考文献的集中化,因此论文因为引用相同参考文献而产生耦合关系的概率大于同时被引用的概率,表现为耦合网络中节点之间的联系更紧密。

24小世界网络特征的比较

小世界现象是复杂网络的重要特征之一,表现为小的平均距离,与具有相同节点数和平均度的随机网络相比较大得多的聚类系数。网络中两个节点之间的最短路径是连接这两个节点的边数最少的路径,定义为连接这两个节点的最短路径上边的数目。网络的平均距离是任意两个节点之间的距离的平均值,考虑到实际网络中节点不连通造成计算的发散问题,实际网络的平均距离定义为存在连通路径的节点对之间距离的平均值。网络直径则是两个存在有限距离节点之间距离的最大值[15]。文献耦合/同被引关系网络中,平均距离等于连接两篇文献最短关系链上节点的平均数,直径是所有相互连通的文献之间相互到达需要的步数。从表2可以看出,两个耦合网络的平均距离都略大于21,而两个同被引网络的平均距离分别为256和191,在同被引网络Ⅱ中只需要2步,就能到达连通的节点。两个耦合网络和同被引网络Ⅰ中则需要3步,耦合网络中文献之间的距离比同被引网络Ⅰ中的距离更近;4个网络的最大直径差异较大,同被引网络Ⅱ的最大直径为3,说明最多经过3步就能到达所有连通节点,而同被引网络Ⅰ的最大直径达到了9,是前者的3倍;耦合网络的最大直径分别为5和6,同被引网络Ⅱ的连通性明显高于其他3个网络。从节点间的平均距离和网络最大直径来看,对于同一时间窗口内的文献,耦合关系使文献之间的距离更近,利用耦合关系进行检索更容易找到相关文献;而对于在领域内影响力强的高被引文献,最远的距离也没有超过3,对这部分文献利用同被引关系进行检索,检索效果更好。

聚类系数描述网络中节点的邻居节点也互相连接的概率,刻画网络连接的聚集程度,即小集团结构的完美程度,若聚类系数较大,则说明网络具有较强的集聚性。朋友关系网络聚类系数的高低反映了朋友圈的紧密程度。平均距离测量网络中关系的深度,聚类系数则测量网络中关系的广度。从表2可以看出,4个网络的聚类系数明显远远大于相同规模随机网络的聚类系数,而平均距离则和随机网络的平均距离处于同一数量级。本文构建的4个网络都具有平均距离小,而聚类系数大的特征,说明都具有小世界网络的拓扑性质。同被引网络Ⅱ的聚类系数大于同被引网络Ⅰ,高影响力论文之间的同被引概率明显大于一般论文同被引的概率;对同一文献集合,耦合网络的聚类系数都大于相对应的同被引网络,说明耦合网絡中节点的邻居节点之间也存在耦合关系的概率大于同被引网络中邻居节点之间存在同被引关系的概率,耦合网络中节点聚集程度更高,网络节点之间的聚集特征相对更稳定。

25网络同配性

度相关性是刻画网络的二阶度分布特性,描述网络中的节点和与其他节点连接的倾向性,对于揭示网络自身组织结构与形成机制有着重要意义。度相关性对信息在网络中的传播有重要影响,研究表明在度相关的无标度网络中,信息的传播速度远远高于在非相关的无标度网络中的传播速度。对于度相关的网络,如果总体上度大的节点倾向于连接度大的节点,网络是正相关,或同配的;如果总体上度大的节点倾向于连接度小的节点,网络是负相关的,或异配的。同配系数r用来刻画网络是同配还是异配[15]。

r=S1S2-S22S1S3-S22(1)

其中,Se=2∑(i,j)∈Ekikj,S1=∑iki,S2=∑ik2i,S3=∑ik3i,ki,kj是节点的度值。r>0,网络是同配的;r<0,网络是异配的;r=0,网络不具有度相关性。Newman发现:和异配网络相比,同配网络更利于信息或疾病的传播和扩散,比如传染病,更容易在具有同配性的社会网络中传播;同配网络比异配网络更加稳健,鲁棒性更强,比如互联网和电网这类异配网络,删除度值大的hub节点,容易导致网络崩溃。

4个网络的同配系数都大于0,说明耦合网络和同被引网络都是同配的,度值大的节点倾向于连接其他度值大的节点。同配性产生的原因在于研究人员倾向于引用一些受人关注的热门文献或影响力高的文献,这些文献在受到同行关注方面获得累积优势,以它们为中介,引用它们的施引文献之间产生耦合关系的概率也相应增大,因此,耦合网络中度值大的节点更倾向于连接其它度值大的节点;影响力高的文献之间产生同被引关系时,累积优势相加使它们容易获得更多更持续的关注,择优连接特征在同被引网络中表现得更明显,尤其是在高被引文献的同被引网络中。研究人员在引用参考文献时,出于自身研究的需要,不仅仅会引用影响力强的高被引文献,还会大量引用被关注相对较少的文献,耦合网络中节点连接倾向性不如同被引网络明显,同被引网络的同配系数大于耦合网络。

度是衡量网络中节点重要性的基本指标,网络中度值大的节点倾向于连接其它度值大的节点,这些重要节点相互连接,形成文献网络的核心。同被引网络的同配系数大于耦合网络,说明在同被引网络中重要节点彼此连接的倾向性更强,因此,利用同被引关系更利于研究人员确定研究领域内的核心文献,而且同被引网络比耦合网络的鲁棒性更强。通常,现实社会网络往往会呈现明显的同配特征,而互联网和WWW等技术网络都是异配的。耦合网络和同被引网络表现出现实社会网络的特征,根本原因在于引证行为是无形学院内部成员交流、互动的重要表现形式,直接反映研究人员之间的思想与行为联系,表面上是文献之间的联系,本质上则是科学认识结构与科学社会结构之间的相互作用。

26耦合网络、同被引网络、文献相似度的相关性

261文献相似矩阵

Web of Science数据库题录数据中包含关键词和主题词两个检索项,关键词是标识文献内容的重要知识单元,是表示文献主题内容的术语,浓缩和提炼文章的核心内容,能够揭示文献的主要内容。主题词是在标引和检索中用以表达文献主题的人工语言,具有概念化和规范化的特征,能够清楚、准确地表达概念的含义。本文把关键词和主题词作为特征项,构建文献——特征项矩阵,每篇文献对应一个特征项向量,向量夹角余弦测度文献主题内容的相似性。每篇文献的标题、关键词、主题词、摘要能够反映出该文献的主要内容,因此,本文以题录数据中的标题、关键词、主题词和摘要作为文本处理的对象,抽取550个特征项,使用Ri386 320软件对样本数据Ⅰ和Ⅱ分别构建了1049×550的文献——特征项矩阵A,再利用文献——特征项矩阵计算出文献相似度矩阵B。相似矩阵的元素Bi,j用公式(2)计算:

Bi,j=Ai·AjAiAj(2)

其中,Ai、Aj为矩阵A的行向量。

262耦合网络、同被引网络、相似度的相关性

研究耦合或同被引关系作为文献研究主题相似性测度指标的可靠性,需要分析耦合关系、同被引关系和文献相似度是否具有相关性,相关性在统计意义上是否显著,我们借助QAP关联分析对这3种关系之间的关系进行分析。利用Ucinet 60软件,导入网络数据,分别计算同一样本数据3个网络之间的相关系数,并进行非参数检验,一般把P—Values值设定为005,计算结果如表4所示,表中括号内的数值为对应的P—Values值。

耦合网络和同被引网络的相关系数分别为0278、0264,显著性水平为0000<005,说明在统计意义上两个矩阵之间存在强关系,计算结果不是在矩阵置换过程中随机造成的,耦合关系和同被引关系具有明显的相关性,引用了相同参考文献的学术论文,被后续发表的论文同时引用的概率也较大,这是科学研究的延续性和继承性的反映。耦合网络和相似度网络的相关系数分别为0138、0143,显著性水平为0000<005,同被引关系和文献相似度之间也存在相关性,但是相关系数小于耦合关系,分别为008、012。说明存在耦合关系或同被引关系的文献内容是相关的,而且耦合关系意味着总体上文献内容的相似度更高。利用耦合关系更容易检索到内容相似的文献。和普通论文相比较,高被引论文之间的同被引关系与文献内容的相关性强,结合密度、平均度、平均距离和最大直径等网络特征,利用同被引关系进行文献检索时,对高被引论文的检索效果优于普通论文。对这些文献,基于同被引关系的引文索引不仅深度大,而且检索到的文献总体上主题内容相关性得到增强。

263耦合/同被引强度与相似度的关系

QAP方法测量网络的整体相关性,而耦合分析和同被引分析都假设:耦合或同被引的强度越大,文献的相似度越高。因此,引证网络中强度的分布情况以及强度和文献内容相似度之间的关系值得关注。表5是4个网络中强度的分布情况。从表5可以看出,小于等于3的强度所占的比例都超过了90%,大于5的强度在高被引论文的同被引网络中出现频次最高,共2 983次,所占比例为50%,耦合网络中,分别为632次、681次,所占比例为15%,在同被引网络Ⅰ中所占比例虽然为20%,但是频次只有272次。由此可以看出,大多数耦合或同被引关系的强度都比較小(小于等于3),样本数据中只有少数文献之间的耦合或同被引强度超过5,高被引论文同时被引用的概率远远大于普通文献。

图1是不同强度下,耦合网络和同被引网络中相似系数的核密度估计曲线。图1(a)是耦合网络Ⅰ中,耦合强度分别为1、2、3、4、5和大于5时,核密度分布情况。图1(b)是同被引网络Ⅱ中,同被引强度1~5、6~10、11~15、16~20和强度大于20时,核密度分布情况。在图1(a)中,耦合强度增大,相似系数明显表现出增大的趋势,尤其是在小于02的区域,核密度随强度增大而减小,在大于02的整个区域,核密度都变大。文献相似度随耦合强度增长而增长的趋势比较明显。而在同被引网络中,同被引次数增加,文献相似度增长的趋势并不明显,相似系数的核密度分布只在02附近增长比较明显,在大于03的区域没有明显的变化。说明文献之间的相似度与同被引次数的相关性不如耦合次数强,这与QAP分析的结果一致,而且文献相似度对耦合强度的变化更灵敏,随着强度增加,相似系数明显增加。因此,就本文的样本数据而言,如果仅仅根据强度对内容相近的文献进行聚类,耦合分析比同被引分析效果更好。传统同被引分析首先构造原始同被引矩阵,然后把同被引矩阵转化为相似矩阵,研究人员对于矩阵的转化展开过讨论,主张使用不同的方法将原始共被引矩阵转化为相似系数矩阵[19]。从上面的分析结果来看,同被引次数多,两文献之间的引证关系更密切,但是其主题内容相似度不一定相应的增加。在同被引分析方法研究中,单纯从方法的角度考虑原始同被引矩阵向相似系数矩阵转化有待商榷。应用同被引分析方法对文献聚类揭示研究主题或学科结构时,文献之间的同被引关系还需要深入挖掘,研究人员已经注意到同被引的两篇文献在施引文献中的位置关系与两文献内容相似度之间的联系,同被引距离越近,文献内容越相似。在同被引分析中考虑同被引位置的影响,能明显提高聚类和检索效果[20-21]。在同被引位置的基础上,根据具体的引用内容,提高同被引关系权重的计算,能够更准确地测度同被引文献的相似度,使聚类内的文献关系更紧密[22]。因此,利于同被引关系进行文献聚类时,共引强度与文献相似度之间的关系值得深入研究。

3结论

对样本数据的分析表明:不同时间窗口论文耦合网络的密度、平均度和聚类系数差别较小,对多数文献而言,耦合关系在文献之间建立的联系比同被引关系更紧密,而且相对稳定,根据耦合关系进行检索,检索的深度和广度会更好;但是对于高被引文献,作为经学术共同体的引证行为筛选出的特殊文献集合,同被引关系比耦合关系把文献更紧密地联系在一起,网络密度和平均度明显较大,而且网络的连通性更好,利于同被引关系更有利于确定和检索领域内的核心文献,而且利用同被引关系对高被引论文进行检索时,检索的深度和广度明显更好。耦合网络和同被引网络都具有同配性,度值大的节点倾向于连接度大的节点,表现出现实社会网络的特征,同被引网络中择优连接的倾向性更强。

QAP关联分析说明耦合网络、同被引网络和相似度网络之间两两具有显著相关性,说明引文来源相似的文献同时被引用的概率较高,反映出科学研究的继承性和延续性。耦合关系与相似系数的相关性更强,文献相似度对耦合强度的变化更灵敏,耦合强度增大,文献主题相似度明显增加。根据关系强度判断文献相似程度时,耦合关系更可靠,利用耦合关系更利于实现研究主题相似文献的聚类;利用同被引关系把内容相近的文献聚类,分析研究主题或学科结构时,有必要区分不同层次的共引关系。

本文的不足之处在于:本文仅仅是对科学计量学期刊《Scientometrics》刊载论文的实证研究,样本数据较少,是从文献网络的视角对耦合关系和同被引关系比较的初步探讨,结论是否具有普遍意义,有待更多实验数据的验证。计算文献内容相似度采用的是常见的空间矢量模型,以特征词集合代表文献,建立在词语独立性假设之上,忽略了文本的结构化信息和词语之间的语义关联。

参考文献

[1]Kessler M.Bibliographic Coupling Between Scientific Papers[J].American Documentation,1996,14:10-25.

[2]Glnzel W,Czerwon H.A New Methodological Approach to Bibliographic Coupling and Its Application to the National,Regional and Institutional Level[J].Scientometrics,1996,37(2):195-221.

[3]Small H.Co-citation in the Scientific Literature:A New Measure of the Relationship Between Two Documents[J].Journal of the American Society for Information Science,1973,24:265-269.

[4]邱均平.论“引文耦合”与“同被引”[J].图书馆,1987,(3):13-19.

[5]Newman M.网络科学引论[M].北京,电子工业出版社,2014:70-72.

[6]Boyack K,Klavans R.Co-citation Analysis,Bibliographic Coupling,and Direct Citation:Which Citation Approach Represents the Research Front Most Accurately?[J].Journal of the Association for Information Science & Technology,2010,61(12):2389-2404.

[7]Shibata N,Kajikawa Y,Takeda Y et al.Comparative Study on Methods of Detecting Research Fronts Using Different Types of Citation[J].Journal of the Association for Information Science & Technology,2009,60(3):571-580.

[8]Price D.Networks of Scientific Papers[J].Science,1965,149( 3683):510-515.

[9]Yan E,Ding Y.Discovering Author Impact:A PageRank Perspective[J].Information Processing & Management[J].2011,47(1):125-134.

[10]Yan E,Ding Y.Weighted Citation:An Indicator of an Articles Prestige[J].Journal of the American Society for Information Science & Technology,2010,61(8):1635-1643.

[11]Yan E,Ding Y.Scholarly Network Similarities:How Bibliographic Coupling Networks,Citation Networks,Cocitation Networks,Topical Networks,Coauthorship Networks,and Coword Networks Relate to Each Other[J].Journal of the American Society for Information Science and Technology,2012,63(7):1313-1326.

[12]Elkiss A,Shen S,Fader A,et al.Blind Men and Elephants:What Do Citation Summaries Tell Us About a Research Articles[J].Journal of the Association for Information Science & Technology,2008,59(1):51-62.

[13]汪小帆,李翔,陳关荣.复杂网络理论及其应用[M].北京,清华大学出版社,2006:3-27.

[14]刘军.QAP:测量“关系”之间关系的一种方法[J].社会,2007,(4):164-174.

[15]汪小帆,李翔,陈关荣.网络科学导论[M].北京,高等教育出版社,2012:60-152.

[16]Newman M.网络科学引论[M].北京:电子工业出版社,2014:70-75.

[17]Egghe L,Rousseau,R.情报计量学引论[M].北京:科学技术文献出版社,1992:51-83.

[18]Newman M.Assortative Mixing in Networks[J].Physical Review Letters,2002,89(20):208701

[19]邱均平,马瑞敏,李晔君.关于共被引分析方法的再认识和再思考[J].情报学报,2008,27(1):69-74.

[20]Boyack K,Small H,Klavans R.Improving the Accuracy of Co-citation Clustering Using Full Text[J].Journal of the Association Science & Technology,2013,64(9):1759-1767.

[21]Eto M.Evaluations of Context-based Co-citation Searching[J].Scientometrics,2013,94(2):651-673.

[22]刘盛博,张春博,丁堃 等.基于引用内容与位置的共被引分析改进研究[J].情报学报,2013,32(12):1248-1256.

(责任编辑:郭沫含)

猜你喜欢

复杂网络
基于复杂网络节点重要性的链路预测算法
基于复杂网络理论的通用机场保障网络研究
基于蚁群优化的多目标社区检测算法
基于复杂网络构建面向主题的在线评论挖掘模型