与文献相关的引用网络、合著网络和共词网络的研究进展
2015-01-31,
,
自然界许多科学问题和现象都可以抽象成网络形式进行分析研究。节点代表不同个体,节点之间的连边代表个体之间的关系。已有许多科学领域运用复杂网络分析的方法对本领域未知的现象进行探索分析。在情报学领域,研究者将期刊、文献、著者、研究机构,甚至是关键词抽象为节点,将它们之间的关系,如引用关系、耦合关系或共现关系抽象成连边,从不同粒度构建网络进行分析研究,以求发现文献相关网络中潜在的、未被发现的规律,或根据对这些网络的节点属性的分析,发现重要的期刊、文献、著者等,或用已构建的网络对未来的情形进行预测等。情报学领域分析较多的网络主要为引用网络、合著网络和共词网络。
本文将从这三方面分别介绍当前情报学领域利用网络属性分析方法对文献相关网络进行分析、应用的研究进展,并认为可以对论文相似性网络的属性进行分析,从网络的视角对新的论文评价指标进行探索。
1 引用网络
引用网络是情报学领域最早开始研究的一类文献相关网络。早在1955年,Garfield[1]就提出可以通过引用关系连接起来的科学产品表示科学事件,由此研究科学活动的规律。1965年,D.S.Price[2]借助科学引文索引1961年的实验版,绘制出了带有引文间联系的网络。此后,有越来越多的研究者在不同粒度层面,根据不同引用关系,如直接引用、同被引、引文耦合建立引用网络,对其进行了大量属性研究,并取得了一定成果。
1.1 期刊引用网络的研究
与文献有关的网络研究中,最早的是荷兰科学家Leydesdorff开展的期刊层面的引用网络研究。他利用Journal Citation Reports(JCR)中期刊引用数据构建期刊相互引用网络,通过网络结构特征和节点属性结合期刊的被引次数和引用次数,开展期刊评价指标构建研究。最终,Leydesdorff[3]利用图论中两连通成分关节点算法,成功地对科学期刊进行了聚类和可视化,显示出了每种期刊集合中的边缘和核心结构。
随着社会网络分析方法的广泛应用,Leydesdorff[4]又对期刊引用网络的点度中心度、接近中心度和中间中心度等指标进行分析,发现中间中心度可作为衡量期刊的跨学科指标。随后,为了研究跨学科领域期刊在引用网络所处位置的特点,Leydesdorff[5]利用SCI和SSCI中2004年的数据构建期刊层面的引用网络,再次验证了节点的中间中心度可以用来衡量期刊的跨学科特性。
在期刊层面构建引用网络并对其进行分析的中国学者主要有岳洪江和刘思峰[6],他们用管理学的29种经典期刊构建同被引网络,分析该网络的密度、中心性、K核、中心——边缘结构,发现管理学期刊可以归为四类,每一类都是通过某种期刊与其他类的期刊相联系。由此可见,对期刊构建引用网络,可以用来对期刊进行聚类分析,并可根据节点属性构建期刊评价指标。
1.2 文献引用网络研究
期刊层面的引用网络虽在一定程度上对期刊聚类和评价有指导意义,但并不能反映某一学科领域具体文献的引用地位。所以有很多研究者选择用文献构建引用网络,从细粒度层面对某一学科领域知识网络进行分析研究。
在文献层面构建引用网络,较为基础的研究主要集中在对网络的结构特点和节点属性的分析。例如林德明和陈超美等人[7]以《科学计量学》中的文献为数据源,建立共被引网络,分析了该网络的度分布、中间中心度分布等,发现其具有小世界和无标度的复杂网络特性,中间中心度分布符合Zipf-Pareto分布;吕鹏辉和张士靖[8]等人利用近110多年来图书馆与情报学领域85种国际权威期刊的文献构建引文网络,根据节点中心性指标,分析了网络中的关键文献,并且发现该引文网络的入度有无标度特性等。这些研究关注的是网络的静态拓扑结构特点,而引用网络的最大特点在于其结构会随时间不断变化。研究知识网络的结构特点及演化规律是厘清知识发展脉络、探测和追踪创新领域及发展趋势的基础。所以马费成和刘向[9-12]根据引文网络(无环有向网络),利用BA网络模型的形成机制,构建了科学知识演化模型,对科学知识网络的演化和动力学机制进行了研究。之后,马费成和陈潇俊等[13]又构建了生物医学领域的引文网络,着重分析了网络的主题聚类、关键路径并识别了网络中的权威和核心文献,为科学知识的演化与发展提供了一个较好的理解。
随着对引文网络的结构特点、节点属性和演化规律认识的加深,越来越多的学者开始尝试利用已构建的引文网络,根据网络的结构特征和节点属性,对文献进行评价、探测新型知识类团,甚至对未来的引用行为进行预测,较为突出的主要有日本学者Naoki Shibata 等人。2007年,Naoki Shibata[14]等人根据引文网络节点的聚集中心性、接近中心度和中间中心度指标,调查一篇学术论文将来被引用的影响因素。相关性分析显示,被引次数和节点的中间中心度指标是影响论文未来被引次数的主要因素。2008年,Naoki Shibata等人[15]分别对氮化镓领域和复杂网络领域的文献构建引用网络,使用网络拓扑结构测量指标类内节点度数和节点参与系数,成功探测到一个研究领域是否有新的知识类团出现,并根据新知识产生后,引文网络拓扑结构改变的不同,将研究领域分为渐进式创新领域和分支式创新领域。2012年,Naoki Shibata等人[16]根据引文网络的拓扑结构特征,如节点的中间中心度、节点的共同邻居、基于链接的jaccard系数等,以及文献本身的语义特征和属性特征(如被引频次、自引)等,对引文网络的节点之间的链接进行了预测。
2 合著网络
合著网络研究通过作者之间或不同机构之间的合著关系构建合著网络,以求发现合著活动中潜在的规律。对合著网络的研究,也是经历了一个由浅入深,由起初对网络的结构特征和属性的基本认识到利用合著网络构建评价科研人员的指标,甚至对未来合著行为进行预测的过程。
2.1 合著网络的基本属性研究
2002年,Barabási等[17]利用数学和神经科学领域8年的文献数据,分别构建了其对应的作者合著网络,对网络的小世界和无标度特性进行了分析研究,发现作者合著网络的演化符合无标度网络的大度节点“偏好依附”的特点。2004年,Newman[18]分别对生物学、物理学和数学领域构建作者合著网络,并分析网络的平均距离、聚集系数等属性以及网络的演化规律,发现不同领域的作者合著网络的结构不同,生物学领域的合著现象较其他两个学科多。荣先乾等[19]构建图书情报领域作者合著网络,分析了该网络的一系列属性,如节点的平均度值、最大连通子图的直径、网络的平均距离,并把这些参数值与国外图书情报领域合著网络进行比较,发现国内图情领域合著强度不大,独立发文的作者比较多。吕鹏辉等[20]对国内外图书情报领域的3种合作网络:作者合著网络、机构合作网络和国家合著网络的网络属性进行了比较,发现作者合著网络是非连通的稀疏网络,作者之间形成了多个研究社团;而机构和国家合作网络的平均距离较短,密度和聚集系数较高。这些研究都是对合著网络结构特征的分析和比较研究,显示了合著网络具有复杂网络的特征。
不同学科领域、从不同粒度构建的合著网络、甚至不同国家的合著网络结构不同,提示对合著网络结构特征的研究可以揭示合著行为的特点,这为政策制定者对国家、地区、高校、机构以及科学家之间的科研合作行为的宏观把控有一定的指导意义。
2.2 合著网络的应用研究
合著网络的第一类应用研究是根据合著网络网络的节点属性和结构特征,联合复杂网络中重要节点的评价方法,对合著网络中核心科研人员的分析研究。这些研究首先是对节点中心性指标和作者科研绩效的相关度进行初步探索。如栾春娟等[21]对2006年世界数字信息传输技术领域27 572项基本专利的33 480位发明者合作状况进行计量分析,绘制高产发明者的合作网络,通过对网络节点的属性分析,发现高产发明者科研绩效与其在合作网中的度值呈明显正相关性;Erjia Yan等[22]利用2002-2007年中国图书情报学的18种核心期刊的文献,构建了作者合著网络,发现该网络具有复杂网络无标度和小世界特性,并对网络节点的中心性指标和作者被引频次相关性进行统计分析,发现节点的中心型指标和作者的被引频次高度相关。
第二类应用研究是借鉴了复杂网络中重要节点评价方法,配合网络分析法,构建了科研人员评价的新指标。如肖连杰等[23]在构建科研合作网络时,同时考虑节点和边的信息,为节点和边赋予一定的权值,将点权和边权相加,用于评价科研合作网络中节点的重要性,且该方法可以识别科研机构的核心人才,对人才流失管理有一定指导意义;Liu XM等[24]用ACM/IEEE的数据,构建了无向无权作者合著网络和有向加权作者合著网络,分析了网络节点的中心性指标,并根据PageRank指标定义了一个新指标AuthorRank,与PageRange指标相比,AuthourRank考虑节点之间连边的权值,且AuthorRank比节点中心性指标在寻找网络中重要著者方面更有优势;Li XL等[25]则根据有向加权合著网络,构建了一种可以识别出研究团体中后起之秀的指标PubRank。PubRank也是借鉴了PageRank指标的构建思想,但与AuthorRank相比,该指标不但考虑了边的权值,还根据科研人员的科研能力为节点赋予了权值,且大量实验证明,该指标可以有效识别出合著网络中之后表现优异的研究人员。
第三类应用研究侧重于利用网络的凝聚子群分析法探测科研合著网络中的不同科研团体。如候海燕等[26]根据Scientometrics 1987-2004年的文献数据,建立了作者合著网络,分析了网络的密度、节点中心性指标,并结合聚类分析法与词频分析法,用于发现作者合著的小团体、中心团体以及大学科下的子领域;李亮等[27]对《情报学报》的作者构建了合著网络,分析了网络的节点中心性、凝聚子群以及核心——边缘结构,借此评价作者在合著关系中的地位,并发现了合著网络中关系紧密的团体。以上研究都显示,研究者并未将研究局限在对网络基本结构属性的分析上,而是将网络分析的方法应用于节点即作者评价指标的构建,从构建网络的角度解决一些利用其他方法不能得到最优解的问题。
此外,还有一类较为高级的应用研究,即利用合著网络和机器学习的方法,对未来的合著行为进行了预测。如Pavlov等[28]根据合著网络利用监督式机器学习方法对还未出现的合作关系进行了预测,他们的预测模型有较高的精确性,可以辅助构建和维持良好的合作关系;于琦等人[29]使用监督式机器学习的方法,利用生物医学领域的合著网络中的拓扑结构特征建立链接预测模型,该模型可以预测尚未实现的潜在的合作关系。这类研究为国家的科研管理决策提供了一定的参考依据。
3 共词网络
相比以上两种网络,词共现网络(共词网络)是一种分析粒度更小的网络。可以说共词网络是共词矩阵通过网络构建方法抽象出的一种网络,它是整个共词分析方法体系中的一种类型,偏向于从宏观角度描述由关键词表征的科学知识发展过程[30]。研究者利用文献关键词在文献中的共现关系构建网络,主要研究方向分为以下两类。
一类是对共词网络本身的结构特点和演化规律的研究。如王晓光[31-32]为了从微观层面科学知识网络的形成和演化机理,使用中国管理学领域5种核心期刊的关键词数据构建了共词网络,并对该网络的密度、聚集系数、平均距离等网络属性进行了计算,发现该网络具有无标度和小世界特性,且共词网络的演化符合BA模型,新增节点倾向于与度值大的节点相连。
另一类则是对共词网络的应用研究,这类研究通过对共词网络结构特征的研究,以求发现某一学科领域的知识结构特点、研究前沿等。如魏瑞端[33]利用《情报学报》和《中国图书馆学报》中的文献数据,构建共词网络,根据节点中心度指标,判断学术期刊的发文热点,并根据共词网络图比较同一期刊不同时期或不同期刊同一时期研究内容的主题结构及其变化情况;刘则渊等[34]利用科学学领域中6种主要期刊所收录的1995-2004年间的所有文献的关键词数据,构建共词网络并分析该网络的k-core,展示了关键词的强连接层次,发现了科学学的研究主题和若干研究热点、并对未来研究方向进行了预测;赵一鸣等[35]根据1990-2012年图书馆与情报学领域高频关键词构建共词网络,通过对该共词网络结构属性的分析,得出了当前图书馆与情报学的研究热点和演进趋势。
4 总结
4.1 网络构建方法
从构建网络的方法来看,可以根据不同研究目的构建不同网络。在进行网络分析时,研究者一般会根据研究目的并结合研究对象的实际特征构建相应的网络。例如,如果研究对象抽象出的节点之间有信息交流,且信息流动的方法对研究有重要意义,则可以考虑构建有向网络;如果节点之间的关系有强弱之分,且这种强弱关系是研究所关注的重点,则可构建加权网络对其进行分析。对于引用网络的研究,在分析网络的结构特点和演化过程时,可以不考虑边的权值,而只考虑连线的方向,构建有向无权网络进行分析研究。而当需要根据引用网络对期刊、文献的特征进行分析时,则可以将期刊或文献的引用次数和被引次数等实际指标作为节点或者边的权值进行研究。对于合著网络,虽然合作关系是相互的,没有方向的区别,但在合著网络中重要节点评价的研究中,为了适应复杂网络中重要节点的评价指标,也可以将无向网络当做有向网络进行分析。
此外,也有许多研究者考虑科研人员的科研绩效及其在合作关系中的贡献大小等,将这些实际指标作为合著网络中节点和边的权值,构建加权网络对合作活动进行分析,对科研人员进行评价。由于共词网络是从词共现矩阵抽象得来的,许多研究是通过构建无向加权或无向无权网络对其进行分析。对网络的拓扑结构进行研究时,也有研究者将共词网络改造成有向网络,用于进一步揭示科学知识发展变迁的规律。由此可见,应根据不同分析目的,构建相应的网络对文献相关网络进行分析研究。
4.2 网络构建粒度
从网络中节点的属性来看,可以使用不同的粒度,如期刊、作者、文章和关键词构建网络。以上文献相关网络或者是从合著机构、合著者或期刊等较大的粒度构建网络,对网络的基本属性进行分析以发现文献相关网络的演化规律或核心节点等,或者是从文章关键词这样较小的粒度构建网络,用以分析某一学科领域的知识结构特点或用于探索研究前沿等。
已有研究中,从文献角度构建的网络主要为引文网络,节点之间的连线代表的是文献之间的引用关系(直接引用、同被引、引文耦合)。引用关系是根据论文作者的主观意志而使文献之间能相互联系,虽然可以反映节点间的信息交流,并在一定程度上用于分析知识结构的演化规律或研究热点等,但并不能从客观角度反映论文内容之间的实际关系。因此,如果在文献层面,能够根据文献本身的内容特征,构建一种可以反映文献之间客观关系的网络,并对其进行网络结构特点和属性的分析,对开展各种研究可能会有更重要的意义。
4.3 网络研究程度
从研究逐步深入的过程看,通过对以上文献相关网络的研究进展总结,可以发现对文献相关网络的研究几乎都是从基础的认知探索逐渐过度到实际应用方面的研究。这些研究主要分为两个层面,第一个层面是利用社会网络和复杂网络分析方法对所构建网络的结构特点、节点属性以及演化规律的探索分析,这类研究的开展使研究者对文献相关网络的静态特征和动态演化规律有了初步认识;第二个层面是在第一个层面的基础上,对文献相关网络的应用研究。文献相关网络的应用研究又可细分为三类:第一类是根据构建的网络,对学科结构、学科前沿进行探索分析,如对共词网络的应用研究;第二类是根据网络的结构特点和节点属性特征,结合复杂网络中重要节点的评价方法,构建新的科学评价指标,如节点的中间中心度可用来评价期刊的跨学科特性,而利用PageRank算法构建思想,可构建出多种从不同角度评价科研合作网络中重要节点的指标;第三类研究则将网络分析方法和机器学习方法相结合,对未来的科研行为(引用行为、合著行为)进行预测,且都取得了较好的应用结果。
由此可见,通过构建网络,利用网络分析的方法,在对文献相关网络的结构特征和演化规律进行分析的基础上,结合其他评价方法,可以构建出新的科研评价指标或对未来科研行为进行预测。
在未来的研究中,可以根据已成熟的论文相似性算法,为某一学科领域或某几个学科领域构建论文相似性网络,分析网络的各种属性,探索学科领域的知识网络结构特点,并根据表征重要节点和普通节点的网络节点属性从不同角度发现关键论文,力求创建一个基于网络的新型论文评价指标[36]。