APP下载

知识网络演化中的结构稳定性与知识涌现

2019-06-25徐汉青滕广青栾宇孙健

图书与情报 2019年1期
关键词:知识网络

徐汉青 滕广青 栾宇 孙健

摘   要:知识网络凭借其呈现与揭示知识关联关系的优势已经广泛应用于图书情报学的众多领域,知识网络动态演化过程中的模式与规律更成为图书情报学界关注的重点。文章借助复杂网络理论与方法,构建了时间序列领域知识网络。从网络宏观结构特征、底层拓扑结构和Hub节点涌现三个方面,对知识网络演化过程中的结构稳定性与知识涌现问题进行动态分析。研究结果显示,知识网络演化进入相对成熟阶段后才表现出稳定的无标度网络特征;底层区块与网络节点规模在成熟阶段拟合效果更好且区块子图浓度稳定;Hub节点成员在网络成熟阶段更加稳定并涌现为领域核心知识。

关键词:知识网络;动态演化;结构稳定性;知识涌现

中图分类号:G254   文献标识码:A   DOI:10.11968/tsyqb.1003-6938.2019008

Abstract Knowledge network has been widely used in many fields of library and information science because of its advantages of presenting and revealing knowledge correlations. The patterns and laws in the process of dynamic evolution of knowledge networks have become the focus of library and information science academic community. With the theory and method of complex networks, this article constructed time-series domain knowledge networks. From the network macro-structure characteristics, underlying topology and hub nodes, the dynamic analysis of the structural stability and knowledge emergence in the process of knowledge network evolution is carried out. The results show that the knowledge networks exhibit a stable scale-free network feature, when the networks evolve into maturity; Underlying blocks and network node scale have better fitting effect at the maturity stage and the block subgraph concentration is stable; Hub node members are more stable and emerge as domain core knowledge during the mature stage of the network.

Key words knowledge network; dynamic evolution; structural stability; knowledge emergence

1   引言

近二十年來,随着网络科学理论与方法的迅猛发展,特别是小世界网络和无标度网络模型的相继提出,网络分析的思想已经融入到众多的科学研究工作中。随着理论研究的深入和方法应用的创新,从自然科学到社会科学产生了丰富的基于网络思维的研究成果。图书情报学领域中知识网络的相关研究方兴未艾,在知识热点、知识关联、学术合作等分析与研判中取得了可喜的成绩。随着静态网络分析理论与方法的日渐成熟,学术界对于动态网络分析的相关研究逐渐兴起。同时,对于知识网络动态演化的研究,也从早期关注知识网络宏观结构特征,向网络底层拓扑结构深入,并尝试将网络结构特征与知识节点内容属性结合考察。

本文以复杂网络分析方法为主导,结合时间序列分析,兼顾网络宏观结构特征与底层拓扑结构,并结合Hub知识节点涌现,对领域知识网络进行动态跟踪与分析。通过对无标度网络的幂指数研判、底层区块与网络节点规模的拟合效果、区块子图浓度的时序变化、Hub节点的波动系数等对领域知识网络演化过程中的稳定性与知识涌现展开研究。

2   相关研究综述

图书情报学界采用网络思维对知识及知识关联进行研究并不是近年来的创举。早在二十世纪五六十年代, SCI的创始人E. Garfield[1]以及普赖斯定律的发现者D. J. S. Price[2]就分别在《Science》上著文,并利用引证网络探索知识之间的传承与发展脉络。尽管当时社会网络分析(Social Network Analysis)[3]的发展已经比较成熟,但是社会网络专注于“社会实体”的理念和分析数据规模的限制,使其没能与知识网络结合发挥出最大价值。直到二十世纪末D. J. Watts与S. H. Strogatz[4]、A-L. Barabasi与R. Albert[5],分别在《Nature》和《Science》杂志上发表了揭示小世界网络和无标度网络的两篇网络科学的经典之作,以社会网络分析和复杂网络(Complex Network Analysis)分析[6]为基础的网络思维和分析方法才开始大范围融入到包括图书情报学在内的诸多科研领域。

在图书情报学领域知识网络的研究中,D. Zhu等[7]以Scopus数据库为文献来源,抽取关键词构建领域知识网络,以网络科学的思想为指导,通过与同等规模的随机网络相比较,发现领域知识网络具有较低平均路径长度以及较高聚类系数的小世界特征;R. J. Hong与C. Jinho[8]基于4251篇商业领域文献,采用层级结构分析、中心性分析、节点聚类分析等方法,对网络当中关键词之间的结构关系进行探索;耿志杰等[9]基于CSSCI数据库中情报学领域的期刊文献数据构建知识网络,采用复杂网络分析方法发现关键词知识网络是典型的无标度网络,并且具有小世界特性;马费成等[10]则基于CiteULike网站的社会化标注系统,发现了标签知识网络的小世界和无标度特征。

随着研究工作的深入,学者们逐渐意识到静态研究方法的不足之处,并开始尝试探索知识网络动态演化过程中的结构变化及其演化模式。如M.Sedighi[11]基于时间序列探索关键词网络的演化变迁,发现知识网络中心性较高的部分关键词会逐渐消失,新的关键词会取代消失的关键词成长为中心性较高的知识节点,并且中心性较高的知识节点之间的关联关系也在改变;S.Radhakrishnan等[12]通过关键词节点度值、节点共现频次、平均加权最近邻居度值、加权聚类系数等动态分析,发现关键词共现频次分布从正态分布逐渐变化为幂律分布,度值不同的节点表现出较高的同配性,度值较小的节点之间容易形成小程度的聚类。而Q.R.Zhang等[13]的研究则表明,同时具有小世界效应和无标度特征的知识网络,随着时间的推移小世界效应会逐渐减弱,节点出现频次与其度值呈线性正相关。国内图书情报学界在知识网络动态演化方面的研究起步较晚,但也有部分学者做出了探索。如马费成与刘向[14]对知识网络的演化行为进行建模仿真实验,发现优先链接机制的作用是全局性的,时间优先机制则是作用于局部;滕广青等[15-16]的研究表明知识网络的小世界效应是在演化过程中逐渐形成的,并且知识关联涌现遵循针对关联频度的择优强化机制;张斌等[17]的研究进一步表明,无标度网络背后的BA模型在知识网络动态演化分析中占有重要地位,而且网络结构和节点外部属性应该被综合考虑;徐汉青等[18]通过对知识网络模体浓度的分析,发现领域知识网络在网络模体层面上具有一定的结构稳定性,知识网络发展过程中具有相对稳定的小世界效应。

综上所述,学术界已经接受领域知识网络不断生长演化的这一基本事实,研究方法也从早期的静态结构分析转变至动态演化分析。但是大多数研究还停留在知识网络的宏观结构层面,针对网络底层拓扑结构的动态分析工作则相对稀缺。

3   理论框架

在图书情报学领域中,早期对于知识网络的研究通常采用常规共词网络分析方法[19]。网络当中一开始就固定选取N个节点,并且节点的数量不会发生改变。而真实的领域知识网络是处于开放式生长状态的,因此固定节点数量的共词网络分析方法无法对动态生长中的领域知识网络的结构演化以及规律变迁进行研究或说明。A-L. Barabasi与R. Albert[5]在《Science》杂志上发表的研究成果首次提出了真实网络的无标度(Scale Free)特征和网络涌现中的优先连接(Preferential Attachment)机制。根据他们的观点,网络结构的无标度特性是在网络不断生长演化的过程中涌现出的特征。这意味着网络总体的拓扑结构特征并非是一成不变的,而是在演化增长的过程当中,由若干细微变化的反复叠加完成了由量变到质变的过程。在网络增长性与优先连接机制作用下,网络宏观形态的度序列分布会向着特定结构演化,进而遵循幂律分布:P(k)∝k-γ。在A-L.Barabasi等人的仿真实验中,优先连接机制作用于网络演化的全过程,且测得的不同真实网络的幂指数γ的值域稳定(±0.1)。基于这一思想,本研究将考察的重点聚焦于真实知识网络不同发展阶段的结构特征,重点关注知识网络动态演化过程中的结构稳定性。

无标度反映的是网络宏观层面上的结构特征,但是仅有宏观上的无标度特征尚无法完整地描述和解析真实领域知识网络演化过程中结构的生成与变迁。针对此类问题,就需要从网络底层拓扑结构进行更深层次的探究。任何大型网络都在底层拓扑结构层面具有网络的基本构造区块,正是这些底层区块子图构成了高度复杂的网络总体。R. Milo等[19]的研究成果表明,自然界中的复杂网络同时有着多类同形异构的基本构造区块存在,并将高于随机化网络的基本构造区块称为网络模体(Network Motif)。考虑到4节点区块子图在结构上可以视为3节点区块子图的叠加,在知识网络中具有更好的底层结构代表性,因此本研究重点考察节点数量N=4(边数量E分别为3、4、5、6)的连通区块子图(见图1)。

在知识网络的演化生长过程中,宏观的拓扑结构可以视为底层区块子图之间的复制与重组,反复交叉融合[20]的迭代形成更大规模的子图,因此底层拓扑结构的区块子图被学术界作为大型网络拓扑结构的基本构造区块。本研究將对基本区块数量与网络节点规模的相关性和演化过程中的区块子图浓度进行计算分析,力求全面地的考察领域知识网络演化过程中拓扑结构的稳定性。

本研究在关注知识网络拓扑结构的稳定性的同时,还关注知识网络内容层面的核心知识涌现问题。无标度网络的异质性决定了只有少量的节点拥有大量的连接,这些节点被称为Hub节点,并且在网络演化中起主导作用。在知识网络中,Hub节点意味着与领域内更多的节点具有知识关联关系和更广泛的外延,是该领域的核心知识。一个主题领域的核心知识或者核心知识团体如果频繁变动,则意味着该领域并没有涌现出稳定的核心知识(团体)。因此,对于知识网络而言,网络生长演化过程中新知识节点、新知识关联不断加入后,网络拓扑结构特征和网络Hub节点如何变化就成为图书情报学关注的问题。对此,研究中主要采用Hub节点波动系数加以考察。

4   数据处理与分析流程

4.1    研究数据与网络构建

本文以Bibsonomy.org网站为基础数据源,该网站提供社会化标注系统组织与架构知识资源,允许用户组织、标注、分享学术文献资源。首先以“semanticweb”为检索主题词,采用自主研发的爬虫工具,抓取相关领域的文献资源及其对应标签作为原始数据集。以自然年份为时间刻度,累计获得文献资源数量2702篇,相关标签1994个、标签同现关系21791对(具体抓取的相关数据见表1)。

“semanticweb”主题领域下的相关原始数据从2004-2017年共划分为14个时间窗口。考虑到本研究关注的重点在于领域知识网络演化生长过程中网络拓扑结构和不同时期Hub知识节点涌现变化的模式与规律,因此各个时间窗口采取累计值的统计方式。累计值相比当期发生值能够更加凸显领域知识生长中脉络传承的逻辑关系。统计数据也显示,随着时间序列的演进,无论是文献数量、标签数量还是标签同现关系数量都在不断增长,其中标签同现关系的增量远远大于文献和标签的增量。

基于“semanticweb”主题领域中的原始数据,首先构建“文献-标签”隶属关系矩阵,矩阵中的“行”指代文献,“列”指代表征知识概念的标签。如果某一文献A被用户赋以标签a标注,则其行列交叉处记为“1”。在此基础上进一步将隶属关系矩阵转化为“标签-标签”邻接矩阵。如果标签a与标签b被用户标注于同一篇文献,则邻接矩阵中标签a与标签b的交叉处记为“1”。此时获得的邻接矩阵可在网络视图下表达为基于标签同现关系的领域知识网络。需要说明的是,本研究中以标签表征知识概念节点,标签同现关系表征知识关联。由于本研究关注知识网络的拓扑结构与Hub节点,只考虑关系的有无,因此研究中不考虑关系频度(边权重);加之标签同现关系(知识关联关系)所形成的边不具有方向性,因此所构建的领域知识网络为无向无权网络。出于对知识网络动态演化变迁进行跟踪的目的,研究中按照时间序列分别构建14个时间窗口的领域知识网络。

4.2    网络基本构造区块的识别

本研究对知识网络中的每一种实际存在的基本构造区块的拓扑结构进行识别与计算,检测出所有真实存在的同形异构的基本构造区块子图类型,并且进行时间序列的区块数量以及浓度占比分析,探测领域知识网络底层拓扑结构中各类基本构造区块数量变化过程以及演进特征。本研究主要针对领域知识网络中的4节点区块进行识别与计算:

(1)定义:VS为边所连接的节点的集合,ES为领域知识网络中边的集合。

(2)设置空集U,用于接收满足条件的4节点数组;设置空集M,用于接收不满足条件的4节点数组。

(3)任意选取节点(N=4),V=(V1 、V2 、V3 、V4)∈VS。判断V是否属于集合U,若属于则重新选取VS当中的4个节点;反之则存储于集合U。

(4)计算V=(V1 、V2 、V3、V4)拥有的边的数量,任意节点至少拥有一条边并且节点数量满足N-1≤V≤■,若不满足条件则V存储于集合M,且返回步骤(3)。

(5)识别区块子图类型,当所选出的4节点构造区块的边数量关系满足步骤(4)时,判断区块具体边数量,识别出同形异构的区块类型。

(6)计算区块浓度:

公式(1)中,i为同形异构的区块类型,N个节点当中i类区块子图出现次数记为Ni,拥有N个节点的i类区块子图的浓度为实际出现在网络中的i类区块的个数占实际网络当中N个节点的所有区块子图的比重。

(7)返回步骤(3)。

沿时间序列对所有同形异构区块子图的数量以及浓度占比进行计算,最终获得知识网络时间序列的基本构造区块子图的浓度。

4.3    Hub知识节点的检测

领域知识网络中,不同知识节点之间会存在出现频次以及连边数量等方面的差异性。本研究基于节点拥有的连边数量选取知识网络的Hub节点作为领域中的核心知识节点。其优点在于,Hub知识节点更能够彰显该节点在众多领域知识中的核心地位,该方法目前已经被图书情报学界广泛接受。在此基础上引入时间序列分析思想,采用网络涌现理论中的Hub涌现[21]来对领域知识网络中Hub知识节点的涌现波动进行探索分析,从而对基于内容层面的知识节点的涌现过程加以揭示,探索领域核心知识的涌现模式。为了便于比较分析,研究中采取Top-n的方式来选取每一时间窗口的Hub节点,来考察时间序列下的Hub节点(Top-n)成员变化。出于考察累积数据环境下年复一年Hub知识节点变化趋势的目的,研究工作定义了Hub节点的波动系数:

公式(2)中,t1Hub表示首个时间窗口出现的Hub节点,t1+nHub表示t1+n时间窗口的Hub节点,t1+nHub∩t1Hub表示从第一个时间窗口t1至当前时间窗口t1+n相同的Hub节点。领域知识网络的波动系数,由第一时间窗口(t=1)到当前时间窗口(t=1+n)的Hub节点变化差异数与t1时间节点的Hub节点数的比率确定。由波动系数Hubchange的定义可知。其值域范围[0-1],波动系数越大,则说明高Hub节点成员的波动幅度越大,成员构成越不稳定。反之,则说明该领域Hub节点的成员构成非常稳定,原有的Hub节点在网络演化过程中吸附了更多的连接来保持Hub地位,遵从了A-L.Barabasi和R.Albert提出的优先连接(Preferential Attachment)机制[5]。通过分析领域知识网络生长演化过程中Hub节点的波动系数,可以从领域知识内容的视角观测该领域研究热点或核心知识的波动变化。

5   结果分析

5.1    知识网络演化的宏观结构分析

从“semanticweb”主题领域中的数据可以发现,时间序列知识网络的节点(标签)从初态(2004)的55个节点增长至终态(2017)的1 994个节点,网络的边(关联关系)从初态(2004)的289条(对)增长至终态(2017)的21 791条(对)。这体现了领域知识网络作为真实复杂网络的一大特征,即网络的增长性。根据A-L. Barabasi和R. Albert[5]发表于《Science》杂志的网络科学研究成果可知,众多大型复杂网络共有的结构特性是节点的度值遵循幂律分布,即无标度网络(Free Scale Network)。研究工作基于这一思想,对各个时间窗口知识网络的度序列分布的演化进行分析研究。以节点的度值k为横坐标、以度分布概率P(k)为纵坐标,以10为底建立双对数直角坐标系,得到时间序列领域知识网络度序列分布图(见图2)。

在分布图中,领域知识网络生长初期(2004)的度序列并没有很好地遵循幂律分布,P(k)并没有随着k值的增大表现出衰减趋势。此后随着领域知识网络的不断演化生长,网络节点度序列的幂律分布特性才逐渐体现出来,基本上遵循P(k)∝k-γ。而且在拟合情况较好的时间轴后半段,度序列分布也一定程度上保留着E. M. J. Newman[22]曾经指出的呈弯曲状的“头重分布”(Top-heavy Distribution)。对2004-2017时间窗口领域知识网络的度序列分布幂指数γ的计算,获得幂指数γ的值依次為:γ2004=2.573 867、γ2005=2.553 365、γ2006=2.422 331、γ2007=2.432 352、γ2008=2.703 654、γ2009=2.695 384、γ2010=2.652 611、γ2011=2.644 553、γ2012=2.576 824、γ2013=2.570 994、γ2014=2.569 855、γ2015=2.538 632、γ2016=2.550 464、γ2017=2.563 466。根据A-L. Barabasi等对演员合作网络、万维网、电力网络等真实复杂网络的测算,符合无标度网络特征的大型复杂网络的度序列分布幂指数γ的波动范围在±0.1左右。2004-2008时间窗口度序列分布的幂指数γ值波动较大,之后历年的相邻时间窗口度序列分布的幂指数γ值差异均没有超过±0.1,并且γ值并没有随着网络规模的增长而单纯增大或者减小,而是趋近于一个稳定区间γ=2.6±0.1。至此可以得出,领域知识网络的无标度特征并非是与生俱来的,而是沿时间序列随领域知识的发展逐渐涌现,在知识网络涌现出无标度特征之后,度序列分布的幂指数γ值波动趋于稳定,且这种稳定性与网络规模大小无关。

5.2    知识网络底层拓扑结构分析

本研究采用穷尽递归的思想检测到节点数量N=4的所有同形异构的区块子图及其对应的数量规模,共涵盖了6类4节点的基本构造区块。在领域知识网络不断生长演化的过程中,网络当中节点数量N=4的所有区块子图的数量随着网络规模与容量的增大在不断变化,并得到相关数据(见表2)。

对照表1与表2中的数据可以发现,尽管研究中生成的14个时间窗口的“semanticweb”主题领域知识网络节点数最大为1 994(见表1),识别出的底层构造区块子图类型仅有6类,但网络终态(2017)形成的4节点的区块子图数量超过10亿级别。考虑到网络节点数量与区块子图数量之间的巨大差异,以及前文网络宏观结构分析中已经发现的2008时间窗口前后幂指数γ值波动的差异性,以该时间窗口为界,将时间轴划分为2004-2008、2008-2017两个时间区段。分区段考察领域知识网络演化过程中的区块增长情况,以期探索幂指数γ值不同收敛状态下网络规模与底层区块子图增长的相关性。以网络节点数量为横坐标,以同形异构区块子图数量为纵坐标,得出2004-2008时间区段底层区块子图的指数拟合情况(见图3)。

从图3中不难发现,随着时间的推移,纵轴刻度反映出不同区块子图之间数量差距进一步扩大,结合表2中的数据可以更好地验证这一点。图3中知识网络节点规模与各类同形异构区块子图数量上的指数拟合曲线关系的R2值及显著性系数分别为:R24-1=0.8671(Sig.=0.021)、R24-2=0.8304(Sig.=0.031)、R24-3=0.8624(Sig.=0.023)、R24-4=0.7446(Sig.=0.060)、R24-5=0.8565(Sig.=0.024)、R24-6=0.8283(Sig.=0.032)。尽管除区块子图4-4之外其他区块子图都满足0.05的显著性水平,但是R2值最高为0.8671,最低为0.7446,无一达到0.9以上,各类区块子图数量与网络节点规模的指数拟合关系并不十分理想。进一步对2008-2017时间区段网络规模与区块子图数量的相关关系进行分析,得出该时间区段的拟合情况(见图4)。

在2008-2017时间区段底层区块子图的指数拟合曲线中,6类区块子图拟合曲线的R2值及显著性系数分别为:R24-1=0.9939(Sig.=0.000)、R24-2=0.9958(Sig.=0.000)、R24-3=0.9967(Sig.=0.000)、R24-4=0.9921(Sig.=0.000)、R24-5=0.9950(Sig.=0.000)、R24-6=0.9836(Sig.=0.000)。显然,在该时间区段内拟合效果满足更好的显著性水平,即使最小R2值(区块子图4-6)也高达0.9836,其余皆超过0.99。由此可以发现,在领域知识网络演化的相对成熟阶段(幂指数γ值波動小),各类区块子图与网络节点规模之间指数曲线拟合效果远远优于领域知识生长的初期(2004-2008),指数拟合效果更好。这意味着在领域知识网络演化逐渐步入成熟阶段后,底层基本构造区块的数量随着知识网络节点规模的扩大更加符合指数增长模式,更加有规律可循。

出于进一步考察知识网络演化中底层拓扑结构稳定性的目的,研究中分别计算了各类区块子图在整个时间序列中的浓度,得出各区块子图浓度的时序变化(见图5)。

在区块子图浓度的时序变化图中,2008时间窗口之前,知识网络中各类区块子图的浓度涨跌存在较大波动,甚至出现不同区块子图浓度之间此消彼长的现象。这在一定程度上说明,领域知识网络演化初期各类底层基本构造区块在网络中的占比变化较大,知识网络演化并不稳定。而2008时间窗口之后,各类区块子图的浓度曲线趋向于相对平行的发展,底层基本构造区块在知识网络中的占比趋于稳定,领域知识网络进入相对稳定的发展阶段。需要说明的是,图5中区块子图4-4不但数量最少(见表2)而且浓度始终最低。本文前期的研究已经证实区块子图4-4并非知识网络的模体,由于本研究关注所有类型的结构子图因此并未将其排除,同时也说明其所代表的底层结构并非知识网络的特有典型结构。结合图3、图4的分析结果可以发现,随着领域知识的发展以及网络规模的不断扩容,知识网络生长的相对成熟期的底层拓扑结构不但在增长模式上逐渐表现出规律性的一面,而且在各类基本构造区块的浓度上也表现出较强的稳定性。这说明领域知识网络演化进程中,尽管不断有新的知识节点和知识关联关系生成或加入,但是网络底层的基本构造区块逐渐稳定,并且浓度稳定的构造区块保障了知识网络表现出无标度等相对稳定的宏观结构特征。

5.3    领域核心知识涌现分析

将领域知识网络中知识节点根据度值进行排序,选取各个时间窗口下度值排名前十的知识节点作为观察对象,由此获得的Hub知识节点(见表3)。

从表3中可以发现,2004-2008时间区段内,几乎每一年都有Hub知识节点的成员变更现象发生,该时间区段Hub节点的波动性很大。其中“newnet”“tools”“opensource”等6个知识节点没能凭借自身的高度值吸附足够多的连接,进而先后跌出前十名;而“semantic”“software”“web2.0”等7个知识节点则在这一时段领域知识生长发展的过程中吸附了足够多的连接,陆续跨入了排名前十的位置。这一现象反映出,在领域知识网络生长演化的前期,优先连接机制的作用效果并不鲜明。而在2008-2017时间区段内,仅有一个时间窗口发生了Hub节点成员变更现象,跌出前十位的Hub节点为“software”“semantics”,新进入的Hub节点为“linkeddata”和“data”,Hub知识节点的波动率大幅降低。显然,这一时间区段内优先连接机制的作用效果愈发明显,原有的Hub节点凭借自身的高度值,吸附了更多的足以保持其核心地位的连接。即使在Hub节点成员内部,2004-2008时间区段内各个知识节点的排名顺序也存在较大变化;而2008-2017时间区段内,各个知识节点的排名顺序则相对稳定。

为了确保网络环境的变化(生长与扩容)中Hub节点的变化与所选取的数量无关,对Hub节点的选取采用阈值控制法。即将Hub节点选取数量的阈值分别设置为n=10、n=20、n=30、n=40、n=50(2004时间窗口全网节点数量只有53个,为了便于比较分析从而阈值n的最大数量上限设为50)。采用公式(2)分别计算2004-2008、2008-2017两个时间区段的Hub节点的波动系数,得到不同阈值条件下的波动系数(见图6)。

在图6中,2004-2008时间区段在不同的阈值条件下(n=10、n=20、n=30、n=40、n=50)均呈现出处于高位的波动系数(0.6≤Hubchange≤0.7);2008-2017时间区段不同阈值条件下的波动系数则处于很低的水平(0.1≤Hubchange≤0.2)。图中两个时段不同阈值的数据表明,知识网络Hub节点的波动性与Hub节点选取的数量无关,而是与知识网络发展阶段相关。这一结果进一步证实了领域知识网络生长演化初期领域核心知识(Hub知识节点)存在较大的波动,学术界公认的网络涌现背后的优先连接机制的作用效果没能充分展现;随着领域知识网络发展演化进入相对成熟时期,领域核心知识的波动性减弱,Hub知识节点充分展现出优先连接机制的作用效果,少部分知识节点涌现为稳定的领域核心知识。需要补充的是,即使在领域知识网络发展相对成熟的阶段,Hub节点发生波动的概率大大降低但仍有可能发生。这种情况往往与学科领域重大发现或重要变革相关。表3中知识节点“linkeddata”和“data”从2010时间窗口跨入前十位的现象,揭示了从该时刻起语义网(semanticweb)主题領域中数据科学的兴起。

6   结论与讨论

本文对知识网络演化的结构稳定性和知识涌现进行研究,初步可以得出如下结论:

(1)知识网络宏观结构的无标度特征并非与生俱来,只有在网络演化进入相对成熟的阶段后才表现出稳定的无标度网络特征。研究中发现,在知识网络生长演化的前期,网络度序列分布并非遵循严格的幂律分布,幂指数波动范围较大(见图2)。随着领域知识的发展,网络生长进入相对成熟阶段后,领域知识网络表现出稳定的无标度特征。即使在“头重分布”的影响下,幂指数的波动稳定地保持在±0.1范围之内。对当前学术界普遍认可和接受的知识网络的无标度特征,从发展阶段的角度给出了更为细致的阐释。

(2)知识网络进入相对成熟阶段后,底层基本构造区块与网络节点规模的指数拟合效果更好,区块子图浓度保持相对稳定。知识网络演化进程中,网络规模在不断扩容的同时,各类基本构造区块数量与网络节点规模之间表现出巨大差异。从指数拟合分析结果来看,网络进入相对成熟的阶段后,R2值高达0.99(见图4),且满足更好的显著性水平,拟合效果甚佳;而且成熟期的区块子图浓度保持长期稳定,各个区块的浓度曲线保持平行发展的态势(见图5)。正是网络底层拓扑结构这种“后期稳定”的特性,为网络宏观层面结构特征的稳定呈现奠定了基础。

(3)Hub知识节点的成员构成在网络成熟阶段更加稳定,涌现为稳定的领域核心知识。具有无标度属性的知识网络中,少量知识节点携带大量的知识关联,大量的知识节点仅拥有少量的知识关联。研究中发现,知识网络演化的早期,Hub节点的成员构成变化较大且更迭较为频繁,领域核心知识群体并不稳定。网络演化进入相对成熟阶段后,波动系数大幅降低(见图6),领域中形成了稳定的核心知识团体。显然,底层拓扑结构层面的“后期稳定”性,也为领域知识发展成熟阶段内容层面的核心知识的稳定涌现提供了保障。

基于复杂网络方法与时间序列相融合的动态化分析,有助于深入了解领域知识网络演化生长过程中潜在的模式与规律。研究中发现的知识网络结构层面的“后期稳定”特性,可以为成长过程中的学科领域知识的识别和检测提供一种新的思路。本文所强调的稳定性并非意味着领域知识网络停止生长演化,而是知识网络的某种特征更恒定和显著地表现出来。同时,稳定状态下隐含的低概率波动性则往往预示着学科领域的重大发现或重要变革。研究工作也存在一些局限,本研究基于幂指数的变化对网络演化进行区段划分,更为科学完善的划分方法还有待后续研究进一步深入探索。

参考文献:

[1]  Garfield E.Citation indexes for science:a new dimension in documentation through association of ideas [J].Science,1955,122(3159):108-111.

[2]  Price D J de S.Networks of scientific papers[J].Science,1965,149(3683):510-515.

[3]  Wasserman S,Faust K.陈禹,孙彩虹,译.社会网络分析:方法与应用[M].北京:中国人民大学出版社,2012:12-14.

[4]  Watts D J,Strogatz S H.Collective dynamics of ‘small world networks[J].Nature,1998,393(6684):440-442.

[5]  Barabási A-L,Albert R.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.

[6]  Boccaletti S,Latora V,Moreno Y,et al.Complex networks:structure and dynamics[J].Physics Reports,2006,424(4-5):175-308.

[7]  Zhu D,Wang D,Hassan S U,et al.Small-world phenomenon of keywords network based on complex network[J].Scientometrics,2013,97(2):435-442.

[8]  Hong R J,Jinho C.Knowledge structure by keyword network analysis:focusing on business model research topics[J].Advanced Science Letters,2017,23(10):9407-9411.

[9]  耿志杰,朱学芳,王文鼐.情报学领域关键词同现网络结构研究[J].情报科学,2010,28(8):1179-1182,1202.

[10]  Ma F C,Li Y.Utilising social network analysis to study the characteristics and functions of the co-occurrence network of online tags[J].Online Information Review,2014,38(2):232-247.

[11]  Sedighi M.Application of word co-occurrence analysis method in mapping of the scientific fields(case study:the field of informetrics)[J].Library Review,2016,65(1/2):52-64.

[12]  Radhakrishnan S,Erbis S,Isaacs J A,et al.Novel keyword co-occurrence network-based methods to foster systematic reviews of scientific literature[J].PloS One,2017,12(3):e0172778.

[13]  Zhang Q R,Li Y,Liu J S,et al.A dynamic co-word network-related approach on the evolution of Chinas urbanization research[J].Scientometrics,2017,111(3):1623-1642.

[14]  马费成,刘向.科学知识网络的演化模型[J].系统工程理论与实践,2013,33(2):437-443.

[15]  滕广青,常志远,刘雅姝,等.Folksonomy知识组织模式中领域知识动态演化规律研究[J].图书与情报,2016(4):96-101,82.

[16]  滕广青.基于频度演化的领域知识关联关系涌现[J].中国图书馆学报,2018,44(3):79-95.

[17]  张斌,李亚婷.知识网络演化模型研究述评[J].中国图书馆学报,2016,42(5):85-101.

[18]  徐汉青,滕广青,安宁,等.基于模体的知识网络结构演化及其稳定性[J].图书馆学研究,2018(18):82-90.

[19]  Milo R,Shenorr S,Itzkovitz S,et al.Network motifs:simple building blocks of complex networks[J].Science,2002,298(5594):824-827.

[20]  Barabasi A-L,Oltvai Z N.Network biology:understanding the cell's functional organization[J].Nature Reviews Genetics,2004,5(2):101-113.

[21]  安宁,滕广青,白淑春,等.基于网络Hub的领域核心知识涌现研究[J].图书情报工作,2017,61(18):98-106.

[22]  (美)Newman M E J.郭世泽,陈哲,译.网络科学引论[M].北京:电子工业出版社,2014:157-170.

作者簡介:徐汉青(1992-),男,东北师范大学信息科学与技术学院硕士研究生;滕广青(1970-),男,东北师范大学信息科学与技术学院教授,博士生导师;栾宇(1988-),男,东北师范大学信息科学与技术学院硕士研究生;孙健(1993-),男,东北师范大学信息科学与技术学院硕士研究生。

猜你喜欢

知识网络
在数学教学中,如何引导学生多思善想
在数学教学中,如何引导学生多思善想
高职院校产学研中的知识网络分析
知识网络环境下高职高专思想政治教育创新
高考数学第一轮复习中的做法和反思
小学数学复习课“知新”策略的探索
思维导图在小学语文阅读教学中的运用探究