复杂网络应用研究的文献计量与议题分析
2021-05-19谢洪明朱卓越
陈 亮 谢洪明 朱卓越
(1 浙江工业大学管理学院,杭州 310023;2 广州大学工商管理学院,广州 510006;3 浙江金融职业学院工商管理学院,杭州 310018)
复杂网络是复杂性科学的一个重要分支[1]。随着复杂网络理论及其应用研究范围的拓展,在复杂网络的形成机制、演化规律和动力学上吸引了大量的研究,形成了复杂性研究的交叉学派、系统动力学派、混沌理论学派、自适应系统学派和结构学派。国际上也组成了以Barabasi;Watts、Dodds;Arthur、Newman、Strogatza等学者为代表的研究团队,涵盖了社会网络分析问题及国际贸易网络、跨国并购行为等领域。较好地解释了“复杂网络与现实的逻辑关系”“复杂网络的作用机制”和“复杂网络对实践的指导”等一系列问题。
复杂网络应用属于典型的跨学科研究,现有研究中仍存在一些不足。首先,复杂网络与各学科的交叉融合产生了大量研究,但仍缺少以时间为节点对文献进行系统性梳理和挖掘,从而在研究过程中容易忽略复杂网络与其他要素之间的互动关系。其次,各种网络和系统的不断演化以及涌现对传统基于新结构的认知模式提出了新的挑战。这就引起了对复杂网络研究轨迹的思考,以此来了解复杂网络的研究热点和发展趋势。
通过对文献进行科学筛选、统计和整理,采用文献计量分析方法,绘制知识图谱,从整体上把握所选主题的研究动态,并在此基础上考察相应文献出现的前后逻辑关系,诠释复杂网络研究的演进情况和前沿热点,是对开展复杂网络研究的补充。
1 复杂网络知识图谱分析
1.1 数据来源及方法
文献检索采用Web of Science数据库平台核心合集。检索主题词为“complex network”,检索时间段为2000—2018年,设定为“全记录并且包含所引用的参考文献”进行输出,文献类别包括管理、经济、商业领域,初步检索为903篇。在应用Citespace进行分析前先进行数据清洗以保证数据的可靠性,对检索结果去重、整理,删除期刊会议征稿、书评以及无关键词等信息的条目,剔除明显偏离研究主题的文章,最终得到676篇相关文献,作为文献知识图谱分析的原始数据。
1.2 研究结果分析
1.2.1 年度发文量分析
特定领域的年度文献数量可以反映其研究热度。复杂网络研究的文献在2000年后,如图1所示。2000—2006年仍处于研究探索期,文献数量较少且缓慢增长。2006—2011年为平稳增长期,文献有了小幅度增长,学者的群体开始扩大,研究内容也开始拓展,但总体增速较慢。2012—2018年为快速增长期,复杂网络成为学术研究热点,大量文献开始涌现,发文量占比81.8%。对每年的发文量采用指数函数进行拟合,研究增长曲线拟合度高,研究量级呈指数型增长。总体来看,其间发文数量虽然出现过小幅度回落,但始终保持上升趋势,这样的时间演化趋势也符合事物发展的一般规律。
图1 2000—2018年复杂网络研究样本文献统计图
1.2.2 国家(地区)发文统计
从全球范围内对某一内容的研究情况进行分析,有利于拓宽国际视野和把握前沿脉络。根据作者的国(地区)籍进行地域划分,选择排名前10的国家(地区)进行分析,如表1所示。发文数量上中美两国远远领先于其他国家,占总发文量的57%,两国对复杂网络的关注度较高。但中国的文献中心度相对美国较低,缺乏具有重要影响力的国际性论文,研究水平和影响力亟须进一步提高。同时,世界各国间也应加强学术间的交流与合作,提升复杂网络在各领域研究与应用的整体水平。图2为复杂网络国家图谱。颜色从深到浅表示时间从远到近的变化,节点的半径与该节点的出现频次呈正比,节点间连线的粗细程度代表合作网络的关联强度。国家间的合作网络由32个节点、115条连接边形成,密度达到0.151 2,各国之间的存在学术合作。但是节点间的连接线比较细,国家间的合作还没有形成比较固定的集中趋势,这与复杂网络的应用范围广有一定的关系。
1.2.3 关键词的图谱分析:热点与趋势
关键词是文章主体的高度概括和凝练,的核心和精髓,因此对相关研究领域文献的关键词进行分析,有助于挖掘和发现该领域的研究热点。采用被引频次、中心度和突现值来分析研究热点及前沿。
是文章表1 国家(地区)发文量前10及中心性
图2 复杂网络研究的国家图谱
根据阈值设置显示了排名靠前的文献关键词共现网络,节点的大小与关键词出现的频次成正比,节点之间的连线表示关键词之间的共现关系,线条的颜色和粗细程度分别代表共现的时间先后以及关联强度。从图3中可见,“complex network”与其他关键词之间的关系最为紧密,出现的频率最高,这说明复杂网络不仅是从研究视角还是研究方法上都占据着相当重要的地位,是学术界关注的热门研究领域。
图3 复杂网络研究关键词共现网络
在关键词共现网络中用中心度来表示对整个研究网络中的重要性,较好的规避了低频但重要关键词的忽略问题,如表2显示频次和中心度前10关键词的对比。中心度排名前10的关键词都达到了0.15以上,“transmission”和“complex network”的中心度最高,在整个复杂网络的研究中处于核心位置,对于维系整个研究网络的稳定具有非常重要的作用,但是“transmission”的频率在网络中只有9,说明对复杂网络的传输动力学研究很重要但是现有的研究成果还相对缺乏。通过对比高频和高中心度关键词,50%重叠率说明复杂网络的研究内容同时也是研究热点。
表2 复杂网络研究文献高频和高中心度前10关键词比较
突变是用于检测一个学科研究内在短期时间内发生的变化程度,反映了该领域的研究前沿。表3显示了复杂网络研究中具有最强引用突变值的关键词,并根据突变开始的年份由远及近从上到下进行排序,色块表示关键词突变强度较高的年份,越靠近下方的研究主题就越前沿。三个高频突现词按照时间顺序联结并且有重叠,代表了复杂网络的研究在相应年份里的热点转向,也反映了复杂网络研究在整体时段内的成长趋势。但是这3个关键词的突变没有延续,表明目前复杂网络的研究遇到一定瓶颈或研究热点逐渐分散。
2 关键词聚类分析
关键词聚类以共词分析形成的矩阵为基础,通过聚类原理采用相应算法对高频关键词间的关联进行整合,对主题聚类进行整理汇总,有助于识别复杂网络研究领域中代表性的子群。聚类模块值(Modularity Q)和聚类平均轮廓值(Mean Silhouette)是反映聚类边界清晰度和聚类规模的两个指标。图4中聚类模块值为0.601 9,表明复杂网络各研究主题间界限清楚,领域分化比较显著,但聚类平均轮廓值为0.400 3,稍低于合理值0.5,这是因为复杂网络的研究角度多样,与不同学科间形成交叉,研究的范式差异较大,从而导致了众多小聚类的出现。其中一些聚类持续的时间相对较短,也许是由于该主题深入研究的价值不足或是在研究过程中出现了新的理论和方法而转向了另一研究主题。为更清晰显示主要聚类,设置“Filter out small clusters”,最终结果如图4所示,并对前3个聚类进行分析。
图4 复杂网络研究关键词聚类知识图谱
#0聚类:该聚类提取的标签有complex network(复杂网络);social network(社会网络);viral marketing(病毒式营销);network dynamics(网络动力学)等。社会学家最早将复杂系统看作网络进行研究,这也是二者研究的有力结合点。社会网络和复杂网络的研究都起源于数学中的图论,二者在研究思路、研究角度和研究方法上存在很大的交集,呈现出较多的关联性[2]。
结构决定功能是系统科学的基本观点,复杂网络研究中最首要也是最基础的就是结构问题。社会网络分析中利用核心中心性等静态几何量及多层次网络等分析方法形成复杂网络研究的基础,复杂网络侧重从各种实际网络的现象之上抽象出一般的网络拓扑性质,并用这些性质来指导更多实际网络的研究,进而发展网络模型的一般方法,最后讨论网络本身的形成机制。需要指出的是,复杂网络的统计特征也会随着研究的深入产生新的问题。借鉴庞加莱的“剖分”思想,从圈结构的视角出发,把网络分解为全齐性子网络,并提出向量空间作为表示网络的新方法。无标度特性作为复杂网络的一个重要特征,幂律分布又是唯一满足无标度条件的概率分布函数。但目前学术界对无标度网络的定义本身和相关结论产生了更多的争议,一些学者质疑无标度属性的普遍性,并反驳社会网络或互联网是无标度的假设,其中一个原因就是异质性和低维度的视角还不足以完全理解复杂网络结构和行为。但可以肯定的是,没有学者对复杂网络研究的重要性提出质疑,只是提出了对某些方法的关注。
表3 复杂网络研究中的3个主要突变词
#1聚类:该聚类提取的标签有complex network(复杂网络);network topology(网络拓扑);maritime transport(海运);social capital(社会资本);modeling(建模)等。网络是嵌入在特定的几何结构中,网络节点同时存在于可视网络和隐藏于网络可视拓扑之下的几何空间中。除了定性的描述外,更多的学者致力于定量的方法来计算各种系统的复杂程度,从而比较不同系统复杂程度的大小。目前比较成熟的包括规则网络、随机网络、小世界网络和无标度网络,另外层级网络模型和确定性网络模型也成为研究热点。
在传统研究模型的基础上,Newman提出的网络模块更加形象地描述了网络节点间的拓扑关系以及网络的功能结构。在网络模块的研究中,一个非常关键的问题是如何评价网络模块划分结果。聚类模块被认为是经典的模块结构度量标准,但随着研究的深入,其定义方式造成的固有局限性引起了广泛关注,学者们因此提出了全新的度量方法,包括Fitness度量标准[3]和Benchmark模型[4]等。这些度量方式各有优劣势,但尚未存在一个完全公认的最好的方法,这也是这一研究方向受到关注的原因之一。
#2聚类:该聚类提取的标签有complex network(复杂网络);airport network(航空网络);network structure(网络结构);stock returns(股票收益)。复杂网络理论所具备的复杂结构、链接多样性、网络演化、动力学复杂性等融合的特点均可映射到现实网络的结构上,而网络结构对于信息的传播又具有决定性作用。研究复杂网络的最终目标是理解网络拓扑结构对其上的动力学过程的影响,需要建立一个紧密联系其拓扑结构与传输功能的机制,应用于流行病传播、舆论传播、交通控制等研究,重点考察网络的可靠性、稳健性、传播性和同步性,所以拓扑结构也就必然成为复杂网络研究的基础。
3 主要研究结论及展望
复杂网络的跨学科研究以及知识的交叉融合使得研究主题越来越多元化,这为后续的研究工作带来了空间。借助可视化软件,通过对搜集的文献进行研读和计量分析发现,研究力量主要分布在中美两国,但是中国的文献影响力还相对欠缺,研究热点主要聚焦于网络拓扑特征及网络结构、网络模型和动力学研究。在此基础上,构建了复杂网络应用研究的基本框架,如图5所示。从研究方法、数学模型、网络演化等方面更加精确和完整地描述复杂系统,对微观到宏观网络结构的演化、网络信息的挖掘和预测以及时空网络的演化研究上相对比较缺乏[5],这将成为复杂系统研究的最大挑战。因此,本文也提出复杂网络的研究展望,未来的研究工作可以集中在以下几个方面展开,如图5中斜体部分所示。
图5 复杂网络应用研究基本框架
随着大数据及网络科学的发展,在不同领域复杂网络新的特征向量必然还会有新的发现,一些融合网络拓扑及动力学特征的中心性定义方法也被逐渐提出,如通过节点的信息、物质或能量流量来评估节点的重要程度。但这些变量能否全面反映真实网络的复杂性?描述普遍的复杂网络需要多少独立的统计参量?是否还有更加重要的统计性质尚未发现?通过局部网络的研究能否正确反映整个网络的特性还需要进一步来实证。同时,也可以对多个统计向量之间的函数关系进行研究,这在当前的研究中还是比较缺乏的。
为什么社会网络、技术网络和生物网络的拓扑特性很不一样?网络中发生的动力学过程怎样影响网络的拓扑结构?在现有统计描述的基础上,还需要物理和信息等更多的描述,发展定性与定量结合的分析方法,开展更广泛的实证研究,通过充分必要条件和门槛值来加强对网络结构的辨识,这将有助于刻画复杂网络的主要特征和加深对复杂网络的理解。
复杂网络理论与实际网络结合分析的过程中也出现了许多困难,如超大规模的网络、物联网等还无法通过精确的复杂网络模型来分析。研究复杂网络的拓扑性质、网络的形成机制、演化的统计规律以及网络上的模型性质,构建与之匹配的现实网络演化模型,这也将成为未来复杂网络研究的核心任务。随着网络科学理论研究的不断深入,网络科学应用研究也将围绕更好地服务人类、提升人类生活质量这一核心来展开,未来在生命科学研究和基于互联网的社会科学领域复杂网络将有更大的研究空间。
根据现有的研究来看,直接从微观节点到全网宏观的结构把握是比较困难的,需要从中找到一个中间过渡的模块结构。对具有较强模块结构和模块结构不太明显的网络而言,网络上的动力学过程所表现出来的性质是不同的,需要重点关注复杂网络模块特性对网络病毒传播和网络鲁棒性的深层影响以及在知识发现和数据挖掘方面的应用。这些中间尺度结构的分布、在动力学过程中的作用,包括相同和不同的节点动力学下,分叉、混沌、阵发混沌及各种广义同步的产生机制分析、控制和同步等问题。以及从微观到中观、从中观到宏观的演化和涌现过程,在复杂网络中的动力学普适性和差异性问题还需要进一步研究。