“数字人文”领域科研协作知识交流中的学科交叉与地域交叉测度分析
2022-06-07叶光辉毕崇武夏立新
叶光辉,彭 泽,毕崇武,夏立新
(1.华中师范大学信息管理学院,武汉 430079;2.郑州大学信息管理学院,郑州 450001)
1 引 言
20世纪末,科学研究因互联网的诞生步入了新的时代,科研成果的产出速度和学科前沿的更迭速度呈指数形式增长,以简单的团队形式进行科研协作已经无法匹配知识更迭的速度[1]。因此,学者们开始寻求更加高效迅速的知识交流形式,他们在组建科研团队时不再拘泥于地域、学科、文化、语言等条件的限制,而是更加注重团队结构的多样化。跨学科、跨地域、跨文化、跨语种等科研团队的组成实现了不同学科方法论的相互借鉴、不同地域机构研究成果的相互叠加,极大地提升了知识交流的效率,多属性交叉的科研协作模式也得到越来越多学者的青睐,成为当下科研协作的主要模式。
随着多属性交叉的科研协作模式不断应用,具备学科交融、地域交叉、机构合作、语言互通等特征的科研协作网络逐渐形成。其中跨地域和跨学科两个交叉测度由于交通基础设施建设、通信技术基础设施建设、学科交融大背景等原因得到了最大程度上的关注,关于这两个测度的相关研究也很多。对于网络中任何一个节点而言,其必定同时拥有学科和地域两个属性,如同镜之两面不可分割,所以当节点与其他网络节点发生知识交流行为时,必会同时考虑目标节点的学科和地域属性,同时权衡跨学科、跨地域知识交流的成本与收益;而且某些节点的学科和地域属性本就相互关联、相互影响、无法割裂,学科发展在地理位置上的聚集效应、地域上学科间的发展差异就是很好的例证。从网络的视角来看同样如此,科研协作知识交流元网络本质上是由各个子网叠加而成的,元网络各项特征也应由每个子网的特征共同影响,单独讨论地域交叉子网或学科交叉子网是难以揭示该测度对元网络特征、形成演化过程的影响机理的,将二者割裂开来探究单测度对知识流动特征和形成演化规律的影响必然是不全面的。基于此,本文将在对科研协作知识交流元网络地域、学科等属性特征进行充分分析的基础上,探究在这两个测度的共同作用下,元网络及其特征的形成演化机理。
2 相关研究现状
2.1 单跨度科研协作网络研究现状
跨学科科研协作研究主要有学者视角和引文视角两种方法论。前者以科研工作者为研究主体,通过探究学者的合作关系、引证关系、链接关系等揭示不同学科领域内学者的互动行为规律[2]。例如,马翠嫦等[3]以学者在信息分散下的信息行为为主要研究对象,从弱信息理论和行为、跨学科信息行为模型、信息偶遇等角度剖析图书情报领域学者进行跨学科交流的行为特征。后者首先构建引文网络,然后根据网络节点的不同属性从作者、机构、学科、地域等不同粒度去探究这些维度上的学科交叉现象。例如,Cronin等[4-5]通过分析1922—2006年信息科学及其相关学科的引文网络后得出,信息科技在最近的10年改变了在知识输出方面明显的弱势地位,成功转变成为一个知识贡献者,计算机科学、工程学和管理学等领域对信息科技的引用量以及信息科技领域从计算机科学、工程学和管理学的知识输入量双双逐年增加。
跨地域科研协作研究主要集中在地理距离对科研协作绩效的影响、跨地域科研协作网络分析、跨地域科研协作网络形成机理及演化几个方面[6-7]。例如,Glückler[8]认为学者们以网络结构为出发点探究跨地域科研协作网络的演化机制的方法忽略了网络内在演化动力的选择作用,因此他在对比研究相关领域的地域内网络演化和地域间网络演化规律后认为,跨地域科研协作网络的演化过程受到受累积机制与选择机制的共同影响。在跨地域科研协作绩效评价方式领域,国外学者将论文发表数量[9]、专利被引次数[10]、专利申请数量[11]、研究质量评价[12]等各项指标引入跨地域科研协作绩效的评价体系中去,并在此基础上探究地理距离与科研协作绩效之间的关系。
2.2 复杂影响因素作用下的科研协作行为研究现状
学者的科研协作行为是受多方面因素影响的复杂选择过程,仅从跨学科或跨地域视角无法完美地解释科研协作元网络所呈现出来的知识流动特征和形成演化规律。越来越多的学者注意到这个问题,开始针对科研协作行为动因本身进行研究。例如,张萃等[13]基于Web of Science数据库,通过对整体数据和分学科数据的分析得出中国与“一带一路”沿线国家的科研合作呈现迅速上升的态势,并进一步构建国际科研合作引力模型,发现中国与“一带一路”沿线国家间的科研积累、地理距离和合作伙伴关系亲密程度是影响国际科研合作的重要因素;谭春辉等[14]以对虚拟学术社区中科研人员进行访谈收集到的资料为研究对象,采用质性分析与实证研究相结合的方法,构建相应的虚拟学术社区中科研人员合作行为影响因素理论模型并进行验证,最终得出自我效能、群体认同、社群影响、互惠对虚拟学术社区科研人员合作意愿有正向激励作用。以上研究都是以科研协作行为为落脚点,探究促进或抑制科研合作程度的因素,也有学者从整个科研协作网络的层面出发,探究复杂因素影响下整个科研协作网络呈现怎样的特征和演化趋势。例如,游小珺[15]以美国高校科研合作数据为基础构建科研协作网络,划分出地理邻近性、认知临近性、社会临近性、制度临近性四个维度,探究这四个因素对于美国高校科研合作网络形成的动力机制。
2.3 知识交流研究现状
知识交流是指知识生产者和知识接受者或者使用者之间的双向对话[16],其蕴藏在跨学科、跨地域等各种形式的科研协作行为背后。学者们进行科研协作、学术交流、文献引用等行为的目的就是知识交流。随着承载着知识交流的学术行为成本越来越低,知识在学者间、学科间、地域间的流动也越来越频繁,知识交流已然成为一个专门的研究领域,受到广泛关注[17]。
从研究内容来看,知识交流相关领域研究大致可以分为两个方面,一方面是关于如效率、影响因素等知识交流自身属性的研究,另一方面是知识交流在不同应用场景中的特征研究。例如,王惠等[18]通过测度35种图书情报领域期刊的知识交流效率,识别期刊知识交流效率的动态演进特征,验证期刊知识交流效率变动的影响因素,最终得出图书情报类期刊整体知识交流效率较高、两极分化严重的特征结论以及各影响因素对交流效率的正负面作用效果,并提出改善图书情报类期刊知识交流效率的对策建议;甘春梅等[19]着重研究了学术博客场景中的知识交流行为,他们首先从前人研究中归纳总结出博客知识交流与共享的主要动因和背景理论,然后基于社会资本理论、社会交换理论和公共物品困境理论构建起学术博客知识交流与共享的心理诱因模型,最后给出学术博客场景下各因素对知识交流和共享意愿的作用假设。
从研究方法来看,知识交流领域的相关研究主要有题录数据和引文内容两个视角。题录数据获取难度低、数据量大、分析工具多,是领域内相对成熟的研究方法。典型研究如孙冰等[20]根据1990—2015年手机芯片技术领域的专利数据构建了手机芯片技术专利引文网络,通过社会网络和复杂网络分析方法进行了整体网络特征和度分布特征的分析,识别出了该网络的核心专利节点以及技术扩散主路径。然而,由于题录数据缺乏全文本数据,不能从文本语义层面揭示文献之间的知识交流情况,其弊端逐渐显现,于是越来越多的学者开始尝试从引文内容视角去探究文献间的知识流动现象。例如,叶光辉等[21-23]在其“引文内容视角下的引文网络”系列研究中,提出一种基于文本语义相似度计算的知识流量算法并对引文网络进行重构得到引文内容视角下的知识流动网络,然后对知识流动网络进行主路径、节点特征、子群特征、整体网络特征等分析,最终得出相关领域内知识流动的主路径以及知识在学者、机构、学科等维度上的流动特征。
3 科研协作知识流动元网络构建与特征分析
科研协作知识流动元网络是学科交叉、地域交叉等子网的基础,这些子网都是从其中剥离出来的。探究学科交叉、地域交叉在科研协作知识流动元网络形成演化过程中的影响作用,其前提是知晓元网络本身在这两个属性上具备的特征。
3.1 引文内容视角下的知识流量计算方法
知识交流是科研协作行为的实质,是伴随着文献的引用行为而存在于引文网络中的一种深层次现象。本文欲探究地域交叉和学科交叉测度对科研协作知识交流的影响作用,首先需要解决的便是伴随着科研协作而发生的知识交流量该如何衡量。基于之前的大量研究基础[21-23],本文从引文内容视角下设计了一种知识流量计算方法。不同于传统文献计量学方法将所有节点间连线一视同仁而忽略连边语义的做法,本文使用的算法将深入探究蕴含在节点间连线上的丰富语义信息。为了区别于传统文献计量学方法的知识交流模式,本文构造了引文内容视角下的节点间知识流动模式,如图1所示。
图1 节点间知识流动模式图
这种节点间知识流动模式将知识交流粒度从文献降低至知识单元,节点间的知识流动程度与施被引知识文本片段间的语义相似度密切相关。在这种知识流动模式下,对应的是一种基于文本相似度的知识流量计算方法:首先提取施被引文献中可以表征文献所属知识领域的主题词,并用知识描述规则判断主题词所在上下文中是否含有知识结构,进而得出文献知识存量T={t1,t2,t3,…,t n};然后通过主题词将引用标识上下文与被引文献对应知识片段映射起来,计算映射起来的文本间主题相似度θ1、句法结构相似度θ2、句子内容相似度θ3,并通过公式
得到映射起来的文本间的语义相似度θ。其中,η1+η2+η3=1,具体取值由数据训练结果得到;最后将得到的文本相似度作为该知识的流动效率θt n,并结合文献的知识存量将所有知识单元的流动效率之和作为节点i、j间的知识流量ωi j。
3.2 元网络构建
科研协作有线上线下、现实虚拟之分,现实的科研协作多以线下的学术交流活动、研究设备共用、研究成果共著等形式进行;情报学领域多探究虚拟的科研协作行为,其形式多基于文献间的相互引用。但不论是何种科研协作研究方式,蕴含在行为之下的都是知识交流这一实质:现实科研协作往往是由协作双方共同寻求合作,进行知识之间的相互传递;虚拟科研协作只需由单方发起,其知识传递过程也是单向的、被动的。这些或单向或双向、或主动或被动的知识交流行为在各个作者、各篇文献之间发生,就将某个领域内的诸多学者、文献相互串联,形成了以学者或文献为节点、以知识流量为连边语义的科研协作知识交流元网络。本文以题录数据间相互引用关系为基础,以虚拟科研协作为对象展开相关研究。
在构建元网络之前,数据来源的选择是一个关键问题,这与实验结果和规律的可信度、可推广性、研究的现实意义等直接相关。从学科来看,数据来源应尽量避免传统的“大文理科”,这些学科由于发展时间较长、理论积累较多、专业壁垒较高,科研协作时往往需要知识结构同质性较高、对协作双方相关知识都相互了解的学者。从地域角度来看,数据来源应尽量避免由某些地方政府或地方性高校、企业、机构联盟提出的研究领域,这样的领域往往只在地域内部有一定影响,科研协作也往往在地方区域内部形成。“数字人文”作为在全国范围内广泛兴起的应用型交叉学科,从国家到地方各个层面都在大力推进学科建设、人才培养,其在全国范围内的研究热度为其知识交流的地域交叉提供了可能。同时,“数字人文”利用自然语言处理、社会网络分析、文本数据分析等情报学领域方法,解决文学、史学、社会学等众多传统社会人文学科问题的研究范式,决定了其研究内容可以涉及众多学科,为其知识交流的学科交叉提供了条件。不同于传统学科知识交流跨学科、跨地域现象的偶发,交叉学科的学科定位提升了其知识交流发生在学科间、地域间的可能性,交叉学科中大量的跨学科、跨地域知识交流行为是本文总结出具有统计学意义规律的基础,降低了研究对象过少导致结果规律产生偶然误差的概率。
综上所述,本文从中国知网期刊文献数据库中获取到“数字人文”主题下的文献1169篇,以文献为网络节点,以相互引用关系为节点连边,构建起虚拟科研协作网络。然而构建起来的虚拟科研协作网络只有科研协作的形式——相互引用关系,并不能体现科研协作的实质——知识流动。因此,本文以3.1节中得到的引文内容视角下的知识流量作为节点连边语义,来量化科研协作过程中协作节点之间的知识交流程度并删除游离节点。至此,由820个节点构成的虚拟科研协作知识流动元网络构建完毕。
元网络中每个节点在与其他节点构建科研协作关系时,会受到地理距离、学科交叉等多种因素的影响,科研协作元网络所具有的网络特征也是在这些因素的共同作用下形成的。为了便于下文分析地域和学科因素对科研协作元网络形成的作用机理,本文在构建元网络时,同时获取了网络节点的作者、机构、期刊等属性字段,并通过人工标注的方式得到节点的机构地理坐标、城市地理坐标、学科分类号等信息,如表1所示。
表1 科研协作元网络(部分)
3.3 元网络特征分析
3.3.1 节点属性特征分析
节点是构成网络的基本单位,对网络节点属性特征进行统计分析可以得到节点群像,揭示网络整体上在节点属性方面的显性特征。因此,本文在对科研协作知识交流元网络分析之前,首先对网络节点的学科、地域属性进行统计分析,以探究“数字人文”这一交叉学科在地域分布、学科交流等方面的特征。
在学科属性上,本文采用《中国图书馆分类法》来划分学科,以每篇文章的中国图书馆分类号来判定其学科归属。总体上看,“数字人文”主题下的820篇文章,共涉及《中国图书馆分类法》划分的22个基本大类中的18个,涉及《中国图书馆分类法》中划分的最小类别211个;相对于820篇文献量而言,这个学科覆盖面相当广。在一个领域内的研究内容涉及如此多的学科的现象仅有可能出现在如“数字人文”这样的交叉学科当中。从具体学科来看,图书馆学和图书馆事业、自动化技术和计算机技术、情报学、档案学和档案事业是“数字人文”涉及最多的4个学科,文献篇数分别为434、60、51、51;其余的各个学科文献数量大抵相当。这样的具体学科分布情况可以清晰地印证“数字人文”的学科定位:以图情档和计算机领域相关的技术和方法,解决传统人文学科中的问题。
在地域属性上,本文以文献第一作者机构所处城市来判定文献所属地域。总体上看,820篇“数字人文”研究在地域上共涉及116个城市,在仅关注城市分布而忽略研究数量权重的情况下,“数字人文”的地域分布在全国较为均衡,这些城市在华中、华北、华东、华南、西南地区的分布数量分别为30、16、16、12、12,其余城市零散分布在东北、西北、台湾等地。考虑文献数量的影响,不同地域“数字人文”的研究热度则明显不同,某些城市以高度聚集的研究数量彰显了其“数字人文”领域的中心地位,其中以北京(157)、上海(109)、南京(107)、武汉(53)、广州(33)的研究热度最为突出。“数字人文”作为近年来发展迅猛的新兴交叉学科,在全国地域范围内都受到了广泛关注,但在以北京大学、中国人民大学、上海交通大学、复旦大学、南京大学、武汉大学、中山大学等在图情档和计算机领域有学科优势的院校推动下,逐步形成了以北京、上海、南京、武汉、广州为主的多个区域性研究中心。
3.3.2 元网络分析指标
学科和地域是节点的属性,节点相互连接形成元网络,属性之间相应地形成了子网络,在地域和学科子网的叠加作用下,元网络在节点、子群、整体网络方面会表现出某些特征,通过对这些特征的分析,可以逆推出学科、地域属性如何影响元网络的形成过程。为此,本文从节点、子群、网络层次分别设计了相关指标进行分析,如图2所示。
图2 元网络研究分析框架图
在节点维度,本文设计了知识流动广度和知识流动强度两个指标。知识流动广度表征网络中某个节点与其他节点的连接数量,该指标是纯粹的统计指标,无法揭示任何有关知识交流程度的信息,某节点的该指标值越大说明该节点与网络中其他节点的连通度越大、联通面越广,类似于社会网络分析方法中“度”的概念;知识流动强度表征网络中某个节点与其他节点的知识交流程度,由与之相连的所有节点间连线上的知识流量加和得到,在第3节中已经得到任意两个节点之间的知识流量ωij,那么对于任意一个节点s,它的知识流动强度Q的计算公式为
与知识流动广度不同,知识流动强度Q揭示的是某个节点与其他节点的知识交流程度,节点的知识流动强度值越大,说明该节点与其他节点的知识交流活动越频繁。在子群维度,本文使用一种局部网络聚类方法对元网络节点进行社群发现[24],得到元网络中的凝聚子群和聚类系数,通过分析节点在不同子群内分布情况,探究哪些节点之间存在紧密的知识交流情况,进一步反映出哪些节点之间存在紧密的科研协作行为。其具体算法是:
Step1.随机选择某个节点r i划入社群C。
Step2.发现与社群C直接相连的所有节点集合C′,根据公式
Step4.若此时仍存在未被划分进入任何一个社群的节点,则转入Step1;若不存在,则算法结束。
在整体网络维度,本文将通过网络中心性、网络密度、模块度等指标探究科研协作知识流动元网络呈现出怎样的特征。网络中心性和网络密度是社会网络分析中常用的指标,分别用来表征网络的集中趋势和连接密集程度。模块度在揭示网络特征时通常由于算法的不同而存在着差异。本文的模块度由公式
计算得到。其中,e i是某个子群中存在的连边数量;u i是某个子群中所有节点的度数之和;m是整个网络中所有连边的数量。在这样的计算方法下,本文的网络模块度值揭示的是所划分子群的质量及强度,网络模块度值越大,则划分出来的子群质量越好、强度越高;未被划入任何子群的游离节点对模块度值不存在影响。
3.3.3 元网络分析结果
在节点维度,图3和图4分别展示了网络中各节点的知识流动广度与流动强度分布情况。知识流动广度反映节点与其他节点的连通度。可以看出,网络中绝大部分节点只与较少几个节点有连接关系,仅少部分节点知识流动广度较大且最大值不超过30(计算结果表明最大值为28);知识流动强度反映节点与其他节点的知识流量。与知识流动广度的分布状况相似,大部分节点之间的知识流量较小,这与连接数量在一定程度上呈正相关。但同时存在一个特殊现象,就是知识流动强度为零的情况,这是因为在引文内容知识流量算法下,施被引文献之间会因为错误引用、虚假引用等情况而出现知识流量为零的情况。在子群维度,本文使用一种基于网络局部聚类的社群发现算法对元网络中的节点进行聚类分析,共得到子群节点数在3个或3个以上的子群90个,如表2所示。
图3 知识流动广度分布情况
图4 知识流动强度分布情况
表2 子群发现结果(部分)
本文所使用的社群发现算法是基于节点间关联数据来划分子群的,不同于其他聚类算法得到的社群发现结果,这些节点在节点属性上并不一定相似,而是协作次数和交流程度上有着更紧密的联系。以1号子群为例,3号、427号、429号节点的地理坐标分别在中国的长春、北京、武汉,428号节点和434号节点分别位于英国伦敦和美国休斯顿,学科分类也分散在G353.1、G250.73、K854、G05;也就是说,在本文使用的聚类算法下,这些属性值看似无关的节点,可以由于知识交流的频繁程度而被划分在同一子群当中。在整体网络维度,本文计算得到的科研协作知识流动元网络的网络密度、中心势和模块度分别为0.0037、0.0305和0.2819。计算结果表明,网络中的连接边十分稀疏,由于网络十分庞大,很多节点只能与周围节点发生关联而很难与相距较远的节点开展科研协作并进行知识交流,因而整个网络呈现出一种分散的趋势,网络社区的结构强度也不高。
4 学科与地域交叉测度影响分析
4.1 学科与地域划分粒度对子网特征影响分析
学科有多大程度上不同才是跨学科科研协作行为?地理距离有多大跨度才是跨地域知识流动?这些问题都将由学科与地域的划分粒度大小决定,并且不同的学科与地域划分粒度所得到的学科和地域子网特征也是不同的。本文使用文献的学科分类号来表征学科属性,使用两个节点的学科分类号在《中国图书馆分类法》中位置的路径距离来表征学科跨度;使用文献所属机构的地理位置来表征地域属性,使用两个节点所在地理位置间的距离来表征地域跨度。
在地域维度,本文从机构和城市两个粒度进行分析。严格意义上讲,只要两个节点不处于同一个机构,它们之间的距离就不会为0,就存在地理上的跨度;然而在大众认知角度,人们在习惯上认为同一单位不同机构(如同一学校不同学院),甚至同一城市中的学者们进行的知识交流都不属于跨地域知识流动范畴。鉴于此,本文从机构和城市两个粒度进行地域交叉分析。对标元网络特征分析中的知识流动广度、强度指标,本文在地域子网特征分析中设计了跨机构知识流动广度、强度,以及跨城市知识流动广度、强度指标。跨机构知识流动广度、强度和跨城市知识流动广度、强度与3.3.2节中知识流动广度、强度的计算过程相似,只需在使用公式(2)时判断节点s、r的地域属性是否处于同一机构或同一城市;当跨度超过机构、城市时方可计入跨机构知识流动广度、强度和跨城市知识流动广度、强度中。知识流动广度、强度描述了不考虑地域或学科跨度情况下,某节点与其他节点的连接情况,跨机构、城市知识流动广度、强度则分别表征了节点与其他机构、城市节点的连接面和交流程度。跨机构、城市知识流动广度、强度越大,则该节点与其他机构、其他城市节点的接触面越广,知识交流越频繁(表3)。
表3中展示的是跨机构、跨城市知识流动广度和强度都排名较高的一些节点,我们可以发现,无论是加入跨机构还是跨城市的条件,节点的连接广度和强度相较于不加入地域跨度条件时都没有发生很大的降低,甚至没有发生变化;同样地,在跨地域条件由跨机构变为跨城市时,跨机构知识流动广度和强度与跨城市知识流动广度和强度之间几乎也没有变化。这说明,本文所探讨的虚拟科研协作行为受地理因素限制的程度已经微乎其微,节点间的科研协作基本上都是跨地域进行的,并且不受粒度大小的影响,即不会因为地理距离过长而减弱协作意愿。
表3 不同粒度下的节点跨地域知识流动情况(部分)
在学科维度,本文首先使用节点间学科分类号在《中国图书馆分类法》中位置的路径距离来量化跨学科程度;然后设置跨学科阈值,规定路径距离在某个值之上可视为跨学科知识交流;最后计算每个阈值下整个网络的跨学科科研协作面(该阈值下的跨学科连边数量)和跨学科知识交流程度(该阈值下的跨学科连边知识流量和),如图5和图6所示。
图5 科研协作面随跨学科阈值变化
图6 知识交流程度随跨学科阈值变化
在图5和图6中,随着阈值的不断增大,跨学科科研协作面和知识交流程度都呈现出相似的降低走势,这与跨地域科研协作行为所呈现的子网特征截然不同。在跨学科维度,学科跨度对科研协作知识交流有着很大的影响力,呈现明显的负相关关系。结果中还值得关注的是,图5和图6中的横坐标0~1处和3~5处都有一个斜率较大的拐点。由于存在一定数量的非跨学科科研协作,它们之间的学科跨度为0,所以当学科跨度由0增大为1时,科研协作连接数量和知识流量会有较大幅度的下降;同时,学科间也有一二级学科、相关学科、上下游学科一说,这些关系更为紧密的学科之间发生知识交流的频率往往更高。例如,同在图书情报与档案管理一级学科下的情报学、图书馆学和档案学之间进行跨学科交流的概率会明显高于它们与其他学科交流的概率。这些学科之间的学科跨度一般不大,集中在3~5,因此会在附近有较大斜率的拐点。
4.2 学科与地域交叉测度对元网络特征影响分析
在元网络特征分析时,本文从节点、子群、整体网络3个维度设计了指标体系进行探讨。与之对应,本文也将从这3个维度出发分别揭示学科与地域交叉测度对元网络特征的影响。同时,基于上文有关粒度大小对子网特征的影响研究,本文将地域交叉的阈值设置在城市粒度,将学科跨度5设置为学科交叉阈值。
在节点维度,元网络分析使用了知识流动广度、强度两个指标,毫无疑问这两个指标都包含了学科交叉与地域交叉的情况在内。为了分别探究地域交叉和学科交叉测度对科研协作知识流动元网络节点维度的影响,本文分别计算了这两个交叉测度在节点连接中的占比情况,用于分析学科交叉测度和地域交叉测度对元网络节点属性形成的贡献程度,如图7和图8所示。
在图7和图8中,横坐标是节点的所有连接数量,纵坐标是跨地域、学科连接数量与所有连接数量之比。从图7、图8整体来看,涉及地域交叉和学科交叉的知识交流比例都比较高,涉及地域交叉的知识交流占比普遍在80%以上,涉及学科交叉的知识交流占比多数也在50%以上。这个比例说明在元网络中的知识交流行为基本都涉及多地域、多学科,其“交叉”学科的研究方法和研究内容决定该领域内的科研协作行为很少局限于某一地区或单一学科,这是“数字人文”作为交叉学科区别于传统学科的最显著特征之一。分别来看,图7中地域交叉连接与所有连接之比要明显高于图8中学科交叉连接占比,并且前者的波动幅度也明显小于后者,节点间差异很小。这与4.1节的分析结果相吻合,即在高连通度和低连通度的节点上都呈现出非常高的地域交叉比重,这表明地域交叉因素对科研协作的影响作用微弱,不管是连通度高的明星节点还是连通度低的边缘节点,它们进行的科研协作知识交流行为基本上都涉及地域交叉,跨地域进行科研协作知识交流行为已经十分普遍。相比而言,学科交叉连接占比波动更大,节点间差异更大,并且随着连通度的升高有减小的趋势。这并不意味着否认了跨学科科研协作的重要意义,相反,学科交叉连接占比的差异正是导致元网络中节点特征差异的主要原因,对区分网络中节点角色具有重大作用。明星节点学科交叉连接占比较低主要是由于它们的“光环”过于耀眼——交流量太大、协作面太广而导致相对值下降。实际上,跨学科知识交流广度高的节点在元网络中占有举足轻重的作用,这一点从表4中可见一斑。表4展示了跨学科知识流动强度最靠前的几个节点在元网络中的连通度排名,这些节点无一例外地拥有较高的连通度。这些网络中跨学科知识交流行为频繁的节点,往往处于网络的核心位置,对连接网络中各个节点起到了重要作用。这样的网络形态与传统学科的知识交流网络有着巨大的差距:上述跨学科知识流动强度较高的节点在传统学科的知识交流网络中,往往由于研究内容的边缘性而处于网络的边缘位置,很难成为网络的核心节点;然而在“数字人文”这样的交叉学科当中,学科交叉反而成为了其研究内容的亮点,网络中其他成员节点更倾向于与此类节点进行知识交流,此类节点因此成为该领域知识交流网络中的核心节点,对不同学科间的知识流动起到了重要的串联作用。
图7 地域交叉连接占比
图8 学科交叉连接占比
表4 高“跨学科知识流动广度”节点在元网络中的连通度排名
在子群维度,本文以上文划分出来的90个科研协作社群为基础,分别计算每个社群当中的跨地域知识流量占社群内部知识交流总量之比和跨学科知识流量占社群内部知识交流总量之比,探究同一子群内知识在不同地域不同学科之间的流动情况。图9展示的是跨地域知识流量在子群全部知识流量中占比的分布情况,箱线图呈现一种近乎极端的分布方式,每个子群内的跨地域知识流量占比基本上都在80%以上。图10展示的跨学科知识流量占比分布情况呈现十分均衡的态势。这与节点维度得到的交叉测度对元网络特征影响规律相呼应——地域交叉已经常见到几乎遍布每一次科研协作中,不会阻碍科研协作社群的形成。从子群规模和质量来看,学科交叉程度已经成为区别社群的关键属性之一——子群划分结果显示,规模较大、质量较高的子群无一例外都存在着跨学科知识交流,而跨学科知识流量占比为零的子群规模均不超过5。
图9 子群跨地域知识流量占比
图10 子群跨学科知识流量占比
在全网维度,表5展示了元网络分析、剔除地域交叉子网和剔除学科交叉子网的网络密度、中心势和模块度3个指标。网络密度和中心势是网络间差异性最大的两个指标:将涉及学科和地域两类交叉的连接从元网络中删除后,网络密度分别下降了118%和825%,中心势分别下降了384%和1171%。将涉及学科交叉和地域交叉的连接从元网络中删除后,网络中出现了大量游离节点,这是导致网络密度和中心势出现断崖式下滑的最主要原因。尤其是地域交叉因素,将该子网剥离后网络密度和中心势的降幅很大,整个网络中只剩下130条连边,节点之间几乎失去了关联,整个网络支离破碎。与网络密度和中心势的变化趋势不同,模块度值的变化情况十分平稳,这种现象的出现与本文计算网络模块度的算法有关。3.3.2节介绍了本文网络模块度的计算方法,本文的网络模块度值揭示的是所划分子群的质量及强度,未被划入任何子群的游离节点并不影响模块度值,网络模块度值越大只表示划分出来的子群质量越好、强度越高。因此,就模块度变化幅度不大这一现象而言,剔除涉及学科和地域两类交叉的连接后,网络划分出来的社群质量与元网络的子群质量是相当的,这说明在某些地区、某些学科内部存在着一些不涉及地域交叉和学科交叉且质量较高的协作闭环。
表5 元网络与其子网指标对比分析结果
4.3 学科交叉与地域交叉的相互影响关系
为探究学科交叉子网与地域交叉子网之间的相互影响关系,本文基于莫兰指数的设计思想和计算过程[25],修改了莫兰指数的算法,使之成为一个可以表征跨学科知识流动强度随跨地域知识流动强度分布情况、跨地域知识流动强度随跨学科知识流动强度分布情况的指标。莫兰指数由澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰于1950年提出[25],有全局莫兰指数和局部莫兰指数两种,主要用于度量网络中节点属性值的空间相关性,一般在地理科学和社会科学的交叉学科中应用较多。全局莫兰指数表征的是跨学科知识流动强度(跨地域知识流动强度)的分布整体上是否与跨地域知识流动强度(跨学科知识流动强度)相关,其值越接近于1,说明正相关程度越高(高值被高值环绕的趋势越强);越接近于-1,说明负相关程度越高(高值被低值环绕的趋势越强);越接近于0,说明随机分布趋势越强。具体值可由公式
计算得到。其中,n为网络节点总数;W ij为需要探究的目标属性在分布属性上的邻接矩阵,邻接则W ij=1,不邻接则W ij=0(i=j时,W ij=1),不同于空间意义上的邻接,本文将跨学科或跨地域知识流动强度排名相差在5%以内的节点称为跨学科或跨地域知识流动强度邻接;x i、x j为节点i、j探究的目标属性值;xˉ为所有节点所探究属性均值;S2为所有节点所探究属性方差。局部莫兰指数表征的是单个节点的属性值环绕情况,其值可由公式
计算得到。局部莫兰指数不同于全局莫兰指数,其值不局限于-1~1,它的解读比全局莫兰指数复杂,即使全局莫兰指数为0,也不能否认网络中局部存在所探究属性分布与另一属性相关的情况,其具体解读规则如表6所示。
表6 局部莫兰指数解读规则
经计算,在探究跨学科知识流动强度分布情况是否与跨地域知识流动强度相关时,其全局莫兰指数为0.39047;在探究跨地域知识流动强度分布情况是否与跨学科知识流动强度相关时,其全局莫兰指数为0.39382。这表明元网络知识流动中的学科交叉和地域交叉因素都在一定程度上对对方造成了影响,整体而言,跨地域、跨学科知识流动对彼此有一定程度上的聚集效应,如果一个节点的跨学科(跨地域)知识流动程度高,那么和它跨地域(跨学科)知识流动程度相当的节点的跨学科(跨地域)知识流动程度也会高。局部莫兰指数则揭示了这些聚集效应主要体现在网络的哪些部分,如表7、图11和图12所示。
图11 局部莫兰指数类型占比
图12 局部莫兰指数类型占比
局部莫兰指数计算结果表明:①两种情况下的局部莫兰指数A、B类型占比都在75%以上,科研协作中的学科交叉知识交流和地域交叉知识交流相互影响非常明显,同质节点聚集的情况非常普遍,跨地域知识交流程度高的节点跨学科知识交流程度往往也很高,“马太效应”在科研协作知识交流中广泛存在;②虽然整个网络呈现一种跨学科知识交流强度和跨地域知识交流强度“强强共现”和“弱弱共现”的趋势,但网络中仍存在一些像表7中171号、665号一样的“逆聚集趋势”节点。以171号节点为例,该节点在跨地域知识流动强度随跨学科知识流动强度分布情况中属于C类型,在跨学科知识流动强度随跨地域知识流动强度分布情况中属于D类型。这些节点在网络中的连通性并不高,与其他节点的连线一般不超过5条,较少的连接线导致这些节点的规律性不强,某条连线上跨地域或跨学科知识流动强度偏高或偏低就会较大幅度影响它的局部莫兰指数大小。这部分节点不同于B类型节点的原因在于B类型节点中有大量跨学科和跨地域知识流动强度为0的节点,而这部分节点已经开始与其他节点进行知识交流,处于从B类型向A类型节点的发展阶段,只不过知识流量还远不及A类型节点,本文称这部分节点为网络中的新兴节点。
5 结语
本文首先构建起科研协作知识流动元网络,并设置了节点、子群、全网各维度指标体系;然后分别根据计算出来的各指标值分析得到元网络特征;再分别从地域交叉和学科交叉两个测度分析,得到这两个子网对应在节点、子群、全网各维度的特征;最后建立起地域交叉和学科交叉子网与科研协作知识流动元网络特征之间的联系,得到科研协作知识流动元网络形成演化过程在学科交叉和地域交叉上的以下特征:①地域、学科交叉粒度的划分对这两个测度影响元网络特征演化过程作用机理研究结果有重要影响,不同的跨地域、跨学科粒度对元网络特征形成和演化过程有不同的影响。②地域交叉测度是科研协作知识流动网络形成的基石,跨地域知识交流已经深入到几乎每一次科研协作当中,如果没有跨地域科研协作的存在,元网络结构将会被极大程度地破坏,很多节点之间的知识交流将不能顺畅地进行。这一特征有别于以往科研合作研究中地域因素影响的结论,该特征出现的前提是以虚拟科研协作方式为研究对象。现实科研协作较之虚拟科研协作最大的不足在于现实中多方面客观条件的限制,地理距离过长、交流时间冲突、人员协调管理等都在一定程度上影响了现实科研协作中的跨地域模式。但虚拟科研协作几乎不存在这些条件的限制,极大地降低了跨地域科研协作成本,网络中跨地域知识交流也越发频繁。③学科交叉测度是区分节点角色的重要因素,在地域交叉已经成为科研协作普遍构成方式的条件下,地理距离影响对科研协作的阻碍作用日渐式微,元网络中能够连接起不同学科间知识交流的节点往往占据着网络中的重要位置。在以往的科研合作研究中,网络中占据重要位置的核心节点往往具有很高的知识势能和深厚的研究积累,处于学科的中心位置;而位于学科边缘位置、多个学科界限模糊地带的研究很少得到重视。但本文得到的结论却截然相反,其主要原因在于“数字人文”作为新兴交叉学科的特殊性。在这样的交叉学科中,处于学科边缘位置的研究往往能够串联起不同学科间的知识流动,这是交叉学科本身存在的意义,也是其研究内容的亮点,因此更易于获得网络中其他成员节点认可,成为该领域知识交流网络中的核心节点。④虽然跨地域知识交流现象已经非常普遍,学科间知识的相互交融也成为科学发展的大趋势,但在某些地区、某些学科内部仍然存在着一些质量较高的协作闭环,这些科研社群仍然是科研协作知识流动元网络重要的组成部分。⑤科研协作知识交流中的学科交叉和地域交叉子网之间的相互影响作用显著,节点的学科交叉和地域交叉属性具有很强的同质性,整个网络呈现一种跨学科知识交流强度和跨地域知识交流强度“强强共现”和“弱弱共现”的趋势。
综合上述各结论,本文总结出学科交叉、地域交叉在科研协作知识流动元网络特征形成演化过程中的作用机理:在科研协作知识交流网络形成初期,元网络中节点零散分布,节点间知识交流闭塞,这一时期的影响因素以地域为主,地理临近使得某些节点形成学术团体,形成早期的科研协作知识交流,这些节点关系紧密,研究具有延续性,往往能够形成长时间、高质量、稳定性强的协作闭环,一直存在到网络的稳定阶段;在科研协作知识交流网络的发展阶段,领域相关的研究内容受到越来越广泛的关注,知识交流现象频繁发生、蓬勃发展,同时由于虚拟科研协作模式极大地降低了跨地域科研协作成本,地域交叉几乎深入每次科研协作之中;也是在同一时期,“交叉学科”的特殊性使元网络中某些通过学科交叉产出高质量成果的节点备受关注,跨学科知识交流能力成为区别节点特征的关键因素,这些节点逐渐演化为网络的核心节点,成为学科间知识交流的纽带和桥梁;随后科研协作知识交流进入稳定阶段,核心节点由于自身实力和各方面资源的优势,受地域和学科交叉限制程度进一步降低,更易于与其他核心节点发生知识交流行为,逐渐在网络中形成“强强共现”的格局。
本文以题录数据间相互引用关系为基础,以虚拟科研协作为研究对象,从学科和地域交叉共同作用视角揭示科研协作元网络所呈现出来的知识流动特征和形成演化规律,很好地填补了多交叉测度影响下科研协作网络形成演化的理论研究空白,对于建立和完善科研协作网络形成机理的理论体系具有重要价值;同时,本文制定的双测度下科研协作本体网络形成和演化的分析框架,对科学学和科学评价领域的相关理论和方法也具有一定的补充意义。在应用方面,本文针对科研协作网络主体——科研工作者,详细分析地域和学科交叉如何共同影响其选择科研协作对象,探究在双测度共同作用下相关领域内科研协作行为的特征和趋势,对学者下一阶段的科研活动具有指导意义;本文还针对学科和地域两个属性进行了统计层面的分析,剖析了“数字人文”领域的热点关联学科,识别了“数字人文”领域区域性研究中心的分布特征,对促进“数字人文”及相关学科协同发展、促进区域知识交流和区域文化繁荣具有指导意义。