知识模因视角下跨学科研究领域的学科结构分析*
2019-07-29操玉杰梁镇涛
操玉杰,梁镇涛,毛 进
科学研究范式已从单学科视角转向多学科视角,运用多学科理念和方法解剖研究对象已成为重要的研究模式。相应地,跨学科研究实践亦成为科学研究的对象。学者开始研究跨学科研究的产生、演化,以理解跨学科研究的本质,并探索如何在科技政策、科技管理等工作中加以实践。跨学科研究活动产生一系列研究成果,如期刊论文、学术会议论文。因而,从学术文献承载的知识系统出发能反向解析跨学科研究中知识的产生和发展脉络,揭示跨学科研究的形成规律[1]。
现有研究多从知识流动和整合的外在表现形式来分析跨学科研究领域中不同学科知识的结构和互动关系。其中,引文信息体现了施引文献与被引文献之间的知识流动关系,因此采用引文信息来研究跨学科领域中的学科结构是目前的主要方法,如基于引文的跨学科性测度指标和学科间知识流动分析[2-3]。基于引文方法所分析的单元为文献,一些研究则尝试分析领域主题结构、探索跨学科领域主题的形成和演化,以观察不同学科知识在跨学科领域发展中的作用[4]。主题表示方法众多、并不统一,主要包括关键词表示、关键词聚类表示和潜在语义空间表示等[5]。此类方法从知识内容角度展开研究,但过多依赖于专家的定性解读,尚需进一步量化不同学科微观知识的关系,以辅助并加深跨学科领域的知识分析。
在文化系统中,模因(meme)[6]是指可以在人与人之间传播的想法、行为等,传递着特定的现象、主旨和内涵,能实现自我复制、突变等过程,其传播的主要机制是模仿。一些研究者亦认为,在科学知识系统中模因起到传播和传承科学知识的作用[7]。本文将科学知识系统中的模因称为“知识模因”,是科学知识系统中的一种微观结构单元。基于知识模因,本文提出一种跨学科研究领域的学科结构分析思路。相比基于引文的方法,该方法的优势在于:分析对象为文献中的知识模因,粒度较细且承载着知识传承价值;从知识内容角度量化学科间关系,具体而言,是指从知识基因着手,研究跨学科领域中多个学科知识的来源与组合结构。这种方法是学科交叉领域分析的新方法,对于跨学科研究领域中不同学科知识关系的分析具有借鉴意义。
1 相关研究回顾
术语是科学知识系统的基本单元,一些学者从术语角度对跨学科研究领域展开研究[8]。在相关分析中,术语体现为作者关键词、系统关键词、主题词等具体形式。从内容角度来理解跨学科研究领域,主要体现为:以术语为基础识别文献主题,进而展开跨学科领域的主题识别与演化分析。根据主题表示方法的不同可将领域分析方法分为词频分析法、共词分析法、共词社区法、主题模型方法等。
在词频分析法中,词即代表研究主题,通过分析跨学科领域中的关键词,并与学科实行关联,能够对相关主题的发展和变化进行观察。比如,可通过关键词识别纳米研究领域5 个研究方向中的主题,观察各个主题之间的研究关系[9]。
共词分析法和共词社区法均以词聚类来代表主题。区别在于,共词社区法[10]采用显式网络模型来表达词与词之间的联系,进而运用社区划分算法来识别联系紧密的词集合,以表示研究主题;共词分析法[11]则在文档-关键词矩阵上定义词相似性指标,进而运用多维尺度聚类等方法发现词集合,以表示主题。在跨学科领域主题分析中,共词分析法和共词社区法均依赖专家对主题内容、学科等的解读,辅以文献计量等定量分析。比如,运用共词分析法分析数字图书馆领域2002-2011年间的主要研究主题,并进行主题的热度、密度等量化分析[12];通过研究情报学和计算机科学间的引用论文,构建两学科交叉领域数据集,建立共词网络,进而运用重叠社区识别算法提取出词社区作为研究主题,进一步人工分析情报学与计算机科学的交叉研究主题[10]。
近年以潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)[13]为代表的主题模型方法被广泛用于学术信息主题提取。该方法是一种概率论方法,采用词的概率分布来表示主题。比如,针对生物信息学的核心期刊文献,运用LDA 模型识别出研究主题,进而结合专家知识对主题进行分析,发现该跨学科领域的主题偏向于生物学而非计算机科学[14]。该方法的优势在于能通过数学模型提取到语义层次较为一致的主题,但仍依赖于专家解读。
以上分析方法以定性分析为主,较少从细粒度内容单元量化学科之间的关联性。比如,从关键词使用频次角度观察一个领域的关键词如何在交叉领域中使用,是一种量化分析方式[15];以基于内容的学科交叉度测量方法,通过分析不同学科文献引文内容中包含的共同术语来衡量学科之间的交叉程度[16]。除频次分析外,其他可量化因素亦可纳入分析框架,如面向关键词的引证关系。以上方法忽略了关键词的学科属性,并未考虑将关键词归属的相关学科进行分析。一些学者认为关键词具有学科属性,区分出跨学科关键词,以此分析研究领域的跨学科性[17-18]。对关键词或术语进行学科属性划分,能为跨学科领域中学科间的关联分析提供明确、可量化的依据。
科学知识系统中的知识模因起到传承科学知识的作用,是科学知识扩散过程中的具体内容。Kuhn 等[7]提出利用引文信息识别知识模因的方法,通过大规模数据集的实验分析验证该方法的有效性。在以上分析方法中,术语一般通过词频信息或者概念性加以识别。相较而言,知识模因利用了文献之间的引证信息,体现着知识的传播关系,因此可作为量化分析知识关系的依据。若进一步引入知识模因的学科属性,能用于观察学科间的知识关联。综上所述,知识模因不仅增加了定量分析的依据,还为跨学科知识关联分析提供了具体可行的方法。因而,本文尝试将知识模因用于跨学科研究领域的知识来源分析以及学科知识组合关系分析,从微观知识角度揭示学科层面的知识关系。
2 研究方法
2.1 跨学科研究领域选择
通过知识模因研究跨学科领域,需选择合适的领域进行案例研究。笔者选择医学信息学作为案例领域,原因主要有:医学信息学是典型的跨学科领域[19-20];医学信息学历史较长,已成长为成熟学科,便于以回溯分析方式研究其萌芽、增长和稳定的发展历程。为观察医学信息学中的学科交叉融汇情况,需要确定与医学信息学较为相关的基础学科。由于学科之间的引文关系表征了学科间知识的流动[21],故根据参考文献所在期刊的学科属性来确定基础学科。
学科是一个较为模糊的概念,本文结合以往研究经验采用核心期刊来定义学科[22-23]。针对医学信息学,选择2016年Journal Citation Reports(JCR)中医学信息学(Medical Informatics)分类下所有24 本期刊,并从Web of Science(WOS)数据库中获取这些期刊截止到2016年的Article 类论文的题录和参考文献。从医学信息学参考文献中统计期刊被引频次,由此得到核心被引期刊,进而结合JCR 中学科分类及其期刊列表来确定关联的基础学科。根据被引频次,笔者选取医学、卫生保健、计算机科学和统计学等4 个学科作为医学信息学关联基础学科进行研究。同样,从WOS 数据库中获取这4 个学科截止到2016年的Article 类型论文题录。表1列出相关5 个学科的期刊数和论文数。
表1 5 个学科期刊与论文数信息
2.2 知识模因测度指标
文献引用关系显性地将知识模因的传播过程符号化,即文献引用表征知识模因的扩散。基于此,Kuhn 等[7]以引文网络为基础提出一种从科学文献中抽取知识模因的方法,并显式地将知识模因定义为:文献中被施引文献所复制的短文本单元。Kuhn 等[7]认为,被引文献中的一个知识模因应当频繁出现在包含它的施引文献中,而较少存在于不包含它的施引文献中,进而提出利用短文本单元m 的传播值Pm来排序和选择学科领域中的知识模因。传播值Pm的定义公式如下:
其中,dm→m 指含有短文本单元(知识模因)m 且至少引用一篇包含的文献的施引文献数量,d →m 指至少引用一篇包含的文献的施引文献数量,指含有知识模因m 但不引用包含的文献的施引文献数量,指不引用包含的文献的施引文献数量,δ 是平滑因子,用于控制上式中分母项不为零。短文本单元m 的传播值Pm越高,其作为知识模因的可能性越大、重要性越大。基于传播值定义,知识模因的最终模因值(Meme Score)为:Mm=fm*Pm。当中,fm是包含m 的文档在所有文档中所占的比率。
2.3 数据处理流程
针对5 个学科数据集,分别构建引文网络并提取知识模因,但提取的知识模因仅是学科领域内的知识模因。WOS 数据集的参考文献给出WOS 核心数据库文献的DOI 信息,以此抽取文献之间的引用关系,进而构建学科内部引文网络。在提取知识模因环节,首先进行短文本单元的切分。短文本单元来自于作者关键词、系统关键词和标题的n-gram 词,其中标题n-gram 词中的n 分别取1、2、3,即将标题按词长度1、2、3 分别进行重叠切分。针对以上短文本单元,在引文网络基础上,计算每个短文本单元的模因值Mm。这种知识模因提取的优势在于:不需要词性识别等文本处理过程,高频词组、非正常词组、低频词组等不重要词组的模因值会非常低,甚至为0。通过人工审读分析发现,这种短文本单元划分方法能够提取出较好的知识模因。
3 跨学科研究领域分析
3.1 知识模因识别
图1列出医学信息学、医学、卫生保健、计算机科学和统计学5 个学科的最终知识模因数量,模因值均大于0。结合表1发现,论文数较多的学科得到的知识模因数量较多。医学学科论文数最多,知识模因数量也最多。其原因可能在于论文数量越多,作者关键词、系统关键词和标题的n-gram 词相对较多,若模因值大于0 的比例相近,则最终的知识模因数量会更多。需要指出的是,尽管计算机科学文献数量少于卫生保健的文献数量,但计算机科学中的知识模因数量却多于卫生保健学科。
图1 5 个学科的知识模因数量
为理解知识模因与关键词的区别,对比排序前100 的热门关键词和高模因值知识模因在使用频次、语义范畴等方面的不同。为便于理解,表2示例性地列出医学信息学使用频次最高的10个热门关键词以及5 个学科中模因值排序前10的知识模因。两者的主要差异表现在:(1)热门关键词的特点是使用频次高、语义范畴相对较广,同时其模因值也相对较高,如热门关键词Internet使用非常频繁,而natural language processing(自然语言处理技术)、classification(分类)等属于相对上位的词,在高模因值知识模因排行榜中分别位列第 14、176 和 143 位。(2)知识模因的专指度较高,属于相对下位的词,但部分高模因值的知识模因并不具有较高的使用频次,如continual reassessment method 和 authentication scheme 在关键词使用频次排行榜上名列2000 位之后。从词项与学科的关联性来看,热门关键词与学科之间属于泛化关联,而知识模因则更加具体。例如,natural language processing 本身来源于计算机学科,其与医学信息学的关联在于多种自然语言处理技术被应用于医学信息学领域。由此可见,在知识模因基础之上进行学科领域分析的粒度比基于关键词的粒度更细,能更好地从微观知识的视角来分析领域知识结构。
表2 5 个学科模因值排序前10 的知识模因
3.2 跨学科知识来源分析
跨学科研究领域涉及多个学科知识的集成,对相关来源学科进行分析,有助于理解跨学科领域形成过程中与相关学科的关联关系。早期主要采用基于引文的方法来发现跨学科研究领域的知识来源学科。基于术语的分析方法,能从更微观的知识单元角度去识别学科之间的知识关系[15,24]。沿袭这种思路,本文以知识模因为计量单元,量化分析医学信息学与其他4 个学科之间的关系。采用的方法是,统计同时属于医学信息学和其他学科的知识模因数量,通过获取医学信息学核心知识单元来源于其他学科核心知识单元的数量来揭示其知识来源学科。
考察医学信息学前1000、5000、10000 以及所有知识模因的学科来源分布(见图2),发现每组数据之和均大于该组医学信息学知识模因的数量,如第一组中4 个学科的知识模因数量之和为1572,大于1000。这表明医学信息学的知识模因可能来源于多个学科,具有跨学科性。从知识模因来源学科分布看,医学信息学知识来源于卫生保健学科的最多,其次是医学和计算机科学,统计学最少,这说明医学信息学与卫生保健学科的知识源缘最近,而计算机科学和统计学相对较远。图2中的内图列出医学信息学基于参考文献的学科分布,发现卫生保健和医学两个学科被引次数最多,而计算机科学最低。对比可知,两种方法所得出的学科关联性排序不完全一致。
图2 医学信息学知识模因的学科来源分布
3.3 学科间共源关系与组合结构分析
跨学科研究是多种学科知识共同作用的结果,其中广泛存在着知识汇聚现象[25]。分析跨学科领域中不同学科之间的关系,有助于理解跨学科领域发展中不同学科知识的融合过程。从知识生产过程看,不同学科的知识作为这一过程的输入,经过科学研究而产生新的知识,并以论文等形式输出成果。跨学科领域的论文承载着相关输入学科的知识以及所创新的知识,简单来说,跨学科研究领域论文是由输入学科知识和创新知识组合而成。沿用共现分析的思路,相关学科知识会在跨学科研究领域论文中共同出现。因此,可以采用共现分析(方法)来揭示跨学科领域中不同学科的知识组合结构特征。
根据知识模因的跨学科性,考察不同学科由知识模因而产生的知识关联,即考察在知识模因粒度上不同学科的共现关系。选择医学信息学模因值排序前500 的知识模因,根据这些知识模因的来源学科构建学科共现网络。其中,网络节点为学科,网络连边表示两个学科拥有共同的知识模因,连边权重为两个学科共同知识模因的数量。该学科共现网络揭示学科之间共享知识的强度。图3是运用Gephi 对知识模因粒度的学科共现网络进行可视化展示的结果。由于以医学信息学为观察基础,医学信息学节点与其他4 个学科的知识共享强度最强。此外,卫生保健与医学、计算机科学拥有最多共享知识,而统计学与计算机科学之间的关联最弱。
图3 知识模因粒度的学科共现网络
类似地,根据知识模因在论文中的共现关系,可推演出其所属学科在论文中的共现关系,构建文章粒度的学科共现网络。在该网络中,节点为学科,网络连边表示两个学科同时出现在文章中,连边权重代表两个学科共同出现的文章数量。该学科共现网络揭示了学科之间知识的组合关系。选择医学信息学模因值排序前500 的知识模因,根据其出现的论文,构建文章粒度的学科共现网络,可视化结果见图4。同理,医学信息学与其他学科共现强度最大。除此以外,卫生保健、医学和计算机科学之间的共现强度也较大,而统计学与其他学科的共现强度最小。
图4 文章粒度的学科共现网络
4 结语
基于细粒度知识单元,本研究提出一种分析跨学科研究领域相关学科结构和关系的方法。文章借鉴文化模因的思想,从科学系统中识别出知识模因,作为科学知识单元。在知识模因基础上,分别分析了跨学科交叉领域的学科知识来源、学科共源关系以及学科知识组合关系。以医学信息学这一交叉领域为例,展开实证研究,分别收集医学、卫生保健、计算机科学和统计学等相关学科的文献,从中识别出各学科的知识模因,进而分析医学信息学与这些学科的关系。综合相关分析,本研究结论为:卫生保健、医学、计算机科学和统计学与医学信息学之间的知识输入关系依次变弱,卫生保健与医学所起到的知识作用大于计算机科学和统计学。
利用知识模因分析跨学科研究领域的学科结构,是对基于术语或引文的分析方法的补充,是从不同视角来理解学科结构和关系,所得到的学科结构可能不同。相较于基于术语或引文的分析方法,基于知识模因的方法需要更多的文本预处理工作和计算资源,复杂度更高。本研究仅利用微观内容揭示跨学科领域的宏观学科结构,尚未完全发挥知识模因在跨学科研究中的价值。今后,一方面需要进一步从研究方向、主题等层次分析学科之间的知识组合关系,以更细致地观察不同学科在跨学科领域发展中所起到的具体知识角色和作用过程;另一方面,需要引入动态分析方法,观察不同学科之间的关系演变过程和结构变化,以期发现跨学科研究中的学科交互规律。