基于深度图神经网络方法的领域知识结构探测
2021-11-25刘非凡罗双玲夏昊翔
刘非凡,张 爽,罗双玲,夏昊翔
(1.大连理工大学系统工程研究所,大连 116024;2.大连理工大学大数据与智能决策研究中心,大连 116024;3.大连海事大学航运经济与管理学院,大连 116026)
1 引言
结构化的学科领域知识反映出科学的内在逻辑与联系。如何客观准确地度量出学科领域主题是情报工程研究人员试图解决的基础问题。清晰的学科领域知识结构有助于研究者把握领域研究的发展态势、支持科技管理活动以及完善科技政策的制定。自20世纪以来,科学界各个学科领域都取得了前所未有的蓬勃发展,新兴研究领域层出不穷。从数量上来看,科学文献发表量自1900年起呈现出指数型增长的趋势,文献涉及的学科领域知识单元也呈现出线性增长的趋势[1];从Web of Science科学文献数据库的统计结果来看,至2015年前后,日益增长的科学文献所涌现出的新词汇规模已达到了每年4万个[2]。另外,大科学时代领域知识结构呈现出三个重要特征:学科领域知识网络规模持续扩展、维度高速膨胀以及结构动态多变[3]。学科体系日益复杂、交叉学科领域不断涌现为厘清领域知识结构带来了巨大挑战[4]。
领域知识结构探测的核心任务是准确、全面地识别领域科学文献中所涵盖的知识单元实体,并挖掘出这些知识单元之间的关联程度。信息技术的发展、网络科学的兴起以及大规模可获取的科学文献数据为科技情报人员解决该问题提供了重要的理论指导与研究基础。首先,大规模可获取的文献数据使得更加全面、系统和完整地识别和探测学科领域的知识结构成为可能。其次,网络科学的兴起,特别是引文网络分析、社会网络分析以及复杂网络分析理论,丰富了领域知识结构探测研究的内涵。最后,计算机学科的发展,尤其是围绕大数据与机器学习的相关软硬件及人工智能算法研究,为领域知识实体识别与结构分析提供了重要的技术支撑。
当前,围绕领域知识结构的识别与探测问题,国内外网络科学、计算机科学、科学学以及情报学等各领域的学者都开展了诸多研究。网络科学研究人员主要聚焦于普适视角下的网络构建方式、凝聚子群的识别,以及网络社区的划分[5]。计算机学科研究人员凭借机器学习、统计学习以及神经网络等新兴研究领域的发展,开发了更先进的自然语言处理工具与主题抽取模型[6],对文档内容的挖掘与分析日趋深入。科学学研究人员则重视从科研活动视角探讨领域知识的交叉融合模式[7]。情报学研究人员则广泛吸收和借鉴了不同学科的理论与方法工具,研究范围涵盖了科技文献引证分析、期刊分群、文本内容特征提取、主题词共现网络结构探测以及文档全文挖掘等主题[8-10]。近年来,也有学者利用深度学习等先进的文本语义分析手段测度学科知识结构[11]。
人工神经网络领域的快速发展加速了自然语言处理技术的更新迭代,并且为网络科学的研究带来了新的研究范式。在文本内容分析领域,相较于传统的主题发现方法,深度学习技术展现出了语义捕获更准确和结果更具解释性的特点。在情报工程应用上,传统的文本内容分析手段,如TF-IDF(Term Frequency-Inverse Document Frequency)[12]、共词[13]、LDA(Latent Dirichlet Allocation)及其衍生方法[14-15],正在被新型研究手段所取代[11]。在网络分析研究领域,已经出现了利用流形学习方法对高维文本特征数据降维可视化的研究,如t-SNE(t-Distributed Stochastic Neighbor Embedding)算法[16]。另外,有学者利用浅层图网络表示学习方法来解决学者科研合作预测的问题[17]。
总体而言,领域知识结构探测问题是一个典型的跨学科研究问题,不同学科的研究人员借助自身的学科优势对该问题开展了广泛探索。领域知识结构探测的基本思路可以归纳为两个方面:一方面是文本内容分析,利用自然语言处理方法直接抽取科技文献的文本内容,通过度量文本之间的相似性识别出领域知识结构;另一方面是引文网络分析,通过领域文献之间的直接引用、耦合引用或共被引关系构建引文网络,利用文献聚类算法挖掘出领域知识关联。这两种方法在目前的领域知识结构探测中均取得了良好的效果。文本内容分析方法(简称“内容分析法”)的优势在于直接从文献的文本内容中抽取主题,或者利用文本特征表示方法转化为低维主题向量,进而通过向量相似度度量出文本之间的差异度。内容分析法的效果直接取决于文本的预处理过程是否完善以及主题模型的选择与应用是否适当。引文网络分析方法(简称“引文分析法”)的有效性源则自研究人员的引用动机,即假设研究人员总倾向于将与自己论文主题相近的文献选入参考文献列表中。
然而,这两类方法都存在一定的局限。图1以vi和vj两个节点在两类方法中的不同分类结果反映了引文分析法与内容分析法的缺点。其中,vi是高被引文献,vj是文本内容缺失或者与主题1和主题2的内容相似度均接近的文献。在这两种分析方法下,vi由于拥有极高的引用关系,会吸引来自不同子领域的引用关系,导致该文献及其具有施引关系的其他相关文献出现“内容差异大,但被分到同类别”的情况。对于vj来说,文本内容缺失或者与其他多个主题之间区分度过小都会导致其无法被准确分类。而如果vi具有可区分的文本内容,那么vi通过内容关联就可以获得正确分类;vj则可以依据引用关联得到更为恰当的分类结果。也就是说,这两种方法的有效融合有望解决上述单一方法存在的问题,即文本挖掘往往受制于“一词多义”现象以及领域语料库的缺乏;而引文分析则受限于高被引文献对领域学科网络结构的影响,可能会造成将不同主题的文献汇总到同一主题下的情况。
图1 引文分析法与内容分析法的局限示意图
尽管也有学者将两类研究方法试图结合起来[18-20],但多局限于启发式地混合两者的相似度矩阵,未实现文献的内容特征以及引用关系特征的直接融合。同时,这些方法无法结合传统的专家分类方法,在研究范围、规模扩展性以及预测性等方面也存在先天缺陷。因此,本文拟引入近年来在机器学习领域中新涌现的深度图表示学习方法,通过直接融合文献的内容特征以及引用网络的结构特征,以期获得更准确的领域知识结构探测与识别结果。
2 研究框架
2.1 基于深度图神经网络方法的领域知识结构探测研究框架
鉴于目前研究方法的局限,为了准确探测和识别领域知识结构特征,本文提出了基于深度图神经网络学习表示方法的研究框架,具体研究流程如图2所示。
图2 基于深度图神经网络模型的领域知识结构探测研究框架
本文所提出的研究框架由数据预处理模块、特征抽取模块、图网络模型模块以及领域知识结构可视化模块4部分组成。
(1)在数据预处理阶段,搜集整理所要分析领域的文献题录信息及文献之间的相互引用关系信息。本文以文献的标题以及摘要作为文献的核心内容表征信息,并对文本进行合并、转换大小写、去除符号标点数字、剔除学术停用词以及版权声明等预处理。
(2)特征抽取阶段可分为文档表示学习和文献引用网络构建两个步骤。具体来说,运用文档表示学习算法Doc2Vec获得表征文本内容特征信息的高维向量。根据领域内文献之间的施引关系,构建直接引用网络,并筛选出最大的连通子图,利用Lou‐vain社区划分算法得到文献节点的社区标记。
(3)图网络模型学习阶段是本文框架的主要创新点。深度图神经网络模型具有既可以嵌入节点属性特征,又可以学习节点结构特征的优势。因此,在该阶段将特征抽取模块得到的文本向量特征以及直接引文网络结构信息作为深度图神经网络的输入。通过模型的学习训练,得到融合了文本内容特征和网络结构特征的文献节点表征向量。
(4)在最后的领域知识结构可视化阶段,运用流形学习算法UMAP(Uniform Manifold Approxima‐tion and Projection)对节点高维向量实施降维转换,并实现可视化。
经过上述4个阶段,可测度并绘制出融合文献内容主题特征及引用关系的领域结构知识图谱。第2.2节和第2.3节将对本文研究框架中涉及的几类深度学习表示算法和引文网络社区划分方法加以简要介绍和说明。
2.2 深度学习表示方法
2.2.1 文档表示学习
文档表示学习是指通过人工神经网络方法,对文本进行数值化处理的手段。相比于传统的词袋模型、TF-IDF以及LDA等方法,文档表示学习由于考虑了词与词之间、短语与短语之间以及句子中语义语序等综合信息,表现出了更加准确且易解释的文档表示结果[21]。本文具体使用的文档表示学习方法是Doc2Vec[22],该方法是Mikolov等[21]基于Word2Vec模型提出的一种神经网络语言模型。它可以将句子、段落或者文档表示为一种低维的、实值的向量形式,且向量中的每一维度对应特定的语义信息。Doc2Vec有两种训练架构:PV-DM(Distributed Mem‐ory Model of Paragraph Vectors)和PV-DBOW(Dis‐tributed Bag of Words of Paragraph Vector)。对于大多数任务,PV-DM表现较好,所以本文选择PV-DM法进行训练。训练模型的构建主要依赖基于Python语言的主题相似度测度包Gensim[23],该方法已被广泛应用于文本的特征提取、文本相似度度量以及文本主题聚类等领域。
2.2.2 图网络表示学习
图网络表示学习是近年来在人工神经网络领域异军突起的前沿领域。不同于以往机器学习领域研究对象主要集中在文本、图像、音频以及视频等类型,图网络表示学习将研究对象从序列数据和二维化数据扩展到了网络数据类型上。其研究任务旨在试图将大规模高维度的动态网络化数据编码到低维向量空间中,并尽可能地保留原始数据中的重要特征。
本文所采用的浅层图卷积神经网络模型是Node2Vec[24],四种深度图卷积神经网络模型分别是GCN(Graph Convolutional Network)[25]、GAT(Graph Attention Network)[26]、GIN(Graph Isomorphism Network)[27]和GNNEXPLAINER(Graph Neural Net‐work Explainer)[28]。Node2Vec是由斯坦福大学Les‐kovec教授团队提出并被广泛应用的浅层节点嵌入神经网络模型算法。该算法将文档表示学习模型Word2Vec的基本思想迁移到网络节点表示中,利用带偏的随机游走原理平衡了网络中的同质性以及结构均衡性两种特征,实现了网络节点的低维度表征。同类型的浅层图网络神经算法还有Deep‐Walk[29]、TADW(Text-Associated DeepWalk)[30]和LINE(Large-scale Information Network Embedding)[31]等。2017年 前 后,Kipf等[25]借 鉴CNN(Convolu‐tional Neural Network)模型,将卷积与池化等概念引入图神经网络模型中,被称作图卷积神经网络模型(GCN)。相比于浅层图神经网络模型,GCN在多项分类任务中表现出了更高的准确度。同时,此类卷积模型在训练过程中实现了不同层级神经元之间的参数共享与层数拓展。因此,GCN缩短了网络表示学习模型的训练时间,提升了算法的效率。随后,有学者将自然语言处理中已被验证有效的注意力机制引入图神经网络模型中,并称之为图注意力网络模型(GAT)。此类处理序列数据的算法思想在表征网络节点特征时同样取得了良好的效果,并且GAT被认为比GCN在基于半监督学习的节点分类、边预测等问题上性能更佳。2019年,尽管图神经网络算法已经在图表征学习方面取得了突破性进展,但Xu等[27]认为,先前的深度图神经网络学习算法并没有深入考虑区分潜在的网络同构现象,因此,提出了图同构网络模型(GIN)解决了该问题,并提出了分析GNN模型表征力的理论框架。GNNEXPLAINER的提出,则是试图解决由于GNN同时融合了节点结构和属性特征信息,导致无法区分两种节点特征信息在网络中的实际影响力差异的问题。这几项研究将节点嵌入研究从之前浅层的表示方法推向了更具表征能力的深度图卷积神经网络方法。
本文选择上述算法的理由:①Node2Vec作为代表性浅层网络节点表示学习算法,在本文中用于与其他深度图表示学习算法得到的结果加以比较对照分析;②GCN和GAT经过近年来的发展已逐渐成为了该领域的两大类典型算法,GIN算法的独特之处在于能够避免网络中存在的同构问题;③深度图神经网络架构的核心优势是模型通过融合节点的属性特征以及结构特征,能够更好地反映出一个现实网络特征的真实情况,并同时显著提高模型的运算效率。
2.2.3 流形学习算法
传统的网络分析软件,如NetDraw[32-33]或Gephi等[34],往往难以清晰地呈现出规模庞大的网络结构。流形学习,又称作非线性数据降维算法,其主要目的是将高维数据转换到低维空间中,以便于发现和挖掘出高维数据的浅层语义信息,同时尽可能地在数据转换过程中保留数据中蕴含的核心特征信息。因此,本文将流形学习算法UMAP应用于高维网络节点向量的降维可视化过程中[35],以契合本文关于领域知识结构可视化的研究需求。该算法的优点在于运算速度快、计算资源耗费低以及据称能够保留高维数据中的全局信息[36]。
2.3 引用网络构建与社区划分
本文在分析领域知识结构时选择了文献之间的直接引用关系构建网络。相比于文献耦合网络和同被引网络,直接引用网络的优势在于:这两类网络实质上是从引文网络映射衍生出来的网络形式,不是文献之间的一级信息关系的表征。通过共同施引关系构建的网络会很大程度上受到高被引文献的影响,而通过同被引关系构建的网络则在文献选择方面具有一定的时滞性[37]。
现实世界中的网络常常具有模块化特征,即社区内节点相互连接紧密,但社区间节点相互连接稀疏,领域知识结构网络也不例外。为了有效划分出网络的社区结构,复杂网络科学研究学者提出了基于模块度计算的划分算法[38]和基于生成模型推断的SBM(Stochastic Block Model)算 法[39]。本 文 对 网络的结构划分选择了基于模块度优化的Louvain社区划分算法。模块度优化是NP-Hard(Non-deter‐ministic Polynomial Hard)问题,因此,学者们为解决该问题提出了许多启发式算法,如层级集聚、极值优化、模拟退火等算法。最终脱颖而出并广为复杂网络研究人员所应用的是Louvain算法。通过多种社区划分算法的比较分析,其被认为是耗时最短、性能最好的算法之一[40-41],并且提出该算法的论文[38]也成为了网络科学领域中的高被引文献。需要注意的是,本文运用社区识别算法划分出网络的模块化结构有两个目的:①作为与其他文档表示学习算法结果,以及图神经网络模型学习表征结果进行比较的基准;②便于清晰地展示运用流形学习算法降维后得到的领域知识结构可视化结果。
3 实证研究
3.1 数据集
为了验证本文所提出的研究框架在不同学科领域的普适性和有效性,分别选择了基础学科领域的代表“物理学”和新兴研究领域“区块链”。由于相对更为成熟的基础学科与新涌现的研究领域知识单元的汇聚程度不同,本文选取了两个处于不同发展阶段的领域,通过对比或许可以揭示不同演化时期领域知识结构的形态差异。
物理学学科:选取1985—2009年美国物理学会(American Physical Society,APS)期刊文献,并剔除《现代物理评论》600余篇综述性文章,最终获得17.4万篇论文,以及其相互之间产生的65.1万条直接引用关系。已有研究表明[42],物理学科的各个子领域在这一时间阶段保持了较为稳定的发展,学科结构总体上呈现出以“凝聚态”和“理论物理”子领域为核心的中央-边缘结构特征,处于相对边缘位置的子领域包括“声学”“光学”“核物理”“天文物理”以及“交叉物理领域”等。文献题录元数据和引用关系数据均从微软MAG(Microsoft Academic Graph)学术数据中抽取获得[43]。
“区块链”领域:以Web of Science核心数据库为数据源,设置检索式TS=(“blockchain”or“block chain”or“block-chain”),检索时间跨度为2008年至2020年6月5日。去除掉化学领域同样使用blockchain作为关键词的无关文献、题录信息缺失的文献以及不在引文网络最大连通子图中的文献后,共剩余3624篇论文及其之间的12549条直接引用关系。从高频关键词来看,该领域的研究热点主要有“Smart Contract”(智能合约)、“Bitcoin”(比特币)、“Internet of Things”(物联网)和“Distrib‐uted Ledger”(分布式账本)等。
3.2 实验环境和参数设置
本文实验环节主要涉及引文网络社区划分、文档表示学习算法以及图神经网络模型的训练。实验环境:单机,8核,CPU@3.4 GHz,内存36 GB;编程环境:PyTorch[44]。主要实验参数的设置参照各类模型和算法的通用设置方法,具体参数如表1所示。
表1 实验参数设置
3.3 实验结果
为了探究深度图神经网络模型在领域知识结构探测方面的特点,本文开展了多组对照试验。采用具体的样本案例分析了模型学习结果,以体现出该方法融合文献内容特征以及文献知识结构特征的核心优势。
3.3.1 领域文献内容特征及引用网络结构特征抽取
本文按照图2中的研究框架思路,首先以文献引用关系构建直接引文网络,采用Louvain算法划分引文网络社区,并将引文关系及所得的文献社区结果用于后续图神经网络节点分类任务。然后,利用文档表示学习算法Doc2Vec将预处理后的文献标题、摘要和关键词数据转化成为高维向量,以此表征领域文献集的内容特征。所获文档向量也将作为文献的内容属性特征嵌入到深度图神经网络模型的训练中。最后,利用网络分析软件Gephi和UMAP降维算法分别可视化引文网络和高维领域文本特征。具体结果如图3和图4所示,其中,节点代表文献,颜色表示所属社区。
图3 物理学科(a)和“区块链”(b)领域直接引用网络社区划分结果(彩图请见http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
图4 基于UMAP降维的物理学科(a)和“区块链”(b)领域文本内容可视化结果(彩图请见http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
由图3可以看出,物理学科和“区块链”领域的引用网络均展示出了较为清晰的模块化结构。具体来说,物理学科直接引用网络结构的模块度是0.81,最终划分出了12个社区;区块链领域引文网络模块度是0.46,划分出8个社区。需要注意的是,后续文档表示学习模型以及神经网络模型的结果都将以引文网络社区划分的结果作为基准。领域知识网络结构可视化阶段的着色以及图神经网络模型中的标签,都将以文献节点的引文关系社区划分结果作为参照。基于文档表示学习和流形学习算法得到的领域文本内容分析结果如图4所示。
对比两者可视化结果发现,物理学科的引文社区呈现出更好的聚集特征,而“区块链”领域的内容分析结果与引文网络社区结果更加不一致,表现为同类引文社区在内容上聚集程度较低。按照引文网络社区着色后能够更加明显地发现,文档表示学习的确可以对较为成熟的物理学科知识结构进行良好的表征和度量。但对于新兴“区块链”领域来说,文档表示学习与引文网络结构社区划分方法得到的结果差异相对较大。其原因或在于,新兴领域处于早期探索阶段,与其他领域相融合的态势初步显露但尚未形成明晰的主题或子领域,不同研究内容的论文被该领域学者选入参考文献列表中,从而导致同一引文社区内文献的实际研究主题并不高度相似。
总而言之,上述结果显示,一方面,这两个领域知识结构呈现出相近知识单元互相汇聚、相异知识单元彼此分离,但不同主题的知识单元之间的由跨主题知识单元桥接串联的基本结构特征。另一方面,从模块化程度的差异也看到,相对更为成熟的基础学科要比新涌现的研究领域其模块化程度显著更高,反映出不同学科领域的发展阶段和科研活动的差异性。
3.3.2 多层感知机与浅层图神经网络模型结果
为了对比仅嵌入文献内容特征、仅学习表征文献引用网络结构特征以及融合两者特征信息的神经网络模型结果,本文以嵌入了文献文本主题特征的多层感知机(Multi-Layer Perceptron,MLP)和浅层图神经网络模型Node2Vec开展了领域知识结构探测实验。需要注意的是,MLP的局限在于模型中神经元无法通过训练迭代学习到文献网络的引用结构信息;Node2Vec模型则无法嵌入文本的内容特征信息。具体来说,将上一阶段用文本学习算法获得的文本特征嵌入MLP作为输入层,500轮训练后,MLP测试准确度趋于稳定,不再显著提升。以引文网络的社区划分结果作为基准,MLP的测试集精度维持在0.63(物理)附近,Node2Vec图神经网络模型的测试集精度结果大约在0.84(物理)。两类神经网络模型对领域知识结构的探测可视化结果如图5和图6所示,其中,节点代表文献,颜色表示所属社区。
图5 和图6的实验结果表明,嵌入了文本内容主题特征的多层感知机和能够学习表征引用关系特征的浅层图神经网络模型均可以在一定程度上探测识别出文献知识单元之间的汇聚特征。相较而言,浅层图神经网络模型已经比多层感知机模型取得了更好的表征效果。但是,这两类模型共同的缺点是无法同时综合文本内容和引用结构信息,因此,本文引入了深度图神经网络模型,以更加精准地探测出学科的领域知识结构。
图5 仅嵌入文献主题特征的物理学(a)和“区块链”(b)MLP模型结果(彩图请见http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
图6 仅表征文献引用网络结构特征的物理学(a)和“区块链”(b)Node2Vec模型结果(彩图请见http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
3.3.3 深度图神经网络模型结果
本文将运用三种代表性的新型深度图神经网络模型对物理学和“区块链”领域的知识结构开展探测实验,包括GCN(图卷积神经网络)模型、GAT(图注意力神经网络)模型以及GIN(图同构神经网络)模型。主要实验步骤如下:首先,准备深度图神经网络输入层和训练过程所需的三类数据,即预先训练完成的文献内容表征数据、文献之间的引用关系数据以及作为预测标签的引文网络社区数据。其次,搭建和设计神经网络。本文三组实验均采用了1层输入层、2层隐藏层、1层输出层的神经网络结构。在模型初始化过程中,设置每个节点的属性维度及拟输出的节点嵌入向量维度。实验具体涉及的激活函数、优化器和损失函数等参照了现有模型中的常规参数配置方式。最后,500轮次学习训练后,三种类型的GNN模型精度不再显著提高,保持在了相对稳定的水平,模型训练终止。仍然以引文网络社区划分结果作为节点标签空间来看,GCN、GAT以及GIN在精度上分别达到了0.869(物理)和0.819(区块链)、0.848(物理)和0.728(区块链)、0.885(物理)和0.780(区块链)。将三种不同模型训练学习后得到的节点向量利用UMAP降维后,得到的领域知识结构可视化结果如图7所示。其中,节点代表文献,颜色表示所属社区。
图7 融合文献内容特征和引用网络结构特征的物理学和“区块链”深度神经网络模型结果(彩图请见http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
由图7可以看出,与图5和图6中的实验结果相比,融合了文献内容和网络结构特征的领域知识结构分类结果更加清晰、噪音节点或随机分布节点更少。相比于其他方法,其计算资源耗费更少,计算时长更短。以物理学数据集为例,在第3.2节所述的实验环境下,同等规模采用Node2Vec模型实验500次训练耗时48小时,而GCN模型训练耗时仅为52分 钟,GAT训 练耗 时2小时23分 钟,GIN训 练耗时2小时3分钟,并且后三种GNN模型的节点可以同时融入文献特征信息进行训练,表征学习能力更强。
但是,由于两种类型的网络规模过大,即便从宏观层面上领域整体知识结构已经被清晰地可视化,但微观视角下节点层面的分类结果,即同时融合内容特征和结构特征的特点尚未得到明确显现。因此,有必要选取文献样例,以具体地展现深度图神经网络模型的优势。本文选择了“区块链”领域具有代表性的两篇文献,考察了在深度图神经网络模型学习过程中,与这两篇关系最紧密的相邻节点子图结构。选择这两篇论文的依据是:第一篇文献虽然在引文网络社区中被划分到了同一个类别,但在文档表示学习实验中,文本内容向量与同网络类别的其他文献差异显著;第二篇文献虽然在文档表示结果中向量距离相近,但在引文网络中是跨社区节点。这两篇文献分别代表了前文提到的单一的文本内容表征学习和引文网络结构探测领域知识结果潜在的问题和方法局限。借助GNNEXPLAINER模型,得以呈现出GNN模型具体学习到的相邻节点属性特征以及结构特征。
图8 和图9展示了上述两篇文献在深度图网络模型学习过程中影响最大的节点的子图,其中节点颜色区分引文社区,边颜色的透明程度反映邻居节点对该节点的影响程度。与节点的原始引文网络关系子图所不同的是,图8和图9中的文献关联子图是节点同时融合了内容特征和引文关系特征的子图。因此,对于特定的文献来说,由于深度图神经网络会同时考虑到相邻文献之间的内容特征差异程度,尽管存在多条施引或者被引关系,但不一定所有的引用关系都在影响该文献的知识单元分类结果。
图8 同一引文社区中文本内容差异显著的文献在GNN中的核心关联节点(ID:1438)
图9 文本内容相近但所属不同引文社区的文献在GNN中的核心关联节点(ID:1032)
3.4 讨论
从研究结果来看,本文所提出的领域知识结构探测研究方法既考虑了文献的内容特征,又融合了文献之间的引用关系特征,可以更加准确地探测学科领域的知识结构,以应对和解决当前大数据时代背景下复杂网络信息的规模性、高维性和动态性等问题。基于深度图神经网络模型的探测手段要比传统的领域知识结构方法具备三个方面的优势:可预测性、规模可扩展性以及更强的适应性。
可预测性是指深度图神经网络模型不需要所有节点的标签特征就可取得更好的节点分类结果。尽管在本研究中,所有节点的标签都是以引文网络社区划分的结果作为基准,但已有研究表明,图神经网络实际上只需5%~20%的真实节点标签,通过学习就能够使节点分类任务精度高达80%左右[45]。这为与领域知识探测相关的其他研究提供了更广阔的探索空间。例如,在文献分类问题上,可以与专家分析法相结合,通过专家标注少量子领域文献完成对整个更大领域的关联文献分类的任务。
规模可扩展性是指在同等计算资源条件下,深度图神经网络模型比传统的基于引文网络的领域知识探测算法以及浅层图神经网络模型更适合处理大规模的领域知识网络;并且,模型学到的大规模高维节点特征可以通过流形学习算法降维转化为低维向量,进而用于可视化处理分析,其聚类结果也更易理解且具备解释性。
适应性是指尽管领域知识结构网络往往是动态变化的,但深度图神经网络模型无需因为少量节点和边关系的调整变化就重复学习整个网络。传统的网络聚类或者文本分析方法,由于其研究对象基本上只停留在静态网络结构分析中,而无法适应现实领域知识网络中文献内容和引用关系动态变化的情况。深度图网络模型具有半监督学习的特征,因此,有学者提出了时序图神经网络模型[46],适用于预测变动的领域知识单元及其关联关系特征。
总之,在识别领域知识结构方面,借助深度图神经网络的网络表示学习方法是更具前景、更顺应大数据及人工智能时代发展的研究范式和研究手段。
4 结论
针对目前领域知识结构探测方法中,文本内容分析方法和引文网络分析方法存在的局限性,本文提出了基于深度图网络学习方法的研究框架,融合了两类主流方法的各自优势。为了验证本文所提方法的有效性,分别选择了代表基础学科的物理学和代表新兴学科的区块链领域进行实证分析。实验结果表明,深度图网络学习方法能够更清晰地识别出领域知识结构。基于深度图神经网络算法的结构探测思路或许是更适应当前大规模复杂网络信息时代的新兴研究范式。受个人机计算资源的限制,本文仅验证了两个学科领域,后续研究拟借助超算平台,将该方法思路拓展到更大范围的学科领域,例如,对整个自然学科的文献进行学科领域识别及其可视化,以充分发挥出该研究思路的特点和优势。同时,后续考虑进一步拓展和丰富基于领域知识度量的科研活动模式与规律的探索和研究。由于本文结合多种深度学习模型方法,未来工作将通过多组消融实验,如调整隐藏层层数、神经元数量、文本特征向量维度、训练轮次等,以进一步提高模型的精度。