基于语义关联与模糊聚类的共词分析方法
2022-11-23陆泉曹越陈静
陆泉,曹越,陈静
(1.武汉大学信息资源研究中心,武汉 430072;2.武汉大学大数据研究院,武汉 430072;3.华中师范大学信息管理学院,武汉 430079)
1 引言
作为内容分析的基础研究方法之一,共词分析法主要通过高度表征文献内容的特征词共现的统计学特征来揭示研究成果的总体内容特征,进而分析学科领域的知识结构和研究热点。经过三十多年的发展,该方法已广泛应用于图书情报、人工智能和医药卫生等学科,成为领域研究热点探测等的重要定量分析方法[1]。
目前共词分析的主要方法是从限定的领域文献集合里,按照一定的指标或方法[2-4]抽取核心词汇,对由词汇共现特征构建的共词相关矩阵进行多维尺度分析和硬聚类分析。然而上述方法存在两个主要的缺陷:一是共现和不共现的词对都存在着一定的语义关联性,但现有研究通常仅以共现频次作为度量词对相关性的依据,缺乏对词对语义相关关系的揭示;二是硬聚类方法自身具备的排斥性使一个词汇只能归入一个类团中,但对于学科领域的研究而言,一个特征词会在与该词有关联的多个热点主题下出现,传统的硬聚类方法使词汇的主题归属单一化和绝对化[5]。
为有效弥补上述缺陷,本文提出基于语义关联与模糊聚类的共词分析方法,以领域内的文献集合为知识背景,利用fastText词嵌入模型学习核心词汇的语义特征向量,通过对向量空间的运算度量词对的语义相关强度,结合共现相关强度构建语义加权的共词相关矩阵,以改善词对相关性度量的效果;引入模糊C均值聚类算法,结合因子降维对语义加权共词矩阵进行模糊聚类分析,实现词汇主题归属的多元化,能够提高类团的信息质量并揭示类团的外部联系,以克服硬聚类算法的不足,为改进共词分析方法提供新的思路。
2 相关研究工作
法国文献计量学家Callon等[6]在1983年首次提出了共词分析方法,作为能够快速揭示学科知识结构和领域研究热点的经典方法,几十年来国内外学者对其进行了许多的研究和优化。相关工作主要集中在分析单元的选择、核心词汇的确定、词汇差异化处理、共词矩阵的构建和共词矩阵的分析等五个方面。下文对各个方面的研究工作进行阐述。
2.1 分析单元的选择
在共词分析方法中,分析单元通常从能够有效揭示文献主题的词汇中进行选择,主要包括作者自标引关键词、统一标引主题词、标题和摘要提取词及正文特征词等。作者自标引关键词由于在语义概括上的灵活性、新颖性和研究实施时的便利性,已成为共词分析最常用的分析单元,不过自标引关键词的选择存在一定的随意性和主观性,对最终的分析结果可能会产生影响。统一标引的主题词一般由专业的标引专家所标引,具有更高的权威性和稳定性。如钟伟金[7]对比了关键词和主题词在共词聚类分析中的效果,提出包括合并同义词、去除贬义词和通用词以及保护新颖词等多种提升自标引关键词聚类效果的方法。
有关研究者尝试从标题、摘要及正文等途径抽取特征词,以弥补标引词在数量上受到限制的缺陷。例如,唐晓波等[8]、赵国荣等[9]分别采用分词技术和组块分析法从标题中提取词或短语对作者自标引关键词进行补充,巴志超等[10]采用LDA(la‐tent Dirichlet allocation)模型从文献正文中抽取表征能力较强的特征词进行共现分析。
2.2 核心词汇的确定
研究者通常只选取小部分词汇作为核心词汇进行共词分析,最直接的方式是筛选高频词,其思路是假定在研究领域内出现次数越多的词汇相对越重要。常用的高频词确定方法主要有三类:一是经验判定法[11],研究者基于研究内容结合学科经验确定高频词阈值;二是基于Donohue[12]结合齐普夫第二定律提出的高频低频词界分公式;三是采用普赖斯公式法对高低频词进行界定[13]。杨爱青等[14]引入词频g指数,安兴茹[15]提出高频词阈值F计算公式,对高频词筛选方法进行了补充。
不过Serrano等[16]研究认为,依据频次阈值对复杂共词网络进行简化,可能会导致网络在整体多尺度上的特征信息被忽略,胡昌平等[17]也证明高频词矩阵会丢失大量重要的共现关系。为此,研究者从多个角度对核心词汇的确定方法进行了改进:一是以传统词频为基础进行优化[2,18-19];二是提出新的指标抽取核心词汇,如基于词语贡献度[20]、词汇领域度[21]、加权信息熵[22]和网络节点中心性[23]等。Zhao等[24]还探讨了基于频次和网络节点指标等不同度量选取核心词汇对揭示领域研究热点的影响,为研究者在不同环境下有效选取度量指标提供指导。
2.3 词汇差异化处理
对于在文献中出现频次相同的词汇,传统共词分析方法以相同的权值进行衡量,并未区分词汇之间的差异性。但这种假定不符合客观实际,例如,不同词性、位置的词汇对于表达文献主题的贡献程度显然是不同的[25]。因而,许多研究者考虑词汇间“同量不同质”现象,对词汇加权以体现其不同的重要程度来改善共词分析方法的效果。例如,马续补等[26]基于词汇在标题、正文等文本中的不同位置对词汇进行加权处理;陆泉等[27]结合不同信息生产者的词汇频次及词汇间语义依存关系进行差异化处理;李海林等[28]基于关键词的先后顺序,对关键词进行重要度加权。近年来,有关研究者关注词汇的“时间”属性差异,例如,周鑫等[29]基于移动平均法构建词频变化率模型,奉国和等[30]引入Logistic函数设计时间赋权词频分析模型,以动态地揭示学科研究热点及变化趋势。
2.4 共词矩阵的构建
传统共词分析方法通常基于共现频次来反映词对的相关强度,以此构建共词矩阵。同时,为了提高共词矩阵的信息含量,研究者一般采用Ochiia系数[26]、相互包容系数[31]或点互信息[32]等统计学指标对词对共现频次进行包容化处理。
然而,从整个领域文献集合来看,仅计算共现相关强度,会缺乏对词对语义相关关系的揭示。因此,有研究者考虑在共词网络中融入词对的语义信息。例如,Zhou等[33]利用word2vec模型将关键词转化为词向量进行语义关联度量;王玉林等[34]采用基于知识单元的细粒度共词分析方法将语义信息结合到共词分析中;Feng等[35]基于领域本体计算概念间的语义距离,生成语义矩阵;周萌等[36]则结合同义词典和领域专家给定的关系词,构建了融入语义关系类型的细粒度共词网络,从而更全面地揭示领域的整体、微观知识结构和研究热点。
2.5 共词矩阵的分析
共词矩阵分析是共词分析的核心环节,研究者通常采用因子分析[37]、多维尺度分析[38]、聚类分析[28]和复杂网络分析[39]等方法对共词矩阵做进一步处理,以提取学科领域的研究热点。其中聚类分析应用最广泛,比较常用的做法是基于SPSS[34]、VOSviewer[19]和gCLUTO[40]等软件内嵌的聚类算法进行共词聚类。有关研究者还引入了新的聚类方法,如AP(affinity propagation)聚类算法[41]和关联规则挖掘模型[42],霍朝光等[43]则综合node2vec表示学习和t-SNE聚类算法,实现了细粒度的关键词集群发现。
但是,以上聚类方法均属于硬聚类,忽略了词汇归属的多元性,一定程度上会造成类团内部信息和外部联系的丢失。针对此问题,目前研究者大多停留在理论探讨层面,典型的方法研究有邵作运等[44]引入的惩罚性矩阵分解算法(penalized matrix decomposition,PMD)和孙海生[5]采用的连边社团检测算法。不过上述方法涉及大量的数学运算和复杂的参数调整,计算成本较高。
鉴于传统共词分析中未考虑词对的语义关联以及忽视了词对主题归属多元性等方面的不足,本文提出基于语义关联与模糊聚类的共词分析方法。不同于传统共词分析基于共现频次反映词对的相关强度,本文利用词嵌入模型从标题和摘要中学习关键词的语义信息,构建语义加权共词矩阵,以综合共现特征与语义关联来改善词对相关性的度量效果;通过因子降维与模糊C均值聚类对加权共词矩阵进行模糊聚类分析,实现词汇主题归属的多元化,避免硬聚类分析造成类团内部信息和外部联系丢失的问题。
3 基于语义关联与模糊聚类的共词分析方法
本文提出的基于语义关联与模糊聚类的共词分析方法以作者自标引关键词为分析单元。在选取高频关键词和次高频关键词作为核心词汇后,借助深度学习思想和模糊理论,首先利用fastText模型学习关键词的词向量表征;挖掘词对的语义关联信息后,结合共现相关信息构建语义加权的共词相关矩阵;之后对加权共词矩阵进行因子降维,依据提取的因子数获取粗类数作为聚类数的范围上限[45];采用模糊C均值聚类算法对降维矩阵进行聚类分析,得到关键词与聚类簇团的隶属度矩阵;通过截取隶属度阈值将单个词汇归入与之相关的一个或多个类团中,实现关键词模糊聚类,更加客观合理地揭示领域研究热点及热点间的联系。本文提出的基于语义关联与模糊聚类的共词分析方法的基本流程如图1所示。
图1 基于语义关联与模糊聚类的共词分析方法的基本流程
3.1 关键词预处理
由于作者自标引关键词是对文献内容的浓缩和提炼,本文采用自标引关键词作为分析单元。经过合并同义词、停用词删除等处理后,根据高频低频词界分公式、词频g指数筛选高频关键词和次高频关键词,选取这两类关键词作为核心关键词构建共词矩阵。
高频低频词界分公式是Donohue[12]根据齐普夫第二定律提出的高频词阈值确定方法,具体计算方法为
其中,T为高频词的词频阈值;I1表示词频为1的关键词数量。根据此界分公式提取领域文献的高频关键词。不过作者自标引关键词的选择存在随意性和不确定性,所以词频为1的关键词数量较多[46],代入界分公式得到的阈值T较大,导致筛选出的高频关键词往往较少,难以对学科领域的研究热点开展深入有效的分析。
因此,为了在一定程度上克服数据对象自身存在的缺陷,本文借鉴徐坤等[47]引入的次高频词概念,在基于界分公式提取高频关键词后,对剩余关键词采用词频g指数选取次高频关键词,将高频关键词和次高频关键词合并作为领域核心关键词开展研究,以增强核心关键词选择的合理性。词频g指数[14]的定义为,将关键词按照频次降序排列,选取前g个关键词,使前g个关键词的累计词频大于等于g2,前(g+1)个关键词的累计词频小于(g+1)2。具体计算方法为
其中,Fi表示关键词i的出现频次。
3.2 语义加权共词相关矩阵构建
立足语义关联视角,本文结合共现相关关系和语义相关关系对核心词对的相关强度进行度量,构建语义加权的共词相关矩阵。对于共现相关关系的度量,首先根据3.1节中获取的N个领域核心关键词构建词频共现矩阵,之后采用Ochiia系数方法[48]对词对频次进行包容处理,得到共现相关矩阵E,计算公式为
其中,Eij表示关键词i和关键词j之间的共现相关强度;Ci表示关键词i的出现频次,Cj表示关键词j的出现频次,Cij表示关键词i和关键词j共同出现的频次。
对于词对语义相关关系的度量,本文采用大规模文本语料库的方法,借助关键词在文本中的上下文信息来挖掘语义知识。由于标题和摘要是文献内容的梗概,且题录信息的结构化数据易于获取,因此本文抽取领域文献的标题和摘要文本构建语料库,基于fastText词嵌入模型生成核心关键词的词向量表征,通过计算词向量之间的余弦相似度度量关键词之间的语义相关性。fastText模型[49]是Face‐book在2016年开源的用于生成词向量和文本分类的技术,该模型在skip-gram模型的基础上加以改进,在训练中文词向量的场景下融入了子字信息,对输入上下文的每一个词采用基于词n-gram格式进行分解,实现字向量建模,并将分解处理后得到的所有n-gram向量和原词的词向量通过average-pool‐ing方式进行融合,以学习获得更加精细的词向量。fastText模型与Zhou等[33]采用的word2vec模型相比,在生成词向量表征时速度更快,并且可以解决OOV(out of vocabulary)问题,尤其在罕见词向量生成方面,fastText能够训练出语义更准确、质量更高的词向量。对于关键词i和关键词j的词向量vi、vj,本文采用余弦相似度算法[50]度量词对的语义相关性,
其中,Pij表示关键词i与关键词j的语义相关强度;||vi||、||vj||分别是向量vi和向量vj的欧几里得范数。计算得到的Pij值越大,表示关键词i和关键词j之间的语义相关性越高。
为了在共词分析中考虑语义关联信息,本文引入依赖集中度参数λ将词对的语义相关强度和共现相关强度进行结合,构建语义加权共词矩阵S。具体计算公式为
其中,N表示所有的领域核心关键词;Cik表示关键词i与关键词k的共现频次。通过上述方法对关键词进行语义关联分析,将语义知识融入共词矩阵中,弥补仅以共现特征难以准确度量词对相关强度的缺陷。
3.3 关键词模糊聚类
模糊C均值聚类(fuzzy C-means,FCM)算法[51]是在k-means算法的基础上引入模糊理论所形成的模糊聚类算法。不同于硬聚类下样本对象与类簇间非此即彼的隶属性质,FCM算法采用柔性划分的策略,通过隶属度函数来描述样本对象和类簇间的不确定性关系,不仅能够提升聚类算法的鲁棒性,也可以提高聚类结果划分的弹性。隶属度函数是表示元素隶属于集合的程度的函数,在模糊理论中该函数的值域由集合{0,1}扩展为连续区间[0,1],因此在模糊聚类时各样本对象能够以不同的隶属度同时隶属于不同的类簇。通过设置隶属度阈值,可将各样本划分到与其相关的多个类簇中。
给定样本对象集合X=(x1,x2,…,xn),其中每个样本对象xi包含d维特征,n是集合中样本对象的数目。FCM算法将X划分为c个类,U为样本对象与类团间的隶属度矩阵,[k1,k2,…,kc]为c个聚类中心。FCM聚类算法的目标优化函数为
其中,m是模糊控制参数;uij表示样本对象xi在第j类团中的隶属度;||xi-kj||表示样本对象xi和聚类中心kj之间的欧几里得距离。在满足约束条件的情况下使用拉格朗日乘数法对目标优化函数进行求解,推算得到FCM迭代更新隶属度矩阵和聚类中心的公式,
为了在一定程度上解决FCM算法的聚类数目需要人为预先设定的问题,本文对3.2节中N×N维的语义加权共词矩阵S进行因子降维,依据提取到的因子数Q获取粗类数作为聚类数目的范围上限。
同时,经过因子降维得到的N×Q维的关键词旋转成分矩阵,其特征维度由高维的领域核心关键词转化为低维的公共因子,抽取出了语义加权共词矩阵的本质结构,并且提高了特征的解释能力,因此本文选择降维后的旋转成分矩阵作为模糊C均值聚类算法的输入。FCM算法的具体步骤如下。
算法1模糊C均值聚类
输入:聚类数c(c≤Q),初始聚类中心,初始隶属度矩阵,核心关键词旋转成分矩阵,模糊控制参数m,终止误差ε。
输出:隶属度矩阵。
Step1.根据式(7)更新隶属度矩阵。
Step2.根据式(8)更新聚类中心。
Step3.根据式(6)计算目标函数的值,若|J(μ)-J(μ-1)|<ε,则算法终止;否则,返回Step1,继续迭代更新。
通过对输出的隶属度矩阵进行分析,合理截取隶属度阈值,将关键词划分到与之相关的一个或多个类团中,实现关键词模糊聚类;通过对聚类簇团进行主题归纳,揭示领域的研究热点及联系。
4 实验与结果分析
4.1 数据来源与处理
为了验证本文提出的基于语义关联与模糊聚类的共词分析方法的效果,选择“感染性疾病学和传染病学”为研究领域,选定相关文献进行实证分析。为保证收集文献的权威性,本文以《中国科技核心期刊目录》(2020版)中该学科领域下的8种学术期刊为文献来源刊,8种核心期刊分别是《新发传染病电子杂志》《传染病信息》《微生物与感染》《中国感染控制杂志》《中国感染与化疗杂志》《中华传染病杂志》《中华临床感染病杂志》和《中华实验和临床感染病杂志电子版》。以中国生物医学文献数据库(China Biology Medicine,CBM)为检索平台,限定年限为2015—2020年,检索到5684篇文献。人工去除通讯稿、征文稿以及会议记录等非学术类期刊文献并去重后,共获取5373篇有效期刊文献,提取文献题录数据中的作者自标引关键词、标题和摘要等内容开展后续分析。
4.2 关键词抽取
针对题录数据中的作者自标引关键词,通过同义词合并、停用词删除等预处理操作,共得到8275个唯一自标引关键词,经过词频统计,绘制关键词词频对数分布图,如图2所示。关键词词频对数分布符合线性分布(R2=0.8065,p<5×10-30),表明关键词的词频分布总体具有幂律分布特性,即存在一小部分关键词是该领域的核心概念,并且领域研究主题的集中性比较明显[52]。
图2 作者自标引关键词词频对数分布
将I1=5844代入高频低频词界分公式(公式(1)),计算得到高频词阈值T约为107,根据此阈值只抽取到20个高频关键词,词量较少。针对余下的关键词,采用公式(2)抽取到54个次高频关键词。将高频关键词和次高频关键词合并,共获取74个领域核心关键词,其累计词频占比为27.59%,满足二八定律,表明将两类关键词合并作为核心关键词是客观合理的。核心关键词及其词频如表1所示。
4.3 结果与分析
根据获取的领域核心关键词构建词频共现矩阵,按照公式(3),利用Ochiia系数方法将词频共现矩阵转化为共现相关矩阵E(74×74),当两个关键词不共现时,共现相关强度为0。将全部自标引关键词作为自定义词典,采用python语言的jieba库对文献题录数据中的标题和摘要进行分词,构建文本语料库;利用fastText模型在该语料库上训练词向量,模型训练的相关参数设定:无监督训练模式为skipgram,词嵌入维度dim=200,学习率lr=0.05,循环次数epoch=5。经过训练,获取74个核心关键词的词向量,如关键词“医院感染”转化为实值分布[-0.322946,0.24874386,-0.01921216,-0.0047568,0.12811267,…,-0.02404686]。之后按照公式(4)度量词对的语义相关强度,基于公式(5)将词对的共现相关强度和语义相关强度进行结合,构建语义加权共词相关矩阵S(74×74)。
利用SPSS 25.0,选择主成分方法、协方差矩阵和最大方差法对语义加权共词矩阵进行因子降维,并基于特征值数提取因子数,设置最大收敛迭代次数为25。最终经过18次迭代,提取出13个公共因子,累计方差贡献率为86.916%。降维得到的关键词旋转成分矩阵(74×13)的一部分如表2所示,表中数值代表对应行的关键词在相应因子下的载荷值。
表2 关键词旋转成分矩阵(部分)
将关键词旋转成分矩阵输入FCM聚类算法中进行关键词模糊聚类,相关参数设定:模糊控制参数m=1.5,终止误差ε=10-7,最大更新迭代次数maxiter=10000。由于选择提取到的因子数作为粗类数来代表聚类数目的上限,因此本文将FCM算法的聚类数目c(c≤13)设置为10。经过234次更新迭代后,算法停止,图3是FCM算法目标函数的迭代数值折线图,算法在迭代40次左右时趋于稳定。
图3 FCM算法目标函数优化结果
为了清晰地展现模糊聚类下词汇主题归属的多元性,本文针对输出的隶属度矩阵(74×10)采用python的seaborn库绘制热力图进行可视化呈现,如图4所示,横轴方向代表74个核心关键词,纵轴方向代表10个聚类簇团。各个关键词在10个类团中的隶属度有大有小,且总和为1,图中单元格颜色越深,表明对应关键词在相应类团中的隶属度越大。通过绘制热力图,各关键词在10个类团中的隶属度分布一目了然,且有所侧重,较好地解决了硬聚类算法下词汇与类团的隶属单一化和绝对化问题。
表1 领域核心关键词序号及词频
通过分析各个关键词的隶属度分布,并结合图4中10个类团下的隶属度分段集中情况,在划分模糊聚类结果时本文将隶属度阈值设置为0.3,即各个类团取隶属度大于等于0.3的关键词作为该类团下的元素;若某个关键词在10个类团下的隶属度都小于0.3,则将该关键词归入拥有最大隶属度的类团。
图4 关键词隶属度矩阵热力图
根据上述步骤,本文将提取到的“感染性疾病学和传染病学”领域近5年的研究热点归纳为10类,具体如表3所示:①医务人员感染预防与控制;②细菌性感染和炎症;③医院获得性感染;④疾病诊疗和预防医学;⑤新发突发传染病和疑难感染病;⑥耐药表型及基因型分析;⑦细菌耐药性;⑧条件致病菌;⑨急慢性肝病;⑩结核病及其病原体。通过FCM算法模糊聚类所提取出的10个类团,覆盖了感染性疾病学科近些年来所表现出的新发再现传染病威胁、不断出现的细菌耐药问题以及病毒性肝炎防治成效等方面[53-54],能够有效反映“感染性疾病学、传染病学”领域的研究热点。
表3 “感染性疾病学和传染病学”领域的研究热点
4.4 对比实验与分析
为了进一步检验本文提出的基于语义关联与模糊聚类的共词分析方法的有效性和优越性,将传统共词分析方法[55]与本文所提方法从词对相关性度量和关键词聚类效果等两方面进行对比。
4.4.1 词对相关性度量对比
传统共词分析方法通常采用Equivalence系数或者Ochiia系数等基于共现频次的统计学指标来反映词对的相关强度[56],因此绘制同一类团下的关键词Ochiia系数共现网络和语义加权共词网络对词对相关性度量进行对比分析。图5是表3中类团9“急慢性肝病”主题的知识图谱,该类团中关键词个数最多且词汇间语义关系较复杂,能够更加直观地凸显出语义加权对于改善词对相关性度量的效果。图5中节点间有无连线代表关键词之间是否存在相关性,连线的粗细则代表关键词对相关强度的大小。
在揭示词对相关关系方面,传统共词分析方法以关键词的共现性建立相关关系,如图5a所示,关键词“丙型肝炎”“慢性丙型肝炎”和“慢性乙型肝炎”两两不共现,关键词“肝细胞癌”和“肝功能衰竭”之间也不共现,所以,在传统共词分析方法中,关键词“丙型肝炎”“慢性丙型肝炎”和“慢性乙型肝炎”三者之间,以及关键词“肝细胞癌”和“肝功能衰竭”之间不存在相关性(图5中节点之间没有连线),但这种结果显然是不合理的。而在图5b的语义加权共词网络中,尽管上述关键词之间没有直接的共现相关关系,但仍然具有一定的语义相关强度,表明语义加权共词网络能够更加充分、客观地反映关键词之间的相关关系。
在计算词对相关强度方面,Ochiia系数共现网络中,与关键词“肝功能衰竭”相关强度最高的前3个关键词分别是(乙型肝炎病毒,慢性乙型肝炎,慢性丙型肝炎);而在语义加权共词网络中,关键词“肝功能衰竭”相关强度最高的前3个关键词是(肝细胞癌,肝硬化,乙型肝炎),显然后者更加准确。
以上分析表明,与传统的基于共现频次的度量方法相比,本文所提出的将语义关联信息和共现相关信息进行结合的方法更能充分、准确地度量关键词之间的相关性,为改善共词分析效果提供了支撑。
4.4.2 关键词聚类效果对比
层次聚类是共词分析中使用最多、研究最为充分的聚类算法之一[57],近年来也常被作为经典的共词聚类方法开展对比实验[10]。将4.3节中构建的核心关键词共现相关矩阵E(74×74)转化为相异矩阵,导入SPSS 25.0,采用层次聚类法进行聚类分析,聚类方法选择“组间连接”,度量标准选择“区间:平方欧几里得距离”,最终将74个关键词聚成了8类。生成的聚类树状图如图6所示。
从图6层次聚类结果来看,其聚类粒度过粗,一方面导致类团信息质量较差,以类团1为例,该类团下的关键词“手卫生”“多重耐药菌”和“呼吸机相关肺炎”等内涵差异较大,导致难以准确解读类团的具体研究主题,类团6和类团8也存在类似的问题;另一方面造成不同类团下的词汇数量极度不平衡问题,导致存在一些不必要或无意义的聚类簇团,例如,类团7下的关键词“慢性丙型肝炎”和“基因型”并不具备成团含义。此外,层次聚类结果中一个关键词只能属于特定的一类,这种硬聚类方法无法揭示类团之间的联系。
在FCM模糊聚类结果中,本文采用UCIENT和NetDraw软件绘制模糊聚类结果的网络拓扑图,来直观地揭示研究热点及其之间的联系,如图7所示。图中箭头的指向为各个聚类中心,箭头上的数字代表该关键词与所指向类团的隶属度大小。
从图7可以看出,FCM模糊聚类下每个类团主题清晰,不同类团下词汇数量均衡,类团内部信息质量高、含义充分,且不同类团间存在主题上的关联。例如,类团4和类团5通过关键词“流行病学”建立了联系,表明针对以新型冠状病毒肺炎、艾滋病及手足口病等为代表的新发突发传染病和疑难感染病进行有效的诊疗和预防,是近年来该领域研究的着力点[54];同时,类团6、类团7和类团8通过关键词“药敏试验”“病原菌”建立了联系,表明针对条件致病菌进行耐药表型及基因型分析是目前检测病原菌耐药机制的重要方法[58]。
图7 FCM关键词模糊聚类网络拓扑图
相比于传统的层次聚类算法,FCM模糊聚类下10个聚类簇团的研究主题不仅具体准确,而且彼此之间具有较好的区分性。同时,类团之间通过关键词的主题归属多元性建立了的联系,丰富了类团所能表达的含义,进一步凸显了模糊聚类方法的优越性。
5 结语
针对已有共词分析方法中存在的度量词对相关性时忽略词汇间的语义关联、硬聚类算法使词汇主题归属单一化等问题,本文提出基于语义关联与模糊聚类的共词分析方法。通过引入深度学习思想和模糊理论,一方面,基于fastText词嵌入模型对抽取的领域核心关键词学习语义向量表征,将词对的语义关联信息和共现相关信息进行结合构建语义加权共词矩阵,弥补仅以共现频次难以准确度量词对相关强度的不足;另一方面,采用模糊C均值聚类算法,结合因子降维对语义加权共词矩阵进行关键词模糊聚类,实现词汇主题归属的多元性,进而提高聚类结果划分的质量,揭示聚类簇团之间的联系。最后,本文以“感染性疾病学和传染病学”类期刊文献开展实证分析,从多个方面验证了本文所提方法的有效性和优越性,揭示了感染性疾病学科近5年的10个研究热点及其联系。
本文的不足之处在于,因为FCM聚类算法的效果依赖于随机选择的初始聚类中心,所以如何选定初始聚类中心以避免聚类结果的不稳定性是后续研究重点。另外,还可以探索不同语义关联分析方法是否有助于提升语义加权共词矩阵的构建效果。