基于学术关键词与共被引的学者推荐研究
2021-08-23熊回香李晓敏
熊回香,李晓敏,杜 瑾
(华中师范大学信息管理学院,武汉 430079)
1 引 言
近年来,大数据时代已经渗透到学术界,使得学术界产生了大量的学术数据[1]。学术数据如学术论文、学位论文、会议论文、基金项目、专利以及学者信息等,均成为相关研究如学术合作[2]、学者推荐[3]、论文推荐[4]等重要数据来源。学术数据的实体主要是学者和论文,学者数据有学者的基本属性,如所属机构、联系方式、研究方向等;论文数据有关键词、摘要、题名、全文等文献元数据以及论文反映出的合作、引用关系等,通过对这些学术数据进行分析挖掘展开学术研究。而且学术数据也为科研用户查询和了解自己感兴趣的学者提供了便利。然而,随着科研用户和科研成果数量的增加,不可避免地出现了学术数据信息过载的现象,这无疑增加了科研用户的负担,而科研用户由于诸多条件(如时间、空间等)的限制,难以在有限的条件下方便、快捷地找到与自己兴趣相同的科研用户,以便从中获取感兴趣的资源或寻求潜在合作者。因此,对挖掘学者需求、为学者推荐研究领域相似的学者的研究越来越成受到情报学领域的关注。
2 相关研究工作概述
目前,关于学者推荐的研究,主要集中在基于研究内容的推荐和基于关系网络的推荐。在基于研究内容的推荐中,主要是运用LDA(latent Dirichlet allocation)主题模型以及其改进模型、向量模型、概率模型等对学者的学术文本进行挖掘,找到研究内容相似的学者。文献[5]对作者-关键词耦合网络进行社区划分,在同一个社区内,利用LDA模型计算作者相似度,完成科研合作推荐;文献[6]利用在LDA模型基础上改进的AT(author-topic model)模型分析专家知识结构,并与学术影响力结合,实现专家推荐;文献[7]提出了LDA模型改进后的跨领域主题学习模型CTL(cross-domain topic learning)实现学者推荐;文献[8]对作者论文进行稀疏分布式表征,根据相似性排序进行推荐;文献[9]借助概率模型实现专家推荐,并且在实验数据集上进行了有效性验证。在基于关系网络的推荐中,包括基于合著网络、引文网络、关键词网络或者多种网络结合的推荐。文献[10]利用网络表示学习在合著网络中对研究者进行向量表示,计算相似度从而实现推荐;文献[11]针对大规模的科研合作网络,提出了一种融合节点位置信息和网络结构信息的科研合作推荐模型;文献[12]利用论文间的引用与被引用关系构建学者推荐模型;文献[13]构建共引网络,基于共引频次越高的作者研究内容越相似的思想生成推荐;文献[14-15]利用作者与关键词之间的共现关系计算作者的相似度,生成学者推荐;文献[16]构建了作者-关键词二分网络上,基于路径组合的合著关系预测;文献[17]利用表示学习和欧几里得距离对多种共现网络进行向量表示和关联强度计算,挖掘潜在合作对象。目前,相关研究在利用关键词进行学者推荐时,主要利用关键词的关系网络进行推荐,单纯使用绝对共现关系,未考虑关键词之间的语义关联,会导致使用不同关键词但研究内容相似的学者计算出的相似度较低,推荐结果不够准确。在利用共被引或者共引关系计算学者相似度推荐学者时,未考虑引用或被引用的相对位置,单纯地使用频次表示引用强度,会弱化研究方向极其相似的学者间的相似度,提升研究方向相关性较弱的学者间的相似度。因此,本文在利用关键词进行学者推荐时,考虑了关键词之间的语义关联,并将被引量和署名次序两个计量指标引入学者特征词的筛选中,将共被引关系按照共被引的相对位置划分不同的层次。两种方式计算的相似度进行整合,实现学者推荐。
3 基于学术关键词和共被引的学者推荐模型架构
3.1 学者推荐模型总架构
本文构建的推荐模型包括数据收集、数据预处理、基于学者特征词的相似度计算、基于学者共被引关系的相似度计算和学者推荐共五个部分。具体的模型框架如图1所示。
图1 学者推荐模型框架
本文构建的推荐模型核心是学者相似度的计算,学者相似度计算包括两部分,分别是基于学者特征词的相似度计算和基于学者共被引关系的相似度计算。在基于学者特征词的推荐中,学者特征词是通过对学者关键词筛选得到的,将被引量和署名次序这两个计量指标与TF-IDF(term frequency-in‐verse document frequency)算法结合,对学者关键词进行筛选,选择权重值靠前的关键词作为学者特征词;利用word2vec词向量模型将特征词向量化形成特征词向量;再利用余弦相似度计算学者间基于特征词的相似度,形成学者间相似度集合A。在基于共被引关系的推荐中,考虑学者共被引的相对位置关系,将共被引分为四个层次,不同层次赋予不同的权重,构建学者共被引矩阵;再计算学者间Spearman相关系数作为学者基于共被引关系的相似度,形成学者间相似度集合B。将学者相似度集合A与学者相似度集合B按照一定的权重整合,形成组合相似度,最后选择组合相似度靠前的n位学者实现学者推荐。
3.2 基于学者学术成果的相似度计算
学者发表的论文最能反映其研究兴趣和专长,而学术论文的关键词是对论文内容的高度概括,因此,学者的研究兴趣可通过其发表论文的关键词集合进行表征。在利用关键词进行学者兴趣表征时,需要对关键词进行筛选,选择权重较大的关键词。本文在计算关键词权重时,首先,将被引量与署名次序这两个计量特征以及TF-IDF算法识别的内容特征结合进行权重计算,得到学者特征词;其次,利用word2vec模型向量化表示;最后,利用余弦相似度计算学者特征向量的相似度,生成相似度集合A。
3.2.1 学者特征词选择
1)基于计量指标的关键词权重计算
论文被引量和署名次序通常被用来评估学者的影响力,被引量反映的是学者学术成果的质量以及被同行认可的程度;署名次序反映的是作者对论文的贡献程度,一般认为作者排名越靠前,贡献度就越大。论文关键词侧重于对论文内容的高度凝练,在利用关键词对学者进行表征时,融入被引量和署名次序两个计量指标。某篇论文被引量越大,作者在该篇论文反映的研究方向上越有影响力。融入被引量能够更好地识别学者擅长的特征词。署名次序能够削弱位置靠后的作者对论文的贡献度。同样地,融入署名次序减弱了“挂名现象”给学者特征词识别带来的影响,能够更准确地识别学者特征词。计算方式为
其中,i表示学者的论文序号;Wtij表示第i篇论文的第j个关键词计量权重;n表示学者的发文量;fi表示第i篇论文的被引量;ki表示学者在第i篇论文的署名次序。计算得到每篇论文的每个关键词权重之后,可能会出现同一关键词出现在同一学者的不同论文中的情况,此时,将相同关键词权值进行累加求和,得到各个关键词的计量权值。
2)基于内容的学者特征词
TF-IDF算法是一种较为常见的权值计算方法,从学者关键词集合的内容特征上识别学者特征词。TF表示词频,IDF表示逆文档频率,TF-IDF用来计算学者关键词集合中某个关键词的权值。计算方法为
其中,i表示学者关键词序号;Wt i表示关键词ti内容权重;tf(ti,d)表示关键词ti在学者关键词集合d中出现的频次;|D|表示学者论文数;df(ti)表示学者论文数中包含关键词ti的论文数。
3)学者特征词筛选
将基于计量指标计算得到的关键词权重和利用TF-IDF算法计算得到的关键词权重按照
进行整合,得到最终的关键词权重。将关键词按照整合后的权重值进行排序,取排名靠前的20个关键词作为学者特征词。
3.2.2 学者特征词表征及相似度计算
在得到学者特征词之后,需要将特征词转换成向量。传统的独热表示(one-hot representation)仅仅将词符号化,不包含任何语义信息,构建的词向量矩阵比较稀疏;而基于神经网络的分布式表示可以根据上下文与目标词之间的关系进行建模,具有代表性的是word2vec模型[18]。word2vec通过神经网络训练语言模型,将每个词映射为低维度的实数向量。word2vec模型包括skip-gram模型和CBOW(contin‐uous bag-of-words model)模型。skip-gram根据目标词推断上下文,适合处理较大规模的语料;而CBOW则与之相反,已知上下文预测当前词,适合处理较小规模的语料。由于本文语料规模较小,因此,选择CBOW模型进行训练。模型训练好之后,将学者特征词转换成词向量,对词向量相加取平均,即可得到学者的特征向量。在得到学者特征向量之后,利用余弦相似度公式计算学者间的相似度,得到学者间基于特征词的相似度,形成相似度集合A。
3.3 基于学者共被引关系的相似度计算
当两位作者的学术论文同时被同一篇论文引用时,称这两位作者间存在共被引关系。能够形成共被引关系,说明两位作者在某个研究主题的概念、理论和方法上是相关的。因此,通过挖掘作者间的共被引关系,能够帮助作者找到研究方向相似的作者,从而形成学者相似度集合B。
共被引研究的是两位学者共同被引用的情况。传统的学者共被引分析构建的学者共被引矩阵是0-1矩阵,即如果两位学者同时被一篇文献引用,那么共被引矩阵中填写1;反之,则为0。传统的学者共被引分析未考虑共被引的相对位置距离。本文借鉴文献[19]提出的基于位置的共被引分析,将共被引的位置分为句子层、段落层、章节层和文章层四个层次,依次赋值为4、3、2、1。若同一作者的同一篇文献在同一篇文章中多次出现,则取相对位置最近的赋值;若同一作者的多篇文献在同一文章中出现,则仍取相对位置最近的赋值;若两位及两位以上作者的多篇文献在同一文章中出现,则仍取相对位置最近的赋值。三种情况下各自的权值均不进行累加。得到学者共被引矩阵之后,利用Python代码计算学者间的Spearman相关系数。
3.4 相似度整合
上文中得到学者间基于特征词的相似度集合A和基于共被引关系的相似度集合B,将两种相似度以一定的比重相加,得到最终的学者相似度,选择最终相似度靠前的15位学者进行推荐。整合方式为
其中,Sim表示整合后的相似度;Simitem表示基于特征词的相似度;Simcit表示基于共被引关系的相似度。
4 基于学术关键词和共被引的学者推荐实证研究
4.1 数据收集
由于本文需要用到的数据包括论文篇名、作者、机构、关键词、摘要以及参考文献,因此,以CSSCI(Chinese Social Sciences Citation Index,中文社会科学索引)数据库和CNKI(China National Knowledge Infrastructure,中国知网)为数据源进行数据收集。对比CSSCI来源期刊目录(2014—2016)、(2017—2018)及(2019—2020)可知,情报学领域中的《现代情报》和《信息资源管理学报》在CSSCI来源期刊目录(2014—2016)中均不是核心期刊,而本文期刊数据来源的时间周期为2014—2018年,《现代情报》和《信息资源管理学报》从CSSCI数据库中导出的数据不完整,因此,从CSSCI来源期刊目录(2019—2020)情报学领域12种核心期刊中,除去《现代情报》和《信息资源管理学报》,选取其余10种核心期刊《中国图书馆学报》《情报学报》《图书情报工作》《数据分析与知识发现》(2016年改名)、《情报理论与实践》《情报资料工作》《情报科学》《情报杂志》《图书与情报》和《图书情报知识》在2014—2018年5年间刊载的论文,CSSCI数据库自动导出论文篇名、作者、机构、关键词以及参考文献,CNKI自动导出论文的摘要。
4.2 数据预处理
从上述数据库导出的数据会包含一些没有参考文献的文章,如专题引言、专题序、卷首语等,故将其进行删除。对导出的其余数据需要进行如下处理:首先,对导出的摘要利用Python中jieba分词包进行分词,分词过程中,加入哈工大停用词表,过滤掉无实际意义的词,且为保证能够正确切分,将涉及的专有名词加入用户自定义词典;其次,对导出的关键词进行规范化处理,包括错别字纠正、中英文及大小写转换、同义异形词统一形式,如《知网》转换为Hownet,folksonomy转换为Folksonomy,主成分分析方法、主成分分析法统一为主成分分析。再次,对同名作者进行消歧。主要工作是针对同名不同机构的作者,根据作者简介中的ORCID、E-mail、出生日期、研究方向等信息来判断是否为同一人;最后,将5年间发表论文数大于等于15篇的作者确定为核心作者,共确定169名核心作者,对169名核心作者需要获取的数据有发表论文数量、篇名、署名次序、被引量,被引量需要人工手动获取。经处理后得到的论文数据为:11046篇论文及其关键词、摘要、参考文献,具体如表1~表3所示。
表1 核心作者及其论文
表3 论文及其参考文献
4.3 基于学者学术成果的相似度计算
4.3.1 学者特征词选择
1)基于计量指标的关键词权重计算
融入论文被引量和作者署名次序两个计量指标对学者关键词计算权重,利用公式(1)进行计算,得到核心作者基于计量指标的关键词权重。
2)基于内容的关键词权重计算
TF-IDF算法从内容上对学者关键词进行权值计算,利用公式(2)进行计算得到核心作者基于内容的关键词权重。
3)学者特征词筛选
将利用公式(1)和公式(2)分别计算得到的关键词权重,按照公式(3)进行整合,得到最终的关键词权重。
将每位学者的关键词按照整合后的权重值进行排序,取排名靠前的20个关键词作为学者特征词,如表4所示。
4.3.2 学者特征词向量表示
以表2中得到的经过规范化处理的关键词和分词后的摘要作为语料,词向量维数size设为100,window设为5,最低频率min_count设为1,进行模型训练。模型训练好之后,将表4中的学者特征词转换成词向量,对词向量相加取平均,则得到学者的特征向量。
表2 论文及其关键词、摘要
表4 学者特征词
利用余弦相似度公式计算学者间的相似度,得到学者间基于特征词的相似度,形成相似度集合A,如表5所示。
表5 学者间特征词相似度
4.4 基于学者共被引关系的相似度计算
基于第2.3节中的计算方法,首先构建学者共被引矩阵,然后计算学者间的Spearman相关系数作为学者间共被引相似度,如表6所示。
表6 学者间共被引相似度
4.5 相似度整合
为确定公式(4)中α和β的值,α取值范围设为0~1,β取值范围设为1~0。α=0、β=1表示的是仅基于学者共被引关系的推荐;α=1、β=0表示仅基于学者特征词的推荐。在推荐总数为15的前提下,设置精确率、召回率和F值,对不同取值的结果进行评价,确定α和β的最佳值。在本文研究的数据范围内,有42位核心作者的合作者不在本文所确定的169位核心作者中,因此,在计算精确率、召回率和F值时,仅用剩余127位核心作者对本文的推荐模型进行评价。精确率(precision,P)计算方式为:首先,在推荐的15位学者中,是否返回学者曾经合作过的学者,若返回,则为1;反之,则为0。其次,把返回值为1的学者个数占总学者个数的比值作为精确率。召回率(recall,R)的计算方式为:在推荐的15位学者中,学者曾经合作过的学者数量与学者全部合作过的学者数量的比值作为召回率,将每位学者的召回率求和取平均作为某个α和β取值下的召回率。不同α和β的精确率、召回率和F值如表7所示。
表7 不同α和β取值下的精确率、召回率和F值
由表7可知,当α=0.9、β=0.1时,精确率、召回率和F值均是最高,推荐效果最佳。因此,本文确定α值为0.9,β值为0.1。
5 模型比较与评价
5.1 基于学者关键词的相似度计算比较
在基于学者特征词计算相似度时,本文利用被引量、署名次序两个计量指标与TF-IDF进行特征词筛选,再利用word2vec得到特征词向量进行学者间相似度计算。为了验证该算法的优势,将本文所提算法与基于TF-IDF算法计算的学者相似度结果进行对比。利用TF-IDF算法计算学者相似度,选择相似度靠前的15位学者,和本文所提算法的计算结果进行对比。在不同算法生成的结果中,若目标学者曾经合作过的学者数目占比过高,则说明模型的有用性较低。因此,设置指标C进行对比评价。C的计算方法为
其中,C表示不同计算方法下的已合作学者平均占比;N表示核心作者数;ni'表示第i位学者曾经合作过的学者总数;ni表示相似度靠前的15位学者中第i位学者曾经合作过的学者数。
利用公式(5)计算可得,基于本文所提算法计算出的指标C的值为54.10%;只基于TF-IDF算法计算出的指标C的值为91.67%。后者曾经合作过的学者占比过高,不利于为目标学者寻找潜在的学者。单独基于TF-IDF计算学者间相似度时,曾经合作过的学者的占比变高,这是因为共同合作过的论文的关键词没有根据署名次序和被引量分配不同的权重,论文的关键词对每位作者都是等同的,从而造成由于合作而导致合作过的学者的相似度排名靠前的现象。因此,融入被引量和署名次序可以较为准确地表征学者的研究方向以及削弱合作带来的影响,帮助目标学者找到更多研究方向相同或相似的学者,更好地开展科学研究。
5.2 模型有用性评价
分别统计为每位学者推荐的15位学者中已产生合作的学者的比例和未产生合作的学者的比例,最后计算平均比例以评价模型的有用性。计算结果如表8所示。
表8 已合作和未合作比例
根据表8计算可得,为目标学者推荐的学者中,已合作的平均比例为8.98%,未合作的平均比例为91.02%。已合作的学者所占比例远远低于未合作学者比例,这说明本文所提出模型有用性较高。
以学者赵蓉英为例,在α=0.9、β=0.1的条件下,本文提出的推荐模型为学者赵蓉英推荐的15位学者如表9所示。
表9 学者推荐结果
从表9中可以看出,在为学者赵蓉英推荐的15位学者中,已产生合作的共有3位,占比20%;其余未产生合作的共有12位,占比80%。这说明本文所提出的推荐模型可以实现为学者推荐未合作过,且研究方向相似的学者的目标。除去推荐结果中与目标学者赵蓉英已合作的3位学者,在其余的12位学者中,学者谭宗颖的研究方向涉及文献计量、影响力评价、共现分析、科研合作等;学者张志强的研究方向涉及科技评价、文献计量、学术影响力等;学者魏瑞斌的研究方向涉及共词分析、文献计量、共被引分析、知识图谱等;学者余厚强的研究方向涉及替代计量学、引文分析、科学交流等;学者刘志辉的研究方向涉及文献计量、科学计量、竞争情报、知识图谱等。这表明推荐模型所推荐的学者均在计量学、共词分析、引文分析、可视化、知识图谱、学术评价等方向发表过高质量的论文,与目标学者赵蓉英的研究方向相同或相似,目标学者可以从推荐学者的研究方向中得到启发,方便、快捷地找到与自己研究方向相近的研究主题,与自身现有的学科背景知识结合,产生新的科研思路,顺利开展科学研究。
6 结 语
本文提出了一种融合学者研究内容和关系网络的学者推荐模型,研究内容是指将被引量和署名次序与TF-IDF算法结合对学者发表文献的关键词进行筛选,再进行向量化表示,并计算相似度;关系网络是指学者间基于相对位置的共被引关系,以此构建学者共被引矩阵,并计算相似度。将两种相似度以一定的权重融合,实现学者推荐。利用精确率、召回率和F值确定融合权重,以及对比单独基于学者特征词的推荐和单独基于共被引关系的推荐。研究结果表明,本文提出的融合模型效果较好,可以实现为学者推荐研究兴趣相似的学者,帮助学者更好、更快地找到同方向的学者,促进学术沟通和成果发表,提供科研帮助。本文的不足之处在于未进行全文本分析,对关键词的处理仅停留在统计特征,且关系网络仅用到共被引网络,其余合著网络或异质网络均未涉及,未来将考虑运用全文本深层次挖掘关键词之间的关系,对本方法进行改进,达到更佳的效果。