APP下载

基于图卷积半监督学习的论文作者同名消歧方法研究

2022-01-04盛晓光

电子与信息学报 2021年12期
关键词:消歧语义卷积

盛晓光 王 颖 钱 力③ 王 颖

①(中国科学院大学人工智能学院 北京 100049)

②(中国科学院文献情报中心 北京 100190)

③(中国科学院大学图书情报与档案管理系 北京 100190)

1 引言

作者姓名歧义一直是国内外出版界和学术界的难点问题。近年来科学论文数量呈指数级增长,重名现象越来越严重,特别是名称缩写、拼音一音多字等问题影响着文献检索系统以及学术评价的准确性。为消除歧义,许多研究机构提出了人名标识系统以期通过唯一标识来区分作者,如开放研究者与贡献者身份识别码(Open Researcher and Contributor IDentifier, ORCID)[1]、Thomson Reuters的ResearchID[2]等。然而,人名标识系统的应用范围有限,大量科学出版物中并未明确标注作者身份识别码。因此,通过自动化方法解决论文中作者歧义问题仍然是同名消歧的主要手段,也是国内外学者的研究热点之一。常用的作者消歧方法往往将问题转化为机器学习的聚类问题或分类问题,如利用SVM[3]、层次聚类[4]、谱聚类[5]等机器学习算法进行处理。随着深度学习技术的发展,越来越多研究人员采用网络嵌入方法(Network Embedding)进行作者同名消歧[6,7],从论文数据中抽取特征以便于聚类或分类任务。此外,具有表征学习能力的卷积神经网络(Convolutional Neural Networks, CNN)快速发展,在计算机视觉[8,9]、自然语言处理[10]等领域都取得了巨大成功,而图卷积神经网络(Graph Convolutional Network, GCN)由于能够有效处理具有丰富关系结构的任务,常用于处理图节点表示学习、图节点分类、边预测、图分类等问题[11-14]。鉴于此,本文提出了一种基于图卷积半监督学习的论文作者同名消歧方法,融合作者、机构、题目、关键词等论文属性信息,借助BERT语义表示方法和图卷积神经网络,探索作者消歧方法,以提高作者与成果的匹配效果。

2 相关研究

Zhang等人[6]将当前同名消歧的研究方法分为两类:基于特征的消歧方法和基于连接/图的消歧方法。

基于特征的消歧方法应用较早,根据文档的特征向量学习文档之间的距离函数,将相近的特征向量归入相同类别,实现同名消歧。Huang等人[15]提出了一个有效的综合框架来解决名称消歧问题,分别利用Blocking技术检索具有相似名称作者的候选类,使用在线主动选择支持向量机算法(LASVM)计算论文之间的距离度量进行DBSCAN聚类。Yoshida等人[16]提出一种基于bootstrapping的两阶段聚类算法来改善低查全率,其中第1阶段的聚类结果用于提取第2阶段聚类中使用的特征。Han等人[3]提出了基于SVM和贝叶斯网络的有监督消歧方法,利用论文合作者、题目出版物名称等特征对同名作者进行消歧。Zhu等人[17]使用多层聚类的方式进行同名消歧,如分别利用Email信息、论文合作者、论文题目等进行动态的作者聚类。

基于连接/图的消歧方法利用图的拓扑结构或者聚合来自邻居节点的信息,例如Fan等人[18]提出了一种仅使用合作者关系的同名消歧框架GHOST,通过合作关系构造图,根据图中待排歧作者间有效路径的数目和长度计算相似度,再对相似度矩阵聚类实现同名消歧。Tang等人[19]利用隐马尔可夫随机域对统一概率框架下的节点特征和边特征进行建模。Zhang等人[7]提出一种基于网络嵌入的解决方案,构建作者-作者、作者-论文、论文-论文3个图,利用各种匿名网络的链接结构,将每个文档表示为低维向量空间,以解决名称消歧任务。Hermansson等人[20]提出了一种基于局部邻域结构的匿名图实体消歧方法,基于局部邻域结构利用Graph Kernels计算图中节点之间的相似度,并用SVM执行分类任务。Zhang等人[6]采用结合全局监督和局部上下文的表示学习方法,采用该技术的名称消歧模块应用在AMiner系统中能够高效处理十亿级规模的消歧问题。

本文结合两种消歧方法的优势,一方面利用论文文本属性信息如题目、关键词等计算语义特征向量,再通过合作关系和同机构关系构建论文网络,将卷积用于图结构进行半监督学习,达到作者消歧的目的。

3 基于图卷积半监督学习的作者同名消歧方法

图卷积神经网络是一种最为典型的图神经网络。图卷积半监督学习利用卷积操作将节点的特征向量和节点间的图结构结合在一起,节点的特征向量每经过1次图卷积操作,就通过图结构利用临近节点更新自己的特征向量,从而使相似的节点具有相似的特征向量[21]。此过程适用于作者同名消歧任务,待消歧论文通过相互关联构建网络并通过图卷积网络不断更新特征向量实现论文聚类任务。

基于这一思路,本文提出一种基于图卷积半监督学习的作者同名消歧方法框架如图1所示。首先,将论文的题目、关键字作为文本输入预先训练好的SciBERT模型得到每篇论文的语义表示向量;其次,利用论文的作者和机构信息构建论文合作网络与机构关联网络,分别获得邻接矩阵;然后,从论文合作网络中采集伪标签,获得正样本集和负样本集;将待消歧论文的BERT语义向量、论文合作网络和论文机构关联网络以及正、负样本集作为输入,利用图卷积神经网络进行半监督学习,获得论文最终节点向量;最后使用层次凝聚类算法将论文节点向量聚类划分,实现对论文作者同名消歧。

图1 研究框架

3.1 基于BERT预训练模型的论文语义表示

由于研究人员在一段时间内的研究方向相对稳定,论文的题目、关键词、摘要、出版物名称等文本特征也可用于表征作者的研究内容并用于区分从事不同研究的同名作者。目前,广泛使用的文本向量构建方法包括n-gram, NNLM, word2vec等。2018年Google发布了BERT预训练语言模型[22],在自然语言处理的11个任务上大幅刷新了精度。随后,Beltagy等人[23]推出了专门为科学论文训练的SciBERT预训练语言模型,更适用于科学论文的自然语言处理任务。为充分利用论文文本特征,本文将论文的题目、关键词作为文本输入,利用SciBERT模型得到每篇论文的语义表示向量。

设每篇论文的题目和关键词拼接获得的句子输入为d,则B E R T 输入为[CLS,d,SEP],C L S 和SEP标识符分别作为句子的起始符和分隔符,经过分词获得句子的token序列{tok1,tok2,...,tokN},依次输入到BERT模型中。BERT以双向Transformer的Encoder作为模型的基本组成单元(如图2中BERT层),能够联合所有层中左右两个方向的上下文信息进行训练,利用多头注意力机制进行更多层面的特征提取,最后得到含有丰富语义特征的序列向量,即输出为该论文的语义表示向量,设为dS,向量维数为BERT的默认隐含元个数768,记为H。则待消歧同名作者论文集合的语义表示向量矩阵XH×K=(dS1,dS2,...,dSK),其中dSi为第i篇论文的语义表示向量,K为论文的数量。

图2 基于BERT预训练模型的论文语义表示

3.2 论文合作网络和机构关联网络构建

为获得同名作者论文之间的关联信息,本文分别构建论文合作网络}ca和论文机构关联网络}ci,如图3所示。

图3 论文合作网络和机构关联网络

定义1:论文合作网络}ca=表征论文节点之间的合作关系,其中P表示网络中节点集,节点类型为论文,α表示节点之间的合作关系边集合,如果论文节点P1和P2之间的待消歧作者的共同合作者数量大于1,则定义这两个论文节点在论文合作网络中存在边a12。

定义2:论文机构关联网络}ci=表征论文节点之间的机构关联关系,其中P表示网络中节点集,节点类型为论文,i表示节点之间的机构关联边集合,如果论文节点P1和P2的作者存在相同的所属单位则这两个论文节点在论文机构关联网络中存在边i12。

由此分别构建了论文之间的无权无向图 gca和gci,用Aca和Aci分别表示论文合作网络和论文机构关联网络的邻接矩阵。

为了得到GCN训练的初始标签数据,本文利用已构建的论文网络采集伪标签。通过对比合作关系和机构关联关系,可以发现存在相同合作者的同名作者为同一人的概率相比同机构而言更大,为此从论文合作网络 gca中采集伪标签。具体做法为定义集合eij ∈ξ+为图gca存在的边集合,即边eij在图gca的邻接矩阵中为1。同时随机采样同等数量不存在的边集合eij ∈ξ−,即eij在图gca的邻接矩阵中为0。将ξ+作为正样本集,ξ−作为负样本集。

3.3 图卷积半监督节点表示学习

通过上述步骤分别获取了待消歧论文的BERT语义向量、论文合作网络和论文机构关联网络以及正、负样本集。在此基础上,使用图卷积半监督方法进一步学习每一个论文的节点表示。设图卷积神经网络的输入特征为BERT语义表示向量X、论文合作网络邻接矩阵Aca、论文机构关联网络邻接矩阵Aci。

对于论文合作网络gca,记A˜ca为正则化的邻接矩阵,两层的图卷积表示为

为了更好地保留论文数据语义信息的作用,本文添加了一个全连接层,对BERT语义表示向量X进行映射,获取其语义的表示向量

其中,U为全连接层的参数,Zbe为基于BERT语义表示的节点嵌入表示。

由此获得了3个方向节点嵌入表示Zca,Zci和Zbe,融合这3个方向的节点嵌入表示作为最终的论文节点向量进行半监督学习

其中,β1,β2和β3分别是权重参数,本文选择权重分别为0.001,1,3。

半监督学习的目标是最小化正样本集中节点连接的距离,同时最大化负样本集中节点对的距离,损失函数定义为

其中,d(·)为距离函数,采用欧氏距离计算,lam为调和参数。

对上述获得整体的节点嵌入向量Z,使用层次凝聚类算法对图中的n个论文进行聚类。层次凝聚类算法是一种凝聚型的聚类方法,相对于划分型的聚类方法更侧重于保留节点间已存在的相似性,而不至于忽略一些不够显著的关联,适用于本文提出的作者消歧方法。

3.4 算法流程

基于上述研究框架和具体方法,本文设计了如表1所示的实现算法,以同名作者的论文集合为输入,执行算法后输出这些论文的聚类集合。

表1 基于图卷积半监督学习的作者同名消歧算法

4 实验结果

4.1 实验数据

由于学术论文来源不同,论文元数据信息往往存在缺少或不规范的情况。对于规模比较大的高校,不同分支机构甚至同一分支机构往往存在中英文同名学者。此外,部分学术数据服务商还将一些不同分支机构(如A大学计算机学院、A大学人工智能学院等)的数据统一处理为“A大学”,进一步加大了同名消歧的难度。为此,本节以从公开学术数据库获得的某高校论文数据为实验数据,对本节提出的方法进行实验验证。通过与该高校教育管理数据对比,待消歧的作者姓名数据集中,包括856个校内同名导师姓名(实际对应2285名导师)、52个同分支机构同名导师姓名(实际对应108名导师)。从中随机选取20个待消歧作者(实际对应96名导师)作为测试集(表2)。

表2 待消歧作者测试集

20个待消歧作者的论文量共计3753篇,包括中文论文2473篇,英文论文1280篇,部分中文论文包含英文元数据,具有英文题目的论文合计2921篇。在实验前,对待消歧论文进行预处理,将中文姓名统一为英文姓名,利用机构规范库将中文机构统一为英文机构名,区分中英文题目、摘要、关键词、出版物名称,使用百度通用翻译API1)将中文翻译为英文,并统一处理缩写、停用词、特殊字符等。

4.2 实验结果与分析

本文实验开发环境为Python3.6, CUDA 10.01,使用PyTorch 1.1.0, Transformers 2.1.1,Gensim 3.8.1, Numpy 1.18.1等工具。硬件环境为Intel Xeon十核处理器、64GB内存、NVIDIA Geforce RTX 2080Ti显卡。

4.2.1 与其他方法对比分析

为综合评价本文方法,分别与匿名图网络嵌入消歧方法[7]、多维网络嵌入消歧方法[24]以及基于合作者和共现关键词等规则的基础消歧方法进行比较。选用常用的Pairwise Precision, Recall,F1-score作为评估指标,实验结果如表3所示。

从表3可以看出,本文方法在20个待消歧作者的11个子任务中都取得了最优效果,并且在所有子任务的平均指标上也取得了最优效果,F1值相比其他3种方法分别提升了3.57, 2.7和32.98。匿名图网络嵌入消歧方法在子任务(Jia Liu, Jie Liu, Jun Liu, Yunshan Wang, Xu Zhao)中消歧效果更优。多维网络嵌入消歧方法在子任务(Wei Li, Bin Wang, Lin Wang, Ming Zhu)中消歧效果更优。

表3 对比实验结果(%)

从待消歧论文规模上比较,本文方法在论文量较大的任务(如Tao Zhang, Jun Yang, Ming Li)上效果好于其他方法。而在论文量较小的任务 (Wei Li, Jia Liu, Jie Liu, Yunshan Wang, Lin Wang,Xu Zhao, Ming Zhu)上匿名图网络嵌入消歧方法和多维网络嵌入消歧方法的效果稍优,本文方法次之。

从待消歧类别上比较,歧义类别较多的几组任务Ming Li, Peng Zhang, Tao Zhang上,本文方法较优,而匿名图网络嵌入消歧方法在消歧类别较少任务Jia Liu, Jie Liu, Yunshan Wang上更优,多维网络嵌入消歧方法在消歧类别较少任务Wei Li, Lin Wang, Ming Zhu上更优,本文方法在消歧类别较少的Tao Huang子任务上效果更优。

综合比较论文规模和消歧类别上各任务的消歧效果,本文方法的适应性更强,所以综合表现最好,表明其具有良好的细粒度区分能力和数据规模处理能力。

4.2.2 组件贡献分析

为评估本文使用模型各组成部分在聚类中的作用,分别仅利用BERT模型计算论文节点的语义表示向量进行聚类,设定语义向量为0并且仅使用图卷积网络计算合作者和机构关系进行聚类,以及综合使用两个组件,即利用图卷积网络对节点向量优化后进行论文聚类,对比结果如表4所示。

表4结果显示如果仅用文本语义表示向量表示论文,聚类结果平均F1值为57.03,而利用图卷积网络利用合作关系和机构相似关系进行优化后,平均F1值提升了24.51。如果仅使用图卷积网络计算合作者和机构相似网络进行消歧,平均F1值为75.76,相比仅使用文本语义表示向量表示论文,提升效果显著,这说明联合使用合作关系和机构关联进行图卷积学习对于作者同名消歧的贡献度高于论文本身的文本特征。

表4 组件聚类结果对比(%)

4.2.3 论文文本语义表示分析

为评估采用不同语言模型进行论文文本语义表示的消歧效果,本文在实验数据集上分别使用Word2Vec模型、Google的BERT-base-uncased基础预训练模型和BERT-base-multilangual-uncased多语言预训练模型、哈工大的中文BERTwwm-Chinese预训练模型以及科学论文SciBERT模型开展实验,对比结果如表5所示。从Word2Vec,BERT-base-multilangual-uncased, BERT-wwm-Chinese 3个模型针对原始中英文论文题目和关键词进行语义表示的实验可以看出BERT-base-multilangual的执行效果较好。而对比BERT-base-uncased和SciBERT模型针对论文原有和翻译后的英文题目、关键词的实验显示SciBERT模型的执行效果较好,并且整体性能最优。

表5 使用不同文本语义表示模型的消歧结果对比(%)

此外,为评估论文文本属性对消歧效果的影响,分别针对题目、关键词、摘要、出版物名称的联合使用进行实验,实验结果如表6所示。从实验结果可以发现利用题目和关键词的消歧效果要高于其他,尽管摘要存在更多的信息,但也同时带来了干扰,而题目和关键词含有的领域主题词密度更高,因而效果更好。

表6 针对不同文本内容的消歧结果对比(%)

4.2.4 特征权重分析

在图卷积神经网络训练中,最终节点嵌入表示向量融合了合作关系、机构关联、语义表示3个方向的节点嵌入表示,如公式(4)。其中每一个方向的向量使用权重参数β1,β2和β3。通过组合不同的特征权重进行对比实验,选择一组最优组合,实验结果如图4所示,当β1=0.001,β2=1和β3=3时消歧效果最好。

图4 权重组合性能对比

在调参过程中可以发现β1相比其他两个权重对性能的影响更大。如图5所示,在Liang Wang,Tao Zhang, Ming Li和Feng Zhao 4个子任务,β1从1下降到0.01过程中查准率提升明显,并且在0.001时达到最优。β1参数跨度较大的原因在于同一个人的合作者较少或存在缩写名称相同的合作者,查准率降低。而式(5)中损失函数调和参数lam的对比实验结果如图6所示,当lam=0.6时性能最优。

图5 β1权重调节查准率对比

图6 调和参数lam对比实验结果

5 结束语

本文提出一种基于图卷积半监督学习的论文作者同名消歧方法,利用图卷积神经网络在图半监督学习方面的优势解决作者同名消歧问题。该方法一方面利用了论文中表示研究主题的题目和关键字计算论文语义表示向量,另一方面利用论文的作者和机构信息构建论文之间关系网络,将论文语义表示向量和网络邻接矩阵作为图卷积神经网络的输入开展半监督学习,通过合作网络中采集的伪标签获得正样本集和负样本集计算每次训练的损失函数,经过深度学习获得论文节点的嵌入表示向量进行聚类。

通过对比实验可以发现本文方法相比其他方法可以取得更好的消歧效果,在不同论文规模和消歧类别上的适应能力和处理能力更强。本文还对比了文本特征语义向量计算、论文合作/机构关系网络图卷积学习两个组件的贡献,不同语义表示模型、文本元素以及特征权重对消歧效果的影响,探究本文方法各个组成部分的影响,以期为进一步研究和改进提供参考。

本文研究也存在一些不足:(1)由于本文研究面向科教大数据融合的具体应用,尚未在常用测试集如DBLP, Arnetminer, CiteSeerX等上开展实验;(2)本文方法仅从合作网络随机采集伪标签,伪标签的学习以及影响分析有待于进一步研究和实验;(3)本文方法的执行效率有待进一步优化,以实际应用于大规模数据融合中。这几方面也成为接下来研究的重点。

猜你喜欢

消歧语义卷积
基于关联图和文本相似度的实体消歧技术研究*
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于半监督集成学习的词义消歧
语言与语义
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
一种基于卷积神经网络的性别识别方法
基于语言模型的有监督词义消歧模型优化研究