融合属性嵌入与关系注意力的跨语言实体对齐

2023-06-14苏哲晗沙宝程戴玉刚

云南大学学报（自然科学版） 2023年3期

苏哲晗，徐涛，沙宝程，戴玉刚

(西北民族大学语言与文化计算教育部重点实验室，甘肃兰州 730030)

知识图谱融合面临的一个难题是不同知识图谱对同一个现实实体往往有着不同的表示，如中文知识图谱中的“勒布朗·詹姆斯”和英文知识图谱中的“LeBron James”虽然表示形式不同，但都指向现实中的同一个NBA 球星.实体对齐能够将来自不同知识图谱的等价实体对齐到相同的真实世界身份.然而高效的实体对齐并不简单，因为现实生活中不同的知识图谱通常具有异构的模式.因此，不同知识图谱的等价实体可能具有不同的表示形式以及不同的邻域结构.

早期的实体对齐多采用基于概率模型的机器学习方法[1]，如关系贝叶斯网络模型[2]、隐狄利克雷分配(Latent Dirichlet Allocation,LDA)模型[3]以及Markov 逻辑网模型[4]等.然而，概率模型在大规模知识图谱的应用中存在很严重的效率瓶颈.随着近年来深度学习的高速发展，如今主流的实体对齐方法主要基于图神经网络(Graph Neural Network,GNN)[5]，其主要过程是通过GNN 提取每个实体的特征，将提取到的特征嵌入低维向量空间，测量候选实体嵌入之间的距离，实现实体对齐.2018 年Wang等[6]提出了基于图卷积网络(Graph Convolutional Network,GCN)的实体对齐模型，实现了对齐效果的飞跃.但是由于普通的GCN 操作于无向图上，基于GCN 的模型会忽略知识图谱的关系信息.之后Schlichtkrull 等[7]提出的关系图卷积网络(Relational Graph Neural Networks,RGCN)模型克服了无法嵌入关系信息的问题，然而由于RGCN 为每个关系都使用一个权重矩阵，使得模型的训练变得困难.2019 年Wu 等[8]提出了关系感知双图卷积网络(Relation-aware Dual-Graph Convolutional Network,RDGCN)模型，该模型在GCN 的基础上增加原始图的对偶图(图中的节点表示关系)，同时利用一个图注意力机制促进对偶图和原始图之间的交互，从而实现了关系信息的融合，提升了实体对齐的效果.尽管如此，许多实体对齐的模型却只考虑了关系的嵌入，但是知识图谱还存在大量的属性信息，有效地利用属性信息将有助于提升实体对齐的准确率.

知识图谱中除了存在关系三元组(头实体-关系-尾实体)之外，还存在数量庞大的属性三元组(实体-属性名-属性值).如在BDP15K 的中英文数据集中，就存在中文属性三元组379 684 对和英文属性三元组567 755 对，远远超过各自的关系三元组的数量.考虑到属性信息的多样性，本文通过嵌入每个实体的属性名获取属性信息，实体的属性信息的示例如表1 所示.

表1 实体的属性信息示例Tab.1 Examples of attribute information for entities

本文在改进Wang 等[6]基于GCN 的属性嵌入的基础上，结合RDGCN[8]的实体关系嵌入模型的理念，提出了融合属性信息的精简关系感知双图卷积网络(Relation-aware Dual-Graph Lite Convolutional Network fusing Attribute,RDGLite-A)模型.本文主要贡献如下：

(1)在不改变对齐效果的情况下化简了RDGCN模型，提出了RDGLite-A 模型；

(2)改进了RDGCN 没有考虑属性特征的问题，实验结果表明，RDGLite-A 模型在DBP15K 数据集上的实验效果明显优于初始的RDGCN 模型以及目前主流的实体对齐模型.

1 相关工作

1.1 基于嵌入的实体对齐早期大多数基于嵌入的实体对齐方法都采用基于TransE[9]模型学习实体嵌入和关系嵌入.传统的TransE 模型假设关系是关系三元组中从头实体到尾实体的转换，TransE将所有关系和实体嵌入到知识图谱的统一向量空间中.MTransE 模型[10]将每个知识图谱的实体和关系在各自的嵌入空间中进行编码，同时为每个嵌入向量提供到其他嵌入空间的转换.ITransE 模型[11]首先学习实体嵌入和关系嵌入，然后根据对齐种子将不同知识图谱的嵌入表示映射到联合空间中，同时使用新发现的对齐实体对更新实体的联合嵌入，进行迭代实现实体对齐.TransEdge 模型[12]根据特定的头尾实体对将关系表示上下文化，实现实体对齐.因为只能建模细粒度的关系语义，基于TransE 的方法缺点是难以保留知识图谱的全局结构信息[13].

1.2 图卷积神经网络随着GCN 引入实体对齐领域，越来越多基于GCN 的实体对齐方法出现，如今GCN 及其衍生模型成为了实体对齐领域最热门的方法.GCN 模型假设在知识图谱中指向同一现实对象的实体通常具有相似的邻居结构，基于GCN 的实体对齐方法的原理是在图上传播和聚合实体的特征和信息，以收集相邻实体的表示.

最早使用GCN 来嵌入实体特征的模型是GCN-Align[6]，其原理是通过双层GCN 学习实体的结构嵌入和属性嵌入，计算待匹配实体间的距离，实现实体对齐.虽然GCN-Align 模型相对较为简单，对齐效果仍有很大的进步空间，但该模型在当时极具开创性，也成为后续实体对齐模型比较的基线模型.

RDGCN 模型[8]通过构建关系对偶图获取关系信息，同时通过关系的注意力权值更新实体的关系嵌入，最终使实体嵌入中包含关系信息，提高了对齐的准确率.然而RDGCN 模型的关系嵌入部分包含两个关系交互层，总计4 个图注意力网络(Graph Attention Network,GAT)，模型较为复杂.

AliNet 模型[14]利用注意机制对直接邻居和多跳邻居的信息进行聚合，以端到端方式找到重要的邻居，实现高效的实体对齐.然而AliNet 模型在聚合信息时，同等地考虑了实体的所有直接邻居.事实上，并不是所有的直接邻居信息都对目标实体有积极的贡献，因此，如果不仔细选择合适的邻居，可能会引入噪声从而降低对齐的效果[15].

NMN 模型[15]为了克服AliNet 存在的不足，采用一种创新的图形采样策略识别信息最丰富的邻居，利用基于注意力的交叉图匹配机制，联合比较两个实体的判别子图，以实现健壮的实体对齐.但是NMN 需要做大量的计算寻找合适的候选邻居，带来了较大的训练开销.

此外，还有一些模型也考虑了属性信息对于实体对齐的帮助，如AttrE 模型[16]使用改进的TransE模型嵌入属性信息；魏忠诚等[17]使用变异系数筛选重要的属性信息；车超等[18]使用全连接层和高速门嵌入属性信息.参考了上述研究，本文采取GCN 和高速门实现属性信息的嵌入.

2 融合属性信息的精简关系感知双图卷积网络模型

RDGLite-A 模型整体框架如图1 所示.RDGLite-A 模型可以分为两部分：第一部分是参考RDGCN进行简化的关系结构嵌入模块，由双层GAT 与带有高速门的双层GCN 组合而成，通过生成关系对偶图并利用注意力机制将关系信息融合到结构嵌入中[8]；第二部分是属性嵌入模块，由带有高速门的双层GCN 组成，实现含有属性信息的结构嵌入.之后将前两部分的特征嵌入融合，实现最终的实体嵌入.

图1 RDGLite-A 模型整体框架Fig.1 Overall framework of RDGLite-A

2.1 初始嵌入本文使用了Wu 等在其RDGCN模型[8]中的实体嵌入初始化方法.该方法先使用Google Translate 将非英语实体名(DBP15K 中的汉语、日语、法语)翻译成英语，再利用基于预训练的Glove 词向量(glove.840B.300d)对实体进行初始嵌入.这种初始嵌入方法可以保留实体名的上下文语义信息，大幅度提高对齐效果.这种嵌入方法也应用到了Wu 等后续的NMN 模型[15].而属性初始嵌入则采用了Pytorch 工具包中的nn.Embedding函数，该函数能利用输入的单词索引生成任意维度的词向量，适合简单的初始嵌入.

2.2 关系嵌入传统的RDGCN 模型由两个关系交互层和两个GCN 层组成，其中每个关系交互层各有两个GAT 层实现关系的表示和与实体嵌入的交互.RDGCN 模型复杂度较高，模型训练的资源消耗也比较大，因此本文通过减少一个关系交互层来化简RDGCN 模型，在减少了模型的复杂程度的同时，也实现了和传统RDGCN 相近的效果.本文的关系嵌入流程如图2 所示.

图2 关系嵌入的主要流程Fig.2 The main process of relation embeddings

2.2.1 关系嵌入层关系嵌入层通过关系对偶图的机制将实体嵌入转化为关系嵌入.为了将关系更好的特征整合到结构嵌入中，本文参考RDGCN模型的关系对偶图和注意力机制[8]提取知识图谱的关系特征.从形式上来看，RDGCN 在初始图谱的基础上建立了一个关系对偶图，在这个对偶图中，关系作为图中的节点，而边的权重则与原始图中头实体与尾实体有关.给定原始图G，构造对偶图G′，G′中顶点ri和rj的边的权重wij为：

式中：Hi、Hj和Ti、Tj分别是原始图G中关系ri、rj的头实体和尾实体集合.

与直接给与关系嵌入相比，用头尾实体嵌入近似表示关系嵌入可以大大减少需要训练的参数.对于每一个关系ri，其嵌入ci可表示为：

2.2.2 关系注意力层为了强化关系的嵌入表示，让初始的关系嵌入通过一个GAT 层获得关系的注意力得分，以此增强关系的嵌入表示：

2.2.3 实体注意力层为了将先前得到的关系嵌入融合进实体的嵌入中，本层采用了一个GAT实现关系信息和实体信息的融合，更新初始的实体嵌入表示.通过这种方式获得的嵌入表示将包含节点间的关系信息.

具体来说，对于中的每一个 G 中的实体ei，通过本层的嵌入输出为：

2.2.4 实体嵌入加权层由于初始的实体嵌入是由基于预训练的Glove 词向量进行初始嵌入的，包含一定的上下文信息，因此初始嵌入信息同样非常重要.通过将初始嵌入与注意力层的输出混合，获得合适的实体嵌入：

2.3 结构嵌入和属性嵌入本文采用带高速门的双层GCN 分别实现实体的结构嵌入和属性的嵌入.GCN 能够聚合节点周围邻居的特征更新自身的节点特征，以此可以作为实体结构信息的嵌入.

对于每一层GCN 的输入X(l)，其输出X(l+1)可以表示为：

与实体结构信息嵌入类似，实体的属性嵌入也采取带高速门的双层GCN.为了减少训练的复杂度，模型只选取所有属性中出现数量最多的2000个属性.给予初始的属性嵌入，第1 层的GCN 输出为：

为了同时使用包含关系信息的结构嵌入和属性嵌入进行实体对齐，还需要对嵌入向量进行拼接：

式中：X′表示拼接后的最终嵌入表示；Xe表示关系结构嵌入模块输出的结构嵌入；Xattr表示属性嵌入模块输出的属性嵌入；θ表示权重参数；||表示向量的拼接操作.

2.4 初步实体对齐由于RDGLite-A 模型中的结构嵌入和属性嵌入需要不同训练参数，本文采取平行训练的方式训练结构嵌入和属性嵌入.来自关系结构嵌入模块的结构嵌入和属性嵌入模块的属性嵌入分别通过初步实体对齐模块训练出合适的嵌入表示.简单来说，通过初步实体对齐模块可以分别获得结构信息和属性信息的局部最优嵌入，再通过最终的实体对齐模块找出合适的拼接权重θ，从而获得联合关系属性信息的最优嵌入.

2.5 实体对齐对于给定的两个知识图谱 G1和 G2，期望对齐后的等价实体对之间的距离要尽可能接近，非等价的实体对之间的距离尽可能远离.因此，本文利用基于边界的损失函数L作为训练目标，同时使用Adam 优化器使损失函数L最小化.

2.6 评价指标Hits@n是知识图谱对齐中常用的评价指标，表示在候选的前n个结果中命中正确三元组实体对的占比，Hits@n计算公式如下：

式中：|S|表示三元组集合数；ri表示第i个三元组的预测排名；I(·)表示indicator 函数，若函数输入条件为真返回为1，否则为0.

3 实验及结果分析

3.1 数据集介绍本文采用DBP15K 数据集进行实验与测试.DBP15K 数据集是建立在汉语(ZH)、英语(EN)、日语(JA)、法语(FR)版本的DBpedia数据.每个数据集包含来自两个的跨语言数据，分别为ZH-EN 数据集、JA-EN 数据集和FR-EN 数据集，并提供15 000 个预先对齐的实体对用于模型的训练和测试.表2 给出了DBP15K 数据集的统计信息.为了便于模型的实验对比，使用与RDGCN代码相同的训练集划分，即在预先对齐的实体对中划分30%作为训练集用于模型训练，其余的70%作为测试集用于对模型进行评估.

表2 DBP15K 数据集汇总Tab.2 Summary of the DBP15K datasets

3.2 关系嵌入的实验设置在不考虑属性嵌入的情况下，本文采用的基于RDGCN 化简的模型RDGLite 与原模型有着相似的对齐效果，表3 展示RDGLite 模型与RDGCN 的实验效果，其中RDGCN(600)和RDGLite(600)表示训练轮次epoch=600 时两种模型的训练效果，RDGCN(300)和RDGLite(300)表示epoch=300 时的训练效果.

表3 RDGLite 与RDGCN 的对比Tab.3 Comparison of RDGLite and RDGCN %

从表3 可以看出，使用RDGCN 代码中设定的epoch=600 参数下，与epoch=300 相比，测试集对齐效果不但没有提升，反而在3 个数据集上均有下降，出现了过拟合.为了探究不同epoch 参数下对RDGLite 的对齐效果的影响，通过多次实验得出图3 的数据.如图3 所示，在ZH-EN 和JR-EN 两个数据集上，虽然epoch=400 下测试集的对齐效果最好，但相比epoch=300 效果提升有限(Hits@1 均增长不到0.2)，而在FR-EN 数据集上，RDGLite 在epoch=300 后开始较大幅度下降.综合3 个数据集来看，RDGLite 在epoch=300 上效果最为均衡，因此本文的RDGLite 的实验数据是基于epoch=300参数下的训练结果.

图3 训练轮次对实体对齐效果的影响Fig.3 The effect of epoch on entity alignment

3.3 属性嵌入的实验设置为了寻找合适的属性嵌入模型，本文选择了单层GCN、双层GCN 和带高速门的双层GCN 进行属性嵌入效果的对比，实验数据同样采用DBP15K 数据集，参数选择为epoch=3 000，3 种模型在属性嵌入的测试结果如表4所示.

表4 候选的属性嵌入模型对比Tab.4 Comparison of candidate attribute embedding models %

从表4 可以看出，基于GCN 的3 个模型在DBP15K(ZH-EN)数据集上有着最好的效果，而在DBP15K(FR-EN)数据集上效果相对较差.带高速门的双层GCN 凭借着合适的层数和高速门的帮助在3 种跨语言的数据集上都有最高的对齐准确率，双层GCN 其次，单层GCN 因为层数不够训练效果最差.综合实验结果，本文最终选择带高速门的双层GCN 模型进行属性嵌入.

3.4 联合嵌入的参数选择最终的联合表示嵌入由RDGLite 的关系结构嵌入和带高速门的双层GCN 的属性嵌入拼接而成，两者拼接权重 θ的取值直接影响最终的对齐效果.为了探究权重 θ对实体对齐效果的影响，本文在DBP15K 的3 个数据集上进行了实验，效果如图4 所示.在θ=0.7 时，联合嵌入对齐效果最好.在DBP15K(ZH-EN)和DBP15K(FR-EN)这两个数据集中，当θ=0.7 时，Hits@1 值取得最优，此时对齐效果最好；在DBP15K(JA-EN)数据集中，θ=0.8 时，Hits@1 值取得最优，但是相比θ=0.7 时提升有限，且Hits@10 值下降明显，所以综合考虑最终选拼接权重θ=0.7，此时联合嵌入效果综合最优.

图4 权重 θ对实体对齐效果影响Fig.4 The effect of weight θ on entity alignment performance

综上所述，本文使用epoch=300 参数下的RDGLite模型、epoch=3 000 参数下带高速门的双层GCN、拼接权重取值为0.7 的联合嵌入作为最终的实体嵌入模型.

3.5 实验结果与分析为了评估RDGLite-A 模型的对齐效果，本文与2 种基于翻译的嵌入模型、3种基于GCN 的嵌入模型以及2 种基于词向量初始化的模型进行对比.本文选择的候选模型分别为MTransE[10]、JAPE[20]、GCN-Align[6]、RGCN[7]、AliNet[14]、NMN[15]、RDGCN[8]，共7 种实体对齐模型，实验结果如表5 所示.

表5 RDGlite-A 与其他嵌入模型的对齐结果对比Tab.5 Comparison of alignment performance between RDGLite-A and other embedding models %

从数据集的角度来看，基于GCN 的模型在ZHEN 数据集上的对齐效果往往相对较差，而在FREN 数据集通常都有较好的对齐效果.从模型的角度来看，传统的基于翻译的对齐模型效果最差，在未进行词向量初始化的基于GCN 的对齐模型中AliNet 凭借聚合直接邻居和多跳邻居的信息，与GCN-Align、RGCN 相比有着大幅度的领先，而NMN、RDGCN 以及本文提出的RDGLite-A 这3种进行了词向量初始嵌入的模型在对齐准确率上远远超过未进行词向量初始化的普通GCN 模型，体现了词向量初始化对实体对齐的提升明显.此外，本文提出的RDGLite-A 在3 种跨语言的数据集上都取得了最优的效果，尤其在ZH-EN 和JA-EN 两种数据集上Hits@1 相比原始的RDGCN 分别提升了6.42 和4.59 个百分点，即使是对齐效果已经非常好的DBP15K(FR-EN)上也有1.98 个百分点的提升，充分体现了属性嵌入对实体对齐效果的提升.

3.6 对齐种子敏感度分析为研究训练集划分的比例对实体对齐效果的影响，本文在DBP15K 的3个跨语言数据集上进行了对齐种子敏感度测试.为了尽可能展现测试结果，本文选取了10%、20%、30%、40%、50%这5 种划分比例，并于GCN-Align模型和RDGCN 模型上进行对比，如图5 所示.

图5 不同对齐种子比例对对齐效果的影响Fig.5 The effect of different alignment seed ratios on the alignment performance

从图5 中可以看出，GCN-Align 不仅对齐效果远远不如RDGCN 和RDGLite-A 优秀，而且明显受对齐种子数量的影响，3 个数据集中对齐种子比例选择10%和50%的Hits@1 值相差近30%.本文的RDGLite-A 模型继承了RDGCN 模型对于对齐种子变化不敏感的特性，即使在只有10%对齐种子作为训练集的情况下也有着极其优秀的对齐效果：在ZH-EN、JA-EN、FR-EN 这3 个数据集中Hits@1 值分别为71.21%、75.03%和87.11%，此效果接近RDGCN 在30%对齐种子作为训练集的情况下的Hits@1 值.综上所述，RDGLite-A 模型在对齐种子比例变化的过程中对齐效果保持稳定，鲁棒性较强.

4 结论

本文提出了一种融合属性信息与关系注意力的跨语言实体对齐模型.一方面化简了RDGCN 模型提出了RDGLite 模型，使其在较低的训练资源消耗的同时几乎不改变对齐效果；另一方面利用带高速门的双层GCN 提取了知识图谱的属性信息，结合关系嵌入和结构嵌入获得更有的对齐效果.本文在DBP15K 的3 个跨语言数据集上与目前较先进的实体对齐方法进行比较，实验结果表明RDGLite-A 模型较大幅度地提高了实体对齐的效果.后续尝试将多跳邻居信息以及属性的语义特征融合到模型中，进一步提升对齐的准确率.