基于关系时间嵌入的时间知识表示学习
2022-07-21杨振舰
靳 州,杨振舰
(天津城建大学 计算机与信息工程学院,天津 300384)
知识图谱(knowledge graph,KG)是结构化存储知识的知识库,通常采用三元组(头实体,关系,尾实体)的形式描述现实世界的事实,例如三元组(奥巴马,总统,美国),其中“奥巴马”表示头实体,“美国”表示尾实体,“总统”表示“奥巴马”和“美国”之间的关系.
然而,知识图谱是不完整的,需要基于已有事实进行补全和完善.受到表示学习的启发,研究人员提出知识表示学习(knowledge representation learning,KRL),将知识图谱映射到低维向量空间[1],学习实体和关系的嵌入表示.知识表示学习缓解了数据稀疏性,实现了多源信息的融合,保留了知识图谱的结构信息.
Goel等人提出历时嵌入(diachronic embedding,DE),通过激活函数掩盖部分嵌入权重,学习时间实体嵌入[2].DE是方法无关的,可扩展到任意静态表示方法,且表现出先进的性能,本文围绕DE展开研究工作.针对上述问题,本文提出了一种关系感知的时间嵌入(relation-aware temproal embedding,RTE).本文的主要贡献如下:
(1)本文提出一种关系感知的时间嵌入(relationaware temproal embedding,RTE),可扩展到任何静态表示学习方法.
(2)本文提出一种高效的融合机制,耦合静态特征和时间特征,并研究不同融合机制方案对RTE的影响.
(3)本文将RTE与DistMult和SimplE结合,提出RTE-DistMult和RTE-SimplE,在基准数据集上取得了先进的实验结果.
近年来,知识表示学习受到高度关注,研究人员提出各种表示学习方法、学习实体和关系的嵌入表示,并通过评分函数判定事实元组是否有效[3].本文将相关工作划分为静态表示学习方法和时间表示学习方法.
静态表示学习方法忽略了知识图谱的时间属性,时间表示学习方法利用时间信息扩展了静态表示学习方法.García-Durán等人[4]通过字符LSTM组合关系时间戳扩展TransE DistMult.Goel等人通过掩盖部分嵌入权重,学习历时实体嵌入DE,扩展TransE、DistMult和SimplE.DE是方法无关的,可扩展任意静态表示方法,且在基准上展现强大的性能.通过改进DE,本文提出一种新颖的时间嵌入表示,扩展现有的静态表示方法.
1 研究方法
正确事实中的实体应该包含时间信息,通过给三元组标注时间戳或时间间隔,可获得事实四元组.受到历时嵌入DE的启发,本文提出一种关系感知的时间嵌入(relation-aware temproal embedding,RTE).
1.1 历时嵌入DE
历时嵌入DE按照维度划分为静态特征和时间特征,并利用激活函数和实体权重学习时间特征.使用表示DE,定义如下
其中,av和ωv,bv是实体相关的向量;σ是激活函数.的γd部分表示时间特征,(1-γ)d部分表示静态特征.DE使用超参数γ控制时间特征的占比,限制了时间特征的表达.同时,DE的时间特征只使用了实体相关的权重,忽视了关系对时间实体嵌入的影响.
1.2 关系感知的时间嵌入RTE
本文提出一种关系感知的时间嵌入RTE.不同于DE的维度划分,RTE学习了关系感知的时间特征,并使用zvs和zvt分别表示静态特征和时间特征.RTE显式建模zvs,定义如下
其中,vs是实体特定的向量.RTE引入关系权重,建模了关系与时间之间的潜在关联,学习关系感知的时间特征zvt,定义如下
其中,vt,ωv和bt是实体相关的向量;ωr是关系特定的向量;σ是激活函数.类似DE,本文使用sin作为激活函数.本文提出一种简单有效的融合机制,耦合静态特征和时间特征,学习时间关系感知的时间嵌入zRTE,定义如下
本文通过实验研究了各种融合方案对zRTE的影响.已有的时间表示学习方法通常利用时间信息仅扩展一个静态表示学习方法,例如TTransE[5]和HyTE[6].RTE是方法无关的,可扩展任意的静态嵌入方法(例如TransE,DistMult,SimplE).
本文将时间嵌入RTE与DistMult和SimplE结合,提出RTE-DistMult和RTE-SimplE.
RTE-DistMult使用向量eRTE表示实体时间嵌入,对角矩阵Mr=diag(r)表示关系嵌入,定义如下评分函数
本文使用时间嵌入RTE替换DistMult和SimplE中的静态嵌入,有效捕捉了头尾实体在时间空间的潜在语义交互.
1.3 学习与训练
知识图谱中的事实被划分为训练集、验证集和测试集.本文通过最小批随机梯度下降算法学习方法参数.对于最小批B中的事实四元组,本文生成两种查询(v,r,?,t)和(?,r,u,t).对于(v,r,?,t),生成候选集合C(f,v),对于(?,r,u,t),生成候选集合C(f,u).然后,本文使用二分类交叉熵损失函数训练方法的参数,定义如下
算法1展示了RTE方法的训练过程.RTE模型采用Xavier[7]初始化方式,将实体和关系初始化为均匀分布的随机向量.在算法的迭代循环过程中,首先对实体嵌入和关系嵌入进行归一化,然后从知识图谱训练集中随机抽取一小批次三元组作为训练样本,通过随机替换训练集中每个三元组的实体或关系,生成负三元组集合.集合由成对的正三元组和负三元组组成.最后,通过最小化损失函数,迭代更新实体嵌入和关系嵌入,直到算法在验证集上性能收敛或达到最大迭代次数.
算法1 RTE模型训练算法
2 结果与分析
本文在时间标记的标准数据集ICEWS14和ICWES05-15上进行链接预测实验,与不同的基准方法进行比较,评估RTE-DistMult和RTE-SimplE的性能.
2.1 数据集
ICEWS14和ICEWS05-15是时间知识图谱ICEWS的子集.ICEWS是一个包含时间戳和政治事件的知识库.ICEWS提供从1995年到2015年发生的,由实体(例如国家、地区、总统)和关系(例如访问、会面、谈判)组成的政治事实.ICEWS14对应2014年的事实,ICEWS05-15对应2005年4月1日到2016年3月31日的事实.ICEWS14包含7 128个实体,230个关系,365个时间戳和90 730个三元组.ICEWS05-15包含10 488个实体,251个关系,4 017个时间戳和479 329个三元组.表1展示了数据集的统计信息.
表1 数据集的统计信息
2.2 基准
对比基准可分为静态表示学习方法和时间表示学习方法.对于静态表示学习方法,选择TransE、DistMult和SimplE进行对比;对于时间表示学习方法,选择TTransE、TA-DistMult、DE-DistMult和DESimplE进行对比.
2.3 评价指标
链接预测的目的是预测给定事实缺失的实体.为验证RTE-DistMult和RTE-SimplE的性能,在ICEWS14和ICEW05-15数据集上进行链接预测实验.按照TransE过程,对正确四元组进行负采样,分别用于头实体预测和尾实体预测.对于测试集中的每个四元组,使用实体集合中的所有实体替换头实体或尾实体,构造候选四元组集合.然后,按照评分函数计算的得分降序排列候选四元组,存储正确实体的排名,并按照评价指标计算实体的预测结果.考虑到候选四元组可能存在知识图谱,按照TransE的设置,从候选四元组集合中,剔除存在训练集、验证集和测试集的候选四元组.为评估方法性能,选择两个标准指标:Mean Reciprocal Rank(MRR)和Hits at N(Hits@N).MRR表示所有正确实体的平均倒数排名,Hit@N表示正确实体排在前n个预测实体中的比例.方法的链接预测性能越好,MRR越高或Hits@N越高.
2.4 实验实现
本文使用Pytorch框架实现RTE-DistMult和RTESimplE,并在单个GPU上进行实验.对于基准方法,引用原始论文中报告的实验结果.根据方法在验证集上的MRR指标,通过网格搜索寻找最佳超参数.本文将学习率lr设置为0.001,从{256,512,1024}中选择批大小B,从{50,100,200,300,4005,00}中选择维度d,从{1,5,10,20,50,100,200}中选择训练样本的负采样个数ne.在不同数据集上最佳的参数配置如下:在ICEWS14上,对于RTE-DistMult,B=512,d=500,ne=100,对于RTE-SimplE,B=512,d=500,ne=200;在ICEWS05-15上,对于RTE-DistMult,B=256,d=500,ne=100对于RTE-SimplE,B=256,d=500,ne=200.
2.5 结果分析
表2展示了RTE-DistMult和RTE-SimplE在基准数据集上的链接预测结果.从表2中可以看出:①RTE-DistMult明显优于其他基于DistMult的基准TA-DistMult和DE-DistMult,RTE-SimplE优于基于SimplE的基准DE-SimplE,由此显示了RTE相较于DE的优越性.②RTE-SimplE优于RTE-DistMult,证明SimplE具有较强的表现力.③RTE-SimplE在各个评价指标上取得先进的性能,进一步表明RTE的有效性.
表2 ICEWS14和ICEWS05-15数据集上的结果
本文在公式(2)中使用正切和正弦作为融合系数,为了研究不同融合方案对RTE的影响,进一步进行RTE变体的实验.表3展示了RTE-DistMult的变体在ICEWS14上的实验结果.从表3中可以看出:相较于其他融合方案(sigmoid,relu等[8]),tanh和sin的组合产生更好的性能,可能由于tanh对应于平滑的特征切换,可模拟实体的特征选择,sin对应多个开关的特征切换,模拟时间的特征选择(在某个时间开始并在某个时间结束).
表3 RTE-DistMult的变体在ICEWS14数据集上的结果
图1a和图1b分别显示了RTE-SimplE和DESimplE在ICEWS14数据集上的MRR值与维度和负采样之间的关系.图2a和图2b分别显示了RTEDistMult和DE-DistMult在ICEWS14数据集上的MRR值与维度和负采样之间的关系.从图1a和图2a可以看出,随着维度的增加,RTE-DistMult和DEDistMult的MRR指标迅速增大,逐渐趋于平稳,达到峰值后略有下降,性能的轻微下降可能是由于参数过多导致过拟合.从图1b和图2b可以看出,随着负采样值变大,MRR指标平稳增长至最大值.增大负采样率可以在一定程度上提升方法的性能.图1和图2的结果表明RTE-DistMult始终优于DE-DistMult,RTE-SimplE始终优于DE-SimplE,验证了RTE的有效性和优越性.
图1 RTE-SimplE和DE-SimplE在ICEWS14数据集上的MRR值
图2 RTE-DistMult和DE-DistMult在ICEWS14数据集上的MRR值
3 结论
本文提出一种关系感知的时间实体嵌入RTE,学习关系感知的时间特征,并通过一种简单有效的融合机制耦合静态特征和时间特征.RTE是方法无关的,可扩展到任何静态知识表示学习方法.本文将RTE与DistMult和SimplE结合,提出RTE-DistMult和RTESimplE,并在基准数据集上设计了对比实验.实验结果验证了RTE的有效性.