结构化知识库构建技术研究
2019-05-21中国运载火箭技术研究院
/中国运载火箭技术研究院
互联网上的知识大都以非结构化或者半结构化的形式存在于文本、表格和网页中,使得对知识的抽取以及应用较为困难,谷歌公司认为完美的搜索引擎应该能够准确理解用户的意图并且正确反馈用户所期望的信息。与人的记忆偏重于关联类似,搜索结果中也体现着关联,以“链接”为中心的系统在开放的互联网环境里更容易生长和扩展。传统的语义网连接的是文档,实际上网络中有多种类型的事物,这些事物之间有多种类型的连接。把文档作为“链接”的语义网得到的搜索结果仅仅是文档的链接,而不是用户需要的比文档更细粒度的准确的答案,以关键词匹配和文档排序为基本特点的搜索引擎急需一场革命。
在此背景下,为了改善搜索引擎效果,谷歌公司于2012年提出“知识图谱”的概念。把互联网文本内容组织成为以实体为基本语义单元(节点)的图结构,其中图上的边表示实体之间的语义关系。相对于传统的知识表示,知识图谱把数据对象作为链接而不是文档,其具有丰富且完整的语义信息、结构精良、接近自然语言的表达等优点。知识图谱的这些优点使得机器能够理解、搜索关键字,从而实现由搜索直接通往答案。
一、国内外知识图谱相关研究情况
近年来,由于知识图谱表示学习技术在智能问答系统、知识推理引擎和语义搜索等应用中扮演着十分重要的角色,基于知识图谱的表示学习技术已经成为人工智能领域中的研究热点。同时,知识图谱表示学习技术可以应用在知识图谱补全和关系抽取等比较困难的任务中,并取得了重要进展。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,向量空间中2个对象的距离越近说明其语义相似度越高。知识表示学习是面向知识图谱中的实体和关系进行表示学习,在向量空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升。
1.基于张量神经网络模型的知识表示学习方法
张量神经网络模型(NTN)的基本思想是,用双线性张量取代传统神经网络中的线性变换层,在不同的维度下将头、尾实体向量联系起来。与以往模型的不同之处在于,张量神经网络模型中的每一个实体向量是通过计算这个实体中所有单词向量的平均值得到的。因此,张量神经网络模型可以非常充分地重复利用单词向量来构建实体表示,大幅度地增强了知识图谱中实体之间的语义关联,从而有效缓解了对于实体表示的稀疏性问题。
张量神经网络模型的缺点在于引入了张量操作,使得计算的复杂度非常高,实验表明张量神经网络模型在大规模非常稀疏的知识图谱上效果较差。针对张量神经网络模型的不足,后续有很多研究人员提出了张量神经网络模型的简化版本,以弥补其计算复杂度高的问题。其中,隐变量模型(LFM)利用基于关系矩阵的双线性变换来刻画实体和关系的二阶联系,与张量神经网络模型相比该模型计算复杂度较低、协同性更好。后来出现的DISTMULT模型是针对隐变量模型进行简化,将隐变量模型中的关系矩阵简化为对角阵,更大幅度地简化了模型复杂度,取得了更好的效果。
2.基于矩阵分解模型的知识表示学习方法
矩阵分解是近几年比较火的算法,在推荐算法中得到广泛的认可和使用,具有很好的准确性和可扩展性,并且可以降低计算复杂度。同样,很多学者采用矩阵分解模型用于分布式知识表示学习算法,主要算法是RESACL模型。该模型的基本思想与隐变量模型相似,不同之处是RESACL模型优化了张量中的所有位置,该模型将知识库三元组构成了一个大的张量表示,如果三元组存在则该三元组对应的张量值设为1,不存在则张量值设为0。张量分解的目的在于将知识图谱中的每个三元组对应的张量值分解为实体和关系的表示,使得该张量值尽可能地与三元组中的2个实体向量和关系矩阵的乘积接近。
二、结构化知识库构建的关键技术
1.知识图谱本体构建技术
知识图谱Schema构建方法。在知识表示层面,围绕增强知识图谱的语义表达能力这一核心目标,重点研究企业内和开放互联网中对企业有价值的知识的符号化及数字化的表示方法,包括领域知识的概念及元数据构建等。拟采用思维导图建模的人工方式和知识抽取的自动方式相结合的知识图谱Schema构建方法,实现对多领域知识的实体和多任务等不同维度的信息理解,形成以知识为中心的知识管理系统的检索能力。
基于最小描述长度的概念识别。拟利用编码长度指导概念的选择,从而完成概念识别。其基本原理是:最优的概念标签具有最强的语义表达能力。因而一个好的概念标签组合,一方面自身的编码长度应该尽可能短,另一方面利用这组概念标签对于实例集进行编码的长度也应该非常短。2类编码长度之和构成了最优编码集的选择准则,其模型公式为arg minCL(C)+L(X|C)。
2.知识图谱构建技术研究
图1 基于深度迁移学习模型的命名实体识别
基于深度迁移学习的命名实体识别。命名实体识别(NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,是构建知识图谱的基础。传统的实体识别方法难以充分利用开放领域或者其他领域已积累的知识,存在一定局限性。为此,笔者设计了应用于自然语言处理任务的多层知识迁移学习模型,该模型可以便捷地适用于多种深度神经网络结构中,如循环神经网络和卷积神经网络。
由于特定领域的训练数据匮乏,无法利用特定领域数据训练有效的NER模型。但是,NER在开放域和特定域有大量类似特征,如相同的词汇、相同的句法,并且开放域的训练数据往往很充足,因此拟利用迁移学习解决样本稀疏问题,方法的核心算法架构如图1所示。其基本思路是分别利用LSTM对开放域和特定域进行训练,并将开放域习得的中间表示迁移、嫁接给特定域,使得特定域能够充分利用开放域所习得的字、词、句表示。
基于主题模型的实体链接。命名实体链接是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、实体消歧,提升后续的基于知识库的信息检索能力。选择实体-主题模型(Entity-Topic model)作为模型的基本框架,将文档中的词和命名实体映射到统一的主题空间中,通过主题空间中命名实体的位置向量与知识库标准实体的向量进行实体链接,达到同义实体合并、实体消歧的目的。
然而,这一模型在性能与效率方面仍然难以满足领域实体识别的高精度要求,拟通过引入外部概念图谱和实体同义词库作为先验知识引导主题模型学习到同名领域实体的细微语境差别。将学习过程从无监督转变为半监督,在吉布斯采样过程中缩小采样范围,在保证准确率的前提下提升算法的运行效率,实现准确快速的实体链接,其基本模型如图2所示。
基于深度学习的端到端三元组关系抽取方法。传统的三元组抽取受限于样本规模,在长尾关系上效果难以满足实际应用的需求,长尾关系的精准抽取一直以来是学术难题。笔者提出基于递进学习的端到端抽取可以让长尾关系抽取模型有效利用头部关系的丰富样本中所包含的信息,这一思路在关系抽取中的应用尚属首次。关系抽取的重要形式之一是从非结构化的文本中抽取出三元组,拟利用弱监督标注的思路为每个关系自动构造标注数据,从而为每个关系独立训练双向LSTM抽取模型。
图2 先验知识敏感的基于主题模型的实体链接
图3 基于LSTM的端到端抽取模型
为了提高模型性能,拟增强样本的语义描述,包括语法标记、实体类型等。为了解决长尾关系样本稀疏、模型训练不充分这一问题,拟借助递进学习合理安排不同关系抽取模型的训练顺序,优先训练头部关系的抽取模型,习得通用上下文的有效表示,从而降低长尾关系模型对于样本的依赖,基于LSTM的端到端抽取模型如图3所示。