知识图谱技术研究综述
2018-04-15呼和浩特民族学院欧艳鹏
呼和浩特民族学院 欧艳鹏
1 引言
知识图谱概念是Google在2012年提出的,目的是加强智能搜索,自此备受关注。知识图谱是一种将不同种类的知识关联在一起而得到的关系图谱,其本质上是一种语义网,具有语义网的许多特性,区别在于知识图谱的数据来源广泛、更多关注的是知识表示、知识融合等技术。同时知识图谱与知识库在理论和方法上也存在很多相似,区别在于知识库包含更多的是某机构领域内的知识,而知识图谱包含的知识更加广泛,是一种更大的包含所有机构知识库的知识集合。知识图谱具有逻辑推理、可解释性、自然关联、高效资源发现、透明共享及可视化等优势,具有广阔的应用前景。目前典型的知识图谱主要有开放领域知识图谱(Freebase、Dbpedia、Wikidata、YAGO、BabelNet、Web Data Commons)、垂直领域知识图谱(Linked life data、Linked movie dataSet、ConceptNet、Microsoft Concept Graph)、中文知识图谱(Zhishi.ine、OpenKG、CN-Dbpedia、Xlore、PKU-PIE、Belief Engine)。
2 知识图谱的分类
按照研究内容来划分,知识图谱可以分为文本知识图谱、视觉知识图谱和多模态知识图谱等。
文本知识图谱主要以文本为研究内容,以文本样本构建,对文本知识进行知识表示、知识推理等操作,主要应用于语义检索、深入搜索、情报分析等方面。
视觉知识图谱主要以图像为研究内容,以图像样本构建,对图像进行知识表示、知识加工、推理更新等操作,存在实体难以获取、实体间关系复杂难以建模等难点,主要应用于语义图像检索、对文本关系的真假进行判断等方面。
多模态知识图谱在构建中需要进行知识表示、知识推理更新等操作,它的每一步构建过程都需要所有的多模态样本,它在生活中有更加广泛的应用,例如实现视觉和文本相结合的知识问答等方面。
3 知识图谱的关键技术
3.1 知识抽取技术
知识图谱的数据来源包括文本、图像、传感器、视频等,总体上可分为从网页上获取数据和从数据库等数据集合抽取得到。数据来源广泛,如何从不同数据源的抽取构建知识图谱所需的实体、属性和关系等,成为知识图谱构建的关键技术,抽取的知识越完整,所构建的知识图谱越全面,利用价值也越高。目前,常见的实体抽取方法主要包括基于规则、基于统计机器学习和基于开放域的抽取方法。关系抽取方法主要包括基于规则和基于开放式关系的抽取方法。属性抽取方法主要包括基于规则和基于启发式算法的方法。然而互联网网页种类的繁多、形式不一、存在大量的广告,导致其很难通过一种或几种知识抽取方法对知识进行有效的、准确的抽取。
3.2 知识表示技术
知识表示研究的是如何实现对现实世界中的事物以及事物相关关系的建模,赋予数据符合人类表达的逻辑信息,使人与计算机之间进行无障碍沟通。目前常用的知识表示方法主要包括基于语义网络的表示方法、基于产生式规则的表示方法、基于框架的表示方法、基于逻辑的表示、基于语义本体的表示等,各种表示方法具有不同的知识表达能力。在这些表达方法中,目前研究较多的是基于描述逻辑的表示方法。知识表示与知识存储技术密切相关,也需要进行研究。
3.3 知识推理技术
在知识图谱中,由于数据来源的不全面和抽取过程的不准确,需要利用已有的知识图谱事实和推理技术进一步从语义网和其他相应的知识库挖掘出缺失的和更深层次的实体与关系的联系,实现知识图谱补全和知识图谱去噪等问题,进而使知识图谱更加丰富和完善。目前知识推理的方法主要包括(1)基于传统方法的推理。其又包括基于传统规则推理的方法和基于本体推理的方法。(2)单步推理。又包括:①基于分布式表示的推理(基于转移的表示推理、基于张量/矩阵分解的表示推理、基于空间分布的表示推理);②基于神经网络的推理;③混合推理(混合规则与分布式表示的推理、混合神经网络与分布式表示的推理)。(3)多步推理。又包括:①基于规则的推理(基于全局结构的规则推理、引入局部结构的规则推理);②基于分布式表示的推理;③基于神经网络的推理(神经网络建模多步路径的推理、神经网络模拟计算机或人脑的推理);④混合推理(混合PRA与分布式表示的推理、混合规则与分布式表示的推理、混合规则与神经网络的推理)。
各种推理方法具有不同的推理能力,大体上,混合多步推理比混合单步推理,获得更好的推理性能,但目前的混合推理依然局限于两种方法的混合,未来多种混合推理将值得更深入的研究,进一步提高可解释性和计算效率。为此,知识推理技术的未来研究方向主要是面向面向多元关系的知识推理、融合多源信息与多种方法的知识推理、基于小样本学习的知识推理、动态知识推理等方向,进一步提高推理速度和保证推理的时效性,为用户时刻提供最新的、准确的知识。
4 总结
知识图谱是人工智能、知识工程的重要分支,目的在于模仿人类的思维方式,对大数据时代高效的知识管理、知识获取、知识共享具有深远的意义。目前知识图谱已在应用于众多领域,并且展示出重要作用,例如智能辅助搜索、智能辅助问答、智能辅助决策、辅助AI、垂直领域等方面。虽然取得了很大的进步和发展,但仍然有大量的难题急需解决,尤其数据的爆炸式增长,知识图谱的规模越来越大,呈现出结构复杂多样性、数据动态变化性以及查询实时响应性等多种特性和需求,更增加了知识图谱的挑战,更需要解决不同阶段的各个难题,任重道远,仍需不断的努力。