知识图谱的概述与应用
2018-03-11张镇涛
张镇涛
摘要:知识图谱自2005年被引入国内以来,被广泛应用于资料整合、对外宣传和智能化领域,给人们的生活生产提供了许多便利。本文将从知识图谱介绍、知识图谱发展历程、知识图谱关键技术及知识图谱应用四个方面进行概述。
关键词:知识图谱;语义网;知识融合
1 知识图谱的介绍
知识图谱的前身为语义网,是语义网逐渐发展的成果。知识图谱以关系数据的知识库为基础,通过对数据进行标注,确定关联关系,构造底层的知识结构网络。知识图谱展现了现实中实体、概念、事件之间的关系,能够对知识库中的内容进行深层次语义分析,对数据进行深度挖掘,并结合目前的机器学习技术和自然语言处理技术,为用户提供智能搜索、兴趣推荐及知识推理等功能。
知识图谱力求将当今繁杂庞大的知识进行系统化、有序化的组织,在大数据的时代,有着无法替代的重要性。在网络信息资源爆炸式增长的背景下,传统的知识组织结构松散,难以满足用户日益增长的对知识服务的需求和期望。而知识图谱技术的诞生,适应了用户的认知需求,与传统人工脑力进行的有关某学科领域发展的宏观状况相比,具有无比优越的科学性、高效性、有效性。因此,知识图谱的诞生也是一种必然。
2 知识图谱的发展历程
2.1知识图谱起源
知识图谱起源于加菲尔德1955年发表的一篇论文,该论文提出了将引文索引应用于检索文献的思想,之后又由普赖斯提出了引用网络,从此将理论问题转化成了一种可以解决实际问题的常用方法,进而催生出知识图谱的概念。传入中国后,杨思洛利用知识图谱进行可视化分析,并开始进行国内关于知识图谱的一些应用研究。
2.2知识库的发展
1977年的第五届国际人工智能会议首次提出知识工程与知识库的概念。知识工程对知识进行存储,进而实现用户对相关数据的提取,如专家系统。与以往单一的数据库相比,知识库拥有了对知识结构提取分析的功能,也就因此具备了一定的智能性,更加符合用户的需求。可以说,知识库的发展是知识图谱的雏形。
2.3知识图谱的形成
在知識库的基础上,随着各种不同种类知识系统的不断完善,知识图谱应运而生。知识图谱的概念是2012年由谷歌公司最先提出,并运用于其搜索引擎业务中。虽然知识图谱与知识库在方法和理论上存在着一定的相关性和相似性,但这时的知识图谱和最早用于科学文献引用网络的知识库有了较大区别。
传统的知识库只存在于某一个特定学科或领域之中,仅仅包含对应学科或领域内的相关知识内容,往往只能为获得单一知识源的人们提供服务,因此难以满足大众需要。而知识图谱则跳出了狭隘的单一知识圈,力求打破界限,对不同学科、不同领域进行跨学科、跨领域的研究,使它的涉及范围变得宽泛了许多。但这并没有影响它对于特定学术问题进行精确精细的查询,这得益于互联网搜索引擎的高度发展。所以说,知识图谱展现了目前几乎所有领域的知识内容,并体现出不同学科、不同领域之间关联的一种图形结构,具有直观性的“图”和系统性的“谱”的双重性质与特征。
知识图谱在“图”中包含所有知识库的知识集合,在“谱”种包含日常生活中的各种事物,并囊括从古到今各个领域中的所有知识及其中的关联关系,并随着新知识的发现不断更新。同时,知识图谱成功地对知识本身与知识间的关联进行了可视化的展现,具有更为直观、精确等诸多优点,并在实际检验中取得了良好的效果。目前,知识图谱已成为人们所信赖的一种简便工具,也是众多学科领域的研究热点。虽然知识图谱目前还没有达到最理想的效果,但它的发展前景一片光明。
3知识图谱关键技术
知识图谱关键技术大致分为六个方面,即知识获取、知识融合、知识存储、查询式的语义理解、知识检索和可视化展现。众所周知,知识库的构建是知识图谱实现的核心,而这六个方面的技术则为知识库的构建提供支持。知识库中存储的内容需要充分、广泛的知识获取以及深入的知识融合,知识库融合的饱和程度将决定用户进行查询检索时的效果。
3.1知识获取与数据提取
知识图谱作为一种查询型引用系统,第一步也是最有必要的一步就是图谱中知识的来源。因此,知识图谱的关键技术之一就是知识信息的获取以及数据库与知识库的系统性构建。知识图谱的数据一般有两个来源:互联网中网页的数据与数据库中的结构化与非结构化数据。
从网页上提取关键数据,首先想到的是利用互联网。互联网经过多年的发展,网页中已存在着大量的知识数据,因此,网页中的数据是知识图谱最主要的数据来源。一般性知识的获取集中来源于各种百科类站点以及各种垂直站点的系统化数据,根据一定可操作的选择方法提取出领域相关的知识,并可以细化到包括主题下的细分知识及拓展一些相关类别知识等。同时,知识图谱也可以从某些非结构化或不完全结构化的可视性数据中抽取事实和属性类别,以丰富相关事物的描述,满足不同的特定需要。
虽然百科类网站中具有很多的常规化知识,但无法完全支持知识图谱的所有功能,结构化与系统化程度较逊色的普通网页也成为知识图谱构建的一大信息源。但是受自身一些缺陷的限制,网页格式并不是完全统一的,这样难免在提取的结果中包含大量重复和置信度低的信息,所以从网页的非结构化数据中抽取知识就具有一定的风险性。即便有包装器进行模拟学习算法或者手动操作等补救措施,但这种方式仍可能遗漏用户所需的知识,甚至抽取到错误的知识。
3.2知识融合
知识图谱中的知识具有信息数量多、来源广,知识质量参差不齐、来自不同数据库的知识内容重复、知识间的关联繁杂混乱等问题,所以知识融合在知识图谱中显得至关重要。知识融合是使来自不同信息源、不同体系的知识在同一框架规范下进行简洁的数据整合、合理的重要度推算和恰当的推理衍生等步骤,使庞大的知识信息更加的条理化、系统化,以达到数据、信息、知识、方法、经验以及主观思想的有机统一。整合异构数据需要进行数据清洗、实体对应、属性值判断以及合理关系的建立。知识融合的过程也可以简化为知识实体挖掘,通过知识整合等技术,把知识进行分类和具体呈现。
3.3知識存储
无论是知识库还是数据库,最基本的功能之一就是对知识进行存储和再现。知识图谱的知识存储依赖于互联网技术中的海量数据存储技术,首先是对知识进行简单的大容量储存。在此前提下,利用该技术来系统、有序地管理大规模分散式的数据信息,并实现海量存储系统大容量,高度科学性的知识存储需求,最终形成可操作的知识体系。
3.4 查询式的语义理解
不同的用户有着千变万化的查询方式,知识图谱中对于查询式的语义理解这一环节直接决定着用户查询的结果。这一技术针对用户不同的查询式问题,通过科学语言处理,可以根据设置好的程序,如自然语言处理技术和人工智能,进行筛选和重组,分类理解查询式,方便答案的正确反馈,最大程度上满足用户需求。
3.5知识检索
知识检索是基于用户实际输入的所需知识,在知识库中针对实体的属性与结构进行知识关联,是语义检索的智能化拓展,进而满足多样化的需求。
3.6可视化展现
知识图谱中的大量知识信息过于抽象化,提取所需信息最后一步还需要可视化的展现。可视化展现不仅注重答案的精准,还应考虑到不同的实际情况,进行内容显示精度、美观度上的把握,关注页面中的显示细节,考虑在多种设备上显示的效果问题,以期获得最大程度上的实用性。
4知识图谱的应用
4.1描述科研合作,促进科研管理收集数据
知识图谱一旦形成,就可以利用其自身所具备的智能性和决策性进行全面分类和多维混合分析,合作得到不同科研结果之间的共链情况,并通过分析成果间的关系,发现本质的科学联系。分析科研管理收集的数据,调整相关科研方向,进而快捷、客观地找到发力点。
4.2在商业中的应用
国内几大主流搜索引擎近两年先后把基于语义搜索和知识图谱的相关商业化产品转向应用。它们对海量互联网碎片化信息进行智能化推理,从而对搜索结果进行优化重组计算和抽取,把最贴合的知识展现给用户。
4.3在电商平台中的应用
知识图谱在电商平台中的应用主要体现为,针对用户不同的查询问题,通过信息检索对相关商品进行文字描述、图片展示、信息罗列等可视化的信息展现,为消费者提供满意的购物指南。通过知识图谱提升电商平台的实用性,并挖掘用户的偏好进行相关数据统计。
5.小结
知识图谱是当前人工智能领域中新兴的学科与研究领域,涉及多个学科的理论与方法,虽然目前仍处于一种初级状态,但它在大数据处理的时代展现出显著的优势,并且正快速地向其他学科领域渗透扩散。知识图谱为人们提供了更为直观的知识表现方式,将不同学科,不同领域的知识串联在一起,实现了知识的关联与融合。相信在未来,知识图谱会发挥更大的作用。
参考文献:
[1]曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践,2015,38(12):127-132.
[2]李涛,王次臣,李华康.知识图谱的发展与构建[J].南京理工大学学报(自然科学版),2017,41(1):22-34.
[3]廖胜姣,肖仙桃.科学知识图谱应用研究概述[J].情报理论与实践,2009,32(1):122-125.
[4]陈悦,刘则渊,陈劲,等.科学知识图谱的发展历程[J].科学学研究,2008,26(3):449-460.
[5]李明鑫,王松.近十年国内知识图谱研究脉络及主题分析[J].图书情报知识,2016(4):93-101.
[6]杨思洛,韩瑞珍.国外知识图谱的应用研究现状分析[J].情报资料工作,2013(6):15-20.