科学知识图谱在不同领域的应用
2020-11-25崔茜国家知识产权局专利局专利审查协作天津中心
崔茜 国家知识产权局专利局专利审查协作天津中心
1 科学知识图谱的发展历程
科学知识图谱,是显示科学知识的发展进程与结构关系的一种图形,是以科学知识为计量研究对象的,是用定量统计方法发现科学知识指数增长规律的科学。随着计量学的发展,科学知识图谱从简单的二维模型开始发展到三维空间模型。在中国,最先命名和引入科学知识图谱的是在《科学学研究》上发表的一篇文章,开启了科学知识图谱在国内的研究与传播。
60-70 年代语义网络逐渐兴起,语义网络其实就是一个网络,类似于一种生物链的结构。所有的节点和边组成了一个网络,节点代表某一种动物,边构成了动物之间的食物链关系。到了80-90 年代,描述逻辑日渐成熟,学者们一直在寻找如何让计算机更好的执行逻辑的推理,因此,越来越多的知识图谱用于构造描述逻辑语言,计算机解决某些问题的研究也从此开始。1995 年前后,知识图谱被真正用于互联网语言的逻辑描述上,从HTML、XML 到DAML+OIL 以及后来的OWL2 都见证了知识图谱从弱语义到强语义的发展过程。
到2006 年的时候,语义网络的技术堆栈已经变得十分复杂,“语义网蛋糕模型”对语义网络的不同技术做了罗列,同时,人们逐渐意识到必须将知识语义扩展到一个更高的维度,即我们所称的“关联数据”,一个三维的语义网络。
知识图谱在医疗、金融、法律、智能制造、通信等各个领域被广泛应用,在检索、编辑、校验、推理、开发等各个工具链上完美契合,知识图谱本质上来说可以看做一种程序,它让计算机能够理解真实的世界,同样人们也能够利用它去开发真实世界的资源。
2 科学知识图谱的原理
知识图谱以语义分析为基础,以模型为核心,基于数据,利用深度卷积网络、NLP 框架语义理解等技术对查询词进行深层次的分析,提供了实体、关系、属性抽取等算法的服务,从而达到构建多领域知识图谱平台,服务不同行业、不同应用。
知识图谱的构建过程是一个迭代更新的过程,包括信息抽取、知识融合和知识加工三个阶段。信息抽取阶段,用于从数据源中抽取出实体、属性以及实体间的相互关系,以此形成知识表达。知识融合阶段需要对不同数据源获得的知识进行整合,消除语义矛盾;知识融合一般包括本体对齐和实体匹配两个步骤。知识加工阶段对于融合后的新知识进行评估和衡量,确保知识库的质量。
针对知识加工阶段来说,其具体包括本体构建、知识推理和质量评估三个方面:本体构建实际上是构建知识图谱上下层级或隶属度的过程,即网络的初步构建过程;知识推理技术能够发现知识图谱中残缺的关系,从而使网络实体的关系更加完善;质量评估的意义在于对知识的可信度进行量化,舍弃置信度低的知识保障整体网络质量。
知识图谱中的实体、属性以及关系不可能一成不变,因此,当有新的元素加入到图谱时,需要对图谱进行更新。图谱的更新包括全面更新和增量更新,全面更新即从零开始重新构建图谱结构,方法简单,但计算量大;增量更新仅以新增知识为输入添加到网络中,资源消耗小,但是实施起来又十分困难。
3 科学知识图谱在行业中的应用
3.1 搜索引擎
搜索引擎本身是一个匹配的过程,通过用户输入的查询返回搜索结果,搜索引擎的后台来源于互联网,通过爬虫技术将互联网的信息获取到本地。传统的搜索引擎返回的仅仅是与查询词对应的结果,而引入知识图谱后,搜索的结果发生了巨大变化,例如在搜索某个明星时,其对应的相关明星以及各自的作品都能够作为结果展示。
类似的搜索产品有如百度知心、搜狗知立方等等。
3.2 基于知识图谱的推荐
知识图谱的推荐主要是通过实体与实体之间的关系,通过一系列的算法将热点进行排序,从而使用户获得更加准确、多样的推荐结果。其实现的过程与搜索引擎类似。
3.3 与人工智能的关系
随着人工智能的不断发展,知识图谱在聊天机器人、问答系统等智能决策系统有了一定的应用。机器人通过对知识图谱的学习能够获得模拟人的行为,并达到举一反三的能力,机器学习能力不再单一,学习内容更加广泛、丰富。
3.4 对宏观经济事件的影响
通过知识图谱能够得到公司股东、竞争对手、竞争产品、合作伙伴、分红等一系列经济数据,研究人员能够从此图谱中进行更深层分析,从而为市场提供更优竞争力的咨询和决策。
4 结语
知识图谱对于大数据的分析、数学模型的建立以及风险预测评估等都发挥着重要的作用,其使抽象的、处于不同维度的数据以直观的、有联系的形式展示出来。但是知识图谱的应用绝不仅限于此,随着科技的进步,越来越多的技术将通过知识图谱的方式融合发展。