APP下载

从知识图谱到认知图谱及电信行业应用

2021-07-19刘永生李亚梦

信息通信技术 2021年3期
关键词:图谱实体智能

刘永生 廖 军 李亚梦 王 巍

中国联通研究院 北京 100048

引言

知识图谱是一种表示、处理和应用知识的技术,最早由谷歌公司在2012年提出,用来提升搜索引擎的智能。知识图谱由节点和边组成,节点表示实体,边表示实体与实体之间的关系。近几年深度学习的热潮对知识图谱发展起到了强大的推动作用,同时知识图谱也被认为是感知智能向认知智能过渡的关键技术之一。

目前国内外已经开发了一大批知识图谱。国外具有代表性的大规模知识图谱有DBpedia、Freebase、Knowledge Vault等;国内具有代表性的大规模知识图谱有Zhishi.me、OpenKN、CN-DBpedia等。同时,行业知识图谱也相继出现,具有代表性的有电影领域的IMDB、医药领域的DrugBank、学术领域的acemap等[1]。

知识谱图的价值主要可以归纳为以下三点:1)智能高效的知识检索能力,得益于自然语言处理和互联网的发展,知识图谱能够提供智能搜索、智能问答、智能推理等能力;2)广泛的行业应用,很多行业发展了行业知识图谱,应用普遍的行业包括金融、电商、医疗等,各个行业尝试使用知识图谱实现知识的积累和灵活使用[2];3)认知智能的基石,近几年蓬勃发展的深度学习属于感知智能阶段,存在的一个主要问题是“黑箱”的不可解释,解决该问题的方式之一是知识驱动,因此知识图谱被认为是从感知智能向认知智能发展的基石,最新的研究进展包括认知图谱[3-4]。

电信行业正在进行数字化转型,实现企业的高质量发展,知识图谱在数字化转型过程中发挥重要作用。网络的自动驾驶是未来5到10年的演进目标,行业内已经提出了自动驾驶网络的分级标准[5],网络运营维护知识积累形成网络知识图谱,将助力自动驾驶网络的演进。同时,知识图谱在企业服务和管理方面也具有重要作用,典型的代表是知识图谱的智能问答代替人工服务等。

1 知识图谱

1.1 知识图谱定义及表示

目前对知识图谱没有统一的定义,文献[6]给出的定义为:知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性,实体间通过关系相互联结,构成网状的知识结构。

知识图谱中知识的表示方法主要有3类[7]:1)基于数理逻辑的知识表示,较早期的知识表示方法,该方法以符号逻辑为基础的表示知识,优点是易于表达显性、离散的知识,缺点是很难使用机器生成推理规则,数据规模大时计算效率低;2)基于语义网络的知识表示,工业界使用广泛的一种表示方法,W3C制定的资源描述框架,使用三元组(s,p,o)来记录各种事物及其相互关系,s和o表示实体,p表示关系,则(s,p,o)表示实体s和实体o之间存在关系p的知识;3)基于向量空间的分布式知识表示,将知识图谱中的实体和关系嵌入到低维连续的向量空间,并且在该向量空间中完成语义计算。这种表示方法可以有效地挖掘隐形知识,对知识库的构建、推理、融合以及应用具有重要意义,具有代表性的方法包括TransE模型[8]和RESCAL模型[9]。

1.2 知识图谱构建技术

知识图谱的构建是从原始的数据开始,经过知识抽取、知识融合、知识加工的步骤,最终得到知识图谱的过程,每个步骤中涉及具体的操作内容,如图1所示,下面对每个步骤的内容及研究进展进行详细介绍。

图1 知识图谱构建技术

1.2.1 知识抽取

知识抽取是指从海量的结构化、半结构化或非结构化的数据中提取知识的过程,涉及的技术包括:实体抽取、关系抽取、属性抽取。其中,实体属性可以看作是实体与属性值之间的关系,可以采用关系抽取的方法来获得。

1)实体抽取

实体抽取是指从数据中识别实体。文献[1]将实体抽取的方法分为3种:①基于规则与词典的方法,利用人工制定的规则与词典从数据中识别出实体。该方法抽取的实体准确率高,通常面向单一领域,但是扩展性比较差,难以满足数据变化的需求。②基于统计机器学习的方法,利用数据对机器学习中模型进行训练,使用训练好的模型来识别实体。比如Liu等将K临近算法和线性条件随机场模型结合来识别实体[10]。该方法需要足够数量的训练数据,当数据量较小时,准确率会受到影响。③面向开放域的抽取方法,针对海量网络数据识别实体。该方法需要建立一个科学完整的命名实体分类体系。

2)关系抽取

关系抽取是指从海量数据中提取出实体之间的关系。关系抽取可以分为3类[7]:1)基于模板的关系抽取,使用模板通过人工或机器学习的方法抽取实体关系。该方法准确率高且针对性强,但是对大规模数据效果差,召回率低;2)基于监督学习的关系抽取,使用人工标注的数据集训练模型,使用训练好的模型抽取关系。比如Sun等提出的FTK模型,计算关系相似度并通过支持向量机对关系进行分类[11];3)基于半监督或无监督学习的关系抽取,使用少量人工标注的数据或者无标注数据来学习关系。比如Feng等提出了基于强化学习的关系分类模型CNN-RL[12]。

1.2.2 知识融合

通过知识抽取获得了大量的知识,因为数据来源不同等原因,同一实体、关系、属性的描述信息存在差异,知识存在冗余信息。有必要对知识抽取的结果进行清理和整合,这就是知识融合。另外,知识融合也包括引入第三方知识库来增加知识的存量。

1)实体消岐

同一名称在不同的语境下存在指代不同实体的情况,比如,李宁既可以指运动员,也可以表示品牌。实体消岐就是为了保证每一个实体具有清晰的名称。实体消岐的方法大致可以分为2类:①基于聚类技术的消岐方法,基本思路是度量实体的名称和语境相似度,将指向同一实体的名称聚为一类。传统的方法采用词袋模型,后续的研究主要针对如何挖掘准确全面的语义知识来寻找突破;②基于实体链接技术的消岐方法,基本思路是将数据中实体链接到知识库中的正确词条,来明确其真实含义,从而达到实体消岐的目标。

2)共指消解

与歧义相对应,在抽取的知识中可能存在不同名称表示同一实体,比如:“中国联通”和“中国联合网络通信有限公司”其实是一个实体的两个不同的名称。共指消解技术就将这些不同的名称指向同一实体的技术。研究进展大致可以分为3类:①以特征为基础的消解,特征可以是词汇、距离、一致性、语法、语义等;②以句法分析为基础的消解,代表方法是Hobbs算法和向心理论;③以统计机器学习为基础的消解,典型的方法包括C4.5决策树算法的引入和实体相似性测度模型。

3)知识合并

知识合并是现有知识库的引入技术,扩充知识图谱的容量。知识合并主要涉及2方面的内容[6]:①合并外部知识库,将外部知识库合并到本地的知识图谱,Mendes等提出了开放数据集成框架用于知识库合并的标准化;②合并关系数据库,企业现存的关系数据库是知识图谱的重要知识来源,将关系数据库转化成资源描述框架的形式是一种流行的操作,目前已经出现了大量转化的工具(比如Triplify、OpenLink等)。

1.2.3 知识加工

知识加工专注于优化知识图谱的逻辑关系,经过知识加工后的知识图谱具有较高的逻辑性。知识加工的技术主要包括:本体构建、知识推理和质量评估。

1)本体构建

本体是一个通用的数据模型,相当于知识图谱的模具,通过定义规则和约束条件等来规范实体、关系以及实体的类型和属性等之间的联系。本体构建的技术主要分为两种:①人工构建,依靠本领域专家和众包的方式,人工构建工作量大而且适合的专家难以寻找;②数据驱动的自动化构建,主要包括实体并列关系相似度计算、实体上下位关系抽取、本体生成的步骤[6]。

2)知识推理

知识推理是指从已有的实体关系出发,经过逻辑计算,建立实体间的新关联,从而拓展和丰富知识。知识推理的方法可以分为4类:①基于规则的推理,利用简单的规则、统计特征等进行推理,该方法可解释性强,准确率高,但是规则不易获得,抗干扰比差;②基于分布式表示的推理,将知识图谱映射为低维向量表示,通过向量操作进行推理,该方法计算方便,但是未深入考虑语义信息推理能力受限;③基于神经网络的推理,利用神经网络计算得到最优的实体和关系,该方法推理能力强,但是复杂度高可解释性差;④混合推理,混合以上推理方法,该方法综合各个方法的优势,但目前只是简单的浅层混合。

3)质量评估

质量评估是在知识加入知识图谱之前,对知识的可信度进行评估,舍弃低质量的知识。现有质量评估方法主要是利用数据来源的可信度来判别知识的质量。谷歌提出了一种依据用户贡献历史和领域,以及问题的难易程度进行自动评估用户贡献知识质量的方法,使用该方法对大规模用户贡献知识评估准确率达到91%,召回率达到80%[6]。

2 认知图谱

人工智能的发展正在处于感知智能的阶段,即数据驱动的智能,三要素是数据、算法和算力,主要研究深度神经网络及其应用,并且在声图文等某些领域达到甚至超过了人类的识别水平,但是以深度神经网络为代表的深度学习算法存在不可解释的“黑箱”和不安全等问题,这些问题来自于数据驱动的智能的先天性缺陷。为解决上述问题,人工智能将迈向认知智能阶段,也被称为第三代人工智能[13],核心是知识和数据共同驱动的智能,技术上可以将深度学习与大规模知识结合起来,实现认知推理和逻辑表达,最新的成果是认知图谱。

2.1 认知图谱的定义

认知图谱是一个全新的概念,文献[14]提出认知图谱可以被解释为基于原始文本数据,针对特定问题情境,使用强大的机器学习模型动态构建的,节点带有上下文语义信息的知识图谱。认知图谱主要内容包括以下4个方面[15]:①融合表示学习与符号逻辑的知识表示;②多源、动态、异质碎片化知识的在线获取和动态融合;③基于时空特性的知识演化和多粒度知识推理;④富知识的用户理解和交互式知识适配。

2.2 认知图谱的研究进展

文献[3]提出了一种认知图谱的应用框架,如图2所示,由2个系统组成,系统1负责经验性的直觉判断,这一黑盒过程提取重要信息,并动态构建认知图谱;系统2则在图上进行关系推理,由于认知图谱保留了实体节点上语义信息的隐表示,所以在符号逻辑之外,也可以使用图神经网络。本质上,认知图谱的改进思路是减少知识图谱构建时的信息损失,将信息处理压力转移给检索和自然语言理解算法,同时保留图结构进行可解释关系推理。

图2 认知图谱的应用框架

文献[16]基于认知图谱构建了一个电商领域的推荐系统:认知智能计算平台。该平台主要包括基础数据层、推理引擎层和用户交互层。基础数据层在构建跨领域知识图谱的同时理解数据背后的含义,推理引擎层使用超大规模图神经网络对消费者意图进行推理,用户交互层基于用户交互的视觉智能和文本智能,理解消费者意图,助力消费者决策。

3 电信行业前沿应用

电信行业正在进行数字化转型,实现企业的高质量发展,以知识图谱和认知图谱为代表的人工智能技术在电信行业拥有广泛的应用前景。一方面,政府报告多次要求电信企业“提速降费”,电信企业需要主动降低运营成本,知识图谱等新技术的引入将会提升企业运行效率、替代部分人力。另一方面,国内市场已经进入存量竞争的时代,不断提升服务质量成为竞争的关键所在,知识图谱等新技术的引入将为客户提供更加人性化和周到的服务。

3.1 企业服务

1)电信诈骗预防与挖掘

随着互联网金融的发展,电信诈骗行为呈现爆发式增长,给用户带来巨大的经济损失,知识图谱为解决电信诈骗提供了新的手段。文献[4]基于事理认知图谱实现了一个预防网络诈骗系统,测试数据为运营商的10万条用户群在线交互信息,采用事理相关性推断分析、博弈演化评估等技术,代替人工审核,进而总结出各种网络电话诈骗手段运作规律,从历史序列值和当前序列值中合理推断出未来发生可能的概率,找出欺诈者的蛛丝马迹,挖掘其数据的矛盾点和可疑点,结果显示预测准确率达到95%。文献[17]使用电信诈骗的数据构建了知识图谱,然后使用图遍历及图算法、混合高斯模型,从联系链路、必要人物、核心人物的发现以及社会关系识别的维度进行分析挖掘。

2)疫情防控

2019年突发全球性的新冠疫情,严重影响了人们的生产和生活习惯,刚开始由于对新冠病毒的不了解,导致了人们的恐慌,同时每天有大量来自于官方、媒体、研究的新冠信息,对这些信息进行整合,构建新冠知识图谱将极大的助力疫情的防控。电信运营商为用户提供了互联网的接入服务及相关的增值服务,利用新冠知识图谱,电信运营商可以为用户提供疫情的查询服务,包括新冠病毒知识、辟谣信息、疫情人数、患者车次等疫情相关的知识问答,国内中高风险地区查询,国内外疫情人数查询。疫情查询服务为知识普及、疫情防控、社会稳定做出重要贡献。同时还可以结合人工智能的语音识别技术,依靠多轮对话机器人可以更加方便为用户提供服务。

3.2 网络运营

电信运营商管理着非常庞大和复杂的网络,为了更加便利的管理,划分成了接入网、承载网、传输网、核心网等不同的网络域,不同的网路域具有专业的知识,近年来随着SDN/NFV、云原生、人工智能等新技术的引入,网络结构出现更多的变化。专业的知识和复杂的网络为网络故障的诊断带来了极大的困难。网络知识图谱可以将网络各个专业知识、运维专家的经验、设备的产品信息等数据进行积累,对于新技术的数据可以进行及时补充,形成强大的网络知识库。一方面,网络知识图谱可以为运维人员提供即时的智能查询服务,包括各类基础知识和常见运维知识,提供多轮查询功能,不断的明确问题。另一方面,文献[18]利用网络知识图谱的知识推理功能,设计了一种智能化的故障诊断系统,融合专家经验和文档知识,实现智能化的根因推导。

3.3 企业管理

电信行业的数字化转型也改变了企业的人才结构,由以CT人才为主转向CT和IT的更多领域人才,云计算、大数据、人工智能、区块链等人才不断涌现,人才专业跨度在增大。同时人才的能力层次各不相同,来源渠道各异。知识图谱为人才高效管理提供了可行方法,文献[19]提出基于知识图谱构建的人才能力标签图谱,有效挖掘深层次的人才能力,发挥专家人才支撑服务一线、经验技术分享的作用,为人力在人岗匹配和晋升培养等方面提供帮助。

4 结语

深度学习的发展为知识图谱的研究带来了新的思路,特别是在知识抽取和知识推理过程中具有很好的泛华能力,但仍然存在可解释性差的问题。同时,知识图谱也被认为从感知智能向认知智能发展的技术之一,将深度学习和知识图谱结合在一起出现了认知图谱,在学术界和产业界引起了广泛关注。电信行业正在进行数字化转型,知识图谱和认知图谱具有广阔的应用前景,主要体现在企业运营的降本增效,本文列举了几项电信领域的典型应用,包括:电信诈骗预防与挖掘、疫情防控、网络故障智能查询和诊断、人才管理。

猜你喜欢

图谱实体智能
基于图对比注意力网络的知识图谱补全
实体书店步入复兴期?
智能前沿
智能前沿
智能前沿
智能前沿
图表
2017实体经济领军者
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”