基于知识图谱技术的勘察设计企业知识库建设探索
2020-11-19
长期以来,勘察设计企业积累了大量的项目成果经验数据,传统的成果管理通常是采用图档库、文档库等形式进行管理,只能初步满足文件查找和借阅,缺乏挖掘项目知识的发现、关联、参考、创新的知识平台。勘察设计企业知识系统建设应以提高经营能力、管理、生产效率为目标,以提升项目质量水平为中心,以利用先进的IT技术、科学的规划、理性的投入、务实的建设、高效的运用为根本宗旨,服务于生产、服务于一线员工。系统建设需要对企业内信息知识进行分析,处理各信息数据之间的关系,打破原有逻辑并进行整合及充分挖掘可利用信息,利用信息技术对数据信息进行统一整合、深度挖掘、高效组织再利用,加速企业快速成长。基于此,依据行业特点,本文就勘察设计企业如何利用知识图谱技术对大量的项目数据进行知识抽取、知识融合、知识存储和知识服务,对海量项目信息特征进行提取、处理、管理、分析和判断,并结合构建勘察设计企业知识库的实践和探索提出了思考。
知识图谱概述
随着人工智能的发展以及对知识需求的急剧增加,知识图谱在工业界和学术界备受关注。知识图谱的概念由Google公司于2012年提出,特指用于提升搜索引擎性能的知识库。广义的知识图谱泛指各类知识库项目。知识图谱将各类信息、数据和链接关系聚合为知识,是大数据环境下知识的有效组织方法。各类大规模知识图谱在智能搜索、智能问答、智能推荐、情报分析、反欺诈、社交网络、金融、医疗、电商以及教育科研等领域发挥了重要作用。
知识图谱技术经历了语义网络、描述逻辑和本体论等发展阶段。当前主流的表达方式为W3C制定的资源描述框架(Resource Description Framework,RDF)和网络本体语言(Web Ontology Language,OWL)等标准语言。在形式上,知识图谱由相互连接的实体和其属性构成,通常表达为网络结构。知识图谱中包含了多种类型的实体(节点)和多种类型的连接关系(边),构成了知识网络。
知识图谱构建过程如图1所示,主要包括信息抽取和知识融合过程。知识图谱主要分为自顶向下(top-down)和自底向上(bottom-up)两种构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库;自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。由于自顶向下的构建方式需要利用一些现有的结构化知识库作为其基础知识库,目前大多数知识图谱都采用自底向上的方式进行构建[1]。
本体构建与实体关系抽取
本体构建
本体是对特定领域中的概念及其相互关系的形式化表达,是同一领域不同主体进行交流、连通的基础,其相邻层节点之间具有严格的从属关系。本体构建的方法主要包括TOVE法、Methontology方法、骨架法、IDEF-5法和七步法等。建立行业知识图谱应从具备行业特征的数据中进行选取和甄别,如专用名词、行业术语、常用参数、行业专有定义等。
实体关系抽取
关系是对实体之间链接的描述,实体关系抽取可选用多个模型实现,BI-GRU+Att模型为一种常用模型,模型可以完成文本信息中实体的关系抽取任务。模型结构如图2所示。
其中,门控循环单元(GRU)网络是循环神经网络的一种变体,可以有效克服循环神经网络无法很好处理远距离依赖的问题。而注意力机制可以增大关键词的注意力权重,使得神经网络更关注与关键词相关的上下文信息[2]。
图1 知识图谱构建过程
图2 BI-GRU + Attention 模型
图3 混凝土结构的实体与关系
图4 实体与关系示例格式
图5 知识抽取结构图
图6 混凝土性能信息抽取示例
图7 知识融合结构图
勘察设计企业特点的本体库
在知识图谱中,本体库是用于管理知识图谱的模式层,用来描述概念层次体系,是知识图谱中知识的概念模板,通过本体库形成的知识图谱层次结构分明、冗余度小。图3为示例说明,表示了混凝土结构实体和其他实体的关系。
其中,性能检验、强度检验等菱形图标是混凝土结构的方法,混凝土是混凝土结构的上位词,混凝土结构后锚固是混凝土结构的下位词,混凝土抗压强度为相关词。方法、上位词、下位词、相关词表示的是实体之间的相互关系。
在构建知识库过程中,可以通过导入方式,将已有数据导入到知识库中(图4)。
知识抽取
知识抽取,是指整合项目相关文档,包括项目设计图纸、咨询方案、设计方案、计算书、环境影响报告等,从项目所属文档数据中提取各种信息,形成知识(结构化数据)并存入知识库中。信息抽取可按来源分为三种:结构化数据抽取、非结构化数据抽取、半结构化数据抽取(图5)。
结构化数据是指类似于关系库中表格形式的数据,它们各项之间往往存在明确的关系名称和对应关系。因此,可以简单地将其转化为RDF或其他形式的知识库内容[3]。
勘察设计行业数据大部分是非结构化信息,非结构化数据的信息抽取一般是指从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出。非结构化数据抽取,主要包括实体识别与抽取、实体消歧、关系抽取、事件抽取等。图6为从非结构化文本中抽取的混凝土性能相关信息。
知识融合
知识融合,即合并两个知识图谱,基本的问题都是研究如何将来自多个来源的关于同一个实体或概念的描述信息融合起来。
勘察设计行业从不同维度可以细分出很多内部行业,如民用与工业建筑、市政和交通、电子和机械等,各个行业既有相同又有差异,如何将不同的信息融合建立统一的企业知识库,这是知识融合需要解决的问题之一。
知识融合有不同的称谓,如本体对齐、本体匹配、实体对齐等,但其本质工作是一样的。此项功能通常由一些特定的工具来完成。Falcon-AO就是一个自动的本体匹配系统,它可以将RDF(S)和OWL所表达本体进行匹配,其结构如图7所示。
匹配算法库包含V-Doc、I-sub、GMO、PBM四个算法。其中,V-Doc即基于虚拟文档的语言学匹配,是将实体及其周围的实体、名词、文本等信息作一个集合形成虚拟文档,使用者就可以用TD-IDF等算法进行操作。I-Sub是基于编辑距离的字符串匹配,I-Sub和V-Doc都是基于字符串或文本级别的处理,之后更进一步就有了GMO,它是对RDF本体的图结构上做的匹配。PBM则是基于分而治之的思想做的匹配。计算相似度的组合策略如图8所示。
首先经由PBM进行分而治之,后进入到V-Doc和I-Sub,GMO接收两者的输出做进一步处理,GMO的输出连同V-Doc和I-Sub的输出经由最终的贪心算法进行选取。
知识融合适用于一家勘察设计企业涉及到多个细分领域情况下构建企业知识库,可以将多个细分行业的知识有机融合在一起[3]。
企业知识库存储
构建知识图谱型知识库涉及到的数据通常为关系型数据、知识图谱数据和非结构化数据。因此,知识图谱型知识库通常采用关系型数据库、图数据库与文件数据库相结合的方式存储在服务器中。
关系型数据库
知识本体结构可以存储于关系型数据库中,知识本体采用“实体-实体-关系”结构进行存储。
图数据库
通常采用图数据库存储图谱数据,图数据库源起图理论(graph theory),也称为面向/基于图的数据库(Graph Database)。图数据库的基本含义是以“图”这种数据结构存储和查询数据。它的数据模型主要是以节点和关系来体现,也可以处理键值对。它的优点在于能够快速解决复杂的关系问题(图9)。
图8 计算相似度组合策略图
图9 图数据库
Jena是一个支持构建语义网络和数据连接的应用框架,是当前常用的应用框架。其中,最底层的是数据库,包含SQL数据库和原生数据库,SDB用来导入SQL数据库,TDB导入RDF三元组。数据库之上是内建的和外联的推理接口,再上层是SPARQL查询接口。通过直接使用SPARQL语言或通过REfO等模块转换成SPARQL语言进行查询。图数据库很多,其中开源的如RDF4j、gStore等,商业数据库如Virtuoso、AllegroGraph、Stardog等,原生图数据库如Neo4j、OrientDB、Titan等[3],在建立知识库时可以根据实际情况进行选择。图10为建筑设计知识图谱存储示例,图11为暖通专业实体及关系存储示例。
图10 建筑设计知识图谱存储示例
图11 暖通专业实体及关系存储知识图数据示例
图12 文件数据库架构
文件数据库
文件数据库通常采用分布式存储管理系统对图片、文档、视频等文件数据进行存储。文件存储系统是一种高性能分布式文件系统,可提供系统化、安全化、智能化、云存储化、自动化的存储平台,具有海量存储、持续扩容、文件加密解密、支持大规模数据读取、故障自动恢复、拥有管理应用平台、提供容灾备份与数据同步机制等特点。文件数据库实现架构如图12所示,包括了文件存储服务器存储实体文件,索引服务器存储文件索引,缓存服务器缓存常用数据提高系统反应速度,应用服务器对外提供服务,配置管理服务器提供调度、日志等系统管理功能。
文件数据库根据知识数量的多少,可由一台或者多台硬件服务器组成,在支持企业知识库文件存储的同时,可以实现对大数据系统的支持,做到一个系统、多种用途。
企业知识库的应用
企业知识库的应用可分为传统形式和智能形式两种。传统知识服务形式为数据目录搜索、地图可视化搜索、全文检索;智能形式的服务为主题搜索、指标搜索、智能排序、搜索结果聚类、智能推荐、智能问答。下面对各种知识服务进行简要描述,企业可以根据实际需要使用一种或者多种知识服务。
数据目录搜索
数据目录搜索按照目录检索定位、核心元数据、目录检索的方式、检索结果模式进行。数据目录导航检索有了检索定位之后,通过检索核心元数据生成对应的数据目录或者是数据分类信息,同时也可以选择检索的方式,比如根据数据的标准进行检索,能够实现自动分类。
地图可视化搜索
常见的搜索方案为文本式的搜索,用户输入关键词后搜索出结果,且一般结果均以列表式呈现。可视化的搜索方案可以省去用户的部分操作,使搜索更加简单、用户操作更加友好,并且展示的结果也更加直观和实用。
地图可视化搜索主要针对的是有地域特征或有位置特征的数据,这些数据不再是简单无意义的列表形式的展示,而是通过对这些数据的处理和加工,再通过地图可视化组件展示出来。比如,建筑项目的所在地信息具有一定的位置属性,根据收集项目建设地,经过一定的加工和处理,就可以通过地图可视化组件展示出来,并且可以非常直观和清晰地展现项目的分布情况。
主题搜索
主题数据检索也可称为专题数据检索,是某一系列数据的组合,相互之间有一定的关联关系。实现主题数据检索,依赖于主题数据库的建设,能够根据领域业务应用的需求和热点事件,如以建筑、结构、暖通、钢结构、高架桥、汽车厂房、涂装车间等为主题构建成具有不同特色的主题数据库,并利用元数据异构共享技术、知识本体构建技术等,实现在某一特定主题下的数据检索和知识推荐。
全文检索
支持分布式、索引、同段、同句、相似检索、指纹检索等多模态数据索引和联合查询技术,针对勘察设计行业特点的文本、数值、序列、通路、图像等多类型数据在内的多模态数据索引方法,以响应多模态数据的搜索请求,发展并优化综合多种索引的搜索排序算法,使得多模态大数据的检索结果更为精确与迅速。
指标搜索
根据关键词输入,进行不同维度指标的智能搜索。搜索中可自动从不同数据源获取数据,按照专业的不同进行聚合、处理,生成包含内容介绍和指标数据的可视化报告,同时可针对行业特定词汇进行优化。
智能排序
针对海量数据搜索,最核心的问题之一是排序问题,如何把用户想要的结果排在前面,可利用知识图谱和机器学习技术结合的方法有效解决排序问题。排序学习的目标在于自动从训练数据中学习得到一个排序函数,使其在文本搜索中能够针对文本的相关性、重要性等多种衡量标准对文本进行排序。排序学习的优势是利用知识图谱,整合大量复杂特征并自动进行参数调整,自动学习最优参数,降低单一考虑排序因素的风险,同时能够通过众多有效手段规避过拟合问题。因此,基于排序学习的推荐模型能够提高个性化推荐效果。
搜索结果聚类
随着企业知识库建设的推进,用户通过信息搜索所获得的搜索结果数量将越来越大,甚至是海量的,搜索结果的信息处理技术成为搜索的重点之一。通过知识图谱进行聚类可以有效减少搜索结果的数量,提高搜索的质量,便于用户通过搜索获取信息。
采用自动聚类将相似的文本组成一类,通过计算距离函数等方法,将相似性大的文本组成一个集合实现聚类的效果。搜索结果的聚类是信息处理领域的热点问题,将搜索结果按知识关联进行聚类,能够提高用户信息搜索的准确性。聚类包括以下6类:
一是主题聚类:按照搜索结果的主题词进行搜索结果的聚类,将大量的搜索结果归类至有限的几个主题中,如建筑承重、建筑外型、结构类型等主题。
二是时间聚类:按照搜索结果进行时间维度的聚类,将同一时间的数据聚合在一起,方便从时间维度进行数据分析,如查看最新时间的结果。
三是地域聚类:根据数据中主题地域,按照地域维度进行数据聚类,如查看北京相关的搜索结果。
四是事件聚类:抽取特定事件,把相同事件进行聚类分析。可以针对一个具体事件进行结果的聚合,例如采用同种设备的项目等。
五是人物聚类:针对重点人物,进行人物聚类,如某院内著名设计师设计的项目。
六是机构聚类:把结果数据按照涉及的机构进行抽取与聚类,如万达项目等。
智能推荐
智能推荐是基于知识图谱的智能系统,旨在通过全方位的精准数据刻画用户的意图,推荐用户有意愿的数据,给用户最好的体验、提升转化率、增强用户黏性。
推荐系统的系统架构,基于用户的知识图谱根据不同的用户提供统一的推荐服务,服务于大数据项目的所有终端的推荐业务。系统架构可有3个主要模块:
一是模型服务。为了提高个性化的效果而开发的一系列行业特色的个性化服务,用户维度有用户行为服务和用户画像服务,特征维度有特征服务。通过这些基础服务,让个性化推荐更简单、更精准。
二是机器学习。算法模型训练阶段,尝试多种机器学习模型,结合离线测评和在线,验证不同场景下的算法模型的效果,提高推荐的转化率。
三是数据平台。数据是推荐的源泉,包括数据收集和数据计算。数据虽然是整体推荐架构的最底层,却是非常重要的,因为数据直接关系到推荐的健康发展和效果提升。知识图谱是一个宏大的数据模型,可以构建庞大的知识网络,包含世间万物构成的实体以及它们之间的关系,图文并茂地展现知识方方面面的属性,让人们更便捷地获取信息、找到所求。知识图谱将人与知识智能地连接起来。
智能问答
基于知识图谱的智能问答,以图的形式将各个节点和之间的关系存储到图数据库,一问一答为一个问答对。通过机器深度学习,配合权威专家进行领域知识的梳理并以问答形式组织相关内容,导入图数据库形成勘察设计行业特点问答知识图谱。同样使用NLP分词,分类(基于勘察设计行业知识库预料分析)分析出领域、实体、关系,将其和三元组进行匹配,即计算其向量相似度,从而为某个特定问题找到来自知识图谱的最佳三元组,匹配出对应的节点或者相邻节点、父子节点等构建答案,进行可视化展示,并进行相关问答推送。
基于知识图谱技术的勘察设计企业知识库建设,利用当前先进的IT技术,对传统的图档系统进行升级,将项目数据碎片化、知识化、图谱化,将有助于勘察设计企业知识的保留并传承,更好地服务于一线的生产人员,提高企业的生产效率、降低成本,助力企业高质量发展。