基于知识图谱实现企业文档知识化管理研究
2019-01-06高靖宇杨俊刘园丽刘勇坚李绪平
高靖宇 杨俊 刘园丽 刘勇坚 李绪平
摘 要:企业文档资料越来越多,普遍存在保存困难,查找、使用不方便、知识管理难的问题。企业知识一般主要建立在企业文档数据基础上,通过信息关联和处理,形成用以支持业务应用和领导决策的数据资源;知识图谱的核心是建立实体与实体的关系,形成知识网络。因此,将知识图谱及相关技术应用到企业知识管理过程中,用于解决以上问题有重要意义。本课题是通过应用知识图谱技术,在企业内部的文档库、数据库的基础上,构建企业知识图谱,以支撑企业的搜索引擎、智能推荐、智能问答等方面,优化企业知识管理的用户体验,提高知识服务的准确性和便捷性。
关键词:知识图谱;知识管理;文档智能管理
中图分类号:X913 文献标识码:A 文章编号:1671-2064(2019)22-0241-02
0 引言
目前企业文档管理主要使用FTP或云盘进行文件存储,存储类型较为单一,仅存储了文档、表格、图片等文件类型;文档应用较为简单,只是进行查询和下载;文档之间关联性较弱,无法通过分类或标签将不同类型文档关联到一起;无文档版本管理,仅通过创建日期或命名来判断版本新旧,经常出现一个文件多个版本或版本应用错误的问题。随着企业文档的持续增加,在企业文档管理中普遍存在文档数量持续增长,造成保存困难;文档版本管理混乱;资源协作共享困难;查找、使用不方便;知识资源闲置,安全缺乏保障等问题。如何建立文档间信息的联系,如何实现知识资源的融合共享,如何帮助用户快速检索和找到所需要的知识,并据此实现新知识的生产,以及应用到业务实践中等,对现代企业越来越重要。企业知识一般主要建立在文档数据基础上,通过信息关联和处理,形成用以支持业务应用和领导决策的数据资源;知识图谱的核心是建立实体与实体的关系,形成知识网络。因此,将知识图谱及相关技术应用到企业知识管理过程中,用于解决以上问题有重要意义。
基于知识图谱实现企业文档知识化管理研究,是通过应用知识图谱技术实现企业文档知识化管理目标。在企业内部的文档库、数据库的基础上,构建企业知识图谱,以支撑企业业务的创新与应用,改善企业知识管理和应用方式,提高企业知识开发与利用的便捷性和准确性,为最终实现“信息化智慧型企业”打下坚实基础。
1 相关理论研究
知识图谱概念最初来源于语义网络,1956年由Richard H于最早提出;进入21世纪,Berners Lee提出了语义Web的概念。在此基础上,谷歌公司在2012年提出“知识图谱”概念,知识图谱是一种描述实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行描述。谷歌当初主要目的是用于改善其搜索引擎的智能化水平,可以此为基础构建新一代的智能化搜索引擎。目前知识图谱技术已被互联网企业用于各种大型的知识库建设。
知识图谱建立主要涉及三大关键技术:知识抽取、知识融合和知识加工。知识抽取过程包括:实体抽取、关系抽取以及屬性值抽取,知识抽取的的质量很大程度影响知识图谱的生成质量。知识融合是通过实体关联和知识并合,来消除知识中的概念歧义、错误和冗余,保证知识库的建设质量。知识加工主要步骤包括:本体构建、知识推理和质量验证,目的是通过计算与推理,丰富知识网络体系。
2 企业知识图谱构建
企业知识图谱的构建,需首先梳通过对企业知识管理的现状进行调研;梳理企业构建知识图谱的数据来源、数据特征、数据流向及管理机制;了解企业知识开发利用中面临的问题,以及企业知识管理需求;进一步明确建立企业知识图谱的目标要求,并明确知识图谱的具体应用场景(如图1所示)。
2.1 数据获取
首先需要明确知识的来源、类型、结构、存储方式,企业知识一般主要来源于企业的工作文件、管理文件、技术文件等,以及信息系统等积累的数据,其中包括企业工作论坛和个人微博等。
2.2 知识抽取
知识抽取是从企业各种非结构化和半结构化的数据源中,提取出知识实体、属性和实体关系,形成结构化的知识描述。
知识抽取主要过程包括:实体抽取、关系抽取和属性抽取。实体抽取是指从文本数据中识别出命名实体;属性抽取是识别出企业的机构、人员、设备、文档等实体的属性;关系抽取是抽取出实体与实体之间存在的关系,将分散的知识关联起来。
2.3 知识融合
通过知识抽取后,获得了知识单元实体、实体的关联关系以及实体的属性信息,但这些信息仅是知识碎片,散乱无章,有些知识碎片可能是错误碎片,并且各知识碎片间缺乏必要的层次和逻辑;那么如何解决这一问题,就需通过知识融合来解决。
知识融合,就是从文本中抽取得到的实体对象,链接到知识库中其他相关的实体对象的操作,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达,并通过知识建模方式,将知识实体以一种结构化、规范化的方式组合成知识体系。
2.4 知识加工
从原始数据源中提取出了知识实体、实体关系与实体属性等要素,并且经过知识融合得到一系列基本的事实表达,但事实表达并非是可利用的知识。还需进一步进行知识加工,才能最终获得结构化、网络化的知识体系。知识加工是通过本体抽取、知识推理和质量验证等技术,进一步深度获取知识间的关联和逻辑关系,得到的知识网络体系更加紧密和丰富。
2.5 知识更新
知识图谱的内容更新有两种方式:(1)全面更新:是以所有原始数据为输入数据,重新开始构建全部知识图谱。这种方法比较简单,但对资源消耗大。(2)增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但一般需要大量人工干预,实施组织比较困难。
2.6 知识应用
即通过知识应用技术的提升,对进一步挖掘知识应用潜力,扩展知识的应用范围;同时将知识图谱与移动通信、人工智能等新技术的结合,从多个层面深化和扩展企业知识应用场景。
3 基于知识图谱的企业知识应用
企业知识应用目的对企业知识资源进行有效管理和利用,促进知识在企业内的顺畅交换和分享,提升工作效率和服务质量,助力企业竞争力提升。结合大数据分析、人工智能等新技术,在企业知识图谱的基础上,可实现知识的智能搜索、智能推荐、不一致性验证、异常分析、智能问答、决策支持等创新应用。
3.1 智能搜索
智能搜索是知识图谱最为典型的应用场景,谷歌最初提出知识图谱技术就是应用于搜索引擎。也是自动给出与相关事物相关的搜索结果,并构建事物关系图,查看更多维度的数据。
3.2 智能推荐
智能推荐是将不同的业务知识精准推荐到企业员工,促进企业内部知识的传播与流通,是一种智能化的企业知识传播方式。在企业内部,主要应用场景包括:(1)场景化推荐;(2)任务型推荐;(3)跨领域的推荐。
3.3 不一致性验证
通过知识关系的推理,对信息的不一致性进行验证,类似交叉验证,尽量避免错误信息传播和使用。
3.4 异常分析
异常分析包括静态分析和动态分析。静态分析:给定一个知识结构和某个时间点,从中去发现一些异常点。动态分析:分析其结构随时间变化的趋势。假设短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注和提醒。
3.5 智能问答系统
智能问答系统是基于传统的信息检索技术基础上,结合知识图谱技术,能够为用户提供准确简洁的问题解答。目前很多问答平台引入了知识图譜,如国内百度公司研发的小度机器人,专门为各类互联网平台提供智能问答解决方案。
3.6 决策支持
基于企业知识图谱,信息系统将相关决策支持知识,智能地与企业的生产计划、执行调度和流程审批等决策点关联起来,以支持或辅助决策。借助知识图谱可及时感知市场新的关系和变化,例如通过知识图谱对市场的变化进行智能检测,帮助企业管理者及时发现市场变化和产品趋势,及时采取措施。
4 结语
事实上,基于知识图谱的企业知识应用远不止于此。整个企业与其外部世界就是一张巨大的知识图谱,是无数个实体关系对,近年来企业界对图数据库、知识图谱的巨大应用价值给予越来越多的关注。识图谱目前在新闻、金融、司法等领域的应用比较成功,在企业知识管理中的应用比较鲜见。本文虽然提出了基于知识图谱实现企业文档知识化建设思路和方法,并对其应用场景进行了探讨,但研究仍然还不够全面与深入,需要进一步在实践中持续改进和完善。
参考文献
[1] 彭鑫.基于知识管理的企业知识图谱构建研究[D].武汉:武汉大学,2018.
[2] 曹倩,等.知识图谱的技术实现流程及相关应用[J].北京:情报理论与实践,2015(12):131-136.
[3] 刘峤,等.知识图谱构建技术综述[J].北京:计算机研究与发展,2016(3):582-600.
[4] 赵宇.知识图谱自动演进算法研究[D].北京:北京邮电大学,2017.
[5] 聂莉莉.概述知识图谱在人工智能中的应用[J].北京:医学信息学,2018(06):11-16.