APP下载

基于知识图谱的信息查询系统设计与实现研究*

2021-11-27刘昱甫

科技与创新 2021年14期
关键词:信息检索功能模块图谱

刘昱甫

(清华大学,北京100084)

大数据技术迅速发展,已经在医疗保健、用户生成数据、互联网和金融公司、供应链系统等行业领域得到深入应用[1],也已经在人们的日常生活中展示出不可替代的作用[2]。另一方面,不同类型数据量的迅猛增加,增加了信息检索的难度,降低了信息检索的效率,为信息查询带来了极大挑战[3]。本文介绍了一种基于知识图谱的信息查询系统的新方案。

1 基于知识图谱的信息查询系统的设计背景

传统的信息查询系统主要根据用户输入的关键词进行索引匹配,完成信息的检索与调取。这种信息查询与检索方式在理解用户查询需求,展示检索结果等方面扩展性不强。为了满足用户对于信息查询快速性、准确性、智能性的不断增长的需求,本文介绍了一种基于知识图谱的信息查询系统的新方案[4]。

2 基于知识图谱的信息查询系统的关键技术分析

2.1 知识图谱的概念和主要构建技术

知识图谱是一种语义网络。知识图谱的构建是一个系统性的工程[5],它包括本体构造、知识抽取和关系抽取、知识推理和关系推理等[6-7]。此外,还需对知识抽取的监督算法进行样本标注,或对自动标注的样本进行效果确认。在知识抽取的过程中需要完成实体抽取、关系抽取和属性抽取。

2.2 信息检索技术

信息检索技术主要指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术[8]。常用的信息检索方式包括手工检索和机械检索(计算机检索、网络信息检索)。本文介绍的基于知识图谱的信息查询系统,选用网络信息检索的方式,即依托特定的网络检索工具或浏览方式,让用户在网络终端完成所需信息的查找与获取。

3 基于知识图谱的信息查询系统的设计方案

3.1 系统整体逻辑结构的设计

基于知识图谱的信息查询系统的逻辑机构包括查询应用层、数据存储层、数据预处理层、网络数据获取层。其中,查询应用层主要包含信息检索、知识图谱展示、智能问答。它为用户提供信息检索服务,满足用户信息查询与获取需求。数据存储层主要包括基于数据库的知识存储,它能够把CSV文件格式存储的实体及其关系文件传递至Neo4j图数据库中管理,实现知识信息的存储。

数据预处理层主要包括结构化知识库、中文分词、词性标注、相似度计算、文本分类、实体抽取、实体对齐、资源库等功能模块。该层在解析器的支持下,完成对原始数据的抽取,并实现多样化的数据信息预处理。网络数据获取层主要面向各类网站数据源主动获取数据,主要包括网页文本资源的提取。

3.2 系统功能模块的具体设计

3.2.1 数据获取功能模块设计

该功能模块需要针对不同的数据源网站所包含的知识,比如“豆瓣读书”网站包含的书籍、作者、出版社等,应用爬虫技术获取网页文本资源,提取和组织知识信息。

3.2.2 数据预处理功能模块设计

该模块需要实现中文分词和词性标注、相似度计算和文本分类三个主要功能。可以应用用户词典功能等实现中文分词和词性标注,基于余弦定理等完成字符串相似度计算,应用KNN邻近算法等完成文本分类。

3.2.3 知识存储功能模块设计

可以采用Neo4j图数据库完成实体节点及其关联关系的长效性存储[9],进而基于实体属性或者关联关系实现知识检索。

3.2.4 图谱构建功能模块设计

图谱构建功能可以细化为六个功能单元,具体包括知识获取、知识融合、知识存储、查询语义理解、知识检索、可视化展现[10]。它们共同完成自然语言查询的语义分析处理、知识信息匹配、查询结果反馈及其可视化展现的完整过程,帮助用户迅速、准确、全面地获取信息。

4 基于知识图谱的信息查询系统的应用试验

4.1 试验环境与数据

为了确定本系统的应用效果,展示系统设计方案的可行性,以中文小说图书为知识对象,搭建了实验环境。其中试验数据设置如下:Dbpedia的实体稳定在0.4亿,类别设置为250,事实设置为5亿条,属性控制在6 000种;Freebase的实体稳定在2亿,主题设置为2 000,事实设置为1亿条,属性控制在4 000种;NELL的实体稳定在300万,类别设置为300,学习规则控制在1 500万条;谷歌知识图谱的实体稳定在5亿,事实设置为35亿条。

4.2 试验流程

试验步骤如下:①完成系统开发技术的设定。在基于知识图谱的信息查询系统实现中,使用的技术主要包括Java语言(编程语言)、Neo4j图数据库(数据库),使用的开发工具为Eclipse开发平台,使用的Web服务器为Tomcat。②构建图谱。在“豆瓣读书”网站中展开实体的抽选,并在CSV实体文件中保存。实践中,主要根据固定的格式,在CSV实体关系文件中保存实体之间的关系。随后,将CSV实体文件、CSV实体关系文件均转移至数据库中保存,达到构建图谱的效果。③系统开发。出于对基于知识图谱的信息查询系统开发效率的考量,将开发架构设定为MVC中的“JSP+Servlet+JavaBean”模式。

4.3 试验结果

该系统可以迅速地响应用户的查询需求。和之前基于关键词的书籍和作者信息检索系统相比,该系统能够对查询需求的语义信息进行深入分析,为用户提供更为全面、准确的信息查询结果。比如,针对用户输入的查询词为“活着”,系统能够判断出其为余华的代表作之一,除了展示本书的相关信息,还能同时展示作者余华的生平简历、其他相关的著作信息、网站购书链接等。由此可以看出,基于知识图谱的信息查询系统能够为用户提供更为详细、全面、精准的查询信息,突破了传统的基于关键词的检索能力,有着非常高的应用价值。

5 总结

传统的信息查询系统往往依赖关键词匹配。为了满足用户对于信息查询的快速性、准确性、智能性不断增长的需求,本文展示了基于知识图谱的信息检索架构,通过数据获取、数据预处理、知识存储、图谱构建和可视化展示等功能模块的紧密集成,实现了基于知识图谱的信息查询系统的构建。以中文小说图书为知识对象的应用案例表明,这种基于知识图谱的信息查询能够为用户提供更为详细、全面、精准的信息查询能力,突破了传统的基于关键词的检索能力,有着非常高的应用价值。

猜你喜欢

信息检索功能模块图谱
基于图对比注意力网络的知识图谱补全
图表
对大学案理研讨课学生信息检索意识若干问题的思考
商业模式是新媒体的核心
基于ASP.NET标准的采购管理系统研究
高校二手交易网络平台功能及技术框架分析与设计
主动对接你思维的知识图谱
中外档案网站信息检索功能比较研究
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例
中国知名官方智库图谱