APP下载

基于知识图谱的学术信息检索系统研究

2023-08-29李维娜

中国科技纵横 2023年4期
关键词:信息检索数据源搜索引擎

李维娜

(中国软件评测中心网络空间安全测评工程技术中心, 北京 100048)

1.绪论

1.1 学科背景

知识图谱[1]又称为科学知识图谱,是知识的可视化形式。它是利用信息处理、数据挖掘等手段提炼事物内部的实体结构关系,并用图谱的形式展现出来。Google 搜索引擎自2012 年为搜索添加了智能化元素。智能化搜索应该是可以识别用户的搜索意图,达到精准搜索,并返回用户搜索相关的信息实体及信息实体与其他实体间交叉关系,也即是信息知识图谱,这样用户就可以执行一次搜索完成对一个事物的全方位了解。可见知识图谱在智能搜索领域具有重要意义[2]。学术搜索[3]是用户检索科技论文及作者等一系列的信息,同样知识图谱在学术搜索领域也可以提高检索效率,达到较好的用户体验。然而目前的学术检索还是通过普通人工整理来明确数据本身的关联关系,利用知识图谱技术提高建立关联关系的智能化程度是一个有意义的研究方向。

知识图谱起源于语义网络。1968 年,J.R.Quillian 提出了语义网络的定义,是一种用图来表示知识的结构形式。知识图谱由Google 公司于2012 年正式提出,而后逐步应用于搜索引擎、智能问答、产品销售、医疗等。Ashwini Jaya Kumar 等人[4]提出了一个基于知识图谱的问答系统接口,解决自动化语音识别和语言处理问题。Haklae Kim为了解决消费者在购物时往往对商品缺少充分信息的问题,提出构建一种商品的知识图谱来解决这个问题,给出了表达产品特征的功能和新方法。Tong Yu 阐述了一种中药领域的知识采集、分析、管理、构建与应用,做到了知识的可视化、知识推荐、共享与利用。

搜索引擎是网页个数及信息量爆炸式增长的产物。与搜索相关的产品在1990 年后相继出现。蒙特利尔McGill的大学生AlanEmtage、PeterDeutsch、BillWheelan 研发的Archie 打开了搜索引擎思路的大门,虽然这个工具的目的为了快速查找FTP 文件。1993 年又产生了可以搜索网页和文件的工具,这个来源于美国内达华System Computing Service 大学。而后出现了Yahoo 让搜索引擎的便利深入人心。1998 年出现的Google 搜索、2000 年出现的百度公司、2002 年出现的中国搜索都成为目前搜索引擎领域的巨头。知识图谱的出现为发展智能搜索引擎带来了美好的前景,同时知识图谱在搜索引擎方面得到了很好的应用,知识图谱在信息检索等发挥着越来越重要的作用。

1.2 相关工作

学术搜索是专门为学术工作者提供科技论文、学者、期刊、学术机构检索的搜索引擎,是提高科技工作者工作效率的重要途径。现有的学术搜索机构目前还停留在数据库检索及关键词匹配的初级搜索阶段,智能化学术搜索有待发展。

知识图谱作为智能搜索的重要技术组成部分,目前,在学术领域的应用主要有两种方式。一种基于内容的,也就是绘制学术内容本身的知识图谱,如研究近10 年有关机器学习方面的知识图谱,陈瑜林[5]等人在2012 年就研究了学术群体的可视化知识图谱构建,分析了学者与学者之间的关联关系。薛芳[6]等人利用7093 篇文献,研究了国内环境监测领域的学者、研究机构等。刘阳[7]等人通过共词分析、聚类分析及多维尺度分析研究了2000 年到2009 年间的搜索引擎学术知识图谱;一种是基于内容搜索的,也就是通过关键词检索获取复杂的学术信息实体及实体关系,这方面的文献及研究还十分薄弱。如何把现有的各学科内学术文献研究的知识图谱进行整合,提供搜索是十分有必要加以研究的内容。

本文从基于知识图谱的学术搜索引擎的数据采集、分析、构建的角度进行了研究,给出了整体的框架及一种学术信息知识图谱构建算法。

2.相关定义

实体是知识图谱中最基本的组成元素。知识图谱是一种用图表达的实体及实体关系结构的知识库,可以用三元组表示为KG={E,R,S}[8]。其中E={e1,e2,….,e|E|}表示知识库中实体的集合,|E|表示为实体的总数。R={r1,r2,….,r|R|}表示知识库中实体之间关系的集合,|R|表示为实体关系的总数。S ⊆E×R×E 表示知识库中实体与实体之间的关系。

定义1:学术信息一般包含学术机构、论文、学者、期刊等,符号表示为AI={D,A,E,J,…,R},是一个多种实体及实体关系的集合。

其中D 代表学术机构及机构之间关系,D={d,Rd},其中d={d1,d2,….,dn},n ∈Z+,Rd={dm×du|dm∈d,du∈d,m ≠u};

A 代表论文及论文之间关系,A={a,Ra},其中a={a1,a2,….an},n ∈Z+,Ra={am×au|am∈a,au∈d,m ≠u};

E 代表学者及学者关系,E={e,Re},其中e={e1,e2,…,en},n ∈Z+,Re={em×eu|em∈e,eu∈e, m ≠u};

J 代表期刊及期刊之间关系,J={j,Rj},其中j={j1,j2,…,jn},n ∈Z+,Rj={jm×ju|jm∈j,ju∈j,m ≠u};

R 代表机构、论文、学者、期刊之间的关联关系的集合,R={r1,r2,…,rn},n ∈Z+,r1={dx×ay×ez×jo|dx∈d,ay∈a,ez∈e,jo∈j;x,y,z,o ∈Z+}。

定义2:学术信息知识图谱是用图的形式表示学术信息的一种形式。符号表示为KGAI={EAI,RAI,SAI},其中EAI表示知识库中实体的集合。RAI表示知识库中实体之间关系的集合。SAI⊆EAI×RAI×EAI表示知识库中实体与实体之间的关系。

检索学术资料是学者做学术的必备步骤,优化学术信息检索结构是加速科技进步的有效手段。普通的1.0 时代的学术信息检索是一种基于关键词搜索并返回与关键词相关的学术信息有序列表。

定义3:学术信息知识图谱检索是一种基于用户在搜索引擎中输入关键词进行搜索并返回与关键词精确匹配的学术信息及知识图谱的检索方式。

3.基于知识图谱的学术信息检索架构

要组成一个完整的学术信息检索系统,必须包括学术信息数据的采集、学术实体的抽取、学术信息知识图谱构建、知识图谱存储、知识图谱索引、学术信息检索等模块。

对学术数据的采集可以有多种途径:学术机构提交给论文收录机构的数据;通用搜索引擎中的数据;学术搜索引擎中的数据等。论文收录机构的数据是比较规范的结构化数据,同时信息比较完整,通用搜索引擎中的数据是非结构化的包含冗余信息的数据,同时信息不完整,学术搜索引擎中的数据一般是可以获取到结构化的数据,但信息不能保证完整性。

多种数据源经过整合后、数据预处理后,要经过信息抽取等完成多数据源的信息实体抽取。而后进行知识图谱构建形成知识库。再经过索引模块的搭建把知识库变成索引库,为用户的学术信息检索提供快速的响应。

4.一种构建学术信息检索知识图谱的方案

学术信息是研究机构、学者、期刊、论文等信息的集合。目前,论文收录机构数据库中一般有完整的研究机构、论文、期刊及作者信息,是构建知识图谱的重要数据源。同时通用搜索引擎和学术搜索引擎也是数据的重要来源。数据采集后实体关系抽取、知识融合是构建知识图谱完成学术信息检索的核心步骤。

4.1 基于关系数据库的实体关系抽取

规范的论文收录机构数据库包含完整的研究机构信息、学者信息、期刊信息、论文信息以及各种关系表,如学者论文关系表记录了哪位学者发表了哪篇论文。首先可以根据各个表获取实体。实体关系可以根据关系表获取。

4.2 学术搜索引擎中基于源代码的的实体关系抽取

学术搜索引擎是用户输入并提交关键词并把学术信息返回给用户的一台机器,如百度学术搜索(http://xueshu.baidu.com),输入关键词“模式识别”后返回给用户的是一个与关键词相关网页信息。

4.3 知识融合、知识图谱构建、知识图谱的索引

从不同数据源获得的学术信息实体关系可以起到相互补充的作用,同时也存在不同数据源虽然结构不同,但都表示同一个知识,要多个数据源的知识就牵涉到知识融合。如关系型数据库里面的数据是二维表格,而学术搜索引擎中我们得到的就是规范的html 文本。

为了从不同数据源中抽取实体关系构建知识图谱,本文采用了知识图谱常用的存储方式:三元组(E,R,E)形式,也就是实体-关系-实体的形式,这种方式的底层储存可以有多种形式:可以采用一般的关系数据库,也可以采用RDF 存储、图数据库等。整理多个数据源的实体及关系后存储到一定形式的数据库中,就完成了知识图谱的底层构建。

ElasticSearch 是一个基于Lucene 的搜索服务器,是一种分布式的实时、稳定、方便的开源搜索引擎,同时提供多种开发语言的API。同时很多机构和个人编写了很多开源的数据同步插件,可以很容易地把关系型及非关系型数据库中的数据进行索引,同时提供检索服务。学术信息搜索的检索模块,知识库的索引都可以用ElasticSearch 很容易地实现。

5.实验

5.1 实验环境及数据源

实验在Windows 10 下进行,数据采集于某出版行业数据库及百度学术搜索引擎,获取某出版网站输入关键词“数据挖掘”按照主题搜索获取大约82680 条数据,然后选中前500 条通过导出参考文献获取第一批实验数据,标注为DB_1。通过网络爬虫技术在百度学术搜索中输入关键词“数据挖掘”,获取返回数据的前500 条作为第二批实验数据,标注为DB_2。对两批实验数据完成实体关系抽取、知识融合、知识库构建。同时用MySQL 数据库进行三元组信息的存储,用ElasticSearch 进行知识图谱的索引及检索。

5.2 实验步骤

5.2.1 实验平台的搭建

实验环境在Windows 10 上安装与部署,并建立数据库knowledgegraph,表knowgraph 作为实体关系的知识图谱存储。

5.2.2 实体关系抽取过程

第一批实验数据很规范地显示作者、期刊、论文等信息,采用文本读取分割摘取的方式解析出作者、期刊、论文等学术信息实体,同时实体关系写入知识图谱库。

第二批实验数据采用jsoup(Java 版的html 解析库,https://jsoup.org/),对爬取的网页信息通过html 属性result sc_default_result xpath-log 进行解析拆分得出学术信息实体关系,写入知识图谱库,同时注意库中已经有的实体关系不再重复写入。最终得出实体关系情况,然后通过JSON 数据解析,再把数据转换成graphviz-2.38 可以识别图数据格式。最后通过Graphviz 绘制图形结构。

6.结语

为了促进学术信息的智能化搜索,本文运用到了学术信息知识图谱的方法。首先综述了知识图谱及其目前的应用领域,其次设计了科技论文检索系统基于作者和论文的知识图谱构建模型。详细设计学术信息实体关系抽取、知识融合等知识图谱构建的关键方法,最后实验利用某出版行业现有的数据和百度学术搜索的数据实验了数据采集,实体关系抽取,知识融合、学术信息检索、知识图谱自动绘制等构建了基于知识图谱的学术信息检索系统。

猜你喜欢

信息检索数据源搜索引擎
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究
网络搜索引擎亟待规范
基于真值发现的冲突数据源质量评价算法
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
教学型大学《信息检索》公选课的设计与实施