APP下载

基于知识图谱的科技成果智能查询系统

2022-11-20杜军平

计算机工程与应用 2022年22期
关键词:科技成果图谱关联

徐 欣,杜军平,薛 哲

北京邮电大学 智能通信软件与多媒体北京市重点实验室 计算机学院,北京 100876

随着科学技术的高速发展,科研成果数量呈现爆炸式的增长。据相关统计,国内外论文总数已超过3亿篇,每天还有近万篇新的学术论文被公开发表。各学术机构和相关数据服务公司向科研人员开放了海量的科技成果数据,给科技创新活动提供了丰富的数据资源,然而这些数据具有非结构化和半结构化特性,存储方式不统一,数据结构各异,造成了科研成果语义信息抽取困难、关联关系难以挖掘、相关信息无法扩充等困难,为科技成果的智能分析和查询带来了全新的挑战。如何对海量、多源异构、多领域的科技成果数据构建精确的科技成果知识图谱,并向科研人员提供科技成果的智能查询服务具有非常重要的研究意义。

从复杂的科技大数据中综合利用科技成果的多种属性,对科技成果的主体进行高度抽象和概括,构建科技成果知识图谱,可以使科技成果的数据管理和查询检索变得更加便捷和直观,方便科研人员对于科技成果的主题、内容等核心内容进行高效、快捷的信息获取,并通过精准的科技成果信息关联发现,提高系统性获取科研信息的效率。

本文从各大学术网站爬取科技文献数据、专利数据、科技项目数据、科研学者数据等科技数据,基于语义分析、信息检索、知识抽取等技术,实现了基于知识图谱的科技成果查询系统。系统包括数据获取和预处理层、数据存储层、应用层。数据获取和预处理层能够对海量科技成果数据进行自动采集和特征预处理。数据存储层可以有效提取科技实体和关系,并将其存储到图数据库中。应用层能够提供科技成果查询和应用领域查询等服务。相关实验结果表明,系统能够帮助科研人员高效准确地获取所需要的科技成果信息。本文的主要贡献包括:

(1)从互联网中获取科技成果数据,包括科技论文120万篇,专利60万篇,科研学者信息30万条,识别并抽取了科研学者、科技文献、专利、科技报告等科技实体,通过抽取文献引用、论文合作、技术引用等关联关系,构建了科技成果知识图谱。

(2)构建了科技应用领域查询树,通过对输入关键词的语义分析,结合科技成果的主题内容,实现了对科技成果应用领域的多层次精准查询。

(3)实现了科技成果智能查询服务,通过对用户的查询词进行语义分析和意图理解,结合科技知识图谱,从科技成果实体库中进行科技成果的高效精准检索和相关科技成果的关联发现。

1 知识图谱与信息检索

1.1 知识图谱

1.1.1 知识图谱定义

知识图谱这一概念自2012年由Google公司提出以来[1],在各类搜索引擎、知识问答平台上得到了广泛的应用。知识图谱的本质是以图结构为基础的数据结构,图上的点表示现实世界中存在的实体或概念,图上的边表示实体与实体之间的关联关系[2]。由于现实世界的各种实体与实体之间的关系已经抽象成“图”这种数据结构,在搜索过程中,基于用户输入的关键词的解析,可以得到使用结构化的主题关联信息和“远距离”的知识发现[3],从而实现知识的可计算性和搜索结果的智能性。

1.1.2 科技实体识别

科技实体识别是科技成果知识图谱构建的第一步,需要从多源异构的科技数据中抽象和识别出科技实体,确定实体类别、实体基本属性、属性值类型,从而得到结构化、规范化的科技实体数据。命名实体识别(named entity recognition)技术[4]是一项从文本数据中识别关键、有用信息的技术,满足了需要从文本数据中提取关键的科技实体的需求。基于语义的、无需人工参与训练的命名特征学习和识别能更好地发掘科技文献、专利、报告等科技成果中的科技实体的构成规律,实现更加精准的科技实体识别。

1.1.3 科技实体关系抽取

构建科技知识图谱的另一关键要素是抽取科技实体之间的关联关系,将两个实体及其关系表示成<实体1,关系,实体2>这样的三元组形式[5],通常在科技实体识别之后完成。关系抽取技术是实现科技实体关联关系发现的主要技术,在结构化和半结构化的科技成果数据中,通常使用基于规则匹配的方法自动生产,例如在抽取作者实体和论文实体的过程中,自动化地得到一条“撰写”关系;在结构化的科技成果数据中,由于缺少固定的数据结构,通常需要使用关系预测和分类技术得到实体之间的关联关系。科技实体之间的关系存在着多种结构,包括树形结构、网络结构,关系的类型包括同一性关联、隶属性关联、相关性关联等,这为科技实体关系抽取带来了一定的挑战。

1.2 科技信息检索

科技信息检索技术基于用户对信息的需求,通过相应的技术和方法,整理、组织和筛选出有关的数据和信息,并呈现给用户[6]。根据用户输入的关键词,搜索引擎通过字符匹配的方法来检索内容,但由于用户搜索意图不明确,以及语言中广泛存在的同义性、多义性和歧义性,传统的检索技术可能会返回不匹配搜索内容的情况。因此,现代搜索引擎通常会辅助使用深度语义搜索技术[7],返回给用户更准确的检索结果。深度语义搜索模型能够自动地提取数据中的特征,使用抽象的、层次化的特征来进行数据分类,实现对科技实体的智能化语义搜索。根据各类科技实体自身的特征和相应的主题标注,检索结果还可以根据文献发表时间、期刊影响因子、文献被引次数等因素,进行智能化排序[8]。

2 基于知识图谱的科技成果智能查询

2.1 系统结构

科技成果智能查询系统的整体结构由数据获取和预处理层、数据存储层、应用层构成,如图1所示。系统各层的具体功能包括:数据获取和预处理层首先利用网络爬虫技术,从各大学术服务网站、科技数据类网站、百科类网站中爬取科研学者数据、科技文献数据、专利数据、基金项目数据,将获取到的所有数据清洗、处理、规范化,进行科技实体识别、关联关系抽取,为构建知识图谱做好数据准备。数据存储层使用固定的格式将获取到的所有数据进行固化存储,将获取到的科技实体和关系导入图数据库中,完成科技成果知识图谱的存储和可视化。应用层基于ElasticSearch索引优化技术,通过构建科技成果领域树,向用户提供科技成果应用领域查询、科技成果智能查询和关联发现服务。

2.2 主要功能

2.2.1 数据获取和处理

(1)科技成果数据的获取

为了高效地获取科技成果数据,本文采用网络爬虫技术从互联网中进行数据抓取,过滤其中无关信息,将数据进行初步的预处理后,以恰当的形式存储到数据库中。科技成果数据获取流程如图2所示。

科技成果数据获取方法由科技数据获取和科技数据预处理两部分组成。科技数据获取使用scrapy框架进行数据抓取,配置代理池,分多线程抓取页面,使用布隆过滤器判断页面是否进行访问,用正则匹配出抓取的下一个站点。获取科技资源原始数据后,通过构建信任网络对科技资源大数据进行评估,去除无关和虚假的内容,将有效的内容进行进一步的处理。对于提取到的文本数据,去除内容过短的数据。对有效数据进行去停用词和标点等操作。这部分数据进行分词,对单词进行ID化,构造字典,得到一系列由ID符号构成的文档。

(2)科技成果数据语义相似度计算

余弦距离利用向量空间中两个向量夹角余弦值的大小来衡量两个向量之间的相似性,其计算如式(1)所示:

其中,X和Y表示对象的两个向量,即X=(x1,x2,…,xn),Y=(y1,y2,…,yn)。

选用向量余弦距离作为计算文本语义相似度的方法。科技成果特征包括研究主题、关键词、所属领域、成果类型等特征信息。本文中关键词特征向量与科技成果特征向量语义相似度计算公式如式(2)所示:

其中,K表示查询关键词特征向量,E表示科技成果特征向量,sim(K,E)表示关键词向量特征与科技成果的整体相似度,sim(K,I)表示关键词向量特征与科技成果研究主题向量特征的相似度,sim(K,Pr)表示关键词向量特征与科技成果关键词向量特征的相似度,sim(K,P)表示关键词向量特征与科技成果所属领域向量特征的相似度,sim(K,Pa)表示关键词向量特征与成果类型向量特征的相似度,α、β、γ、δ分别表示这些相似度所占权重,通过带有标签的科技成果数据使用基于卷积神经网络的学习模型得到具体值。

2.2.2 数据存储

数据存储模块基于Neo4j构建,节点之间通过有方向的关系进行连接,节点可以有一个或多个属性、标签,通过对属性和标签的快速索引,实现节点的快速查找。通过对节点关联关系的查找,实现节点的远距离关系发现,提升了科技成果的关联关系发现的效率。图3是本文实现的科技成果知识图谱,对科技实体和科技实体间关系进行了存储。

2.2.3 应用模块

(1)智能查询模块

给定一个查询和一组候选文档,检索排序算法的目标是找到一个排名函数,基于该函数的得分,通过查找知识图谱中的语义关联关系,返回相关性更好的候选文档。本文利用基于Lucene实现的高效搜索引擎技术,进行快速分词,建立高效的文档索引,实现粗粒度的检索,通过基于倒排索引的全文检索,形成科技成果检索结果的初步候选集。根据知识图谱中存储的科技成果的各种属性值和标签信息,结合学者用户的查询意图,对检索结果进行进一步过滤和排序。科技成果智能检索算法准确率通过标准化折扣累积增益(normalized discounted cumulative gain,NDCG)[9]、查询准确率(precision)以及平均精度值(mean average precision,MAP)[10]进行评价。检索返回的结果是排序的,序列中所处位置代表了重要的信息。平均精度值MAP由相关结果的排名位置所决定,反映了检索算法在系统中的性能。在两个不同的科技论文数据集上,实验了多种文本检索算法。表1列出了两个科技论文数据集的统计信息。

表1 科技论文统计Table 1 Statistics of scientific papers

实验采用的文本检索算法包括K-NRM[11]、CONVKNRM[12]、ARC-I[13]、ARC-II[13]、MV-LSTM[14]、Match-Pyramid[15]。表2、表3分别列出了不同的文本检索算法在两个科技论文数据集上的性能。从表2和表3中可以看到,CONV-KNRM方法在两个不同的数据集上都取得了较好的性能,因此,智能查询模块基于CONVKNRM模型实现科技成果的智能排序。图4所示为科技文本检索排序的模型。

表2 不同算法在论文数据集1上的性能比较Table 2 Comparison of performance of different algorithms on dataset 1

表3 不同算法在论文数据集2上的性能比较Table 3 Comparison of performance of different algorithms on dataset 2

(2)关联发现模块

针对科研学者和科技成果两种数据提取学者特征、科技成果特征,以科技成果知识图谱为基础,进行科技信息的关联发现,实现科研学者与科研成果的自动匹配。图5所示为科技成果关联发现流程。学者特征分为基于已有的结构化数据包含的特征,以及通过系统用户交互行为积累的扩展兴趣特征。学者基础特征可从任职单位、个人简介、工作经历、发表论文等科研成果等信息中获取,学者的扩展特征通过用户在系统中的浏览内容、相关内容浏览点击量、浏览时长等行为信息中获取。通过积累系统中用户交互行为信息,得到更为精准的学者扩展特征,结合学者研究兴趣得到全面精准的学者特征。科研成果特征分为结构化的所属领域、时间、地点、资金等基本特征,通过文本主题挖掘获取科研成果的重点隐含特征。特征提取完成之后,针对特征输入的深度匹配模型进行相似度计算,根据相关度打分情况完成对科研成果的关联发现。

3 系统实现

3.1 数据源

本系统使用Neo4j作为图数据库,实验数据是对科技数据进行爬取得到的,数据集如表4所示。

表4 实验数据Table 4 Experiment data

3.2 系统构建

从中国知网、各科研院校网站、国家自然科学基金委员会等网站爬取科技成果数据、科研学者数据、科技项目数据,抽取和识别科技实体和关联关系,构建三元组,导入数据库建立科技成果知识图谱,从而完成知识图谱的构建。使用SpringBoot作为开发框架,多线程同步完成开发。

基于科技成果数据,构建科技成果知识图谱,以科技成果知识图谱为核心搜索引擎,快速响应用户的查询需求,实现对科技文献、专利、基金等科技实体的智能查询。基于科技知识图谱和语义相似度计算,实现用户输入关键词与科技实体的精确匹配以及对多领域科技成果的智能关联发现,为科技学者、科研院校、科技企业等关注科技领域发展的用户提供智能的科技成果检索服务。

3.2.1 科技成果应用领域查询

科技成果应用领域查询为跨领域科研人员提供研究问题的背景材料,让科研人员了解现有的理论/方法/技术可以应用到哪些领域,以及该领域的研究成果和发展趋势,打通理论研究与应用之间的壁垒,解决理论研究与应用断链的问题。图6所示为科技成果应用领域查询界面,图7所示为科技成果应用领域示例。

3.2.2 科技成果智能搜索

科技成果智能搜索利用分布式架构提供服务,实现高并发、高可用、低延时的科技成果检索服务,并设计RESTFUL形式的接口对外提供统一的外部访问接口,实现对论文和专利数据的跨学科高效精准搜索,通过对查询词进行跨学科语义关联分析,进一步提升搜索的全面性和准确性。基于相关度、下载量、被引量等信息综合排序,返回与关键词相关度最高的成果。图8所示为科技成果智能搜索界面。

3.2.3 科技信息关联发现

由于用户的信息量不同,需要采用不同的方式进行关联发现,将该系统用户分为两种用户群体进行智能关联发现。图9展示了科技成果的关联发现。该学者个人简介中的研究领域如“机器人技术”“大型工业自动化系统”等,根据这些与学者研究兴趣与研究方向相关的关键短语,可以关联发现与该研究领域相关性较高的各行业领域中的科技信息。

4 结论

针对科技成果、科研作者、科技论文、专利、科技项目等数据,构建了科技成果知识图谱,并以科技成果知识图谱为核心,实现了科技成果的智能查询,可以快速、高效地帮助用户实现科技成果的个性化、精准语义搜索,为用户呈现对海量科技成果数据的主题发现和相似内容发现。构建的系统有助于科研学者从多角度、多领域跟踪和发现各领域的发展动向,发现有价值的科技成果和研究内容,从而更好地促进科研人员的科技创新。随着科技成果数据的不断丰富,通过在线、增量的科技实体识别和科技实体关系抽取算法,可以有效地扩展已构建的科技成果知识图谱,丰富系统功能,从而为科技实体关系演化分析、学科领域发展提供有效的数据支撑。

猜你喜欢

科技成果图谱关联
基于图对比注意力网络的知识图谱补全
绘一张成长图谱
“一带一路”递进,关联民生更紧
河南:为科技成果转化提供法治保障
打通科技成果转化“最后一公里”
图表
奇趣搭配
科技成果精准转化的“科创365”
智趣
主动对接你思维的知识图谱