面向科技计划管理的知识图谱与智能检索研究*
2022-06-24张颖,温静
张 颖,温 静
(山西省信息产业技术研究院有限公司,山西 太原 030012)
0 引言
科技计划(专项、基金等)是政府在科技创新领域发挥引领和指导作用的重要载体,同时体现国家在自主创新道路上的政策取向、战略布局、发展重点以及科技创新规律特点。随着科技计划的推进,我国已取得了一大批具有知识产权的科技成果,培养了一大批具有先进水平的创新团队和科研人才,解决了一系列制约经济、社会和科学技术发展的“卡脖子”问题,充分调动了科技工作者的学术与创新的积极性,全面提升了科技自主创新能力与科研实力,为我国改革与发展的进程持续地提供了强有力的支撑。
随着国家科技基础条件平台建设纲要和实施意见精神的发布,为了遵循“整合、共享、创新、发展”的建设方针,积极贯彻我国科技计划管理改革要求,面向经济社会创新发展需求,要求有效地整合和优化配置科技资源,改变以往各产业处室工作小循环,实现总体业务协同推进大循环,以各计划项目全面运行的形式进行科学计划研究活动的全过程管理。
一般来说,科技计划项目的管理过程与内容主要包括:科技项目的申报管理、立项管理、过程管理和结项管理,以及每个项目所涉及的申报工作单位、申报组织单位、申报人员、申报资金、审批资金、申报文档材料、科技成果及各产业处室等内容的管理。
用智能科技带动科技计划管理水平的高低,提升社会经济发展,是当前实施科技计划管理的主要目标。但随着时间的推移和科技的进步,在科技计划管理的推进过程中渐渐凸显出一些问题,如:顶层设计不科学、项目管理过程条块分割、科技资源统筹不当、各处室部门分工不精细、科技知识关联度差、资源利用度不高等。
解决这些问题将会更加符合科技创新规律、更加高效配置科技资源、更加强化科技与经济紧密结合、最大限度激发科研人员创新热情;充分发挥科技管理在提高社会生产力中的作用等方面提供信息化支撑。
1 研究意义
科技计划项目管理的建设,可以对各申报主体的项目执行、经费开支、创新能力、成果转化、产权保护等各项内容进行融合,既能从一点看整体,又能从整体看落地。促进信息公开,提高科技计划管理服务水平,有效的支撑企事业单位、科研院所、高等院校的科研创新,辅助产业处室、管理层用户的审核及决策。围绕影响科技主体的各项关键要素,实现科技部门的数据分析、辅助决策、信息共享和业务协同,有效提高各项科技工作开展的效率和应对能力,提升宏观政策指南决策能力。
1)面向科技计划管理的知识图谱研究,可以从需求凝练—科研立项—评价监督等完整闭环的运行机制上全面支撑科技计划推进过程中的各个环节,为科技工作者、单位管理者、产业处室管理者、政府决策部门等不同类型用户提供具有针对性的科技项目管理、科技知识服务,如:科技领域知识问答、科技项目申报服务、科技项目审核推荐等。
2)面向科技计划管理的智能检索研究,利用已构建的知识图谱模型,可以方便不同类别用户在科技计划项目实施与管理的整个过程中,快速准确地查找出对应的项目信息,提高用户管理工作效率。
面向科技计划管理的知识图谱构建与智能检索研究为科技工作者、政府决策部门等不同类型用户提供具有针对性的科技项目管理、科技知识和科技智库服务,实现智能化查询、管理、问答等功能,充分调动科技工作者的学术与创新的积极性,全面提升科技自主创新能力与科研实力,为我国改革与发展的进程持续地提供强有力的支撑,加快转型跨越发展中的重要作用。因此,本研究对提高科技计划管理水平有着重大意义。
2 关键技术介绍
2.1 知识图谱
知识图谱(Knowledge Graph,KG)概念由Google公司提出,在自然语言处理(Natural Language Processing,NLP)的视角下,知识图谱就是从文本中抽取语义和结构化的数据。知识图谱的组成三要素包括:实体(Entity)、关系(Relation)和属性(Attribute)。实体是知识图谱中最基本的元素,可以是具体的人、事、物,也可以是抽象的概念或联系。关系用来表示不同实体间的某种联系。同时,实体和关系还都可以有各自的属性。从图的方式看,知识图谱中的结点代表实体,边代表实体间的语义关系,基本组成单位是“实体-关系-实体”的三元组形式。如今的社会已经从信息时代进入到知识时代。在信息过载的大背景之下,搜索引擎的使命已然从连接信息转变为连接人与服务,检索系统需要以用户为中心准确地回答问题。知识图谱成为新一代智能检索系统的基石。利用知识图谱技术,可以快速帮助用户建立对搜索对象的概念信息,同时发现相关联的其他实体的知识,进一步建立知识网络,变被动检索为主动向用户提供知识,提升用户友好程度。
2.2 智能检索
检索的目的是在信息量庞大的时代中,用户可以便捷、准确地找到自己需要的某一事物。目前,传统的检索习惯和搜索行为仍然是以关键词字符串的形式进行查找的,该方式通常难以被计算机理解,所以在搜索结果准确度方面存在一定的缺陷,而在检索系统中引入知识图谱技术,可以彻底改变现有的信息检索模式,形成以用户为核心的智能化信息检索技术。
通过形式化的查询语言,在存储好的知识图谱三元组关系数据库中为用户提供查询数据的接口,其结构化语义内容可以使任何一个检索请求都能得到一个网状知识结点,而不再只是线性的网址列表。
基于知识图谱的检索系统能够精准地将答案抓取给用户,而不是像普通检索系统一样返回一堆只是相似的结果供用户筛选。除此之外,该智能检索模式还可根据实体之间的关系进行一定的语义推理,预测用户下一步可能需要查找的内容,降低用户输入和选择的成本,提高用户使用时的便捷程度,提升检索结果的精确度。
3 逻辑架构
面向科技计划管理的知识图谱构建与智能检索研究的逻辑结构和技术架构如图1所示,主要研究内容包括知识图谱表示和生成、Query分析和语义表示、语义匹配。
图1 逻辑架构图
3.1 科技计划管理知识图谱
针对目前科技计划管理过程中存在的科技计划数据关联度较差、资源利用程度较低等问题,构建面向科技计划管理的知识图谱关系数据库,开展语义关联的科技计划管理研究。
科技计划管理方面的知识图谱研究还相对处于起步阶段,本文基于实体抽取、关系抽取等技术构建知识图谱三元组,主要将科技计划使用用户分为申报用户、工作单位用户、组织单位用户和产业处室用户。围绕四种用户的需求,抽取四种实体(用户)及其要素的对应关系,并在此基础上形成相应的知识图谱,为科技计划管理智能检索服务提供语义框架支持。
主要实体如表1至表4。
表1 申报用户实体属性表
表2 工作单位实体属性表
表3 组织单位实体属性表
表4 产业处室实体属性表
3.2 科技计划管理智能检索
知识图谱技术可以应用到很多领域中,如知识管理、知识发现、知识推理、智能检索、智能问答和具体的垂直行业应用等。面向科技计划管理的智能检索系统可以实现特定数据的检索功能,方便科技工作人员随时查询科技数据。基于知识图谱的智能检索平台为各类用户、各产业处室提供综合性的查询服务,解决用户对信息的需求,加强产业处室间以及对企业、个人等外部信息交互,解决信息孤岛问题,做到“随用随查、随查随用”。
通过数据解析层、智能识别层、语义关联层以及智能管理层的支撑,用户可以在平台上根据关键字从关系数据库中搜索出对应的实体或关系,并且他们的下一级三元组也能被一起搜检出来。
基于知识图谱的智能检索推动科技计划管理的科技知识问答、科技智库搜索、科技项目管理以及智能审核与个性化推送,解决目前科技计划管理中存在的科技知识关联度差、资源利用度不高等问题,为科技计划智能管理提供新的思路。
4 结语
科技计划管理数据作为国家科技进步的重要基础性资源,其管理模式影响着我国科技进步与创新发展。本研究面向科技计划管理领域,通过对知识图谱的构建来完成智能化信息检索,为各类用户、各产业处室提供具有针对性的科技项目查询、科技知识问答和科技智库服务,提高科技计划管理水平,是科技计划智慧化管理的有益尝试。
在未来的工作中,本研究将继续扩充领域性知识图谱,并采用人工智能技术进一步完善系统检索能力,为科技计划的智能管理技术提供更好的底层支撑。