基于知识图谱的科技论文创新点动态识别研究
2022-11-28曹树金曹茹烨
曹树金 曹茹烨
(中山大学信息管理学院,广东 广州 510006)
习近平总书记曾提到,“科技创新,就像撬动地球的杠杆”[1]。党的十八大以来,我国大力实施创新驱动发展战略,努力实现高水平科技自立自强。为更好地支持创新,图书馆学情报学应责无旁贷地将关于创新成果的记录加工为认识创新、引领创新的情报。科技论文作为基础研究类科技活动的主要成果,是科技创新情报的源头。目前,我国科技论文总体产出持续增长,据中国科学技术信息研究所发布的《2021年中国科技论文统计报告》显示,我国在国际顶尖期刊中的论文数量升至世界第2位[2]。高质量科技论文的大幅增加使得多样化的创新观点和创新性解决方案不断被提出,同时也在不断被替代和更新,体现了科技创新成果具有的价值时效性。如何从已有的成果中发现创新情报,帮助科研人员准确把握科技创新规律,从现有创新中汲取经验进而提高创新活动效率,就需要通过对科技论文创新点的识别和创新知识的挖掘来实现。同时,科技论文创新点的识别也有助于从内容角度为科学评价科技成果的多元价值提供新的思路,更好地贯彻习近平总书记关于“坚持正确的科技成果评价导向”思想[3],完善科技成果评价机制。反之,科技成果评价的结果也有利于创新情报的获取与利用。
识别科技论文中的创新点需要先明确创新的含义。关于论文创新,有学者认为是对已有知识成分进行前所未有的重组[4],亦或在研究成果中提出一些新概念,比如Heinze T等指出的新现象、新方法、革命性新理论等[5]。根据Diego I M D等的观点,一篇论文的创新点是与先前知识相比的不同之处[6]。可见,创新是一个相对的概念,现有研究的创新是相对于先前研究而言。然而,创新本身及其表述具有复杂性和多样性,是隐藏在语义空间的知识单元。对创新点的挖掘首先需要从语义层面进行知识揭示。目前,最为高效、智能的知识组织形式为知识图谱,它能够将实体、概念、实体间关系转换为基于图的语义网络,并以“实体—关系—实体”的三元组形式表达。科技论文的研究内容可以由若干个三元组进行概括,隐藏在研究内容中的创新点必然会在三元组中有所体现,表现为三元组中某一个或多个新的元素。
本文将利用知识图谱挖掘和呈现特定领域现有科技论文中的知识元素,作为新发表论文创新点识别的比对库,发现论文中新出现的实体或关系,即创新点。由于科学技术是不断进步的,科技创新活动是一个动态过程,将从现阶段研究成果中识别出的创新点补充入知识图谱中,可以作为后续成果创新点抽取的参照,从而实现科技论文创新点的动态识别。本文旨在从理论层面进一步丰富科技论文知识抽取与创新识别的方法,为现有科技成果的创新性评价提供新思路;从实践层面为研究人员提供创新情报,促进更多的科技创新。
1 相关研究
1.1 科研论文创新点识别相关研究
科研论文创新点的识别包括句子级[7]和知识元级别[8]的抽取,多采用基于本体、基于规则或机器学习的方法实现。Cannon D C等开发了TIN-X应用程序,通过对生物医学文献的文本挖掘,提供基于本体的创新点识别[9]。温有奎等构建了科研成果创新点的本体模型,并利用特征词模式匹配的方法对碎片化科研创新点进行动态挖掘[10]。也有学者以领域词表和本体中的关系为基础构建识别规则,然后采用基于主题词重叠度的冗余度计算方法过滤出创新点[7]。Ertöz L等将论文的创新检测转化为主题聚类问题,认为如果一个主题下仅涵盖一篇论文,那么该论文的主题具有创新性,采用的方法是最近邻聚类算法[11]。温浩等提出了一种基于机器学习的认知分析方法,通过词汇语义分布一致性分析、谓语动词语义理解、语用功能分类等层面对学术文摘的创新点进行了挖掘[12]。周海晨等利用BERT深度学习模型结合细粒度抽取规则实现对学术论文中创新贡献短语的识别[13]。曹树金等利用BERT深度学习模型结合依存句法分析,识别论文创新句并提炼出创新对象与创新维度[14]。Amplayo R K等以arXiv开放获取网站中一定时间范围内的科技论文作为数据集,构建了基于作者、关键词、主题词等实体的引用图谱,当新的论文被添加时图会发生变化,这些变化量体现了该论文的创新点,将其输入自动编码器神经网络中可以进行创新检测[15]。
1.2 学术领域知识图谱的构建与应用研究
知识图谱是2012年由Google提出的概念,其本质是一种语义网络,可分为通用知识图谱和领域知识图谱,前者面向全领域,常用于知识问答与检索、信息推荐等场景,比如DBpedia、Yago、Wikidata等。领域知识图谱则将知识的覆盖范围和使用方式限定于特定领域[16]。近年来,一些科研机构和学者开始探索学术领域知识图谱的构建与应用。云南省高校数据科学与智能计算重点实验室构建了“基于COVID-19论文集的学术知识图谱”(OpenKG),上海交通大学构建了知识图谱AceKG,都涵盖了丰富的学术属性信息,实体类型涉及论文、作者、机构、研究领域[17]。Zhao H X等基于Text CNN的主题信息抽取模型,自动抽取科技文献的主题、标题、状态、会议、组织机构等信息,构建技术领域知识图谱[18]。Rossanez A等提出了一种基于规则的半自动方法,从一组生物医学论文的摘要中识别生物医学命名实体和关系,生成知识图谱,并将其链接到生物医学领域的本体中[19]。Xu R等采用一种半监督迭代学习方法,从生物医学文献中提取疾病与疾病风险的关系对,生成知识库用于辅助疾病病因发现[20]。钟将等以人工智能、大数据等领域的最新科技论文为语料集,构建了一个学术知识图谱,并设计了基于辅助任务意图信息增强神经网络方法的问答系统[21]。此外,有学者针对图书情报领域,分别构建了面向学术论文创新内容[22]和面向知识问答系统[23]的知识图谱。
1.3 知识抽取相关研究
知识抽取是知识图谱构建的前提和基础,包括实体识别和关系抽取。命名实体识别研究经历了从早期基于规则与字典的方法,到隐马尔可夫模型(HMM)、条件随机场(CRF)等传统机器学习方法,再到深度学习方法的发展过程。近年来,不少学者开始探索深度学习模型的结合或变体,改进模型效果。目前使用较为广泛的有LSTM-CRF[24]、Bi-LSTM-CRF模型[25],还有适用于小规模语料集的迁移学习模型,比如一些学者提出的Trans-NER[26]、TrBiLSTM-CRF[27]以及基于远程监督的深度迁移学习命名实体识别模型[28]。关系抽取即通常所说的“三元组”抽取。在关系抽取的相关研究中,有学者采用语义角色标注(SRL)[29]、依赖于句法模式的依存句法分析[30]等方法。随着深度学习的发展,关系抽取的手段更加多样化,并通常被作为分类问题处理,即预先定义好关系类型的限定域关系抽取。比如Zhang D等采用递归神经网络(RNN)[31]、Liu C Y等采用卷积神经网络(CNN)[32]进行实体关系的识别与抽取。潘理虎等提出了一种融合位置、词性和句法依存等信息的分段卷积神经网络,用于小样本关系抽取[33]。除此以外,基于远程监督的关系抽取以及实体关系的联合抽取模型也在不断被发掘。
以上研究为本文提供了重要的理论依据和方法参考。但在科研论文创新点识别的相关研究中,大都仅考虑了主题词、短语等孤立的元素,未考虑到它们之间的语义关系,并且较少涉及创新点的动态识别。另外,在现有的学术领域知识图谱的构建与应用研究中,较少将其用于学术搜索和问答以外的其他场景中,更未发现将知识图谱作为科技论文创新点识别及科技成果评价的工具来使用。因此,本研究将以“人工智能+神经病学”交叉领域的中文科技论文为例,从文献摘要中抽取出代表论文研究问题、方法、技术要点、结论等的实体及关系集合,构建知识图谱,并基于所构建的知识图谱动态识别中文科技论文的创新点。
2 理论基础与研究设计
2.1 理论基础
著名的英国情报学家布鲁克斯于1974年提出了情报作用于知识结构的方程K(S)+ΔI=K[S+ΔS][34]。其中,K(S)是个人原有的知识结构,ΔI是人们能够理解并整合到自己原有知识结构中的情报,K[S+ΔS]则是新的知识结构。此方程强调了ΔI的重要性,这一小部分的情报带来的不仅是知识量的变化,还是整个知识结构的改变。在此基础上,1980年布鲁克斯又发表了《情报学基础》的系列论文,主张情报学的核心任务是探索与组织客观知识,并提出了“认知地图”的概念,被称为“天才设想”。“认知地图”是对文献中的逻辑内容进行分析,找到人们在知识创造过程中相互影响及联系的节点,通过类似地图的形式直观展示知识的有机结构[35]。有学者认为广义的认知地图是基于认知科学的人类对事物及其关系的关联图示,包括概念地图、专家地图、知识网络、社会网络、语义网络等[36]。
知识图谱作为一种揭示实体间关系的语义网络,是知识结构的最新表示形式,也可以看作“认知地图”的高级形态。本文尝试将布鲁克斯的知识结构方程扩展到一个领域的知识结构及其变化来表述创新。利用知识图谱呈现特定领域已有研究成果中的知识结构K(S),发现新增成果中的创新情报(体现为论文中的创新点)即ΔI,然后将ΔI添加入K(S)中,形成该领域新的知识结构。随着科研创新成果的不断产出,重复以上过程,不断识别创新点,不断发现创新情报,不断更新领域知识结构,有益于领域的持续创新。
2.2 研究设计
2.2.1 研究框架
本研究总体框架如图1所示。主要分为两个阶段:一是构建交叉学科领域知识图谱;二是基于知识图谱识别科技论文中的创新点并补充知识库形成动态识别机制。首先,知识图谱的构建方式有两种:自顶向下和自底向上。自顶向下需要先定义本体,构建模式层,然后将实体加入知识库,即构建数据层;自底向上的方法则是先对数据进行分析,抽取出实体和关系,进行汇总后构建上层的模式层。本研究将采用自底向上的方法,选取近年来热门且笔者较为熟悉的研究领域,即“人工智能+神经病学”中所有的中文科技论文摘要作为语料集。因为摘要通常包含最重要的概念和知识,而避免了其他部分理论基础(背景、相关研究等理论基础)的干扰[37]。之后,对数据进行预处理,包括文献去重、数据清洗、句子切分等步骤。在数据收集阶段预留出近期发表的科技论文作为待分析的对象,其余文献纳入语料集中。在知识图谱构建模块,首先需要进行知识抽取,拟采用实体与实体关系联合抽取的方法,预先设定实体及关系类别,采用Bert4keras深度学习框架训练知识抽取模型,抽取出语料集中所有指定类型的三元组。然后进行知识融合、知识存储与可视化,构建知识图谱。最后,采用训练好的知识抽取模型抽取出待分析论文中的三元组,与知识图谱中的实体及关系进行对比,识别创新点,并将其补充入知识图谱中,如此循环往复形成动态识别模式。
图1 总体研究框架
2.2.2 知识抽取
1)定义Schema约束集合。知识图谱的最小单元由两个节点及它们之间的关系构成,在NLP领域一般被称为“SPO三元组”,可表示为(主语,谓语,宾语),即(Subject,Predicate,Object),SPO三元组正是知识抽取的对象。在进行实体关系抽取任务之前先定义好需要什么样的实体和实体关系,而用来描述实体类型、关系类型及它们之间搭配的一般模式被称为“Schema”,如表1所示。
表1 Schema举例
本文分析的对象是非结构化的文本数据,字段的含义、数量和内容等都是不明确的。因此,在定义Schema约束集合时,主要依据科技论文摘要的内容进行提炼。首先,将中国科学院文献情报中心开发的科技文献知识AI引擎(SciAIEngine)作为辅助工具。SciAIEngine提供了科技文献分类、关键词识别及命名实体识别等各项功能,可通过平台的API接口进行使用。本文借助SciAIEngine中的中文科研实体识别功能和中文医学领域实体识别功能,参考两个功能模块实体识别的结果确定实体的类型,并从摘要内容本身确定实体关系的类型。其次,对初步定义的实体及关系类型进行筛选,筛选的标准是能够反映论文研究问题、方法、主要结论、关键技术等内容的描述,确定最终的Schema框架。
2)基于Bert4keras的知识抽取。Bert4keras是一个开源的基于Keras的文本预训练框架,可支持BERT、RoBERTa、ALBERT、NEZHA等多种预训练模型,相较于Google的BERT源码更加简洁。在实际的三元组抽取任务中,句子结构较为复杂,从一个句子中会抽出多个三元组。比如“针灸可以治疗面瘫和神经痛”抽取的结果是1个S和多个(P,O),即(针灸,治疗,面瘫)和(针灸,治疗,神经痛);此外还可以有“多个S、1个(P,O)”,如“针灸和热敷都可以用于治疗面瘫”,以及“1对(S,O)和多个P”,如“支气管镜可以诊断并治疗气道异物”等各种形式。针对此类复杂的信息抽取任务,苏剑林借鉴了Seq2seq概率图的思想,先预测S,之后传入S来抽取O、P,并采取了一种“半指针—半标注”的策略,在关系分类时用Sigmoid激活函数代替Softmax[38]。在此基础上,他提出了一种基于BERT的三元组抽取模型,并采用Bert4keras进行实现[39]。本文将该深度学习框架用于交叉学科领域知识抽取任务中,具体的三元组抽取模型如图2所示。整体思路为,首先将原始的句子序列转换为id并传入到Bert的编码器中,获得编码序列后接两个二分类的分类器用来预测主语S;然后基于传入的S,从编码序列中抽取出S首尾所对应的编码向量,并以其作为条件,针对编码序列做一次条件Layer Norm;最后,用经过Conditional Layer Normalization后的编码序列预测S所对应的O和P。图2所示的例子中需要抽取出两个三元组,分别是(脑胶质瘤,术后并发症,颅内压增高)、(开颅手术,治疗,脑胶质瘤)。在训练阶段,采样1个S(如脑胶质瘤)并传到下一步训练,抽取出对应的O和P,再采样下一个S,如此完成对句子中所有三元组的抽取。
图2 基于Bert的三元组抽取模型结构
2.2.3 知识融合与存储
完成“SPO三元组”抽取以后,对缺失的以及重复的三元组进行清洗。通过对照专业词典,对一词多义以及同一实体的不同表述(如帕金森病和PD)进行整合,以消除矛盾和歧义,同时也可避免因作者对术语或概念的误用而导致创新点识别错误的问题。最后,利用具有嵌入式、高性能等优势的Neo4j数据库存储三元组。Neo4j是一种基于JAVA语言开发的面向网络的NoSQL图形数据库。三元组中的实体在图谱中被映射为节点,实体关系则被映射为边。Neo4j通过后端架构对已连接数据的检索、遍历、增删及修改等操作进行了优化。本文在存储三元组时,拟通过用于对接Neo4j的Python库Py2neo实现。导入数据之后,对各个节点的颜色进行调整,用于区分不同类型的实体,完成知识图谱的构建与可视化展示。
2.2.4 知识对比与补充
在完成知识图谱的构建以后,从近期发表的单篇科技论文中抽取特定关系类型的SPO三元组,并与知识图谱中的实体及关系进行对比。对比的方式通过Neo4j图数据库的查询语言Cypher实现。Cypher适用于点对点模式(ad-hoc)的查询,焦点在于如何从图中找回。通过Cypher的查询语句Match(),获得与任一实体相关的所有实体及其关系类型,通过对比后去除知识图谱中已有的三元组,即重复的知识,进而识别出该论文中的创新点。最后,利用Cypher的Create()语句将新的实体及关系补充入知识图谱中,作为后续论文创新点识别的依据,形成动态识别模式。
3 实证研究
3.1 数据采集与预处理
本文的研究对象是“人工智能+神经病学”交叉学科领域的中文科技论文。为了实现较高的查全率,选取了中国知网(CNKI)、百度学术两个综合性学术平台,以及万方医学网、中国生物医学文献服务系统(SinoMed)两个专业性学术平台作为数据源。首先,依据中图分类号限定检索范围,人工智能领域为TP18(人工智能理论)或TP242.6(智能机器人)以及它们的下位类目,神经病学领域为R749及其下位类,构建检索式((分类号%TP18) OR (分类号%TP242.6)) AND (分类号%R741)。检索后发现返回结果漏检率较高,因为人工智能是计算机科学的一个分支,且属于新兴领域,其分类号的赋予没有很强的边界。因此,本文同时采用主题词检索的方式作为补充,即(主题=人工智能 OR 智能机器人 OR AI OR 机器学习OR 深度学习 OR 人工神经网络 OR 卷积神经网络 OR 循环神经网络 OR 认知计算 OR 强化学习OR 集成学习 OR 监督学习),并且文献分类为神经病学。上述两种检索方式均不限制论文发表的时间范围,论文类型选择期刊论文和学位论文,检索日期为2022年1月20日。综合两种检索方式的结果,将从4个学术平台中得到的文献题录、摘要导出。之后,对数据进行清洗,包括去除不同来源的重复文献、会议通知、报道以及其他不相关的文献(如由主题词AI会检索出包含“载脂蛋白AI”的论文),最终共获得2 094篇科技论文。
对原始数据集进行初步清洗后,去除综述类的论文,并将2021年10月至检索时发表的53篇论文作为待识别创新点的论文集,剩余的1 783篇作为构建知识图谱的语料集。最后,通过Python中的re模块对每篇论文的摘要进行分句,调用split()方法,以中英文的分号、问号、感叹号、句号等作为分隔符号对句子进行切分,并对错误切分的句子进行人工处理,最终共获得17 100余条句子。
3.2 实验过程
3.2.1 确定实体及关系类型
限定域的信息抽取是预先定义好实体关系类别的抽取任务。本文在定义Schema约束集合时,基于SciAIEngine的NER_MED_CN(医学领域科技文献命名实体识别)和NER_SCI_CN(中文科研实体识别)功能,识别出实体及实体类型,单篇论文识别的结果分别如图3和图4所示。由于单篇论文涉及的实体类型有限,因此采用SciAIEngine的API接口功能,随机上传了50篇论文的摘要,综合参考两个功能模块的返回结果,关系类型的定义则根据句子描述进行提炼。从理论上来讲,每个句子中包含至少1个三元组,但科技论文摘要的句子结构复杂,且包含诸多背景信息,如“就目前的医疗水平,未能明确该病的病因,无法彻底治愈帕金森病,只能在早期控制该病的发展”一句,从中无法获取有用的三元组。因此,本文主要依据“反映论文研究问题、方法、主要结论、关键技术”的标准,总结出了19类需要抽取的三元组,包含10类实体、19类关系。此外,科技论文中细粒度的概念、实体及关系都是为了揭示特定研究问题,孤立的三元组意义不大,比如方法A优于方法B是在特定的研究问题下得出的结论。为了解决这一问题,本文补充了另一种三元组类型,即论文—包含—实体,将属于同一篇论文的实体联系起来。综上,本文定义的Schema集合如表2所示。
图3 NER_MED_CN识别结果
图4 NER_SCI_CN识别结果
表2 Schema约束集合
表2(续)
3.2.2 人工标注
根据Schema约束集合,从论文摘要中选取包含预定义实体及关系类型的句子,共有3 635个,表3列举了待抽取的句子实例。因为数据量较少,为了达到较好的模型训练结果,本文将选取较大比例的数据(2 635句)进行人工标注,剩余的1 000条句子用训练好的模型进行三元组抽取。数据标注工作由一名医学信息学领域的博士完成,之后邀请专家核对。人工标注的数据以json格式进行存储,具体格式如表4所示。
表3 待抽取三元组的句子举例
3.2.3 基于Bert4keras深度学习模型的知识抽取
本文采用百度LIC2020的关系抽取赛道中开源的非官方Baseline进行训练,并在Python3.6.3、Tensorflow 1.14平台上完成,具体的实验环境配置如表5所示。训练时,将标注好的数据集以4∶1的比例划分为训练集(train_data.json)和验证集(dev_data.json),在训练集上训练模型,在验证集上评估模型。实验参数的设计为:maxlen=256、epochs=20、batch_size=16、learning_rate=2e-5,加载大规模中文预训练模型—24层RoBERTa进行训练。模型的好坏通过对验证集中预测结果与真实标注的对比实现,如图5所示。“text”是待抽取三元组的句子,“spo_list”是人工标注的结果,“spo_list_pred”是深度学习模型预测的结果,“new”是预测结果比标注数据多出的三元组,“lack”是未预测出的三元组。评价指标采用准确率(Precision)、召回率(Recall)和f1值,当跑完20个Epoch之后,效果最佳的模型会被保存。除了24层RoBERTa模型以外,实验还加载了12层RoBERTa模型、BERT模型、ALBERT模型,对不同预训练模型进行了总结对比,如表6所示。从中可以看出,最优模型是24层RoBERTa。最后,利用最优模型对未标注的数据集进行知识抽取,并进行人工校对,纠正预测错误的数据并补充遗漏的三元组。
表4 数据标注举例
表5 实验环境配置
表6 知识抽取模型测试结果
图5 验证集预测结果示例
3.2.4 知识融合与存储
从所有数据集中共抽取出7 408个三元组,加上“论文—包含—实体”的关系后,最终共获得22 224个三元组。科技论文中同一实体有多种表述,如“脑卒中”又称“中风”,“卷积神经网络”的英文缩写“CNN”,“功能性步行分级(FAC)”的不同表述“功能性步行量表(FAC)”,因此需要进行实体对齐。该过程是在参考专业词库的基础上由医工交叉领域的学生辅助完成。之后,将融合后的实体关系三元组存储到Neo4j图数据库中,采用Py2neo创建节点和关系,并通过merge()函数进行实体匹配,避免重复创建节点。在“论文—包含—实体”的三元组关系中,为每篇论文赋予序号标签。最终创建的知识图谱局部示意图如图6所示,从图中可以直观地看出,“卷积神经网络(CNN)”与多个实体之间存在直接关系,被用于预测“癫痫发作”、提取“深层语音特征”、识别“高频振荡信号(HFOs)”、分类“颅内出血亚类型”等;“脑出血”通过“颅脑CT图像”诊断,并有研究采用“共享浅层参数多任务学习方法”对其进行分类。图7是“论文—包含—实体”的三元组关系局部示意图,可以将同属于一篇论文的实体联系起来,比如第26篇论文中包含了实体“急性脑卒中”“SVM”“血管内取栓(EVT)治疗后预后”“选择算子(LASSO)回归模型”“相关分析”“单因素分析”“血管内取栓(EVT)”“最小绝对收缩算子(LASSO)算法”“弥散加权成像DWI的影像组学特征”9个实体,在整体的知识图谱中,这些实体之间的关系也可以直观地获取,由此可以得出该论文的主要技术要点为采用支持向量机(SVM)预测脑卒中血管内取栓(EVT)治疗后预后。图8是“方法模型—预测—疾病症状”的三元组关系局部示意图。从中可以得出,针对同一种疾病症状,现有研究都采用了哪些方法模型对其进行预测;而针对同一种方法模型,目前都用于预测哪些疾病症状。
图6 面向“人工智能+神经病学”领域科技论文的知识图谱(局部)
图7 “论文—包含—实体”的三元组关系示意图(局部)
3.2.5 创新点识别与知识补充
1)创新点识别。将近期发表的未纳入知识图谱中的53篇论文作为创新点识别的实验对象,针对每篇论文抽取预定义类型的三元组,然后与知识图谱进行对比。以2021年11月发表的论文“基于LSTM-SVM模型和SNP遗传信息的帕金森疾病识别问题研究”为例,从摘要中抽取的三元组包括“LSTM-SVM模型—检测—帕金森疾病”“LSTM-SVM模型—采用—单核苷酸多态性(SNP)数据”“LSTM网络—自动提取—SNP关键特征”。利用Neo4j中的Match()函数构造查询语句match(n:‘疾病症状’{name:‘帕金森病(PD)’})<-[r:‘检测’]-(p)return p,n,r,即利用关系和终点查询起点,结果如图9所示。现有研究中用于检测“帕金森病(PD)”的方法模型有DNN(深度神经网络)、决策树、深度卷积神经网络、基于时间的长短期记忆网络(LSTM)、SVM、AdaBoost等,但未发现将LSTM和SVM联合使用的模型。其次,利用查询语句match(n)--(p:‘数据资料’{name:‘单核苷酸多态性(SNP)数据’}) return n 或者match(n)--(p:‘数据资料’{name:‘SNP数据’}) return n查询所有和p有连线的节点,未发现基于此类数据利用人工智能方法检测帕金森病的相关中文论文。最后,通过match(n)<-[r:‘检测’]-(p:‘方法模型’{name:‘长短期记忆(LSTM)网络’}) return n语句,查询是否已有研究采用LSTM模型提取SNP特征,结果是否定的。因此,上述3个三元组便反映了该论文的创新点。2021年12月发表的论文“镜像疗法联合下肢康复机器人治疗对脑卒中偏瘫患者下肢运动和平衡功能的影响”摘要中涵盖的三元组有:“镜像疗法联合下肢康复机器人—辅助康复—脑卒中偏瘫患者”“下肢康复机器人—改善—下肢步行能力”“下肢康复机器人—改善—平衡功能”,通过同样的方法与知识图谱中的三元组进行匹配,发现这些实体及关系均已存在,因此该论文在预定义类型的知识框架中没有相应的创新点。
图9 检测关系中尾实体“帕金森病(PD)”对应的头实体查询结果
在创新点识别的过程中,可以挖掘出更深层次的知识。如根据帕金森疾病的现有检测方法与其他疾病节点之间的联系,推测这些疾病与帕金森的共性,发现与这些疾病相连的其他方法模型、治疗手段,以及各类方法模型之间的性能对比等。利用知识图谱各节点之间错综复杂的关系,帮助研究人员挖掘更多的隐性知识,通过现有知识重组或引入新理论、新方法、新的研究对象等方式实现多维度的科技创新。对于识别出的创新点,从单篇论文来看是概括和提炼出的创新情报元素。从整个研究领域而言,在时间维度上将不同论文之间的创新点关联起来可反映领域创新演化的过程,形成一种创新情报链,揭示创新的发展规律,可以为科研人员提供知识结构化、网络化视角下的创新借鉴。此外,这些创新点也可以作为科技论文创新性评价的依据。
2)创新点识别效果评估。为评估上述方法在科技论文创新点识别中的效果,特邀请3名生物医学工程领域的专家,利用自身经验从53篇论文中提炼出创新点,并与该方法识别出的结果进行对比。经过3轮征询统一专家意见,最后共提取出50个创新点,分布在25篇论文中。通过本研究方法共抽取出196个三元组,识别出47个创新点,分布在24篇论文中。如果以专家判断为准,识别错误(即非创新点识别为创新点)的有1个,遗漏的有4个,识别的精确率为97.87%(46/47),召回率为92%(46/50)。总结原因,可能与三元组抽取的局限性有关,比如句子“根据临床背景归纳离散型变量类型并进行编码,统一连续性变量取值”中主谓宾不明确,无法抽出有用的三元组,进而会对创新点识别产生影响。
3)知识补充。对新发表的论文识别出创新点以后,通过Neo4j中的Create()方法将新的实体及关系补充入知识图谱中,比如create(p:‘方法模型’{name:‘LSTM-SVM模型’})-[:检测]->(n:‘疾病症状’{name:‘帕金森病(PD)’})。对于特定学科领域,每发表一篇科技论文,在识别其创新点之后将其补充入知识图谱,如此循环往复形成一种动态识别的模式,实时监测领域科技创新发展的动态。情报机构可以根据知识图谱实时更新的结果为研究人员提供创新情报推送服务,为研究人员对
已有创新的借鉴、对前沿技术的研判提供支撑,为科技政策制定者、高校、高新技术企业等各类创新主体提供决策支持。
4 讨论分析
本研究利用知识图谱对“人工智能+神经病学”领域科技论文中的知识进行了细粒度地揭示、描述及关联,并实现了科技论文创新点的动态识别。该方法的优势主要体现在以下几个方面:
1)创新科技论文的知识组织方式。提供了一种从非结构化数据中抽取、整合知识的技术方案,构建了基于论文内容而非外部特征(如题名、作者、单位等)的知识图谱,对同一领域的研究成果进行知识关联,能够深层次、直观地揭示现有研究问题、研究方法、理论基础、结论等创新要素。
2)发现创新情报、动态监测并推动科技创新。面向特定领域研究成果的知识图谱全面揭示了该领域的研究问题、技术与方法等创新要素及其潜在关联,一方面有助于发掘创新情报,分析现有研究从哪些角度进行了创新,从而为后续创新提供借鉴;另一方面,通过与知识图谱的对比可以判断最新研究成果中是否出现了新的观点、技术或方法,重复创新点的识别与填充,能够动态监测该领域的科研创新。最重要的是,研究人员可以根据知识图谱中实体及其相互联系,发现创新的突破口。比如,现有研究中预测癫痫发作的AI方法有哪些,并根据“论文—包含—实体”的关系锁定采用这些方法的文章,获悉其分析对象是病历数据、脑电数据亦或是磁共振影像数据,从而获得新的启发。通过重用领域知识,从知识重组、提出新方法或面向新的研究对象等方面找到科技创新的切入点。
3)助力科技论文创新性评价。一方面,在期刊审稿与选稿过程中,该方法能够通过单篇论文与领域知识图谱匹配的方式快速识别论文创新点,一定程度上可以节省专家评审论文的时间与精力;另一方面,知识图谱对特定研究领域全景式的知识揭示,可以弥补专家自身知识结构中的模糊空间,有助于兼顾论文创新性评价的客观性与科学性。
然而,本研究在实证部分也存在一些局限:首先,数据采集过程中,从4个学术平台获取数据集,同时也不断调整和改善检索方式,尽可能地提高查全率。但由于网络学术资源的分散性、异源异构性以及获取权限的问题,并不能覆盖特定领域的全部中文科技论文。其次,知识抽取是在预设实体及关系类型前提下的限定域抽取,并不能反映论文中的所有知识点。针对上述问题,待识别创新点的论文与知识图谱构建的论文集来源渠道、获取方式一致,对比的三元组类型一致,因此研究结果是可靠的,但仍然需要不断探索解决方案,比如尝试开放域的知识抽取方法,扩大数据收集范围等。
5 总结与展望
基于知识图谱识别科技论文的创新点,对于促进科学研究的创新发展具有重要意义。研究主要得出以下结论:基于“半指针—半标注”策略的Bert4keras深度学习模型能够有效抽取科技论文中的细粒度知识,准确率较高;将知识图谱应用于科技论文创新点的动态识别任务中具有一定的可行性,效果良好。
基于研究结论,提出以下建议:在现有的学术资源检索系统中,参考该方法嵌入知识问答和创新情报推送的功能模块。一方面,针对特定研究领域,基于知识图谱中潜在的知识关联,为科研人员提供关于具体研究问题、研究方法、研究对象以及研究结论的自动问答服务,把握该领域研究进展;另一方面,监测某一领域的科技创新情况,发现并向研究人员提供创新性科技论文、细粒度的创新点、独特的创新视角等情报,帮助他们从已有创新中启发新的研究思路。同时,这两项功能也可以作为专家评审论文的借鉴。
本研究存在的不足主要体现在:仅采用交叉学科领域的中文科技论文摘要作为研究对象,数据覆盖范围有限,抽取的实体及关系类型有限,普适性不够强。在后续的研究中,将进一步扩大研究范围,拓展学科领域,结合论文摘要与总结探索更多样的实体关系类型,使该方法具有更广泛的适用性。