基于句法和语义关联的科技文献“问题—方法”联合抽取模型
2024-10-07刘勘李冶石锴文
摘要:[目的/意义]发现海量科技文献中的研究问题及其对应的研究方法,有助于挖掘科学研究中的热点,促进技术方法的创新,探索知识的演化传播规律。[方法/过程]提出一种融合句法结构和语义关联信息的科技文献“问题—方法”联合抽取模型,模型采用编码器—解码器结构。在编码层,以科技文献的摘要文本为对象,从中抽取SAO三元组句法结构用以表达研究问题和研究方法的关系(即:研究方法—作用于—研究问题),基于SAO三元组构造语义关联图并利用图注意力网络进行编码,再与摘要文本编码融合作为解码器的输入特征;在解码层,通过指针网络基于先抽取的研究方法再抽取研究问题,实现“问题—方法”的联合抽取。[结果/结论]实验结果表明,模型在测评指标及人工测评中均能取得较好的效果,能够提升从科技文献中抽取核心问题和核心方法的能力。
关键词:“问题—方法”抽取;GAT;SAO三元组
分类号:G255;TP391.1
引用格式:刘勘, 李冶, 石锴文. 基于句法和语义关联的科技文献“问题—方法”联合抽取模型[J/OL]. 知识管理论坛, 2024, 9(4): 353-366 [引用日期]. http://www.kmf.ac.cn/p/398/. (Citation: Liu Kan, Li Ye, Shi Kaiwen. “Problem-method” Joint Extraction Model in Scientific Literature Based on Syntax and Semantic Association[J/OL]. Knowledge Management Forum, 2024, 9(4): 353-366 [cite date]. http://www.kmf.ac.cn/p/398/.)
1 引言/Introduction
科学研究通常被描述为解决问题的活动,科技文献中的研究问题和研究方法是用于描述科学研究活动的重要组成部分[1]。其中,研究问题是指文献所聚焦的研究领域中需要解决的关键问题,研究方法是指作者针对研究问题所采用的技术方法或所设计的解决方案[2-3]。从本领域的科技文献中挖掘研究问题和研究方法,除了可以帮助研究人员快速梳理当前研究的发展脉络、提炼潜在的科学问题、探索创新技术方法之外,对科学研究的热点主题分析[4]、文献创新性评估[5-7]、学术价值判断[8]、领域知识的组织与管理[9]等也有着重要意义。然而,近年来科技文献数量不断增长,每年已有超过250万篇的新论文发表[10]。数量庞大的文献资源使学科知识量迅速膨胀,信息精准检索和知识快速获取越发困难[11]。科研人员需要花费大量的时间和精力阅读相关领域文献来搜集研究问题和研究方法等重要信息。因此,如何高效、准确地获取科技文献中的研究问题和研究方法正在成为一个越来越重要的热点问题。
针对科技文献中“问题—方法”的联合抽取问题,已有一些研究思路,早期通过分析科技文献内容特征构建规则是较为常用的方法。随着自然语言处理技术的发展,出现了各种基于监督式信息抽取的科技文献“问题—方法”抽取方法。在早期研究中,主要通过特征工程从论文摘要中提取论文的特征表示,然后基于朴素贝叶斯 (Naive Bayes, NB)、逻辑回归 (Logistic Regression, LR) 和支持向量机(Support Vector Machines, SVM)等传统机器学习算法构建分类模型。随着深度学习技术的发展,基于卷积神经网络(Convolutional Neural Networks, CNN)、长短期记忆网络(Long Short-Term Memory, LSTM)、预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)等模型的“问题—方法”抽取方法成为研究热点。虽然基于监督式信息抽取的科技文献“问题—方法”抽取研究取得了不少进展,但目前绝大部分抽取方法仅考虑了论文摘要文本的语义特征,忽略了“问题—方法”的句法结构,尤其是其中的语义关联特征。因此,笔者提出一种融合句法和语义关联信息的科技文献“问题—方法”联合抽取模型。
2 相关研究/Related research
近年来,随着人工智能尤其是自然语言处理技术的发展,从科技文献中挖掘出研究问题和研究方法被看作是一种科技信息提取(Scientific Information Extraction,SciIE)任务[12-13],涉及研究问题抽取[14]、研究方法识别[15]、数据集构建[16]、评价指标及评价得分[17-18]等具体内容。
2.1 问题、方法抽取
科技文献中的“问题”“方法”抽取可以作为两个单独的任务分别研究。①针对研究问题的抽取,王露等[2]将研究不足、研究缺陷以及研究难点等给研究人员带来挑战的问题称为“问题实例”,通过句子成分分析抽取候选短语,并使用句法依赖增强分类模型实现对问题实例的识别;H. Sasaki等[19]首先使用基于注意力的语言模型提取有可能包含问题定义的句子,然后构建分类模型对提取出的句子是否为问题句进行判断;王路等[20]也先提取可能包含研究问题的候选子句,再使用变分自编码器以及注意力机制对子句进行分类判断。②针对研究方法的识别,章成志等[3]使用基于字向量的、结合条件随机场(Conditional Random Field,CRF)的双向LSTM网络模型来识别研究方法;张颖怡等[21]使用多种基于神经网络的句子分类模型从科技文献全文本中进行研究方法句抽取,并从中分析研究方法句的分布情况。但是,分别抽取的研究问题和研究方法,缺少“问题”与“方法”之间的对应关系,使“哪个问题采用了哪些方法”或者“哪个方法解决了哪些问题”这类重要的分析难以顺利完成。
2.2 “问题—方法”联合抽取
因此,不少研究将科技文献中的“问题”和“方法”进行联合抽取,其研究思路多采用设计规则或构建特征工程再结合机器学习或深度学习的模式。
2.2.1 基于规则的抽取方法
规则的构建多基于科技文献内容特征分析,设计正则表达式检索模板来进行。李贺等[22]设计了“研究/分析(.*?)领域的(.*?)的(.*?)问题”等规则来识别研究问题,设计了“提出(.*?)方法/流程/算法/程序/过程”等规则来识别其对应的研究方法;王艳艳等[23]使用“针对……问题”“在……的基础上”等表达式来表征问题要素,“采取了……方法”等表征方法要素,利用问题要素和方法要素句式结构组合抽取“问题—方法”;徐珍珍等[24]使用“propose (.* ) to (.* )$、(.* ) (is|are) (.* ) task”和“the problems?\b of (.* )”等23个模板来抽取研究问题,使用领域专家构建的技术列表来抽取技术词,仅保留在同一句的技术词语与问题词语,并假定该技术可以解决这个问题;唐晓波等[8]使用“针对……问题”“对……进行分析”等表达式来抽取问题词,使用“提出/借鉴……算法/模型”等表达式来抽取方法词;张吉玉等[25]使用“(基于|结合|融合)(.* )的(.* )(算法研究|方法|模型|--|研究)”“(提升|提高)(.* )(效果|准确性)”等问题模板从标题、摘要和结论句中抽取问题要素,从摘要的方法句中保留所有包含于方法词表中的词作为方法要素。这些通过规则方法进行科技文献中的“问题—方法”抽取虽然简单易操作,但受限于模板的表达能力,通常召回率较低,且需要依赖人工在不同领域构建并维护模板,消耗的时间成本和人力成本较高。
2.2.2 基于特征工程的机器学习方法
特征工程结合机器学习是近年来常用的“问题—方法”联合抽取模式。K. Heffernan等[26]通过人工定义11个特征,将特征之间的叠加组合作为朴素贝叶斯(NB)、逻辑回归(LR)和支持向量机(SVM)等机器学习分类器的输入,取得了较好的实验效果;G. Garechana等[27]使用斯坦福大学的开放信息提取工具(OpenIE)来提取“标题”和“摘要”字段中存在的三元组对象,使用Bernoulli Naïve Bayes分类器将其分类为“问题”“方法”和“空”3类,再对其中的问题和方法对象配对;J. W. G. Putra等[28]结合句子信息类型,使用基于模板的方法和自适应 K 近邻方法来抽取研究方法和研究问题。
2.2.3 基于语义的深度学习方法
随着深度学习技术的发展,传统的机器学习也被深度学习方法取代,如R. B. Mishra等[1]在K. Heffernan[26]研究的基础上,使用LSTM、CNN深度学习模型提升了分类效果,并探究了人工特征之间的叠加组合效果。余丽等[29]使用LSTM-CRF来识别“研究范畴”“研究方法”“实验数据”“评价指标及取值”;G. Chen等[14]使用BERT-BiLSTM-CRF抽取摘要中的实体,并对“问题—问题”“问题—方法”“方法—方法”层级关系进行了识别;陆伟等[30]先利用标题模板抽出研究方法和研究问题的关键词,再利用BERT-LSTM模型对关键词进行“问题”和“方法”的分类;程齐凯等[31]则采用seq2seq生成模型来抽取摘要文本中的研究问题和方法。实验结果表明,深度学习方法效果优于机器学习方法。
但是,现有研究在“问题—方法”的联合抽取任务中还存在一些不足[32],如高度依赖人工模板或人工标注数据,对于新样本和新领域的泛化能力较差,尤其是在研究问题与研究方法的关联上,其对应关系特征未能充分提取,影响了“问题—方法”抽取的准确率。笔者针对这一问题,通过句法分析挖掘“问题—方法”的SAO三元组结构特征,进而构建关联图模型挖掘“问题—方法”的对应关系特征,经过编码、解码过程,实现科技文献中“问题—方法”的联合抽取。
3 模型设计/Model design
3.1 基本思路
首先需要分析科技文献中研究问题和研究方法的表现形式与关联关系。在表现形式方面,问题与方法通常以名词短语的形式显性呈现,尤其在科技文献的摘要和结语等部分,问题与方法的名词短语形式较为显著,因此笔者通过句法结构进行分析挖掘。在关联关系方面,问题与方法则通常存在于隐性的语义关联中[25],这种关联不同文献表达的差异较大,规则匹配及句法位置关系难以描述,笔者将通过构建关联图的形式利用图神经网络进行挖掘。因此,笔者提出一种基于名词短语句法及语义关联信息的科技文献“问题—方法”识别模型NCGAT(Noun-phrase Connected Graph Attention Network),共包含5个模块:输入层、图构造层、嵌入层、图注意力网络层和指针网络解码层,模型架构如图1所示:
(1)输入层。获取文献的原始文本信息。在科技文献中,研究问题和研究方法有可能出现在标题、摘要、引言、结论等部分,其中摘要部分通常以名词短语的形式表达研究问题和研究方法,且结构、语义比其他部分更完整、规范。因此,笔者将科技文献的摘要文本作为输入数据,目的是从中提取文献的研究问题及其研究方法的名词短语对。
(2)图构造层。从摘要中提取每个句子的SAO三元组,然后基于抽取的三元组构建关联图结构。SAO三元组用于表征句法结构,依次由名词短语、动词短语和名词短语(头、关系、尾)组成[33]。研究方法和研究问题包含在这些三元组的短语中。将每对三元组作为节点同时合并三元组中的共同短语构建SAO关联图,通过该图利用图神经网络模型以发现研究问题与研究方法的隐性关联特征。
(3)嵌入层。实现文本和图的编码表示,包含文本嵌入和图节点嵌入两个部分,分别将输入的摘要文本进行向量化和SAO关联图中的节点进行向量化,笔者均采用预训练模型BART实现向量化编码表示。
(4)图注意力网络层。利用注意力机制发现重要关联节点。将编码后的关联图送入图注意力神经网络(Graph Attention Network,GAT),利用图注意力层的多头注意力机制,捕获各组成成分间的依赖关系,为准确表达“问题—方法”的节点赋予较高的权重,降低无效节点的权重,得到加权后的图节点编码。
(5)指针网络解码层。对融合了文本信息和图结构信息的编码向量建模解码,抽取出其中的研究问题和研究方法。首先将摘要文本的词向量与图节点向量融合组合,作为解码层的输入向量;然后通过指针网络对方法进行解码抽取;最后基于得到的研究方法抽取其对应的研究问题。
3.2 图构造层
研究问题与研究方法的关联是本模型的重点,从输入层的文献摘要文本中能够获得包含研究问题和研究方法的名词短语三元组,但是研究问题与研究方法的关联则需要通过图结构来表征,图构造层包括三元组提取和图结构设计两部分。
(1)三元组名词短语。SAO三元组(Subject-Action-Object)是最常用的句法表征结构,科技文献的研究问题与研究方法在摘要中表现为简洁的名词短语,通常在摘要句子结构中做主体或对象成分,因此可将研究问题与研究方法的联系表征为SAO三元组形式,即“主体(头实体:研究方法短语)、谓词(关系:解决)、对象(尾实体:研究问题短语)”的形式。通过句法分析可以从科技文献摘要中抽取所有名词短语三元组,研究问题与研究方法名词短语就包含在其中,且有可能多次出现。通过依存句法分析(Dependency Parsing, DP)可以对复杂的摘要长句进行拆解,获取多组名词短语三元组,抽取出的主体、谓词、对象分别对应SAO三元组中的S、A、O位置。表1给出了一个SAO三元组示例,来自某摘要文本中的语句:“随后利用科技文献全文数据,基于BERT模型采用多阶段微调的方式构建了面向实际应用的概念定义句自动识别模型”。
(2)三元组关联图。由于SAO三元组缺乏语义关联信息,而图结构是表达这种关联的有效手段,因此界定三元组所表达的名词短语间的指向关系是构建关联图的核心,可以将每一个三元组针对S、O元素分别创造节点,将A则看作是一条由主体指向对象(S→O)的有向边,再通过聚合相同节点来连接多个SAO三元组,从而生成关联图的基本结构。以表1为例,提取的4对SAO三元组构成的4条有向边关联结构见图2,这样可将主体—对象的名词短语指向关系清晰地表达出来。
3.3 嵌入层
在嵌入层,摘要文本和关联图节点将被进行向量化编码表示,这里均采用BART模型实现。BART模型[34]是一种预训练模型,相较于一般的编码方式,更能捕捉深层的双向语言特征,准确获取到上下文信息。对于给定科技文献摘要文本D={w1, w2, w3, …, wN},wi表示第i个字,用BART预训练模型对每个摘要文本D进行编码,得到向量表示如公式(1)所示:
3.4 图注意力层
3.5 指针网络解码层
4 实验/Experiment
4.1 数据集及评价指标
在中文科技文献中,存在着大量“基于X的Y”样式的文献标题,这些标题在一定程度上明确揭示了科技文献的核心方法和核心问题。通过语言学中的直接成分分析法,从论文标题的结构入手,发现在此类标题中,“基于”后的内容X通常为研究方法,Y为具体的研究问题[37],如表3所示:
实验评估指标包括:①Rouge。其用于比较模型获取的“问题—方法”和参考“问题—方法”,通过计算二者之间重叠词的数量用以评价模型抽取“问题—方法”的能力。笔者使用计算一元分词(unigram)的Rouge-1、二元分词(bigram)的Rouge-2和最长公共子序列(LCS)的Rouge-L的F1值作为模型性能的评价指标。②BLEU。其用于计算模型获取的“问题—方法”和参考“问题—方法”之间的精度差异。笔者使用BP-BLEU、BLEU-1、BLEU-2和BLEU-3作为模型性能的评价指标。
4.2 参数设置
使用一张显存为16GB的P100显卡进行所有实验,运行的操作系统平台是Ubuntu操作系统。实验参数如表4所示:
实验使用BART来学习摘要上下文向量,词嵌入维度设置为768,注意力头和层数设置为12。实验中使用的损失函数为交叉熵损失函数,所有参数均使用AdamW算法进行优化,初始学习率设置为3e-4。训练轮次设置为10。编码器和解码器的最大长度分别设置为512和30。为了缓解过拟合问题,采用0.5比例的Dropout机制,并将神经元失活比例设置为 0.1。
4.3 实验结果
实验选择自然语言处理任务中较为流行的大型预训练序列性生成模型作为基线模型,即将BART、T5、GPT作为基线模型与笔者提出的模型进行对比,具体如下所示:
(1)Bidirectional and Auto-Regressive Transformers (BART)[34]。这是一种去噪自编码器预训练模型,经过预训练,使用任意噪声函数破坏文本,随机屏蔽掉单词子集,然后学习如何重建原始文本,在自然语言生成、自然语言理解任务中效果很好。
(2)Text-To-Text Transfer Transformer (T5)[38]。这是一个统一的框架,其将每个语言问题都视为一个文本到文本的问题,并且可以灵活地应用相同的模型设置,包括其目标、训练和解码过程直接用于各种NLP任务。
(3)Generative Pre-trained Transformer (GPT)[39]。这是一个基于Transformer的大型语言模型,基于40GB的互联网文本进行训练,其简单目标是预测给定序列中所有先前单词的下一个单词,已广泛用于自然语言生成任务。
笔者提出的NCGAT模型与基线模型的对比实验结果见表5。通过表5可以看出,与标准的序列模型相比,NCGAT模型在两种自动评价方法上都获得了较大的增益。以在该任务上表现最佳的序列模型BART为例,NCGAT模型在BP-BLEU和ROUGE-L分别提高了7.19%和1.4%。这说明本研究基于BART模型进行的改进具有有效性。同时,NCGAT模型具有更好的捕捉深层信息关联能力,其中Graph Encoder融合了摘要中的语义关联和句法信息,可以帮助模型学习信息更为丰富的双向语言表征。因此
笔者提出的NCGAT模型融合了摘要中的句法信息和关联信息,相比其他模型在“问题—方法”抽取任务上取得了最好的效果。
在3种基线模型中,BART模型效果最优,其次为GPT、T5。这一实验结果表明,BART模型相较于GPT、T5模型更适用于中文科技文献“问题—方法”词抽取这一细分领域,这也体现了笔者选择BART模型作为基线模型的优越性。分析表5可以发现,BLEU-1、BLEU-2和BLEU-3的结果呈现依次递减状态,基于一元分词计算的BLEU-1结果较高,单独参考意义相对有限,通过差值比较分析发现,其中笔者所提出的NCGAT模型与其他3种模型相比,其BLEU-2较BLEU-1未出现较大程度的下滑,且BLEU-3以相对平滑的幅度层级递减,该实验结果表明,笔者所提出的方法抽取出的“问题—方法”能够较其他3种基线模型更为完整和准确。
4.4 消融实验
通过消融实验验证每个组件在模型中的贡献,消融实验的设计如下:
(1)w/o Graph Encoder:移除图编码器后的模型。图编码器的存在可以帮助模型学习到摘要文本的深层语义和语法信息,从而增强模型的特征表示。
(2)w/o Graph Direction:移除图构建过程中节点间的指向关系,即不利用句法信息,在节点间创造无向边,将原本的有向图变为无向图。
(3)w/o Edge Attribute:移除邻域信息融合时的边连接词信息。即在计算节点间注意力系数时,不加入边连接词信息,只利用节点文本特征进行计算。
(4)w/o Pointer Network:移除指针网络后的模型。即在解码时只使用词表中的词,通过只计算词表中的词的概率来选择下一时刻解码器的输出词。
(5)NGGAT(Full Model):笔者提出的完整模型,用于证实图编码器、节点指向关系、边连接词信息、指针网络对“问题—方法”抽取任务的贡献。
消融实验的结果如表6所示,符号“w/o”表示去除某特定模块。
根据消融实验的结果,可以发现模型性能的提高主要来自以下4个方面:
(1)得益于图编码器(Graph Encoder)的引入,在BLEU-1值及ROUGE-1值上,模型提升约5.89%和1.31%。这说明图编码器帮助模型获得摘要文本中各成分之间的依赖关系和关联路径,作为一种先验知识辅助模型更好地理解了文本语义,增强了模型的图关联特征。
(2)当移除图编码器中的节点指向关系(w/o Graph Direction)后,原本的有向图变为了无向图,BP-BLEU值及ROUGE-L值分别下降0.3%和0.11%,这说明构建无向图降低了模型性能。原因在于建模指向关系可以帮助模型充分利用句法结构信息,区分节点文本的句法功能角色,帮助模型理解名词短语在不同语境的语义功能。
(3)完整模型比移除边连接词信息(w/o Edge Attribute)后的模型获得更好的效果。在节点更新时加入边连接词后,BP-BLEU值及ROUGE-L值分别提升1.1%和6.77%。这进一步表明,在更新摘要中的图节点信息时,不同的连接词(A元素)对问题、方法抽取有较大影响,重要程度也有所不同。通过在计算注意力系数时加入边连接词信息,能有效提升模型抽取“问题—方法”的能力。
(4)完整模型优于移除指针网络之后的模型(w/o Pointer Network),BP-BLEU值及ROUGE-L值分别降低1.12%和7.14%。这意味着加入指针网络机制后模型效果更好,这是因为指针网络通过赋予模型从摘要文本中复制词的能力,有利于“问题—方法”的准确抽取。
结合4个模块总体来看,笔者提出的“问题—方法”抽取模型在每个模块都能取得一定的效果,包括图编码器、指针网络等,这些模块的组合能够显著提升“问题—方法”的抽取效果。其中图编码器对模型效果影响最大,这表明句法和语义信息对模型效果影响最大,其次为指针网络,指针网络解码方式能够有效提升模型从摘要文本中准确抽取中文“问题—方法”的能力。对于模型而言,加入边连接词信息相较于图有向信息效果更佳,这表明在“问题—方法”抽取过程中,“问题—方法”间的连接关系较“问题—方法”的指向关系对于模型抽取效果影响更大。
4.5 人工测评
笔者采用量化评分的方式对模型准确抽取“问题—方法”的能力做进一步评测。具体流程如下:
(1)从测试集中随机选出300篇不是以“基于X的Y”样式为标题的科技文献,每篇文献包含标题、摘要字段和模型抽取出的“问题—方法”,这些文献没有明确指出研究问题和研究方法,需要人工来测评模型抽取出的“问题—方法”的准确性。
(2)针对这300篇文献,由6名管理与科学工程专业研究生进行独立评测,被要求阅读文献全文,同时重点关注文献的标题和摘要,然后从两个角度衡量每篇文献由模型获取的“问题—方法”结果:①模型是否准确抽取科技文献中的研究方法;②模型是否准确抽取科技文献中的研究问题。模型在达成一项要求时,被评估为1,否则为0。
(3)独立重复多次实验,完成每个待测文献的量化评分,对6名研究生的评测结果累计求均值,最终综合评测结果如表7所示:
从表7综合2个指标来看,NCGAT抽取研究问题和研究方法的概率达到了96.33%和88.67%,这显示了NCGAT模型的优势。同时可以看出,T5模型在人工评价中效果较差,BART在预训练模型中的效果最好,与自动评价结果一致。4个模型对于研究方法的识别率均高于研究问题,原因在于研究方法通常有规范的术语表达形式,而对研究问题的表述自由度更大,且对于研究问题,随着科技和社会的演变发展,新的研究问题迭出,使得研究问题的描述形式更加多变,加大了对研究问题特征学习的困难。人工评测的实验结果也表明了NCGAT模型可以为科技文献中研究问题和研究方法的抽取提供有力支撑。
5 结语/Conclusions
为了准确高效地抽取科技文献中的研究问题和研究方法,笔者提出一种融合句法特征和关联关系图的“问题—方法”抽取模型。该模型使用句法分析抽取出科技文献文本摘要中的SAO三元组,用其表征科技文本中名词短语之间的联系,并通过句法特征信息将SAO三元组组成图结构,利用图神经网络充分挖掘潜在的语义关联信息,进而增强模型的表达能力。实验经过自动评价和人工评价证实了本文模型有效提升了“问题—方法”的抽取效果,较好地实现了科技文献中研究问题和研究方法的抽取。在此基础上进一步的研究可以延伸到科学问题和研究方法的发展脉络分析、科技文献贡献度评价、科技文献的细粒度知识挖掘等应用任务。另外,由于不同语言的语法、句法结构存在差异,三元组结构更适合中文句法,因此提升模型的跨语言能力也可作为接下来的研究方向。
参考文献/References:
MISHRA R B, JIANG H. Classification of problem and solution strings in scientific texts: evaluation of the effectiveness of machine learning classifiers and deep neural networks[J]. Applied sciences, 2021, 11(21): 9997.
王露, 乐小虬.基于句法依赖增强的主题—问题实例识别方法研究[J]. 数据分析与知识发现, 2022, 6(12): 13-22. (WANG L, LE X Q. Identifying topic-problem instances based on syntactic dependency enhancement[J]. Data analysis and knowledge discovery, 2022, 6(12): 13-22.)
章成志, 张颖怡.基于学术论文全文的研究方法实体自动识别研究[J]. 情报学报, 2020, 39(6): 589-600. (ZHANG C Z, ZHANG Y Y. Automatic recognition of research methods from the full-text of academic articles[J]. Journal of the China Society for Scientific and Technical Information, 2020, 39(6): 589-600.)
鞠晓蓓, 李秀霞, 袁炜皓.基于问题、方法贡献度的学术期刊热点主题分析——以《情报学报》为例[J]. 图书情报导刊, 2022, 7(11): 49-57. (JU X B, LI X X, YUAN W H. Analysis of hot topics in academic journals based on subject-method contribution: taking Journal of the China Society for Scientific and Technical Information as an example[J]. Journal of library and information science, 2022, 7(11): 49-57.)
张吉玉, 张均胜.考虑时序的单篇科技文献新颖性评估方法[J]. 图书情报工作, 2022, 66(17): 93-105. (ZHANG J Y, ZHANG J S. Novelty evaluation method of single scientific and technical literature considering time series[J]. Library and information service, 2022, 66(17): 93-105.)
罗卓然, 陆伟, 蔡乐, 等. 学术文本词汇功能识别——在论文新颖性度量上的应用[J]. 情报学报, 2022, 41(7): 720-732. (LUO Z R, LU W, CAI L, et al. Application of lexical functions in novelty measurement of academic papers[J]. Journal of the China Society for Scientific and Technical Information, 2022, 41(7): 720-732.)
钱佳佳, 罗卓然, 陆伟.基于问题—方法组合的科技论文新颖性度量与创新类型识别[J]. 图书情报工作, 2021, 65(14): 82-89. (QIAN J J, LUO Z R, LU W. Novelty measurement and innovation type identification of scientific literature based on question-method combination[J]. Library and information service, 2021, 65(14): 82-89.)
唐晓波, 向莉丽, 牟昊.基于研究问题与研究方法贡献的论文学术价值早期识别方法[J]. 情报科学, 2022, 40(9): 3-11, 19. (TANG X B, XIANG L L, MOU H. Early identification method of academic value of papers based on research question and research method contribution[J]. Journal of the China Society for Scientific and Technical Information, 2022, 40(9): 3-11, 19.)
陈果, 彭家彬, 肖璐.基于“问题—方法”知识抽取的科研领域知识演化研究:以人工智能为例[J]. 情报理论与实践, 2022, 45(6): 32-38. (CHEN G, PENG J B, XIAO L. Knowledge evolution of scientific research domains based on problem-solution knowledge extraction: a case study of artificial intelligence[J]. Information studies: theory & application, 2022, 45(6): 32-38.)
WANG Y, ZHANG C, LI K. A review on method entities in the academic literature: extraction, evaluation, and application[J]. Scientometrics, 2022, 127(5): 2479-2520.
赵志耘, 刘耀, 朱礼军, 等. 复杂信息环境下知识组织和再利用模式与方法研究[J]. 情报学报, 2022, 41(12): 1266-1279. (ZHAO Z Y, LIU Y, ZHU L J, et al. Research on patterns and methods for knowledge construction and reuse in a complex information environment[J]. Journal of the China Society for Scientific and Technical Information, 2022, 41(12): 1266-1279.)
JAIN S, VAN Z M, HAJISHIRZI H, et al. Scirex: a challenge dataset for document-level information extraction[J]. ArXiv preprint, 2020, arXiv:2005.00512.
HONG Z, WARD L, CHARD K, et al. Challenges and advances in information extraction from scientific literature: a review[J]. Journal of the minerals, metals & materials society, 2021, 73(11): 3383-3400.
CHEN G, PENG J, XU T, et al. Extracting entity relations for “problem-solving” knowledge graph of scientific domains using word analogy[J]. Aslib journal of information management, 2023, 75(3): 481-499.
HOU L, ZHANG J, WU O, et al. Method and dataset entity mining in scientific literature: a CNN+ BiLSTM model with self-attention[J]. Knowledge-based systems, 2022, 235(1): 107621.
FÄRBER M, ALBERS A, SCHÜBER F. Identifying used methods and datasets in scientific publications[C]//Proceedings of the AAAI-21 workshop on scientific document understanding. Aachen: AAAI, 2021.
HOU Y, JOCHIM C, GLEIZE M, et al. Identification of tasks, datasets, evaluation metrics, and numeric scores for scientific leaderboards construction[J]. ArXiv preprint, 2019, arXiv:1906.09317.
KARDAS M, CZAPLA P, STENETORP P, et al. Axcell: automatic extraction of results from machine learning papers[J]. ArXiv preprint, 2020, arXiv:2004.14356.
SASAKI H, YAMAMOTO S, AGCHBAYAR A, et al. Extracting problem linkages to improve knowledge exchange between science and technology domains using an attention-based language model[J]. Engineering, technology & applied science research, 2020, 10(4): 5903-5913.
王路, 李寿山.基于变分自编码器的问题识别方法[J]. 郑州大学学报(理学版), 2019, 51(3): 79-84. (WANG L, LI S S. Question detection method based on variational auto-encoder[J] Journal of Zhengzhou University(natural science edition), 2019, 51(3): 79-84.)
张颖怡, 章成志.基于学术论文全文的研究方法句自动抽取研究[J]. 情报学报, 2020, 39(6): 640-650. (ZHANG Y Y, ZHANG C Z. Methodological and automatic sentence extraction from academic articles full-text[J]. Journal of the China Society for Scientific and Technical Information, 2020, 39(6): 640-650.)
李贺, 杜杏叶.基于知识元的学术论文内容创新性智能化评价研究[J]. 图书情报工作, 2020, 64(1): 93-104. (LI H, DU X Y. Research on intelligent evaluation for the content innovation of acade-mic papers[J]. Library and information service, 2020, 64(1): 93-104.)
王艳艳, 张均胜, 乔晓东, 等. 基于问题—方法矩阵的文献新颖性评估方法[J]. 情报理论与实践, 2021, 44(2): 90-95. (WANG Y Y, ZHANG J S, QIAO X D, et al. Evaluating novelty of scientific literature based on question-method matrix[J]. Information studies: theory & application, 2021, 44(2): 90-95.)
徐珍珍, 张均胜, 刘文斌.科技文献中技术关联自动发现方法研究[J]. 图书情报工作, 2021, 65(20): 113-122. (XU Z Z, ZHANG J S, LIU W B. Automatically discovering associations among technologies in scientific literature[J]. Library and information service, 2021, 65(20): 113-122.)
张吉玉, 张均胜, 乔晓东.辅助新颖性评估的科技论文评述画像构建方法[J]. 情报理论与实践, 2023, 46(1): 159-167. (ZHANG J Y, ZHANG J S, QIAO X D. Constructing review profile of scientific article for novelty evaluation assistance[J]. Information studies: theory & application, 2023, 46(1): 159-167.)
HEFFERNAN K, TEUFEL S. Identifying problems and solutions in scientific text[J]. Scientometrics, 2018, 116(2): 1367-1382.
GARECHANA G, RÍO-BELVER R, ZARRABEITIA E, et al. TeknoAssistant: a domain specific tech mining approach for technical problem-solving support[J]. Scientometrics, 2022, 127(9): 1-15.
PUTRA J W G, KHODRA M L. Automatic title generation in scientific articles for authorship assistance: a summarization approach[J]. Journal of ICT research and applications, 2017, 11(3): 253-267.
余丽, 钱力, 付常雷, 等. 基于深度学习的文本中细粒度知识元抽取方法研究[J]. 数据分析与知识发现, 2019, 3(1): 38-45. (YU L, QIAN L, FU C L, et al. Extracting fine-grained knowledge units from texts with deep learning[J]. Data analysis and knowledge discovery, 2019, 3(1): 38-45.)
陆伟, 李鹏程, 张国标, 等. 学术文本词汇功能识别——基于BERT向量化表示的关键词自动分类研究[J]. 情报学报, 2020, 39(12): 1320-1329. (LU W, LI P C, ZHANG G B, et al. Recognition of lexical functions in academic texts: automatic classification of keywords based on Bert vectorization[J]. Journal of the China Society for Scientific and Technical Information, 2020, 39(12): 1320-1329.)
程齐凯, 李鹏程, 张国标, 等. 学术文本词汇功能识别——基于标题生成策略和注意力机制的问题方法抽取[J]. 情报学报, 2021, 40(1): 43-52. (CHENG Q K, LI P C, ZHANG G B, et al. Recognition of lexical functions in academic texts: problem method extraction based on title generation strategy and attention mechanism[J]. Journal of the China Society for Scientific and Technical Information, 2021, 40(1): 43-52.)
张颖怡, 章成志, HE D Q .学术论文中问题与方法识别及其关系抽取研究综述[J]. 图书情报工作, 2022, 66(12): 125-138. (ZHANG Y Y, ZHANG C Z, HE D Q. A review of problem and method recognition and relation extraction in academic papers[J]. Library and information service, 2022, 66(12): 125-138.)
刘春江, 刘自强, 方曙.基于SAO的技术主题创新演化路径识别及其可视化研究[J]. 情报学报, 2023, 42(2): 164-175. (LIU C J, LIU Z Q, FANG S. Evolution path identification and visualization of technological innovation based on SAO[J]. Journal of the China Society for Scientific and Technical Information, 2023, 42(2): 164-175.)
LEWIS M, LIU Y, GOYAL N, et al. Bart: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension[J]. ArXiv preprint, 2019, arXiv:1910.13461.
VELIKOVI P , CUCURULL G , CASANOVA A , et al. Graph attention networks[J]. ArXiv preprint, 2017, arXiv: 1710.10903.
VINYALS O, FORTUNATO M, JAITLY N. Pointer networks[C]//Proceedings of the 28th international conference on neural information processing systems. Cambridge: MIT Press, 2015, 2: 2692-2700.
索传军, 葛倩, 魏长青.基于论题视角的图情中文期刊论文关键词标注探析——以“基于”类论文为例[J]. 图书情报工作, 2022, 66(12): 117-124. (SUO C J, GE Q, WEI C Q. An exploration of keyword labeling for Chinese journal papers in library and information science based on the perspective of paper titles: taking “based” papers as the example[J]. Library and information service, 2022, 66(12): 117-124.)
RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. The journal of machine learning research, 2020, 21(1): 5485-5551.
BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33(4): 1877-1901.
作者贡献说明/Author contributions:
刘 勘:提出研究问题,确定论文最终版本;
李 冶:设计研究方案,撰写论文;
石锴文:负责研究方案修正及编程实现。
“Problem-method” Joint Extraction Model in Scientific Literature Based on Syntax and Semantic Association
Liu Kan Li Ye Shi Kaiwen
School of Information Engineering, Zhongnan University of Economics and Law, Wuhan 430073
Abstract: [Purpose/Significance]Discovering research questions and methods from a vast corpus of scientific literature contributes to uncovering research trends, promoting innovation technical approaches, and exploring patterns of knowledge evolution and dissemination in scientific research.[Method/Process]This paper proposed an integrated model for the joint extraction of “Problem-Method” pairs in scientific literature, combining syntactic structural information and semantic relationships. The model employed an encoder-decoder architecture. At the encoding stage, we focused on the abstract text of scientific literature, extracting Subject-Action-Object (SAO) triplets to represent the relationship between research questions and research methods (i.e., research method - acts on - research question). We constructed a semantic association graph based on SAO triplets and utilized Graph Attention Neural Networks (GAT) for encoding. The resulting encoding, combined with the abstract text, serves as input features for the decoder. At the decoding stage, a pointer network was used to extract research questions based on previously extracted research methods, enabling the joint extraction of “Problem-Method” pairs. [Results/Conclusion] Experiments indicate that our model performs well in terms of evaluation metrics and human assessment, enhancing the ability to extract core research questions and methods from the scientific literature.
Keywords: problem-method extraction GAT SAO triples
Fund project(s): This work is supported by the National Natural Science Foundation of China titled “Knowledge System Constructing for Scholars of Excellence Oriented to Academic Innovation” (Grant No. 72174156).
Author(s): Liu Kan, professor, PhD, E-mail: liukan@zuel.edu.cn; Li Ye, master candidate; Shi Kaiwen, master candidate.
Received: 2024-01-15 Published: 2024-07-26