APP下载

科技文献内容语义识别研究综述

2022-10-18张婧莹

情报学报 2022年9期
关键词:章节语义词汇

黄 红,陈 翀,张婧莹

(北京师范大学政府管理学院,北京 100875)

1 引 言

科技文献是科学研究成果的书面呈现形式,而科学研究是提出问题、解决问题的过程。科技文献中包含科学研究的目的、研究问题、研究方法、研究结论、创新贡献等一系列要素。这些要素在科技文献中通过词、句、段落、章节等文本单元表达。令P代表文本单元集合,S代表科研要素的类型集合,科技文献内容语义识别就是在文献中找到表示特定科研要素的文本单元,其定义为:通过某种映射方法f,为P中元素找到对应的S中元素,记做f:p→s,其中p∈P,s∈S,p是识别对象,s是其语义。

P按粒度可以分为篇章、段落、句子或词汇的集合。S中元素的定义有多种观点[1-2],例如,Nasar等[3]曾将科技文献内容语义归纳为文献所提出的问题、研究的领域、解决问题的方法、实验数据、实验工具、评价方法、研究成果、研究局限、未来扩展9 种类型。f与实体、事件、关系的信息抽取任务[4],以及文档中实体的语义标注任务[5]均存在共性。

Nasar 等[3]从句子级和词汇级总结了在科技文献中提取出重要见解(key-insights)的相关研究,发现当时的研究专注于一般性见解的提取,而对特定领域见解及相关的处理技术研究不足。这里的重要见解是指蕴含在文章内对研究有贡献的信息。但由于其综述时间较早,由此形成的观点有局限性。目前,开放获取资源日渐丰富,深度神经网络模型大大提升了对文本语义的理解能力,在数据、方法、应用上都形成了大量科技文献内容语义识别的新成果。本文梳理了近年来的文献,进行更为全面深入的总结。

科技文献内容语义识别能改进对文献中所蕴含知识的挖掘与利用。以往对文献的检索、计量等应用都是以篇为单位,随着科技文献数量的急剧增长,这种方式暴露出准确查找难、知识利用效率低、计量不精细等弊端。科研人员为获取特定信息需要花费大量的搜索和阅读成本。一项关于科研人员文献阅读行为与目的的调查发现,多数时候人们不是对一篇文献的所有内容感兴趣,而是根据不同的任务关注文献特定部分内容[6]。故而,从更细粒度、更深层次对科技文献的内容进行组织和揭示对现实应用有重要意义。近两年国家级科研基金与此相关的立项有文献论证结构抽取、学术观点库构建、学术全文本知识图谱构建等。科技文献内容语义识别对知识组织[7]、策略性阅读[8]、语义出版[9]、知识实体层面的计量[10-11]等方面的研究具有基础性作用,因而成为研究热点。

本文将科技文献内容语义识别的相关研究归纳为以下几个方面的问题:①人们关注文献内容中哪些语义类型;②选取什么粒度的文本单元作为识别对象;③识别方法分为哪些类型;④如何评测识别结果;⑤语义识别有哪些典型应用;⑥语义类型识别的现存问题及未来发展展望。对这些问题的研究归纳分别对应本文第2~7 节。

本文对科技文本挖掘、知识组织等方向的发展主要贡献如下:

(1)从理论、方法、应用三个层面概述科技文献内容语义相关研究;

(2)围绕章节、句子、词汇三种粒度的识别对象,重点梳理各类方法,概括科技文献内容语义识别研究的发展过程;

(3)归纳科技文献内容语义识别的基本问题、识别方法和评测方式,为后续研究提供参考基础。

2 语义类型的定义

本节在理论层面上探讨科技文献内容语义的构成,概括现有研究所提出的文献内容本体或结构描述模型。

科技文献的本质功能是作者阐述问题、观点,并证明和总结,因此行文中需要严密的逻辑和论证结构。为了标记科技文献中最核心的内容,研究者提出了多种语义标注模型。第一类是基于论证要素的论证模型本体 (argument model ontology,AMO)[1]。论证是在文献中用论据来证明观点,AMO 本体以Toulmin 提出的论证模型[12]为基础,将科技文献的论证结构表示为断言(claim)、证据(evidence)、正当理由(warrant)、限定词 (qualifier)、反驳(rebuttal)、支援(backing) 六个组成部分,并用OWL (ontology web language) 来表述。第二类是基于修辞结构的修辞块本体(ontology of rhetorical blocks,ORB)[2]。这里所说的“修辞”与语文中的修辞有所不同。西方修辞学侧重于表达逻辑,古希腊时代,修辞是演讲中用于说服听众的手段。亚里士多德在他的《修辞学》中指出,修辞术是对应论辩术的,它们均采用三段论论证方式,但修辞术和论辩术分别是叙述式和问答式的叙述方法[13]。在科技文献中,修辞是用于说服或同化读者的手段,所有语句、文章结构的安排皆是修辞[14]。1988 年,Mann 等[15]提出修辞结构理论(rhetorical structure theory,RST),揭示不同粒度的语篇单元(textual units)如何连接成文章并承担某种功能角色,其中定义的修辞关系包括背景(background)、动机(motivation)、实现 (enablement)、总结 (summary)等。这与科技文献中的科研要素,如研究的背景、目标、方法、结论等形成对应,因此基于修辞结构的模型通常被作为文献科研要素的定义依据。第三类是从论文实验的记录和分析这一功能出发,提出基于科学实验过程的实验本体(experiment ontology,EXPO)[16]。其他种类还包括从实际应用角度出发,基于科学家查找、阅读文献需求而提出的SciAnnotDoc 模型[6],基于语义出版需求的语义出版与引用本体(semantic publishing and referencing ontologies,SPAR)[17],纳米出版物模型[18]等。

为了检验现有模型的实用性,宋宁远等[19]从语义增强概念入手,通过对科技文献语义增强路径的分析,归纳了现有语义标注模型的特点,对科技论文语义增强未来工作提出了多维多源数据融合、富语义内容数据可视化等发展趋势研判。于改红等[20]从构建思想、应用场景、语篇元素类别、建立方法、应用项目、实际标注效果六个方面对比分析了几个具有代表性的科技文献内容语义标注模型,指出这些标注模型普遍存在的问题,如语义类别含义难定义、人工标注烦琐等。总体上,在模型定义上的研究正逐渐丰富,并开始与应用结合,这将对实践研究起到推动作用。

3 识别对象的粒度

依据识别对象的粒度,现有研究可划分为章节级、句子级和词汇级。从它们与文献语义类型或结构描述模型研究的关联性上看,对章节的语义识别也被称为科技文献的结构功能识别,通常以IMRaD(introduction, methods, results and discussion)结构模型[21]为语义划分依据。IMRaD 将科技文献视为由引言、方法、结果和讨论四个部分组成,也是对文献中科研要素的粗略归纳。科技文献结构功能识别的结果就是将文中章节归并到IMRaD 几类标签上。句子层级的语义识别主要从修辞角度[22]分析科技文献的语篇结构,从中提取出一类或多类具有特定语义功能的句子。词汇层级的语义识别任务类似于识别命名实体类型,旨在用词汇、词组概括科技文献中的知识实体,如理论、方法、数据集等。

3.1 章节级语义识别

自17 世纪科技期刊出现以后,科学文本的内容组织在两个世纪里没有固定形式。为了提高科学论文的可读性,加速审阅及评估,学术界开始规范科学文本的组织结构,在20 世纪70 年代提出了IMRaD 结构模型,其迅速成为大多数科技期刊研究论文的主要格式[23]。然而还有很多文献的章节结构与IMRaD 模型不完全对应[24]。为此,人们研究科技文献的结构功能识别,将文献章节划分到以IMRaD 模型为基础的几个语义功能中,厘清文章内容的组织结构。清晰的论文结构不仅能够减轻读者的阅读负担,还有利于对内容的深入研究,如研究引文[25-27]、参考文献[28]在不同章节结构中的分布特征。

科技文献的结构功能识别中用到的信息主要来自四类文本,即有章节的标题[29-31]、全文内容[32-34]、段落[35],以及章节标题与全文内容的混合文本[36-39]。基于标题识别章节的语义一般利用标题的模式[29]直接匹配到IMRaD 的语义标签。该方式仅适用于具有规范标题的文献;对于规范性差的标题,由于标题文本长度所限,可利用信息少,识别难度大。陆伟等[30]利用 CRF (conditional random field)模型对科技文本的章节标题进行序列标注以识别文章的结构功能,Luong 等[31]使用标题的位置、标题的前两个字、整个标题三个特征训练分类算法识别章节结构。这些比直接匹配具有更高的适用性,但标题中的未登录词会对结果有较大影响。基于全文内容识别章节的语义一般采用分类方法,构建分类特征、训练分类器来判断章节的语义类型。章节内容丰富,可利用的分类特征多,如关键词词频和词汇类别[32]、句子数目[33]、引文分布特征[34]、图表分布[37]等。基于段落识别章节的语义一般用于无结构文献,它们没有明显的章节特征,所用到的文本不如标题那么简单明了,只能从段落中获取信息[36],因此有一定的难度。

为了充分利用文献信息,Ma 等[39]整合章节标题和章节内容的特征,通过实验表明这有效提高了文献结构功能识别模型的性能。Li 等[38]指出文献标题可分为指示性标题和描述性标题两类,指示性标题包含明显的章节结构功能词,如引言、总结等;描述性标题仅解释章节的部分内容,较难直接从标题区分章节的结构功能。为了弥补描述性标题信息不足的问题,Li 等[38]同样引入章节内容,利用GRU(gate recurrent unit)生成章节标题的嵌入表示,用BERT(bidirectional encoder representation from trans-formers)生成章节内容的嵌入表示,并且设置激活函数控制章节标题和章节内容对语义类型识别的影响程度,最终提升了语义识别方法的性能。王佳敏等[40]综合了章节的标题、内容、段落三个方面信息,基于集成学习思想组合多个神经网络模型识别文献的结构功能,使模型最终的章节标题识别效果好于单一模型。

3.2 句子级语义识别

章节级的语义识别只能将科技文献的内容按照科研过程做粗粒度划分,对于查找或提取特定内容来说还不够,因为同一个章节包含多种语义类型的信息片段[41]。语步概念最早由Swales[42]提出,指文章中具有完整交流功能的修辞单元,通常由一个句子或几个句子构成。语步被认为是表达一个完整语义要素的最小文本单位,识别语步的语义类型是更细粒度的、句子级文献内容语义划分。句子级的研究分为两类,一是将科技文献的摘要结构化[43-48],二是将识别范围推广到科技文献全文,提取一类或几类具有特定语义类型的句子[49-54]。

摘要是文献内容的浓缩。随着科学写作越来越规范,不少期刊要求科技文献的摘要明确标出目的、方法、结论、贡献等要素,这就是结构化摘要,研究表明,它比非结构化摘要可读性强[55]。不少研究仍以IMRaD 结构作为依据,采用分类或序列标注的方式将摘要中的句子映射到IMRaD 的语义标签[43,45,48]。Ribeiro 等[44]的研究中也采用了 IMRaD 结构,但只关注Results 部分,将剩下的Introduction、Methods、Discussion 归为一类,比较朴素贝叶斯、逻辑回归等多种分类模型的分类效果。另外,也有研究以IMRaD 为基础扩展更多的语义类型进行识别,如 Background、Objective 等[46-47]。

开放获取、网络出版、在线发表等模式的推广使全文文献资源更易于获取,为学者在全文范围内开展特定语步识别提供了条件。现有研究着重关注研究的问题、方法、贡献等语义类型句子的提取。Agarwal 等[49]在生物医学文献全文中识别描述引言、方法、结果、结论几类语义功能的句子,使用无监督的规则匹配加迭代方法和有监督的分类方法,发现有监督方法的识别准确性更高。王末等[54]基于迁移学习思想,使用SciBERT 将全文中的句子划分为结论、结果、目标、方法、对象、实验、观察、假设、动机、背景、模型11 种类型。识别多类型语步任务最大的挑战是需要大量的标注数据,具有一定难度。更实用的做法是针对所关心的语义类型进行识别。Heffernan 等[50]在计算机领域文献中探索了问题句的识别方法,通过试验不同的分类特征,发现句子所在的修辞语境信息是影响问题句准确识别的重要因素。张颖怡等[51]使用深度学习模型识别科技文献全文中的研究方法句,搭建两层分类模型判断其是引用方法句还是使用方法句。2021 年语义评测大赛发布的Task 11 则提出了从科技文献中提取研究贡献句的任务,用于建立开放的学术贡献知识图谱[53]。

3.3 词汇级语义识别

词汇级的语义识别旨在判断科技文献中用词汇概括的知识实体的类型,它与通用领域的命名实体识别等任务相比,涉及对文献核心内容的理解与概括,识别难度更大。从科技文献中发掘知识实体的任务受到知识图谱、实体计量[10]等领域发展的推动,成为人们关注的焦点。2017 年语义评测大赛发布ScienceIE 任务[56],要求从科技文献中提取出Task(任务)、Process(过程)和Material(材料)类型的实体,这极大地推动了词汇级的语义识别研究的发展。

词汇级语义识别的范围从文献标题[57-58]、摘要[59-64]逐渐扩展到全文[65-70]。文献标题短小精炼,但涵盖信息少,包含的语义主要是研究方法、研究问题两类。早期研究受限于技术与语料,研究人员主要利用结构性好的标题文本。Taniguchi 等[57]基于特征词和规则模板从文献标题中识别方法词用于整理英日图书的书目信息。Kondo 等[58]为了分析特定领域的技术发展趋势,采用了序列标注方法从文献的标题中自动抽取对应研究主题、技术、目标的词汇。

为了利用更丰富的信息识别出更多语义类型的词汇,研究者将范围扩展到摘要。Gupta 等[60]和Tsai 等[61]均采用基于语法规则迭代的方式从摘要中自动抽取出表示技术、应用领域等类型的词汇。两者不同点在于Gupta 等[60]先用种子模板匹配词汇,利用获得的词汇迭代生成更多模板;Tsai 等[61]从种子词开始迭代,分析词的特征以匹配更多的词,进而获取更多特征。这两种做法都很经典,常被当作基线方法。目前常用的还有深度学习方法。Ammar等[62]将摘要转化成字符级向量与token 级向量的组合作为模型输入,利用BiLSTM(bi-directional long short-term memory) -CRF 模型进行端到端的任务、过程等类型实体的提取。对于缺少标注语料的问题,Luan 等[63]和 Augenstein 等[64]分别提出了利用图标签传播来估计未标记数据的后验概率的半监督标记方法,以及利用隐藏层参数共享的多任务学习方法,在ScienceIE[56]提供的有限的带标记摘要数据上取得了比ScienceIE 最佳模型更好的抽取效果。

随着文本挖掘技术的成熟及全文文献资源的增多,在全文中识别词汇语义的研究越来越丰富。Heffernan 等[66]使用特征词在全文中自动抽取描述科学问题或解决方案的候选短语,然后利用它们的词性、情态、极性、与最近章节标题的距离等特征训练分类算法,识别短语的语义类型。Jain 等[70]开发了一个基于全文的实体及关系识别的数据集,并使用SciBERT 和BiLSTM 抽取其标注的数据集、方法、任务等实体。科技文献全文篇幅长,信息冗杂,从中提取特定语义类型的词语并非易事。然而,通过分析不同语义的章节内容,不难发现特定语义类型的词汇往往较为集中地分布在特定的章节中,例如,在介绍研究方法的章节中出现方法实体和数据集实体的可能性较大。因此,不少研究从科技文献全文中选特定章节或文本片段来提取特定语义类型词汇。例如,Hou 等[68]在科技文献的实验部分提取方法实体和数据集实体;Singh 等[65]选取Method 部分的引文描述片段提取方法词;章成志等[67]从全文识别研究方法句,并用序列标注从研究方法句中提取了方法词,还对比了不同标注粒度、词向量和标注模型所得到的识别效果。

4 语义识别的方法

4.1 基于匹配的方法

这类方法主要用文本的语言学特征构造模板,将匹配的内容单元标为对应的语义类别,匹配的关键在于如何设计规则模板,仅适用于规范性好的科技文献内容。判断章节的语义类型时,由于章节标题用词较为简洁且规范性好,一般通过建立常用词典进行字面匹配来识别语义类型,例如,标题若包含methods、framework、approaches 等词,可判断其章节的语义对应“方法”类型[24]。判断句子的语义类型时采用类似方式,例如,认为句中包含“首创”“开创”等特征词或符合“首次…提出…”模式的句子属于“创新评价”句[52]。判断词汇语义类型时,通常结合特征词与词性、句式结构来构造匹配模板,例如,认为using、apply、extend 等词后出现的名词性短语很可能是一个“研究方法”词[60-61]。

4.2 基于分类的方法

这类方法分为两个阶段。首先确定文本中特定的内容单元,然后通过分类模型将内容单元映射为预定的语义类别。主要步骤包括内容单元划分、训练样本标注、分类特征选择、分类模型训练、分类模型测试。这类方法的灵活度高,适用性较强,其性能取决于分类特征及模型的选择。

(1)内容单元划分。划分出科技文献的内容单元是识别语义类型的前提,但准确识别单元的边界并不容易。相当一部分研究为了简化问题,会选择已经划分好的内容单元,或用简单的启发式方法划分,如在章节层级以章节标题作为单元边界,在句子层级以句号、点号作为单元边界,在词汇层级采用模板匹配获取候选词汇单元[66]。

(2)训练样本标注。分类模型需要基于标注数据训练,即事先标注每个内容单元的语义类型。公开的标注数据集很少,且数据规模有限,大部分研究需要自行标注训练样本。章节的语义类型可以从章节标题中识别,标注相对简单[71]。但句子级和词汇级标注通常使用纯手工或者模式匹配加人工核对的方式[72],一般流程包括制定标注规则、招募与培训标注人员、正式标注、检验标注一致性等。

(3)分类特征选择。分类特征选择是语义识别至关重要的一环,不同识别对象和分类模型所使用的特征存在差异。识别对象主要包括文献标题、摘要、全文三类。标题的特征有限,主要是词性、是否含特征词[58]等。摘要的特征包括词频[44]、词汇类型[32]、位置特征[43]等。全文的特征有引文分布[34]、图表分布[37]、语境特征[39]等。从分类模型看,传统机器学习分类模型主要使用词汇特征、分布特征等人工构建的特征集合,而深度学习分类模型具备自动提取分类特征的能力,仅需要输入文本序列。当然,将语言学特征等附加信息主动输入给深度学习模型,将更有效改善模型的识别性能[73]。表1 将语义识别的常用特征归纳为四类。其中,词汇特征和语义特征是最常使用的分类特征。词汇特征中的“特征词”一般依经验选取,如“研究方法”类的词汇通常会与“提出”“采用”“利用”等特征词搭配。语义特征是指文本表示中包含的语义信息。一般而言,文本表示向量有两种产生方式,词袋模型生成的one-hot 向量和使用预训练语言模型生成嵌入表示[62-63]。one-hot 向量的维度就是整个词典的大小,每个维度对应一个词汇,其值基于TF-IDF(term frequency-inverse document frequency)、卡方、信息增益等方法计算[36]。嵌入表示是将词汇所在的上下文考虑在内,通过神经网络生成表达词汇语义信息的低维稠密向量。预训练模型是在目标任务之前就通过大量语料预先训练得到初始模型。被广泛用来生成词向量的预训练语言模型有word2vec、GloVe(global vectors)、ELMo(embedding from language models)、GTP (generative pre-trained transformer)、BERT 等。

表1 语义识别相关特征

(4)分类模型训练。常用的分类模型包括传统机器学习方法和深度学习方法,前者以支持向量机(support vector machine,SVM)[29,32,39]为代表,后者多数以双向长短时记忆(BiLSTM)[33,40]为基础搭建分类网络。传统机器学习方法较依赖人工构建的特征集合,一般应用于文献标题、摘要等短文本对象。研究显示,SVM 分类性能优于朴素贝叶斯(naive Bayesian,NB)、逻辑回归(logistics regression,LR)[66]、线性分类器方法[43]。深度学习方法由于其强大的信息挖掘能力,常被应用于较长的文本对象,但训练代价大,对设备性能、花费时间、训练的数据量均有较高要求。BiLSTM 因具有双向的信息提取能力,能够长距离记忆信息,因而在对长文本进行语义识别时比卷积神经网络(convolutional neural network,CNN)、长短时记忆(long short term memory,LSTM)、门循环单元(GRU)等网络模型用得广泛。

4.3 基于序列标注的方法

用序列标注模型在识别文本序列中内容单元边界的同时,将识别出它们对应的语义类型。主要步骤包括训练样本标注,文本嵌入、序列标注模型训练及序列标注模型评测。关键点在于文本序列的嵌入表示方法及序列标注模型的选择。

(1)训练样本标注。用4.2 节所述的分类方法时,一个待识别的文本单元标注一个语义类别;但在基于序列标注方法中,标注方式和粒度与之不同。例如,在识别句子语义类型时以词汇或单字为标注对象。标签常采用BIO-X 的方式构成,B 代表词汇开头,I 代表词汇的中间部分,O 代表特定词汇之外的其余部分,X 代表语义类别,如希望从下列文本标出方法类词汇,“朴素贝叶斯实现了文本分类。”的标注结果是“B-methodI-methodI-methodI-methodI-methodOOOOOOOO”。 对 于正文等较长的文本通常采用句子、段落为一个标注对象[33],而像标题这样的短文本,则是以词汇或单字(对应英文文献为token 或单个字符) 为标注单元。

(2)文本嵌入。即将文本表示为一组向量或者一组特征序列。序列标注模型不能直接处理文本信息,必须将文本转化为数学表示,该过程类似于分类方法中的分类特征选择,对模型最终的识别效果影响很大。文本嵌入方式主要有两种,一种是使用如表1 所示的词汇、分布及统计特征,将它们用数字编码后形成one-hot 向量;另一种是利用训练好的语言模型将文本序列表示成融合上下文信息的分布式向量。传统的标注模型如条件随机场(CRF)一般使用文本外部特征构成的one-hot 向量[36,58],深度学习标注模型最常使用预训练语言模型生成分布式向量。研究中也会将两种嵌入方式组合使用,如在字符分布式表示后拼接基于外部特征生成的one-hot向量[68]。还有的做法是用不同粒度的文本表示向量进行堆叠,如字符级与token 级的向量表示拼接[62]。这些方式增加了模型的输入特征。

(3)序列标注模型训练。早期,CRF 是使用最多且性能最优的序列标注模型[31,58]。CRF 综合全局信息选择最优序列,能够解决标签偏置问题,具有较强的序列预测能力。目前,更多地采用一个端到端的编码-解码框架。该框架包括三个部分:输入的文本嵌入、上下文编码器和标签解码器。上下文编码器主要是利用一些神经网络模型,从文本嵌入中提取用于序列预测的深层特征。其中常用的神经网络 模型包 括 BiLSTM[70]、CNN[68]、GRU[38]、 LSTM[40]、Transformer[46]等,有的研究还会加入注意力机制[48]强调重要信息。标签解码器是框架的最后阶段,用来将编码器提取出的信息解码成语义标签的概率,从而得到最终的序列预测结果。常用的标签解码器有线性层、CRF、RNN(recurrent neural network)等。

5 识别效果的评测

评测是实验研究的重要方面,一般分为直接评测和间接评测。直接评测是将自动识别结果与标准结果比较,用准确率、召回率等指标来度量;间接评测是将识别结果应用于某个下游任务,通过评价任务的效果来间接度量识别效果。直接评测依赖于一定规模的标准数据集,然而现实中这种数据集极难获取,构建的成本很高。间接评测方式对标准数据集的依赖性较弱,但需要对下游任务进行可靠性评价,且需要很好地控制评价影响因素,以便证明任务效果的提升源自识别效果。

5.1 直接评测

直接评测所需的标准数据集多数是研究者自建的标注数据集,现有的公开标注数据集数量和规模都相当有限,总结如表2 所示。

表2 公开的标注数据集

直接评价经常采用与分类评测类似的做法,将预测值与真实值比较产生如表3 所示的四种状态,即真阳性(true positive,TP)、假阳性(false positive,FP)、真阴性 (true negative,TN)、假阴性(false negative,FN),计算准确率、召回率、F值、正确率。其中准确率TP/(TP+FP)和正确率(TP+TN)/(TP+FN+FP+TN)均用于衡量语义识别的准确性,所不同的是前者基于预测结果集,后者基于整个样本集合,一般来说准确率更加贴合评测目标。召回率TP/(TP+FN)衡量语义识别的全面性。F值是一个兼顾准确性和全面性的综合性能考察指标,其中F1指标即准确率和召回率的调和平均数使用广泛。由于文献内容语义识别研究通常涉及对多种语义类型的识别,也常用宏平均的方式来评测模型识别的整体性能,即取多类别指标的平均值。

表3 混淆矩阵

5.2 间接评测

直接评测所需的标注语料有限,人工构建成本高,主观性强,所以部分研究会结合间接评测。秦成磊等[71]在评测其章节语义功能识别模型的效果时,假定参考文献和use、suggest、perform 等体现章节特色的动词在Introduction(I)、Method(M)、Result(R)、Discussion(D)章节中分布不同,而在同类型章节中相似,通过评测识别为类型si(si为IMRaD 之一)的章节与实际类型为si的章节在参考文献及特征动词的分布上的相似度来证明语义类型识别模型的效果。这一做法为相关研究提供了有价值的参考,但不足的是其建立在一个启发式的强假设上,限于某些领域或写作表达形式,如果实际章节内容包含多种语义,模型识别的准确性将受影响;而且该方法缺少纠错能力,如果模型给出了错误的识别结果,并不能通过该评测得知哪些结果是错的。程齐凯等[72]在评价词汇的语义类型时,生成研究方法和研究问题两种类型的词汇,将其合成标题,与具有“基于××方法××问题研究”型的原始标题进行相似度比较,借鉴了BLEU (the bilingual evaluation understudy)和图灵测试的思想,若人类评判者觉得标题合理或难以判断生成标题和原始标题,则说明基于语义功能词汇识别有效。

6 语义识别的典型应用

6.1 面向用户服务

从提升用户服务质量视角看,挖掘科技文献中的细粒度语义单元可用于改进现有文献查找、阅读、分析方式,帮助用户应对快速增加的海量文献。在文献查找方面,科技文献的章节结构被用于改进论文推荐算法和学术搜索系统,实现目标文献精准、快速的定位。传统论文推荐算法主要参考书目耦合强度,认为耦合强度越高的论文之间相似度越大。Habib 等[34]分析引文在文献逻辑结构中的特点时认为作者在标引文献时遵循一套标准,如科技文献方法和结果部分引用的文献与施引文献更相关;由此,其将文献的章节结构特征融入其中,对不同章节的引文赋予不同的权重,以改善传统文献耦合强度的计算方式,实现科技文献的更优推荐。在优化学术搜索系统时,科技文献的章节结构可提供更为精确的检索服务。如Europe PMC[76]在识别文献各章节的基础上支持用户选择检索范围,如选择在方法章节检索特定的方法实体,提升文献查找的精度和效率。de Ribaupierre 等[6]以 SciAnnotDoc 模型细分文献内容,据此提供分面检索点,开展用户实验与传统关键词检索比较,通过调查用户和分析检索日志,发现分面检索的性能优于关键词检索,证明细化文献内容可改进学术搜索系统。在文献阅读方面,从科技文献中识别细粒度语义单元有助于策略性阅读和语义出版等文献阅读、出版新形式的落地与发展,以减轻用户在海量文献背景下的阅读负担。策略性阅读能根据用户的需求去重组和定制文献内容,语义出版则是使用可视化技术直观呈现文献的核心内容与逻辑结构[81],两者都需要细粒度的语义内容单元作为底层的数据支撑。在文献分析方面,科技文献内容的细粒度语义挖掘推动以题录数据和引文数据为基础的传统文献计量向实体级全文本计量发展,也促进学术评价、热点话题发现等经典计量应用领域的全新发展[82],为情报分析工作提供了新思路、新方法。

6.2 面向知识体系构建

从构建知识体系视角看,识别科技文献中的细粒度语义单元有利于挖掘文献深层次、细粒度的知识单元,如获取文献关键词、主题词等。方龙等[78]先后将科技文献的结构功能特征和词汇功能特征融入关键词抽取任务以改善抽取算法的性能,其先将科技文献划分成5 个结构功能域,将候选词在每个结构功能域出现的TF-IDF 值和首次出现位置作为分类特征,使最终的关键词抽取效果优于不区分结构功能域的基线分类特征,由此验证了文献结构功能特征对关键词自动抽取任务的重要性。后续研究还发现约67.99%的作者关键词是研究问题词或研究方法词,故将词汇功能信息融入关键词抽取算法,使关键词抽取准确率较基线方法提升24.63%[79]。另外,识别科技文献中的细粒度语义单元可直接利用获取的细粒度语义单元搭建领域术语库、学术知识图谱等展示领域知识体系的基础知识产品,使领域知识能更好地被上层应用所利用。2021 年语义评测大赛发布的Task 11,从科技文献中提取研究贡献句,再从研究贡献句中提取科学实体与关系,建立实体关系三元组,以此为基础构建全面、开放的学术贡献知识图谱,用于及时同步各学科领域的最新研究进展[53]。

7 现存问题与研究展望

7.1 现存的主要问题

1)语义类型标准不一

主要体现在两个方面。其一,对文献结构按照不同角度建模,造成语义类型划分依据不统一。目前提出的语义标注模型为文献内容语义识别提供了一定的理论基础,但它们有的依据论断结构,有的建立研究过程本体,这导致划分的语义类型存在交叉、重叠和冲突。其二,不同研究者对语义类型存在不同的理解,造成其名称、范围、特征的不统一。无法准确描述语义类型的所指,会影响识别方法对特征信息的利用,限制方法的通用性。科学研究是一项复杂的工作,文献作为科学研究的描述与论证,势必会包含多种语义类型的内容单元。相对统一的语义类型标准是实现科技文献内容语义自动识别的基础。

2)优质数据集欠缺

虽然微软学术图谱、AMiner 等为广大学者开放了亿级的文献数据,但文献挖掘研究仍面临着开放数据规范性差、领域分布不均衡、全文数据不足、标注数据短缺等问题。例如,AMiner 提供的文献数据没有标识文献的所属领域。大多数公开的文献数据集都只有文献标题、摘要、关键词等题录数据,全文数据资源有限,难以进行全文范围的语义识别研究。无论是对识别方法的开发还是评测,现实可用的标注语料集以计算机和生物医学文献为主,数量和规模都不能满足研究需要。科技文献内容语义识别的标注任务并不容易,其涉及对领域文献内容的理解,不同标注者的知识背景和对学术文献的理解水平的差异会造成人工标注的不一致,因此标注成本高,缺少标注标准,标注结果难以进行权威性验证,这导致公开标注集很少。此外,已有研究中使用的标注数据也没有得到很好地融合和积累,无法在其他相关研究中进行利用、比较和检验。标注数据集的短缺对科技文献内容语义识别研究的进一步发展造成了极大的困扰。

3)研究关注点不平衡

为此,国际社会应当在网络反恐的国际立法上加强沟通和交流,积极推动联合国层面出台网络反恐国际合作的决议或宣言,为其他组织和区域性网络反恐合作提供指导。区域性组织的国家之间因为地缘、利益等相近因素,可以最大限度的在反恐问题上达成共识,也可以考虑先行在其框架内建立网络反恐合作的法律机制。如,可以将上合组织网络反恐合作演习的实践以法律形式固定下来,形成成员国之间开展网络反恐合作的固有机制,切实增强网络反恐合作的实效。

目前关于研究方法、研究问题的识别较多,对其他语义类型涉及较少。近几年,随着科学评价倡导新的思维和方式,利用文献中蕴含的创新点、贡献、局限等语义类型的信息有广泛的应用空间,可用于领域进展分析、学术成果评价或人才评价等,但目前这类语义识别的研究工作还不是太多。另外,目前的研究主要使用文献标题、摘要这类短文本对象,包含的语义信息和干扰信息不多,其识别难度相对较小;章节或全文中蕴含着更全面丰富的语义信息,同时也夹杂大量无关内容,识别难度较高,需要更多研究关注。

4)识别方法存在局限

由于公开标注数据集短缺,自建数据集数据规模有限,且数据标注结果缺少公认,现有的语义识别方法缺乏普适性验证。此外,作为当前主流的方法,深度学习方法对数据、设备、时间的要求高,使用场合受限。目前的识别方法在性能、适用性等方面还远不能满足大规模现实应用的需要。

7.2 研究展望

1)探索科技文献内容特征

科技文献内容的特征对其语义的自动识别至关重要。基于端到端神经网络模型的语义识别将自动挖掘的特征信息掩盖于“黑盒”之中,无法将这些特征信息推广到其他语义类型的识别。早期研究者探索了科技文献的引文分布特征[25-27]、参考文献分布特征[28]、图表分布特征等,这些特征被用于语义识别模型的改进[49]和评价[71],促进了语义识别研究的发展。未来研究应该着眼于挖掘更多的文本内容特征,归纳适于不同粒度和语义类型的文本特征,为语义识别方法提供可靠的理论支撑。此外,语义类型间的关系也非常值得关注,其包括不同粒度的对象间的关系,例如,研究方法章节包含较多方法实体,在引言和总结部分可以找到描述研究贡献的句子等,以及同一粒度的对象间不同语义间的关系,如引言、方法、结果、讨论章节的组织顺序等。厘清这些关系,并将其运用于语义识别方法的开发中,会极大促进科技文献内容语义组织及知识利用。

2)解决数据资源短缺问题

优质数据资源和标注数据的短缺已经严重制约了语义识别研究的发展。未来研究可从“开源”和“节流”两个方向解决数据资源短缺的问题。在“开源”上,一方面,充分利用现有开放数据集,加强数据清洗相关研究工作,如PDF 文本解析、文献所属领域识别等,将规范性差的数据资源转化为研究可用的优质资源;另一方面,众包式、规范化开发大规模标注语料数据集,参考TREC(Text Retrieval Conference)[83]、ImageNet[84]中评测数据的构建,制定标注规范,充分融合现有标注集合,形成领域语料或领域词典,减少后续重复投入标注人力。大规模的标注语料可以极大地推动语义识别方法的发展,领域词典的积累也能为知识增强型的方法提供支撑,它们方便研究者训练模型或检验所提方法的先进性。在“节流”上,未来研究应该着力研制对数据资源包容度更大的语义识别方法,降低对大规模优质数据的依赖性。这个方面可借鉴关键词提取、命名实体识别任务中提出的弱监督算法,如增量迭代、主动学习、迁移学习、自训练等。同时,未来研究还需要增强语义识别方法的健壮性,提高识别方法在不规范数据集中的适用性。

3)增强语义识别的应用价值

科技文献内容语义识别在提升知识查找与利用服务,以及创新学术评价等方面具有极大的应用价值。未来,语义识别研究应该与实际应用紧密联系,一方面加强对细粒度语义单元应用价值的探索,充分利用识别出的语义单元改进现有学术检索、推荐等服务的精准性;另一方面要利用科技文献的细粒度语义单元在旧问题中开拓新方向,如基于细粒度语义单元开展科学情报分析[11]、学术评价等工作。

4)扩展语义识别的思路

目前,深度学习方法是语义识别的主流方法。其信息提取能力强,模板化程度高,使研究者习惯于直接套用常见的深度学习框架设计语义识别方法,缺乏对使用特征及模型框架的深入思考,限制了语义识别方法的发展。未来研究需要扩展语义识别思路,例如,借助已有知识词典和标注集研制知识增强型的识别模型,或借助页面布局、图表等文本之外的特征研制多模态的识别模型。当然,利用深度神经网络模型需要解决外部特征向量与内容特征向量维度差异大所导致的特征融入问题[39]。

猜你喜欢

章节语义词汇
本刊可直接用缩写的常用词汇
一些常用词汇可直接用缩写
语言与语义
本刊可直接用缩写的常用词汇
高中数学章节易错点提前干预的策略研究
素养之下,美在引言——《“推理与证明”章节引言》一节比赛课的实录
“上”与“下”语义的不对称性及其认知阐释
黄廖本《现代汉语》词汇章节中的几个问题
认知范畴模糊与语义模糊
八仙过海,各显神通