科学文献中的知识实体抽取与评价研究综述
2023-12-18刘春丽陈爽
刘春丽 陈爽
关键词: 知识实体; 实体抽取; 实体评价; 科学文献; 实体计量学; 综述
DOI:10.3969 / j.issn.1008-0821.2023.12.013
〔中图分类号〕G254 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 12-0143-21
科学文献是凝结众多科研工作者智慧和汗水的结晶, 也是科研工作者获取知识的重要资源[1] 。丰富的文献资源为研究人员进行数据驱动的知识发现提供了大量的机会[2] 。随着人工智能的快速发展,自然语言处理技术不断进步, 学者们已经从最初聚焦于科学文献外部特征的研究逐步转向内容层面,开展更细粒度的研究, 并深入到对其中蕴含的知识实体进行挖掘、利用和评价, 以实现从文献书目层面到内容层面的知识组织与知识管理[3] 。科学研究中的知识实体的进步、改进和应用对促进不同学科发展起着至关重要的作用[4] 。知识实体的抽取与评价对信息检索、文本挖掘、信息推荐、自然语言处理、数字图书馆研究、科学决策等有较大的应用价值。
为了更全面地了解知识实体相关研究, 本文进行了中外文的文献调研。首先, 分别在Web of Sci?ence 核心合集数据库、谷歌学术和CNKI、万方、维普数据库中检索相关论文。中文检索策略是将实体、算法、软件、数据集、知识元、术语等表示研究对象的名词, 学术论文、学术文献和科学文献等表示研究领域的名词, 以及表示抽取、评价、计量、评估等名词进行组配检索; 英文检索策略是将“entity”“entities”“text”“name”“sentence”“term”“knowledge element”“knowledge unit”“Fine-grainedknowledge”“knowledge graph” 等表示研究对象的名词, 和“scientific document”“scientific literature”“academic literature”“academic papers” 等表示研究領域的名词, 以及“recognition”“extract”“textmining”“data mining”“metrics” “indicator”“en?titymetrics” “evaluation”“impact” 等词进行组配检索, 得到中英文文献超过两千篇。通过浏览每篇论文的标题、摘要, 甚至全文, 再进一步人工筛选更密切相关的外文文献约779 篇, 中文文献约289 篇。此外, 也通过专家咨询、检索密切相关文献的参考文献, 核心作者与相关会议名称等检索方式补充。
总体来看, 中外文相关文献呈现逐年递增的趋势。20 世纪90 年代发表的密切相关论文较少;2000—2010 年, 科学文献的文本挖掘、知识元(关键词、主题词等元数据)、知识单元(篇章、句子、短语等) 的挖掘或知识抽取逐渐兴起; 2010 年以后, 知识实体的抽取、实体评价及实体计量等概念与方法逐渐繁荣。早期的知识实体抽取与评价主要来自生物医学领域, 如Bruijn B D 等[5] 于2002 年发表在International Journal of Medical Informatics 的一篇论文中总结了从Medline 摘要或全文文章中提取各种分子生物学发现的文本挖掘技术, 包括文本分类、命名实体标记、事实提取和论文集合分析;Ding Y 等[6] 于2013 年提出实体计量学, 并以二甲双胍为例, 构建药物相关实体引文网络, 利用紧密中心度和中介中心性等指标评价生物实体的重要性。
2020 年以来, 随着机器学习、自然语言处理等技术的发展, 以及相关国际学术会议、工作组会议的召开, 知识实体研究进入了崭新的发展时期。近年来, 有少量学者发表相关中文综述文章。如李广建等[7] 聚焦于基于深度学习的知识单元抽取; 沈雪莹等[3] 专注于知识单元的抽取与应用; 温雯等[8]梳理了知识实体类型的抽取与标注; 卢超等[9] 从引文内容计量和全文内容计量两大方面综述了学术文献的全文计量, 着重指出今后应重视语义特征分析的深化。在英文综述文献中, Wang Y Z 等[10] 对方法实体的抽取、评价和应用现况进行了阐述和分析; 此外, Zhang C Z 等[11-14] 先后撰写了知识实体抽取、评价与应用方面的简要综述, 如在第4 届科学文献中知识实体抽取与评价(EEKE2023)和第3届AI+信息计量学(ALL2013)联合工作组会议网站上发布的会议宗旨中指出“要将信息计量学与人工智能技术相结合, 具有分析非结构化可扩展数据和数据流、理解不确定语义以及开发健壮和可重复模型的能力[11] ”。在2023 年, Aslib Journal of In?formation Management 的EEKE2021 工作组会议特刊发表客座编辑社论文章, 简要介绍知识实体及其关系的抽取、注释工具及知识实体图谱的构建、知识实体的应用等[12] 。
随着自然语言处理技术的发展, 知识实体的抽取已经从深度学习更新到BERT 和ChatGPT, 而且知识实体的评价方法也在文献计量和替代计量基础上取得了更深入、更多元的进步。因此, 需要在前人建立的理论基础上, 对最新的知识实体抽取与评价发展现况进行系统梳理与分析。本文着眼于科学文献中的知识实体, 在范围上覆盖更广的实体类型。不仅较为详尽地梳理实体抽取方法, 还着重总结了最新的大语言模型在实体抽取方面的应用。此外, 对知识实体抽取的数据集的总结、相关学术会议内容与主题的比较也是本研究的特色之处。在知识实体的评价方面, 除知识实体的提及频率和替代计量外, 还梳理出提及频率的影响因素、实体共现网络与实体引文网络、基于实体的同行评议、基于知识实体的论文新颖性和临床转化进展评价等最新的研究进展。
1什么是科学文献中的知识实体
什么是科学文献中的知识实体(Knowledge enti?ty, KEs)? 大致可以从广义与狭义两个层面进行定义, 一是广义上的知识实体, 即综合了所有学科领域具有普遍意义的实体。学者们对什么是知识实体各抒己见, 如温雯等[8] 将知识实体定义为: 区别于一般的实体的、具有专业领域特性、能概括表达文献中核心知识点的术语; Zhang C Z 等[4] 认为,知识实体是指作者提及或引用的知识, 反映了各种解决问题场景中的丰富资源; Xiao C 等[15] 定义知识实体为特定学科中相对独立和完整的知识模块;Ding Y 等[6] 指出, 知识实体作为科学文献中知识单位的载体, 包括诸如关键词、主题、学科类别、数据集、关键方法、关键理论和领域实体(如生物实体: 基因、药物和疾病)。安世虎等[16] 将保存可用的知识表达, 但没有先天知识处理能力的知识事物称为知识实体。李广建等[7] 将科技文献中以词或短语为载体、相对独立完整的知识模块称为知识实体或“词粒度知识单元”, 并指出其具有细粒度、专业性强的特点。二是狭义上的知识实体, 即领域知识实体(表1 展示了知识实体在不同领域中所指代的具体内容或定义)。如生物医药领域中的病毒实体、疾病实体、细胞实体、化学成分实体、药物实体、生物分子实体[17-19] ; 计算机领域的软件知识实体、算法知识实体和方法实体等[20-23] 。此时, 知识实体的具体指代因其应用的学科领域、作者研究目的差异而不同。
虽然各个学者对各学科领域知识实体的定义表述不一, 但究其本质仍有共同之处。本研究中对领域知识实体的定义是各学科领域内的专业术语或融合了领域知识的实体。
2科学文献中知识实体的抽取
2.1知识实体的抽取方法研究
知识实体抽取可以作为命名实体识别(NamedEntity Recognition, NER)的子任务, 是开展自然语言处理相关研究的先行步骤, 高效、准确地抽取知识实体更有利于后续研究的顺利开展。随着人工智能技术的不断发展, 主流的知识实体抽取方法已经由早期基于人工标注、基于规则等依赖人工的方法逐渐演变成更加侧重于自动化的抽取方法, 如基于传统的机器学习、深度学习、预训练语言模型或者多种模型混合的方法, 这使得知识实体抽取效率大大提升, 实体抽取的准确性也在部分领域有了显著的改善。如在医学领域, 从文本中提取症状、诊断意见和药物信息。在材料科学领域, 识别无机材料性能、聚合物、纳米材料以及合成路线等实体。在生态环境领域, 识别生态治理技术领域知识实体及生态环境领域知识实体[42] 。
2.1.1基于人工标注的方法
基于人工标注的知识实体抽取方法一般是通过预先定义的知识体系, 聘请专家对学术论文进行标注, 多用于构建领域数据集或语料库[43] 。如He JX 等[44] 基于人工标注的方法, 从21 篇人文社科博士论文致谢文本中抽取了致谢实体, 构建了致谢实体的細粒度分类体系, 为今后利用机器学习等方法抽取和分析提供了致谢实体语料库。
人工标注的优势在于其具备一定的灵活性, 这是其他方法较难比拟的; 不足则在于人工的精力往往是有限的, 很难在短时间内实现大量数据集的有效标注。人工标注的方法虽然略显笨重并且耗时耗力, 但至今仍然未被淘汰, 主要原因是由于此方法在部分领域如古籍、古诗词等复杂领域的标注灵活性, 并且人工标注的高质量数据集也是其他知识实体抽取研究的基础, 其他方法通过与人工标注方法的有效结合可以大大提升知识实体的抽取准确性和抽取效率。
2.1.2基于规则的方法
基于规则的知识实体抽取主要依靠人工定制的规则开展, 这些规则的定制依赖于具体的知识库和词典, 规则制定人员通过选取统计信息、关键字、指示词等具体特征的方式制定规则模板[45] 。如化柏林[46] 采用基于规则的方法对中文学术文献的情报学方法理论术语进行抽取研究。Bhatia S 等[47] 使用基于规则的方法识别学术论文中的算法, 并构建了算法搜索系统。邹洋杰等[48] 采用基于规则的方法从情报学与计算机科学文献中抽取方法实体; 许华等[49] 基于语言规则对病症菌实体进行抽取。DingY 等[6] 以治疗糖尿病的药物二甲双胍为例, 采用字典匹配的方法抽取二甲双胍相关文献中的基因、疾病和药物实体, 用于构建实体—实体引文网络。Wang S 等[50] 设计了一种词干匹配方法来查找出现在引文句子和相应参考文献中的名词短语, 以探索从参考文献到施引论文的知识传播。
通过规则匹配抽取知识实体的优势在于可以精准有效地抽取大量知识实体, 对比人工标注效率有了很大的提升; 但也会存在一些规则无法涵盖所有知识实体的特点, 因而产生实体抽取遗漏, 而且基于规则的方法具有鲜明的领域特点, 难以迁移至其他数据集或其他领域进行知识实体抽取。
2.1.3基于传统机器学习的方法
基于传统的机器学习方法一般将实体抽取看作分类任务或序列标注任务[45,51] 。具体过程为: 将实体通过一定粒度的分词后进行特征提取, 结合词法和句法特征转换成特征向量, 然后采用某些算法、模型, 如隐马尔可夫模型(Hidden Markov Models)、最大熵模型(Maximum Entropy Models)、条件随机场(Conditional Random Fields, CRF)、决策树模型(Decision Trees) 等机器学习模型,比较特征向量之间的相似度, 然后进行标注。此种方法已经在实体抽取任务中取得一定成效, 缓解人工成本过高的同时提高了模型的泛化性, 但抽取精度有赖于训练数据的标注质量, 且不适用于大规模数据集[52-54] 。
基于CRF 的机器学习模型开展的知识实体抽取研究较多, 涉及领域也较为广泛, 包括计算机领域[55] 、生物医学领域[56] 、旅游领域[45] 等。由于CRF 模型复杂度较高、训练代价较大, 因此常与深度学习模型结合, 联合实现实体抽取任务[57] 。
2.1.4基于深度学习的方法
基于深度学习方法在文本挖掘领域具有较好的性能, 包括运用在文本分类、信息抽取、关系抽取等任务中, 并逐渐占据实体抽取技术的主导地位,与传统的机器学习相比, 深度学习采用深度神经网络模型实现对知识实体的自动抽取, 自动学习语义依赖关系, 有助于自动发现隐藏的特征, 使得泛化能力得到了提升, 并且有效降低了大量的人工成本[58-59] 。仲雨乐等[25] 也在研究中指出, 深度学习模型在问题、方法实体识别的任务上取得了比传统机器学习更好的性能。
应用较多的模型包括深度神经网络模型(DeepNeural Network, DNN)、卷积神经网络(Convolution?al Neural Network, CNN)、基于词向量的双向长短时记忆神经网络模型(Bi-directional Long Short-TermMemory, BiLSTM)、图神经网络(Graph Neural Net?work, GNN)和注意力机制等[60] 。其中, BiLSTMCRF已成为基于深度学习的命名实体识别方法中的主要模型[61-62] , 在此基础之上有学者提出Bert-BiLSTM-CRF[63-65] 、BiLSTM-CNNs-CRF[51] 、引入注意力机制的Att-BiLSTM-CRF 模型[66-67] 、AL?BERT-BiLSTM-CRF 模型[68] 等混合模型, 分别在中文景点实体、中文位置实体、术语实体、电子病历、农业文本中实体等的抽取有较为出色的表现。如Hou L 等[53] 应用了引入注意力机制的BiLSTMCNN-CRF 模型对文献中的算法和数据集进行抽取, 其中注意力机制可以捕获标记和上下文信息之间的长距离依赖关系, 通过选择性地对一些重要信息给予更多的关注, 并赋予它们较高的权重, 以聚焦于句子的关键部分, 从而大大提升了模型的性能; 韩娜等[68] 采用ALBERT-BiLSTM-CRF 模型完成句子级事件的重要元素的抽取, 结果表明, 该模型与其他同类型模型相比, 准确率和F1 值均有所提升; 章成志等[69] 采用基于字向量的、结合条件随机场的双向长短时记忆网络联合训练模型对研究方法实体识别进行识别, 模型表现性能较佳。
基于深度学习的方法抽取学术文献中的知识实体受到广泛关注, 也具有较大的发展潜力。此外,通过结合预训练模型、迁移学习、图神经网络、远程监督学习或引入注意力机制所提出的混合模型也有效提升了深度学习模型在知识实体抽取任务中的效果[25] 。
2.1.5基于大规模预训练语言模型
大规模预训练语言模型, 简称“大语言模型(Large Language Model, LLM)”, 是一种从预训练语言模型扩展的人工智能模型, 旨在理解和生成人类语言。BERT 与ChatGPT 均是基于Transformer 架构的大语言模型。通过在大规模语料库上进行无监督训练, 大語言模型在多个自然语言处理任务上取得了重要突破, 甚至在语义理解、常识推理和对话生成等任务上超越了人类平均水平[70] 。
Devlin J 等[71] 于2019 年提出双向预训练语言模型BERT ( Bidirectional Encoder Representationsfrom Transformers) 是未来知识实体抽取的主流模型[52] 。该模型通过在大规模无监督语料上进行预训练, 学习通用的语言表示, 然后将这些学习到的表示用于各种下游任务, 在自然语言处理领域中的多个任务上得到了很好的应用。也由此衍生出针对特定领域的预训练的语言模型, 如通过在生物医学领域、医疗语料库的大规模文献数据上进行预训练得到的BioBERT[72] 和SMedBERT[73] , 拓展了BERT在生物医学语料库上的应用, 可以用于生物医学文本的实体抽取和关系抽取任务; Huang K 等[74] 通过在临床医学文献和医疗记录上进行预训练而得到的ClinicalBERT, 考虑了临床术语、疾病名称等特定于临床医学的词汇, 并能够更好地处理与医疗相关的文本任务。Beltagy I 等[75] 通过在大量科学文献数据上进行预训练得到用于科学文献领域的预训练语言模型SciBERT, 它利用无监督预训练并显著提高了BERT 模型在科学NLP 任务中的性能。
由于大规模的预训练语言模型, 如ChatGPT 和GPT-4 在各个行业和领域的广泛应用而获得了广泛的普及, 一些学者对ChatGPT 和GPT-4 在实体抽取中的性能进行了测试和评价。如Hu Y 等[76] 测试ChatGPT 在临床实体识别中的应用; González-Gallardo C E 等[77] 在历史文献中运用ChatGPT 识别实体; Rehana H 等[78] 则评估基于GPT 和BERT 模型在生物医学文本中识别蛋白—蛋白交互方面的性能。人们发现, 大语言模型在命名实体识别(NER)任务上的表现相对较低, 这是因为NER 是一种序列标注任务, 而大语言模型是一种文本生成模型,两者之间存在差距。为了解决这个问题, Wang SH 等[79] 提出了一种名为GPT-NER 的方法, 通过将序列标注任务转化为生成任务, 使大型语言模型能够更好地适应NER 任务。实验结果显示, 在资源稀缺和少样本情况下, 即训练数据非常有限时,GPT-NER 表现出更强的能力, 明显优于有监督模型。另外, 张颖怡等[80] 设计了一种基于ChatGPT的学术论文实体识别方法, 并从性能、价格和时间3 个角度进行可用性分析。研究结果表明, 在不同学科领域下, 当人工标注数据集规模较小或缺少人工标注数据集时, 可以直接将ChatGPT 视为实体识别工具。但实体识别结果需要进行错误分析与过滤等后续处理。此外, 大语言模型在训练时使用的语料库可能存在样本偏差, 导致在实体抽取任务中无法很好地处理特定领域或特定类型的实体。这可能需要额外的数据处理和领域适应方法来解决, 并且训练和部署大语言模型通常需要的成本较高。
总的来讲, 大规模预训练语言模型通过在大规模语料库上进行无监督训练, 能够学习到丰富的语言知识和上下文理解能力。这使得它在实体抽取任务中能够更好地理解文本中的语义和上下文信息;在进行微调时, 可以通过少量的标注数据进行学习, 甚至在零样本设置下也能取得一定的性能。这对于实体抽取任务中的资源稀缺或少样本情况下非常有用。而且大语言模型在实体抽取任务中具有上下文理解能力强、零样本学习和可迁移性等优点。但它也存在样本偏差和计算资源需求高的缺点。在实际应用中, 需要权衡这些优缺点, 并根据具体任务和资源限制来选择合适的模型和方法。
表2 中展示了知识实体抽取方法的优缺点比较。可以看出, 在知识实体的抽取技术中, 基于人工注释和基于规则的方法在抽取效率方面处于劣势, 难以涵盖所有语言场景, 应用起来耗时费力[53] , 但其优势在于可以通过实体标记, 构建领域高質量语料库、字典等, 辅助机器学习算法对知识实体高效、准确地抽取; 传统机器学习方法的出现有效地提升了知识实体的抽取效率, 但不足则在于其过度依赖人工标记的高质量文本提取特征; 深度学习方法克服了传统机器学习的局限性, 减少了对预处理的依赖性, 实现了对隐匿特征的自动提取, 并且在知识实体抽取任务中表现较为出色。但深度学习实现对知识实体抽取准确率的基础在于对大量的高质量标注数据的学习。而现实情况是, 在具体抽取知识实体的过程中的标注数据往往是少量的; 采用基于大语言模型的方法也可以减轻对标注数据集的依赖,从无标签的非结构化数据中自主学习知识, 具有上下文理解能力强和可迁移性等优点。然而, 它也存在样本偏差和计算资源需求高的缺点。在实际应用中, 需要权衡这些优缺点, 并根据具体任务和资源限制来选择合适的模型与方法。
针对以上知识实体抽取技术存在的问题, 本文认为, 其一, 着力开展领域标注数据集的构建、模型训练; 其二, 训练出适用于多领域的实体抽取模型或增强已有模型的普适性; 其三, 在具体的知识实体抽取任务中, 应根据待抽取实体的特点, 选择合适的模型。如李贺等[81] 在简帛医药知识组织的研究中针对不同的数据集选择了不同的模型抽取知识实体, 对于《足臂十一脉灸经》和《阴阳十一脉灸经》的文本, 采用构建的词典进行分词, 并提取经络实体; 对于《病方》和《五十二病方》采用条件随机场模型(CRF)进行实体识别。也有学者根据数据集的语言特点选择或提出合适的模型,如张芳丛等[82] 为了更好地处理中文医学文本, 提出基于RoBERTa-WWM-BiLSTM-CRF 的中文电子病历命名实体识别模型, 在BERT 识别词语义基础上获取词的信息, 采用中文全词遮掩技术和动态掩码机制, 在大量无标签文本的长序列训练中, 模型可以生成含词汇的语义信息, 有效改善中文文本识别中一词多义、词识别不全等问题。Kong H 等[83]开发了KorSciBERT-ME-J 和KorSciBERT-ME-J+C模型以提高韩国论文的元数据提取性能。实验结果表明KorSciBERT-ME-J 表现出最高的性能, F1 分数为99.36%, 同时在自动提取各种格式的韩国学术论文的元数据方面表现稳健。
此外, 也可以结合弱监督、无监督算法或迁移学习、强化学习等方法提高训练数据的质量, 减少模型对大规模训练语料库的依赖或降低获取大规模训练语料库的成本[10] 。如在知识实体抽取任务中,迁移学习可以将标注好的数据或模型在某个领域、任务中学习到的知识、模式应用于其他领域、任务中去, 以此提升模型的泛化能力。即迁移学习在利用高资源数据集的同时, 增强了模型对低资源、特定任务文本数据集的概括能力[84] 。王红斌等[85] 提出一种基于样本的迁移学习算法—TLNER-Ada?Boost, 通过自动调整目标训练样本和辅助训练样本的权重, 扩充目标训练样本的规模, 以此提高训练语料质量, 实验结果表明, 在相对较低的人工标注语料成本上, 迁移学习算法获得较好的实体抽取效果。Boland K[86] 指出, 在实体抽取任务中, 大量带有注释的数据是十分重要的, 并且很难获取, 因此, 提出了使用弱监督方法和远程监督来创建银标签, 以利用迁移学习训练监督式软件提取方法。研究表明, 即使仅结合少量弱监督方法, 也可以创建一个银标准语料库, 作为迁移学习的有用基础。Shao W 等[87] 提出了一种基于句子模式和句子POS序列的无监督方法。这种方法可以在不学习标记数据的情况下提取术语, 只需要一些初始句型来冷启动。然后它可以在未标记的数据上学习新的模式和POS 序列, 并使用它们来提取新的术语。Zha H等[88] 也基于弱监督的方法从文本中抽取算法实体,用于构建算法路线图。Liu Q K 等[89] 在抽取数据集实体时, 对于长尾数据集实体(即在数据集中出现频率较低的实体)的抽取采用了远程监督方法和两种数据增强方法来获取数据。然后, 使用BERTBiLSTM-CRF 模型来预测长尾数据集实体。以上研究均在知识实体抽取任务中取得了较好的结果。
2.2知识实体抽取的数据集
知识实体抽取流程较为固定, 对于主流模型来说, 高质量的标注数据集颇为重要。针对已有研究来看, 现有领域数据集多集中于医学、新闻、计算机科学、教育等领域。为推进各学科共同发展, 可以拓展领域数据集到其他领域; 此外, 有报告[90]指出, 目前只有一小部分语种出现在基础模型中,而世界上有6 000多种语言, 对于一些少数语言或资源匮乏的语言, 由于缺乏大规模的标注数据, 许多自然语言处理任务无法得到充分的发展和研究。表3 列举了生物医学领域可以用于知识实体抽取任务的标注数据集。
2.3知识实体抽取的软件与工具
目前, 已经开发众多软件或工具旨在自动化开展知识实体抽取任务。如Tong Y 等[92] 开发了ViM?RT, 用于自动识别病毒变异。Song M 等[93] 设计了PKDE4J——一个综合的文本挖掘系统, 它集成了基于字典的实体提取和规则, 还可以插入自然语言处理组件的各种组合, 以及添加词典和丰富的规则集以识别准确的实体和关系。不仅适用于生物医学领域, 也适用于其他领域。Yu L 等[94] 构建了一个信息抽取和知识挖掘的智能平台, IEKMMD。该平台包含两项创新技术: 首先, 结合了神经网络和主动学习的短语级科学实体抽取模型, 可以有效降低模型对大规模语料库的依赖; 其次, 提供了基于翻译的关系预测模型, 通过优化损失函数来改进关系嵌入。此外, 该平台集成了先进的实体识别模型(spaCy.NER)和关键词提取模型(RAKE)。它为细粒度和多维度的知识提供丰富的服务, 包括问题发现、方法识别、关系表示和热点检测。在人工智能、纳米技术和基因工程3 个不同的领域进行了实验,实体抽取的平均准确率分别为0.91、0.52 和0.76。表4 列举了可以用于知识实体抽取的工具或软件。
2.4知识实体抽取相关会议
近年来, 科学文献中的知识实体抽取得到了广泛的关注, 相关会议也纷纷召开, 如“科学文献中知识实体抽取与评价研讨会(Workshop on Extrac?tion and Evaluation of Knowledge Entities from Scien?tific Documents, EEKE)”“科学文本自然语言处理研讨会(Workshop on Natural Language Processing forScientific Text, SciNLP)” 等旨在探索如何从科学文本中精准、高效地抽取知识实体。此外, 如“人工智能与信息计量学研讨会(Workshop on AI+infor?metrics, AII)” 和“文献计量学增强的数字图书馆信息检索和自然语言处理研讨会(Bibliometric-en?hanced Information Retrieval and Natural LanguageProcessing for Digital Libraries, BIRNDL)” 等会议的主题所示, 自然语言处理技术及人工智能方法在科学文献中知识实体抽取和表示中的应用也增强和赋能了文献计量学、信息计量学、信息检索与信息处理、科学文献处理和数字图书馆领域的发展。
表5 列举了知识抽取的相关会议。这些会议中均涉及利用自然语言处理技术研究科学文献中知识实体抽取与评价方面的主题, 但各个会议有自己的侧重点。其中, JCDL、EEKE 和AII 会议在2023 年联合举办。EEKE 专注于科学文献中知识实体的抽取与评价, 从2020 年开始至今连续举办4 届; AII会议强调自然语言处理技术在信息计量学中的应用, 从2021 年举办至今; JCDL 是由ACM 和IEEE专业协会联合组织的数字图书馆会议, 从2001 年首次举办, 至今已举办23 届。SDP 则侧重于自然语言处理(NLP)等技术在学术文献处理(SDP)中的应用, 从2020 年举办至今。有些会议在近年已经停办。如BIRNDL 关注自然语言处理技术、信息檢索和文献计量学在数字图书馆中的应用, 从2016年开始, 每年举办1 次, 连续共举办4 年; WOSP则重视自然语言处理技术在科学出版物基础设施、文本挖掘及影响力评价方面的应用, 从2012—2020年共举办了8 次; SciNLP 研讨会主要关注自然语言处理技术在科学文本中知识抽取与表示方面的应用, 分别在2020 年和2021 年各举办1 次; CLBib 关注科学论文中文本和语义挖掘技术在文献计量学中的应用, 仅在2015 年和2017 年各举办1 次会议。
3科学文献中的知识实体的评价研究
随着文本挖掘技术的成熟及全文文献资源的增多, 知识实体抽取的范围从文献标题、摘要逐渐扩展到全文, 这使得基于知识实体的全文计量成为可能[99] 。我国文献计量学的著名学者邱均平曾指出,文献计量不能停留在文献的篇、章、册为单位的文献单元的计量上, 而应该深入至文献内容对知识单元和文献的相关信息进行计量研究[100-101] 。对知识单元的认知能够使人们清楚地认识到学术论文评价的基础元素, 这有利于把握评价主题、不失方向。姜春林等[102] 认为, 对学术论文评价的实质是对论文中知识单元的识别、计量和评价。Ding Y 等[6]也提出一种使用实体“来测度影响力、知识使用和知识转移以促进知识发现” 的策略, 即实体计量学(Entitymetrics)。作为一种表征知识单元影响的新方法, 实体计量学还被用于知识发现[103] , 如药物再利用的量化[104] , 与其他文献计量网络的比较[104] , 以自我为中心的生物实体分析[105] 和作者个人资料分析[106] , 以及隐含的实体关系识别[107] 。通过梳理相关研究发现, 基于知识实体的评价主要包括对知识实体的评价和基于知识实体的论文影响力评价两个方面。目前, 大多数研究是利用文献计量指标分析知识实体的影响力, 通常包括实体在学术论文中被提及、被引用的频率和网络中心性等指标[108] 。
3.1 知识实体的提及频率、替代计量及影响因素
知识实体在不同研究中的提及频率往往被认为是评价其重要性的基本指标, 被更多研究提及的实体被认为更受关注。如Li K 等[109] 的研究探讨了R及其软件包和功能是如何在PLoS 中被提及和引用的, 并评价了其在科学出版物中的影响。Wang Y Z等[110-111] 在研究中, 以提及某算法的文章数作为指标, 分析算法的影响力。如以自然语言处理(NLP)领域为例, 采用基于规则的方法抽取文献中的方法实体, 利用提及方法实体的文章数评价实体影响,发现NLP 领域论文中影响力最高的Top10 种算法,分类算法在高影响力算法中占比最大, 并指出算法影响力的演变反映了该领域研究任务和主题的变化。Li X 等[2] 从生物医学实体(疾病、药物和基因)及其演化的角度理解药物再利用, 基于某生物医学实体的所有出版物的百分比量化个体生物医学实体的学术重要性, 开发了人气指数(P1)、前景指数(P2)、威望指数(P3)指标, 此外, 还基于提及某实体的文章的不同作者数的占比提出了反映生物医学实体的研究强度协作指数(CI), 用于检测药物研究各个阶段生物医学实体的潜在模式, 并调查驱动药物再利用的因素。He J 等[112] 选择了14 种科学制图工具实体, 并通过应用这些工具实体的文章数来分析工具实体的影响力。Pan X L 等[113] 通过抽取图书馆与情报科学领域研究论文中的学术软件实体, 统计使用不同软件的论文数、软件的被提及数量以及软件被引用的数量, 以评估软件对LIS 研究的影响。
在提及频率的基础上, 学者们还提出一些其他指标, 从不同的方面分析知识实体的影响。章成志等[24] 以自然语言处理领域为例, 基于学术会议论文的全文本内容, 人工标注知识实体并进行频次统计, 利用Apriori 算法生成知识实体对, 基于频次筛选出高频知识实体对, 用非参数检验卡方值评价知识实体间关联的强弱。Li X L 等[114] 提出了评估方法实体的影响的两个指标: 一是论文数量: 对于每个实体, 统计提及相应实体的论文数量, 提及实体的论文越多, 代表该实体的影响力越大。另一个是年龄分布: 通过下载链接获取提及实体的论文的发表时间, 以分析方法实体的影响力随时间的变化。Pan X L 等[108] 从2014 年发表在PLoS ONE 上的论文中提取软件实体, 通过统计每个软件实体的提及次数和引用次数来衡量软件实体的科学影响力。邹洋杰等[48] 采用基于规则的方法从情报学与计算机科学文献中抽取方法实体, 通过统计两个领域中方法实体出现的频次评价方法实体的影响力, 探析两个学科领域研究方法的交流态势, 对比分析了两学科领域的高频研究方法、已交流的研究方法、存在交流潜力的研究方法。和嘉昕等[115] 爬取中国社会科学领域21 个学科的博士学位论文, 共计6 万余篇致谢文本, 抽取致谢实体, 发现不同类型致谢实体的提及频次存在差异; 在不同学科论文中, 致谢实体类型的多样性分布也呈现一定差异。
除了文献计量学指标外, 一些替代计量学指标也被用来评估实体的影响力, 可以是实体的投票频率、下载频率和访问频率, 这些指标对实体的影响力和重要性评价提供了不同的视角[10] 。如ICDM(The IEEE International Conference on Data Mining)的组织者在2006 年通过专家的投票的方法来评估算法的影响力[116] 。据王玉琢和章成志的研究报道,“Stack Overflow 根据IT 领域从业者的投票来评估IT 技术和数据库的影响力。TIOBE 综合考虑程序员投票数、课程数和供应商数来计算不同编程语言的流行度和影响力”[10] 。Zhao R Y 等[117] 的研究利用开源项目Depsy 统计Python 第三方包的下载量、引用量、复用量, 从3 个方面对Python 的一些第三方包的影响力进行分析和评价。Amrollahi A 等[118]和Zhao Y H 等[119] 的研究回顾了开放源码软件成功领域的相关工作, 通过汇总相关研究指出, 可以用软件下载量、开发者数量、项目等级、开发人员对项目中错误的修复能力作为软件成功的衡量标准。
卢超等[9] 指出, 对于知识实体的评价, 不应局限于对其频次、位置等语法层面的分析, 而应将语法特征与语义特征结合起来进行深入研究。知识实体的评价应不仅仅局限于数量指标, 而更应深入文本内容, 揭示知识实体的功能、情感及引用动机。一些研究[121-122] 关注科学文献对软件的提及情况, 并指出实体的引用标准也会对实体影响力产生一定的影响。如大量的软件在论文中被提及, 而提及的方式未能体现对软件的正确引用会削弱其影响力。有学者认为, 软件被非正式引用的原因是软件引用标准的多樣化, 作者没有遵循规范[109,123] 。Wang Y Z 等[10] 在研究中指出, 软件的标准引用对于准确评估其影响力十分重要, 原因在于如果在计算对实体的引用时只考虑标准引用, 那么实体的影响力就会被削弱。Nangia U 等[120] 的研究中分析了2016 年1 月1 日—3 月31 日发表在《Nature》上的所有论文, 以了解它们对软件的提及情况。Mat?thew S M 等[124] 讨论了学者们在研究文献中如何识别和引用数据集、软件包、计算模型等知识实体,并表明衡量学术文献的影响时应结合其中知识实体的应用情况。Li K 等[109] 提出了一种基于软件名称字典的软件识别算法。通过提取PLOS 发表的论文中提到R 软件包的句子, 他们分析了软件包的共同提及网络, 发现具有相似学科和功能的软件包更有可能同时被提及。Yang B 等[125] 分析了文章与软件之间的关系, 结果表明, 高质量期刊发表的文章倾向于使用更新的软件, 国际文章比中国文章更早使用新软件。Tan F 等[126] 提出了一个分析医学领域实体与实体之间关系的框架, 将生物医药实体与政府资金联系起来, 从科研经费的角度, 将实体计量学的思想应用于生物医学领域, 进行初步的研究趋势探索和知识发现, 分析政府资助对医学领域科研促进的作用, 帮助政府更加合理地管理科研经费。
3.2实体共现网络与实体扩散/ 引文网络
有学者对同一篇论文中不同实体的共现现象,构建实体间共现网络, 利用网络指标测度实体的重要性, 进而对知识实体的学术影响力进行评价。如Yu Q 等[127] 对COVID-19 文献构建了一个实体—实体共现网络, 并利用网络指标对提取的实体进行分析, 评估实体在网络中的重要度。为此, 作者应用了几个已建立的指标, 包括受欢迎程度、潜力指数和协作指数, 以及PageRank、接近中心性、中介中心性、特征值中心性和平均度, 发现ACE-2 和c 反应蛋白是两个非常重要的基因, 洛匹那韦和利托那韦是两种非常重要的化学物质。Liang X M 等[128] 使用Graph2vec 和Knowledge2vec 表示生物医学实体及其在异构网络中的关系, 并采用级联学习模型来寻找药物、基因、疾病和治疗之间的潜在相互作用。
微观实体是驱动知识扩散的主要内因, 通过实体间的引用关系可以从更细粒度上分析知识实体的扩散。前人多以篇章、作者或主题等作为知识扩散的主要载体, 较少关注来自文献全文本内容的微观实体之间的引用关系[93] 。安欣等[129] 借助BiLSTMCRF构建了微观实体抽取模型, 从分子生物学1 000篇全文本数据中抽取理论概念类、工具技术类、数据信息类和特定领域类知识实体, 通过实体间引用关系构建实体扩散网络揭示知识实体在宏观和微观层面的扩散模式。Wang S 等[50] 通过应用词干匹配方法, 从eHealth 论文的引文中提取了施引文献及其参考文献之间共享的相关知识短语(AssociatedKnowledge Phrases, AKP), 提出了一种考虑领域知识功能的分类模式, 以对已识别的AKP 进行分类, 分析了每种知识类型的来源学科, 应用定量指标和共现分析来揭示不同知识类型的整合模式, 提出了一种新的方法来探索跨学科领域知识整合的内容特征。Ding Y 等[6] 通过抽取二甲双胍相关文献中的基因、疾病和药物实体, 构建实体—实体引文网络。计算网络特征并将生物实体的中心性等级与比较毒物基因组学数据库(Comparative Toxicogenom?ics Database, CTD)的结果进行比较, 揭示了实体计量学方法在检测绝大多数实体间交互作用方面的实用性。Nam D 等[130] 采用基于字典的方法(PKDE4J)抽取引文句子中的药物、疾病、化合物、蛋白质和治疗方法5 类实体, 从直接引用和间接引用两个视角构建实体网络, 进而衡量知识实体的影响。徐庶睿等[131] 提出, 结合术语和引文内容探测学科交叉度的研究方法并进行实证分析。选取术语为知识载体,通过统计学科论文在引文内容中引用这些术语的词语量和频次, 从而确定学科间的知识交叉情况。
3.3基于知识实体的同行评议
自然语言处理技术的发展使知识元抽取成为可能。同行评议实际上是对学术论文中知识元的评价,可以将其概括为问题知识元、过程知识元和结论知识元, 对其创新性、规范性、科学性和价值性进行评价。综合上述分析, 索传军等[132] 提出一种基于论文知识元的同行评议研究思路。在学术同行的筛选中, 纳入非科学家同行(如资深从业人员), 同时不再用以往简单的主题匹配模式。首先, 通过对学术论文进行数据化, 抽取关键知识元, 依据知识元的内容确定评审同行; 其次, 在同行的研究内容匹配中, 深入分析专家特长, 如按照专家发表论文的贡献内容确定其研究专长等, 进而确定论文知识元的评审专家; 最后, 结合专家认知图示和参照论文集, 进行学术论文的分析、比较、判断, 得出评价结果。
3.4基于知识实体的论文新颖性评价
参照李晶等[133] 基于知识单元对论文新颖性的评价研究, 将其延伸至知识实体层面, 即新颖性可以细分为新颖知识实体、新颖知识实体组合两方面,其中, 新颖的知识实体是与已有知识实体相对应的概念。而通过新颖知识实体组合测度新颖性, 是包括问题与方法组合、参考文献与技术领域分类代码组合、参考文献与产出内容组合、知识实体组合。如Savov P 等[134] 根据论文的潜在主题分布预测了未来的突破。一篇论文涉及的未来研究主题越多(而以前的主题越少), 该论文就越有创新性。通过测量专利之间的文本相似性, Kelly B 等[135] 确定了与前人有距离、与后续发明接近的重要创新, 而最重要的专利被认为是具有突破性创新的。
Wang Z 等[136] 提出, 基于正态云的期望曲线重叠的相似性云算法来测量知识实体间的相似度, 以此评估实体及提及相应实体文章的创新性, 并表明在同一研究领域下, 知识实体间相似度越高, 创新程度越低。Jacob G F 等[137] 通过从摘要中提取的化学相关实体构建化学知识网络, 发现文献中提及的新的化学物质或化学关系评价其创新性, 并将引入新的化学物质和化学关系的研究称为创新研究, 对于深入研究已知的化学物质和化学关系的研究称为传统研究。Wang X 等[138] 将摘要中带有线索词(如“新见解”和“第一次”)的判断句作为突破的表达,设计了深度学习模型来识别科学突破, 揭示文章的创新性。
而基于新颖知识实体组合评价论文的新颖性是指以“组合的异质性” 为切入点, 关注参考文献维度[139-142] 或关键词[143] 的非典型性组合, 即不常见的组合。自此出现了一系列关注“组合” 的指标,衡量一篇论文对现有知识进行不寻常组合的能力程度, 包括关键词[143] 、参考文献所发表的期刊[140]等。也有研究[144] 通过测度新出现的实体组合或实体对的比例, 以此评估论文的新颖性。如Liu M等[145] 抽取2020 年12 月及之前发表的CORD-19 相关论文标题和摘要中的基因、疾病等生物医疗领域知识实体并配对, 使用BioBERT 模型衡量论文中实体对间的余弦距离, 并定义频率分布排在前10%的实体对为新颖的实体组合, 通过计算论文中新颖的实体组合数与所有可能的实体组合数之比作为论文的新颖性分数。Wang S Y 等[146] 以摘要数据为基础,自动提取论文实体及实体组合, 以未出现在其参考文献中的新知识单元和知识单元组合比例代表论文的创新性, 该值越高说明论文的创新性越强。
通过论文的引用模式来衡量论文对现有知识的颠覆或替代程度是评价论文颠覆性的传统方法。举例来说, 如果一篇论文经常和它的参考文献一起被引用, 那么它就可以被视为巩固了现有的知识, 而如果对它的引用不承认它的知识先辈, 那么这篇论文就可以被视为颠覆性创新[147-148] 。与那些基于参考文献的引用关系对论文的颠覆性测度方法不同,Wang S 等[149] 以更细粒度的知识实体为研究单位,通过实体间的引用情况评价论文的颠覆性, 提出基于知识实体的颠覆性指数。
3.5基于知识实体的论文临床转化进展评价
Li X 等[150] 首先利用超过3 000万篇PubMed 文章训练了生物医学实体和文档的语义表示模型(Bioentity2vec和Bio-doc2vec)。在此基础上, 提出了一种新的度量方法——转化进展(Translational Pro?gression, TP), 用于追踪生物医学文章在转化连续性上的进展。其提出的测量方法可以帮助决策者实时监测具有高转化潜力的生物医学研究, 并做出更好的决策。此外, 该方法还可以应用于其他领域,如物理学或计算机科学, 以评估科学发现的应用价值, 并进行改进。
综上, 准确且全面地抽取出论文中的知识实体是开展实体计量评价的前提, 而且对知识实体的语义分析也是必不可少的环节。只有明晰了作者对实体的应用意图, 才能在定量分析实体的提及、引用的频率等指标时得出正确的结论, 也有利于深度剖析知识实体之间的关联。同时, 当基于实体间引用关系构建实体—实体引文网络开展研究时, 有学者[151] 提出了两点建议: 第一, 用于构建引文网络的实体应该从全文中获取, 而非标题和摘要; 第二,构建引用网络时论文—实体引用网络会比实体—实体引用网络更能准确地体现引用关系。
4存在问题与未来展望
4.1存在问题
在知识实体的抽取方法方面: 首先, 当前的研究主要集中在文本数据的实体抽取上, 而对于如图像、音频、视频等多模态数据中的实体抽取研究相对较少。联合抽取科学文献中的文本与多模态数据中的实体可以更加全面地反映文献中的知识并且实现对文献内容的充分利用。然而, 由于缺乏高质量的标注数据集、高质量的模型构建, 使得基于多模态数据的知识实体抽取极具挑战; 其次, 当前的研究主要集中在单一语言的实体抽取上, 对于跨语言实体抽取的研究相对较少。跨语言实体抽取[152] 的目標是提升低资源自然语言的实体识别效果。不能理解为“单语言实体抽取” 与“机器翻译” 两者的简单组合。从研究现状来看, 跨语言实体抽取面临着语言差异、语义差异等挑战, 需要开发跨语言的模型和方法来解决这些问题; 第三, 实体抽取算法通常需要大量的标注数据进行训练和评估, 但目前缺乏大规模、高质量的领域特定标注数据集。
在知识实体的评价方面: 首先, 对于抽取得到的实体, 研究者虽然尝试使用一些文献计量指标和替代计量指标, 如提及频率、中介中心性、下载量等, 来评价知识实体的学术影响力、受欢迎程度和重要性。但目前来看, 现有知识实体的评价指标较为简单、粗糙, 在多样性、系统性与标准化方面还有很大提升空间, 而且评价指标的可靠性、有效性往往未经充分验证。由于对知识实体评价的相关研究刚刚起步不久, 还未建立标准化的评价指标体系,研究者在构建指标时往往根据自身研究需求和实际情况出发, 导致评价结果的可比性和一致性较差;其次, 随着学术全文本数据集的日益增长与文本挖掘分析方法的快速发展, 从语词层面、语句层面和语篇层面展开的, 基于知识实体的全文计量正在悄然兴起, 已有学者基于知识实体构建了新颖性、颠覆性、临床转化进展等指标评估论文的影响力, 但如何科学利用这些指标真正地评价研究论文的影响力还面临着一定的困难[153] ; 第三, 在知识实体的评价指标之间、基于知识实体的论文评价指标之间的相关关系仍缺乏研究, 以便进一步对评价指标分类检验; 最后, 无论是知识实体的评价, 还是基于知识实体的科学文献评价, 均受一些特征或因素的影响, 但这个视角的实证还十分缺乏。
4.2未来展望
鉴于上述分析的现有研究存在问题, 今后随着科学文献中知识实体抽取与评价的进一步发展, 未来研究可从以下几方面深化调整。
在知识实体的抽取方面, 努力开发简单、准确、灵活、有泛化能力且低成本的知识实体抽取方法,降低对大量标注数据的依赖, 可着手进行以下的策略调整: ①多模态实体抽取。研究如何将多模态数据进行融合和联合建模, 以实现更全面和准确的实体抽取。可以探索多模态特征的提取和融合方法,设计适应多模态数据的实体抽取模型, 并构建多模态实体抽取的标注数据集; ②跨语言实体抽取。研究跨语言实体抽取的方法和模型, 解决语言差异和语义差异带来的挑战。可以探索跨语言的特征表示方法、迁移学习和多语言知识图谱等技术, 提高跨语言实体抽取的性能和效果; ③领域高质量标注数据集构建。加大对领域特定标注数据集的构建力度,提高标注数据的质量和覆盖范围。可以利用半监督学习、主动学习等方法, 降低标注数据的成本, 并结合领域专家的知识和经验进行标注数据的验证和修正。
在知識实体的评价方面, 可重点从以下视角深入探索: ①重视知识实体评价指标的多样化。不仅要酌情将传统文献计量学、信息计量学、科学计量学、替代计量学的评价指标移植到知识实体上, 而且更应根据知识实体的特征开发特异性的评价指标;②增加对知识实体评价指标的可靠性、有效性方面的性能检验的实证研究, 进一步还可考虑对指标的可获取度、扩展性、标准化等方面进行系统评价;③进一步研究知识实体评价指标之间、基于知识实体的论文评价指标之间的相关关系, 及其可能受知识实体特征、科学文献特征, 甚至引用动机、时间、空间、领域、政策环境等的影响; ④对于某些主观性较强、不易量化的评价目的, 也需要借助专家评估或同行评议等质性评价方法, 以保证评价结果的全面性和准确性。在解决具体领域问题的知识实体评价应用方面可通过因果推断方法发现“因果关系”, 提升评价指标对研究结果的解释力; ⑤在保证评价指标在细粒度、准确性、有效性、可靠性上相对传统评价指标的绝对优势前提下, 构建基于知识实体的论文影响力评价指标体系, 从本质上提升科技评价质量, 为科技评价改革注入新的活力与生机。
5结论
在大数据和人工智能时代, 随着自然语言处理技术的飞速发展, 科学文献中知识实体的识别与抽取方法也取得了巨大飞跃。未来相关工作将面向多模态、跨语言的知识实体抽取、领域高质量标注数据集的构建。与此相辅相成的是, 以自然语言处理技术为代表的AI 人工智能, 将进一步赋能“五计学”, 使文献计量学、信息计量学、科学计量学、替代计量学与知识计量学焕发新的生机, 可以预见的是, 智能计量将引领未来科技评价的新赛道、新应用和新方向。