效用视角下核心引文识别方法初探*
2023-12-05李凌张若楠崔佳楠李鑫鑫
□李凌 张若楠 崔佳楠 李鑫鑫
引文分析是一种通过对学术文献之间的引用关系进行分析,进而对研究成果的价值做出判断的科学评价方法,其基本原理是通过分析文献被引用的次数和引用关系,揭示学术文献之间的联系和影响力[1]。学术界也将引文分析结果作为文献或学者学术影响力、资源绩效评估的重要参考依据之一。传统引文分析主要基于引用频次来量化分析文献间的引用关系,或将引用频次作为评判资源质量、保障率、甚至学术影响力的重要标准,虽简单直观,却无法揭示文献间深层次引用关系,忽略了引文在研究中发挥的实际效用[2]。
从内容效用的角度,引文对施引文献研究论点、研究结果的创新性、科学性、可靠性的论证和支持作用,及对论据充分性、论证合理性具有直接贡献,可充分体现出引文的必要性及其引用价值[3]。因此,在论文中所引用的起到关键性学术论证作用、对施引文献研究的内容、方法、观点发挥了重要支撑或参考作用的引文,可视为“核心效用引文”。通过引文效用分析可尽量降低“低效”甚至“无效”的引文干扰,从而为深入开展更加科学、客观的测度和评价工作奠定基础,对科学计量学和科学学的发展大有裨益[4]。文章以学科期刊论文的参考文献作为研究对象,从引文效用的视角,选择引文属性、引文功能、引用对象、引用情感等特征,建立引文标注框架;并依此进行人工标注及大规模预训练语言模型的对话系统(Chat Generative Pretrained Transformer, ChatGPT)自动分类标注;测试逻辑回归分析、支持向量机等方法对引文效用分类的效果,择优构建“效用视角下核心引文识别模型”,并探讨该方法应用拓展的可行性。
1 相关研究
传统引文分析法主要基于引用频次来量化分析文献间的引用关系,但为深入揭示文献间深层次引用关系,学者们将引文分析逐步拓展至内容层面,通过对引用位置、引用频次、引用深度、引用对象等方面的分析,揭示引文之间语义关联或引用行为特征,也证实了引用效用的差异性[5]。同时,结合不同角度对引文分类的体系、方法及相关应用的研究也在不断推进。
1.1 引文分类体系研究
为深入揭示文献间的引用关系或引用行为,国内外很多研究分别从“引用动机”“引用目的”“引文功能”等角度对其进行分类并构建相应的引文分类体系[5]。早期,尤金·加菲尔德(Eugene Garfield)[6]提出基于15种引用动机构建引文索引,包括支撑、批判、评价等,为后续引文分类研究奠定了基础。随后几十年发展过程中,引文分类体系内容逐步扩充及深入。芬尼(Finney)[7]与博尼茨(Bonzis)[8]分别将引文位置、引用强度等特征引入了引文分类体系。奥彭海姆(Oppenheim)[9]将引文功能细分为“历史背景”“相关工作的描述”“提供信息或数据”“比较”等7种类别。二十一世纪后,引文分类体系在指标的深度与广度方面进一步延伸,也不断推动着引文内容标注框架的发展。西蒙·泰弗(Simone Teufel)[10]提出“议论文式的分区”引文分类法,将引文区域进一步细分为结论、证据、方法、背景、目标、未来工作等,并将该分类法应用于自动化文本信息提取。国内也有学者提出“要结合引文分布、引文次数及被引内容”综合判断引文效用[11],并从语法和语义方面对引文属性、被引属性及两者间属性展开深入分析,构建相对全面的引文内容分析框架[12],还出现了包含引文分类标注体系、引用对象标注体系及引文属性标注体系的面向引用关系的引文内容标注框架[13-14],较为全面地揭示出文献引用关系及引文客观特征。
1.2 引文标注及分类方法研究
引文标注是进行合理分类的前提,早期研究均采用人工标注,虽准确率高,但难以兼顾样本量和标注效率。随着计算语言学、自然语言处理的成熟,从大规模科学文本中自动化抽取引文内容进行语义分析成为可能。随之涌现出基于规则、基于机器学习、基于深度学习、基于语义相似度的引文自动分类方法。
基于规则的引文自动分类方法通常使用手工设计的规则集进行引文分类[15]。其优势在于专人设计和维护规则集,能提供高度的可解释性和可控性,且不需要大量的标注数据。但规则集设计受限于编辑者的知识水平,在多种复杂的关系和模式时,规则集的设计不仅难度大幅增加,可能会出现疏漏和错误,需采用有效的设计和维护策略,以确保规则集的可靠性和适应性。因此,在现实应用中,基于规则的引文自动分类方法通常需与其他自动分类方法结合使用,以提高分类准确率和可靠性[16]。
机器学习是引文自动分类领域中最常用的技术之一。通过使用分类器模型和特征工程等技术,研究人员可以自动将引文分为不同的类别。其中,支持向量机(Support Vector Machine,SVM)、决策树(Decision Tree,DT)、朴素贝叶斯(Naive Bayes,NB)和随机森林(Random Forest,RF)等算法得到了广泛应用[17-18]。一些研究还探索了使用多个分类器模型进行集成的方法,以进一步提高分类的准确率[19]。
深度学习是引文自动分类领域中的新兴技术,可自动地从数据中提取特征。其中卷积神经网络(Convolutional Neural Network,CNN)[20]、循环神经网络(Recurrent Neural Network,RNN)[21]等深度学习模型得到了广泛应用。近年来,使用预训练模型的方法也成为了引文自动分类的热门研究方向。但基于机器学习和深度学习的分类效果依赖于前期语料库质量及规模,训练数据质量差或语料库规模小,均会导致训练模型效果不稳定,分类优势无法发挥[5]。
1.3 引文分类应用研究
引文分类应用主要体现在引用规律及行为揭示、引文识别、学术影响力评价等方面。如采用情感词匹配法识别论文引文的引用情感,并发现其引用行为特点及变化[22],或采用基于词袋特征的SVM分类器对引文进行情感分类[23]。还有通过人工标注中文图书在施引文献中引文位置、情感并计算其长度和强度,发现不同学科领域对中文图书的引用行为差异[24]。在学术影响力评价应用中,相关研究通过对引用主题、功能和情感进行手工识别与分类,定性分析其学术影响力[25],或基于引用情感等特征进行引文分类后加权计算单篇论文的学术影响力[23],还有研究加入引用强度、引用位置、引用情感等因素,利用层次分析法确定引用强度、引用位置的权重,结合引用强度计算作者学术影响力AAI指标[26]。
综上所述,学术界不断探索引文分类体系与方法,发现引文行为特征、引文规律,并以此为基础开展引文评价、学术成果影响力、学者影响力评估。但依然存在以下问题:分类体系缺乏统一标准、通用性不高,实践中仍以引用频次为主要依据,基于引文效用分析的应用场景较少。再者,现有应用类研究中多采用先人工标引后引文分类的方法,虽已有利用深度学习进行自动分类的尝试,但由于深度学习模型更依赖于语料的规模和质量,鉴于目前训练数据偏少,其模型的优势无法发挥,效果还有待于进一步验证。
2 问题提出与方法设计
2.1 拟解决的关键问题
问题一:引文效用分类特征选择与自动提取。已有研究中提出的多样化引文特征包括:引文的年份、内容、上下文语句、频次/强度、目的、动机、功能、位置、情感等。对引文以上特征展开全面细致的标注无疑会增加标注难度,对标注者学科专业知识与信息专业技能要求较高,引文标注的准确性与特征提取的高效性很难兼顾。
问题二:效用视角下核心引文识别模型构建。在选取引文分类关键特征的前提下,构建高质量分类模型是实现引文效用精准识别的关键。现有研究中虽已有基于引文功能和情感、利用传统机器学习方法或深度学习方法进行引文自动分类,但其目的在于发现引文功能和情感的相关性,深入揭示科学发展规律、发现知识传播路径[5],缺少对引文效用的关注及其价值的利用。
2.2 方法设计
研究以引文效用分类与核心文献提取为目标,利用相关性矩阵和散点图矩阵选择关键特征构建分类模型。再尝试利用大规模预训练语言模型、模式匹配等技术实现关键特征的自动提取。在此基础上,利用逻辑回归分析、支持向量机的方式,分别测试其对引文效用的分类效果,择优构建“效用视角下核心引文识别模型”,进而提升“核心引文”的识别效率,探索排除“低效”甚至“无效”的引文干扰的方法,为进一步的测度和评价工作奠定科学基础。研究主要分为数据获取、引文内容标注框架设计及标注、关键特征选取、分类模型建立、效果对比与分析等步骤。
在方法准确性方面,研究方法聚焦于模型对引文效用的判断与自动分类,模型的准确性由训练数据质量及模型质量决定。一方面训练数据采用人工标引方式,馆员判断引文特征,专业师生判断引文效用,充分发挥人员专业特长,最大限度确保训练数据的详细与准确,进而保证模型效用判断的准确。另一方面,模型质量通过科恩卡帕系数及正确率评价,可判断模型是否具备良好的引文效用预测功能。
在数据保障方面,利用西安交通大学机构知识库,选取医学部2022—2023年部分高质量(ESI收录、Q1等)论文的引文作为研究对象。考虑到综述性文章的引文效用相似性较高,故去掉“综述(Review)”类型文章,选择“文章(Article)”的引文,经筛选,最终选择1778篇引文作为此次研究数据,并将原始数据分为训练集、测试集和预测集三部分。其中随机选取1424篇用作模型构建,其中75%的数据(1068篇)用于识别核心引文关键特征的发现以及模型训练,25%的数据(356篇)用于模型效果测试。最后,选择354篇引文用于核心引文的识别预测。
3 引文效用分类原则
3.1 引文效用分类标准
“核心”引文在不同应用背景下具有不同内涵。一指被SCI、EI等权威索引收录可称之为核心;另有从文献利用的角度指被使用次数较多的高需求文献。而文章中“核心引文”指在论文中所引用的起到关键性学术论证作用,对施引文献研究的内容、方法、观点发挥了重要支撑或参考作用的引文。其重要程度需依据专业知识与信息素养综合判断,并通过五级分类法表示,即“非常重要”“重要”“一般”“不重要”“非常不重要”(具体描述见表1)。
表1 引文效用分类标准
在模型构建阶段,需将引文效用作为目标值,进行二分类处理,故需对定义进行调整,其中非常重要、重要、不重要、非常不重要的分类倾向较为明确。“一般”通常为引文效用表现不突出,且容易出现效用的争议,故归为“非核心引文”。
3.2 引文内容标注框架设计及标注
本研究从引文效用角度出发,设计了包括引文特征属性、引文功能属性、引用对象属性、引用情感属性在内的引文内容标注体系(如表2所示)。引文特征属性包括:引文年份、引文所在期刊、引文出现章节名称、引文出现频次、引文所在语句。引文功能划分为“基于、使用、支撑、比较、相关研究、未来启发、背景介绍”。引用对象是指施引文献引用引文的对象,由于医学类论文引用对象相较社科类引用对象更为简单且形式固定,故本研究将引用对象归纳为“概念理论、方法、数据、其他”。引用情感分为积极、消极、中立三种情感。由于医学论文多在于客观论证或描述,因此,对施引文献起正面支撑作用的引文均属于积极,与研究结果相悖、指出现有成果不足、研究局限等引文表示消极,其余则均标注为中立。
表2 引文内容标注框架
由于引文特征的判断既需要文献所涉及的学科专业知识,也需要信息专业技能,因此,选择馆员与专业师生两组人员对引文的不同类特征分别标注,有助于提升标注结果的准确性。由不同专业背景的学科馆员依据引文标注框架,分别对原始数据所有引文特征属性、功能属性、引用对象、引用情感等属性进行标引。医学专业教师及研究生若干,依据引文效用分类标准(表1)对训练集与测试集引文仅进行引文效用判断及标注。
4 自动分类模型设计与效果对比
引文特征众多,但并非所有特征都会对核心引文的判断产生影响。笔者发现,在众多引文特征中,与“引文效用”相关性较强的部分特征作为模型建立的基础尤为关键。在此基础上,进一步利用机器学习的方法构建核心引文识别模型,既可以一定程度简化引文特征标注体系,也可以提升核心引文识别效率。研究通过KNIME软件进行逻辑回归及支持向量机(SVM)模型的设计及训练,包括:数据读取及观察、特征筛选、模型训练、模型验证及评价4个模块(如图1所示)。
图1 逻辑回归与支持向量机模型训练流程图
4.1 特征筛选
引文标注体系包括引文题目、引文期刊、引文年份、引文所在章节名称、引文出现频次、引用情感、引文功能、引用对象类型、引文是否重要等9种引文特征指标,其中引文是否重要为目标指标,通过相关性矩阵(如图2所示)和散点图矩阵(如图3所示),观察各指标和目标间的相关性。在相关性矩阵中,引文效用通过“是否重要”表示,依据表1中的五级分类法分为非常重要、重要、一般、不重要、非常不重要。在二分类处理后,其中非常重要、重要归为“核心引文”,一般、不重要、非常不重要归为“非核心引文”。
图2 指标相关性矩阵图
图3 各指标散点图
从相关性矩阵发现(如图2与图4所示)引文出现频次和引文效用几乎没有相关性,引文所在章节名称、引用情感、引文功能、引用对象类型等特征与引文效用相关性较强,其中引文功能相关性最高,故以此特征值为起点,依次加入其他特征值进行测试,最终选定的特征为:引文所在章节名称,引用情感,引文功能,引用对象类型。
图4 指标相关性矩阵参数图
4.2 逻辑回归模型训练及验证评价
逻辑回归(Logistic Regression,LR)算法是一种广义的线性回归分析模型,用于解决二分类问题的机器学习方法,可预测某种事物的可能性[27]。在本研究中即通过LR算法训练出的模型对某引文是否为核心引文进行预测,并选用混淆矩阵(Scorer节点),预测准确率(Accuracy)、科恩卡帕系数(Cohen’s Kappa)值以及受试者工作特征曲线 (Receiver Operating Characteristic Curve,ROC)[28]进行评价。其中,科恩卡帕系数是可用于衡量分类效果的指标,即模型预测结果和实际分类结果是否一致,值越高表示该模型的分类结果与实际分类结果一致性越高。预测准确率代表模型分类正确的样本数除以所有样本数,准确率越高分类器越好。训练过程中选用梯度下降算法 (Stochastic Average Gradient),设置学习率为0.001,最终训练的模型应用到测试数据集上的结果如图5及图6所示。
图5 逻辑回归预测结果
图6 逻辑回归ROC曲线
训练结果发现,逻辑回归训练模型对核心引文预测结果与人工判断结果相似度已达到较高水平,在356条数据中,误将核心判定为非核心14篇,误将非核心判定为核心18篇,预测准确率为91.011%, 科恩卡帕系数值达到0.82,提示该预测模型与人工判断的结果具有较高一致性。从受试者ROC曲线来看,曲线下方部分的面积(Area Under Curve,AUC)很大,说明此模型预测准确率较高。
4.3 支持向量机模型训练及对比
支持向量机(SVM)是按监督学习方式对数据进行二元分类的广义线性分类器,通常用来进行模式识别、分类以及回归分析[29],在本研究中同样通过该算法训练出的模型对某引文是否为核心引文进行预测。SVM算法与LR算法原理不同,故将两种算法训练出的模型进行对比后,择优选择。SVM算法进行训练的流程和LR基本一致,但由于该算法需要所有的特征是数值,所以针对类型特征,要通过独热编码(One-hot Encoder)进行数据转化处理。在使用相同训练数据集以及测试数据集的情况下,LR算法和SVM算法的模型评价结果对比如图7所示。
逻辑回归(LR) 支持向量机(SVM)图7 LR与SVM预测结果对比图
从SVM算法训练结果可见,该算法对核心引文预测结果较LR更高,在356条数据中,该算法误将核心判定为非核心21篇,误将非核心判定为核心6篇,预测准确率为92.416%, 科恩卡帕系数值为0.848。
对比可见,两个模型对“核心引文”预测准确率都很高,其中SVM算法在准确率以及科恩卡帕系数值上表现略好。故本研究选择使用SVM算法建立的模型对预测集进行预测,并根据预测的结果进行后续研究分析。
4.4 ChatGPT自动提取引文特征及模型分类效果对比
此次建模所需的4项关键指标中,除引文所属章节名称可通过读取全文后进行模式匹配获取,引用情感、引文功能、引用对象类型均属自然语言处理(Natural Language Processing,NLP)范畴,其中引用情感主要是情感分析,引文功能可理解为对引用意图识别分类,引用对象类型则属于文本分类问题。这些均可通过深度神经网络进行学习并自动识别[5]。2022年底,随着ChatGPT的“出圈”,ChatGPT在自然语言处理任务中文本分类、语义角色标注、机器阅读理解等方面的优势[30]与引文内容特征分析、提取、标注与分类的需求较为契合。因此,本研究进一步测试了利用ChatGPT技术完成指标自动获取及标注的效果。
4.4.1 特征指标自动提取及问题设计
研究始于2023年2月,使用ChatGPT 3.5版本。测试ChatGPT能否直接根据引文内容对其效用进行分类,发现效果并不理想。后对整个提取流程进行分解,先将施引文献作为背景信息,再设计特征分类提示词(Prompt),然后利用ChatGPT识别引文特征,最后写入表格文件Excel,完成特征自动提取。
首先,将施引文献作为背景信息通过共享pdf链接的方式输入ChatGPT,以确保ChatGPT完全基于施引文献背景输出特征分类。
再进行Prompt设置。Prompt可理解为分类标准的“提示语”,指输入的文本段落或短语,作为生成模型输出的起点或引导,可以是一个问题、一段描述或任何形式的文本输入[31]。Prompt需针对“引用情感、引文功能、引用对象类型”属性及分类特征分别设置。分类依据引文内容标注框架,但为方便机器识别,将框架中引文功能简化为研究基础(基于、使用、支撑)、相关研究(比较、相关研究)、背景资料(背景介绍、未来启发)3类,经多次交互提问及分类输出效果测试后,确定关于“引用情感,引文功能,引用对象类型”特征的Prompt(如图8所示)。
人工标引数据SVM评价结果 自动获取数据SVM模型评价结果图8 自动获取数据与人工标引数据SVM算法预测结果对比图
在数据输入阶段,输入引文功能及引用对象的特征分类提示词及引文列表即可识别相关特征,情感特征提取需输入情感特征分类提示词及引文所在语句。最后,对输出结果进行格式化处理,分别输入到Excel文档,完成特征自动提取。
4.4.2 模型分类效果对比
为检测自动特征提取的分类效果,使用SVM算法及相同的训练集和测试集,分别对自动化处理后的数据和人工标记数据进行模型训练,对比发现,虽然ChatGPT对于引文特征的自动分类无法达到人工标引的高准确率,但在保证较好的预测效果的同时,可有效提升特征提取效率。
5 研究结果与讨论
5.1 特定应用场景下,引文效用分析比频次分析更加合理
研究核心在于排除仅依据频次无法排除的“无效”引文。故针对研究全数据集,将基于效用与基于频次的引文分析结果进行对比发现,集合1和2共有212种期刊重复(如图9所示),说明区域2的212种期刊不仅引用频次靠前,也属于核心效用引文期刊。其中,集合1(实线部分)为利用本模型识别出核心效用引文分布的315 种期刊;集合2 ( 虚线部分) 为1778篇引文分布的570 种期刊按引用频次降序排列的前315 个期刊。区域1的103种期刊虽然频次较高,但从内容效用的角度并非核心效用引文,不排除存在无效甚至恶意引用的干扰。区域3的103种期刊上的引文虽引用频次不高,但却对施引文献发挥了相对较高的学术效用。由此可见,基于效用与基于频次的引文分析结果存在一定差异,单纯基于频次的引文分析无法排除无效引文干扰,也存在丢失部分有效引文的风险。基于效用的引文分析可排除部分非核心效用引文,更客观地反映出“有效”引用,而依此开展的各项应用也将更加科学。
图9 高引用频次期刊与核心引文期刊对比结果
在特定场景下,如资源保障评估、学术影响力评价等,有效引文才是评价结果科学客观的基础。行业中“他引”标准的提出与严控也正是引文效用价值的体现。由此,单纯的频次分析做出的判断必然有失偏颇。同样,在学术热点追踪、合作网络发现过程中,过多的无效、虚假引用也将成为干扰导致“迷航”。因此在这类应用场景下,引文效用所体现出的学术论证作用尤为重要,以此为基础的数据分析也更加科学。
5.2 “ChatGPT+SVM”为高效引文特征识别与自动分类提供新思路
研究中通过LR方法与SVM训练结果对比发现,两个模型对核心引文预测的准确率都很高,其中SVM预测效果相对更好。对比人工与自动分类标引,自动分类虽需经过输入背景文献、提示语、相关文本,导出并格式化输出结果等步骤,但完成效率较人工逐条判断仍有大幅提升。其预测结果准确率虽略低于人工,但准确率及科恩卡帕系数值也仍处于较为理想的范围,可见“ChatGPT+SVM”模式可在保证较好预测效果的同时,显著提升特征识别与分类效率,这为批量引文特征自动提取与分类提供了新思路。
5.3 ChatGPT的发展将为大规模引文自动分类模型提供可能
本研究针对医学学科论文使用ChatGPT3.5版本进行引文特征的自动提取及分类,虽然数据量及学科范围有一定局限,但其提取及分类效果已初现端倪。研究中采用少样本学习(Few-shot Learning)模式,需反复给出提示词进行预训练。而问答字数的限制,也使问答过程中出现“记忆缺失”的现象,影响分类效率。
2023年3月,随着GPT-4的发布,ChatGPT对话生成能力、语言理解能力、模型可定制性等有所提升。于本研究而言,一方面,要客观看待ChatGPT对于引文自动分类的作用。引文效用分类首要依据便是施引文献内容,其次仍需相关专业及信息知识。ChatGPT在语料库增加、对话能力增强等方面的进步,提升了其对文献的理解能力,但对文献内容并无影响。换言之,在施引文献内容、引文相关属性、分类原则确定的前提下,引文效用具备一定的客观性,不会发生较大偏差。另一方面,ChatGPT所具备的微调(Fine-tuning)功能为构建大规模引文自动分类模型提供了可能。微调功能相当于利用在大数据集上预训练好的模型,通过自有的数据进行模型微调,即在底层数据上进行模型的“特殊训练”。因此,可根据引文效用分类的具体应用场景,准备一定量训练数据,设定引文分类标准,实现引文分类定制化模型微调模型(Fine-tuned Model),既降低了构建超大规模模型训练语料库的操作难度,又可得到比直接用自己数据训练更好的效果。
6 结语
本文从引文效用的角度构建核心引文识别模型并探索了利用ChatGPT实现过程自动化的可行性。为基于引文内容分析、引文自动分类及应用提供了一种新思路。但本研究尚在探索阶段,一方面数据选取存在学科与数据量的局限性,可能导致学科资源呈现不全面。另一方面,利用ChatGPT 3.5版本尚未充分挖掘并呈现出其对于引文特征识别与分类的显著优势,对引文特征识别与提取的自动化程度也有待深入探索。在后续研究中,将扩大取样范围及数量,也会进一步探索基于各种大型语言模型提高引文自动化分类的效率与质量的方法与路径。