一种面向内容差异的学术论文评价方法*
2022-09-24陈玥彤李跃艳邓三鸿
陈玥彤 王 昊 李跃艳 张 卫 邓三鸿
(南京大学信息管理学院,南京,210023; 南京大学 江苏省数据工程与知识服务重点实验室,南京,210023)
1 引言
学术论文是科研工作者进行科学交流和获取新知的主要介质,同样也是科学研究的主要产出与表现形式之一[1],其能够及时反映学术研究动态、传播思想新知[2]、推广前沿技术[3]。然而,一方面,在“五唯”评价观和人才观的影响下,部分学者将论文指标与文凭职称、学术水平挂钩,导致重“量”轻“质”的趋势[4],学术论文质量良莠不齐;另一方面,期刊的数量和种类快速增长,在推动学术论文数量飞速增长的同时,有可能片面追求“热点话题”,难以避免地呈现出学术论文内容“同质化”和“固化”的发展趋向[5],对于学科发展甚至学术创新起到阻碍作用,因此,合理且全面地评价论文的内容质量显得尤为重要。
当前我国许多学者从不同视角对论文评价进行研究,主要聚焦于论文的学术价值、学术质量[6-7]、学术影响力[8]、学术创新力[9]等方面,但很少涉及学术对象内容的差异性特征。内容差异是论文的内在特征之一,意味着一篇论文研究内容的独特程度。在学术对象群体中,学术对象个体的差异程度则能够在一定程度上反映出该对象研究内容的学术水平,这对于探测论文的质量、创新性、影响力有重要作用。如果一篇论文在研究内容上无法与其他论文区分开,那这篇论文很可能是对已有研究成果的重复,其研究价值、创新性值得商榷,因此对论文的差异性分析是必要的。传统的论文评价方法未能从差异性的视角给出特定的衡量指标或方法,而基于论文内容的现有研究也难以定量测度论文内容的差异性和差异程度,为了消除学术论文差异性研究在不同程度的主观性和局部性,本文从区分性和差异性视角进行论文评价方法研究。
在课题组原有基础上,笔者提出一种新的论文评价指标,利用学术对象区分能力(Article Discriminative Capacity, ADC)进行论文的内容差异性分析,其中ADC定义为:在给定的论文对象群体中,论文对象个体与群体在研究内容层面的总体差异程度。论文对象的区分能力越强,说明该对象在其所处群体中的综合差异越大,其研究内容越独特;反之,区分能力越弱,说明该对象与群体中其他对象的综合差异越小,其研究内容的相似性或同质性越显著。为了避免学科背景冗杂对论文差异性结果产生影响,本研究从同一个领域入手,通过对CSSCI期刊中图书馆、情报与文献学2014—2018年收录的期刊论文测算ADC值,探测论文群体在数值上的分布特征和规律,并从期刊、学者的角度来探讨论文ADC总体水平差异,结合ADC数值水平进行学术论文研究主题的差异分析,从而对比和探讨不同区分能力的论文个体和群体的差异性特征。
2 文献综述
在科学研究领域中,对论文的评价方法较多,传统的定性评价方法以同行评议[10]为代表,但是具有主观性强、低效性、咨询费用高昂等缺陷[11-12]。当前的论文评价主要针对论文的外部特征从期刊、引文、作者等角度展开,如利用影响因子[13]、共被引[14]、h指数[15]、相对引用率[16]等指标衡量论文的内容质量[17]、影响力以及学术价值[18],也有从不同角度遴选单一指标后进行层次归类的评价指标体系[19],这些指标大多数建立在论文的引用关系基础[20]之上,不可避免地存在时滞性、片面性、马太效应[21]等问题。随着Web2.0时代的到来,社交平台的出现与社交网络的传播使得开放获取逐渐成为学术交流的重要模式[22],以补充计量学为代表的网络影响力测度方式补充和完善了原有的传统信息计量学[23],但始终无法从学术内容层面解决问题。
近年来,关于学术论文内容的研究较多,一方面包括基于全文内容的引文内容分析,如利用引文提及次数[24]、加权引用频率[25]计算学者的影响力或排名;另一方面也有基于文本内容的分析与挖掘,识别学术论文中的创新点,并构建学术论文创新力测度指标来评价学术论文[1]。后者通常运用自然语言处理技术获取论文的关键词、主题词(摘要、标题或全文抽取获得),凝练成数值特征或文字特征以表示论文的研究主题,通过统计主题词的词频或者词频变化率来探测和识别科学前沿主题,通过共词分析法计算词间的相似性来判断主题内容的新颖程度[27],或通过主题建模发现文本中的抽象主题以挖掘文本的潜在关系,判断相似性和分类结果[28]。但词频法可能无法反映词间关联、语义关系较弱;共词分析法难以处理同义词和多义词、主题词确定较为复杂;主题模型分析不适合处理短文本、主题词的解释具有主观性、缺乏语义信息挖掘。
当前关于论文评价的指标与方法有本身的适用特性和优缺点,基本围绕定性方法和定量方法展开,涉及论文创新性[29]、新颖性[30]、影响力[31]、老化度[32]等指标,但是大多集中在以文献计量数据为代表的外部特征中,极少涉及到学术论文自身的差异性;针对论文内容层面的研究主要聚焦在文本挖掘与聚类分析上,对文本内容的解释缺乏客观性和语义关联,难以对论文个体存在的差异性进行个体量化分析。总体而言,传统论文评价指标对内容差异性的研究较少,而论文对象本身差异性的内在特质是其区别于其他论文的重要特征。此外,现有的评价指标、方法也不适用于差异性测度和评价,因此,本课题组提出一种新的ADC指标来对其内容层面的差异性进行测度和分析[33]。本文借助术语区分模型的算法思想,将能够表征语义信息的BERT模型与ADC区分性指标结合,从文献语义内容本身的角度衡量学术论文的区分性,能够帮助规避由于不同作者的语法习惯而导致的浅层差异,弥补之前学术论文评价在“特性”研究上无法精确度量的问题,实现对学术论文对象个体与总体差异性的深入分析和探讨,为探究学术论文研究内容的差异性特征提供一种新的思路。
3 数据与方法
3.1 研究框架
为了探究不同的特征表示向量模型下论文的区分性测度,并将最终所得数值结果进行分析,本文设计了如图1所示的研究框架。首先,选取CSSCI来源期刊,分别标记每个期刊出现的时间,并从知网数据库中下载对应期刊和年份的题录信息,包括题名、关键词、摘要等核心数据,以及作者、被引量、下载量等文献记录信息;其次,利用删除重复值和无效值后的核心数据形成文档列表(其中每行文档列表表示一篇论文的题录信息),将文档列表直接作为BERT模型的输入,获得文档特征向量,并转化为文档术语矩阵(ATM),通过相似度计算的方式获得论文区分性测度指标ADC,从而完成ADC指标的构建;最后,分别基于期刊、学者和主题多个角度对ADC指标的价值进行衡量。
图1 研究框架图
3.2 数据来源与预处理
在实验数据的时间选取上,考虑一方面当时间跨度过小时,论文数据量较少,论文之间的差异可能被过度拉大,不利于合理评价论文;另一方面当时间跨度过大时,部分有区分性的早期文章可能会得到更多关注,在该时间区间内的特性和差异性可能减弱,因此最终确定时间跨度为5年。本文以CSSCI来源期刊中图书馆、情报与文献学学科的论文为研究对象,选择2014—2018年之间收录的21本核心期刊,通过CNKI网站下载题名、关键词、摘要等题录信息,通过数据合并(即题名+关键词+摘要)形成本研究的基础数据集。在筛选剔除重复信息和空缺值后,人工去除与本文研究无关的论文,如会议通知、征稿通告、年度索引、编者按等,最终保留有效论文数如表1所示。
表1 各期刊有效论文数量汇总
3.3 ADC测度算法
在学术对象内容差异性的定量测算中,Salton等[34-35]在1975年提出了术语区分模型(TDM),在文献集合中通过测度某个术语被抽取前后文档空间密度影响的差异程度来计算术语区分值,进而衡量索引术语在信息检索中的重要性。随后有学者对该算法进行进一步优化,降低时间复杂度并提高效率后提出更为稳定的术语区分能力(TDC)[36],用于索引术语的质量评价。本文借鉴前者对学术对象差异性测度的思路,将术语粒度的测评方法引到学术论文评价中,提出定量测度论文内容区分性和差异性的指标ADC。
ADC侧重于从内容的角度来度量学术文献的差异性及程度,核心在于通过计算论文对象被抽取前后论文空间密度(Article Space Density,ASD)的变化来衡量学术论文对象的区分能力,具体计算方法如下:
(1)构建文献空间(Article Space)。需要首先利用BERT对未分词的文档集合构建文档特征向量AFM(Article Feature Matrix),利用余弦相似度函数计算文献特征矩阵中文献与文献两两间的相似程度,进而将文献特征矩阵转化为文献-文献矩阵AAM(Article-Article Matrix),所获得的AAM即为文献空间的内容。
(1)
公式(1)表明文献特征向量的计算方法,其中Ai代表第i篇文献的特征向量,由经过预训练的BERT模型计算获得,其中m代表文献的数量,n代表文档中特征向量的维度。AAM的计算方法如公式(2)所示,sij为文献Ai到文献Aj的余弦相似度。
(2)
(2)计算文献空间密度ASD(Article Space Density)。采用基于距离的相似度算法计算所有文献到文献空间中心centroid的相似度AS,对AS的结果求取平均相似度即为文献空间密度,计算方法见公式(3)。
(3)
其中AS的计算方法见公式(4),Centroid是AAM基于算数平均值的文献空间中心向量,而Dist(Ai, centroid)用于计算文献Ai和centroid的欧式距离;c为常量,研究表明,当c取1.3时可以获得最优效果[37]。
(4)
(3)计算获得相应文献的ADC结果。剔除文献Ai后获得(m-1)维的文献空间向量,并重新计算所有文献到新文献空间中心的距离之和,将结果除以文献数量m-1,获得新的文献空间密度ASDi,利用文献空间密度变化的差值得到各文献对应的ADC值,计算方法见公式(5)。
(5)
其中ASDi表示文献i被剔除后的ASD,ASDavg表示ASD的平均密度差,计算方法见公式(6)。
(6)
最终获得的ADC可以为正值、负值或者为0,若ADC>0,则说明该文献呈现出积极的区分能力;若ADC<0,则说明该文献具有消极的区分能力,在特征上难以与其他文献区分开;若ADC=0,则说明该文献不具备区分能力,不会带来任何影响。此外,同一论文对象空间内计算得出的ADC的数值可以直观比较,当一篇论文的ADC数值高于另一篇论文的ADC时,即代表该论文对象的区分能力要优于另一篇论文对象。因此,本文借助ADC数值的正负性判断单篇论文是否具有独特性或同质性,利用数值的大小衡量内容差异的强或弱,也可以通过ADC数值的比较来衡量不同论文之间独特性的差异程度。
3.4 基于BERT的文本特征表示
早期的自然语言处理任务中,以词为单位的特征表示方法主要有词袋模型[38](Bag-of-words)和独热编码(One-Hot Encoding)技术,旨在将输入的文本转化为稀疏向量,改进后的TF-IDF文本表示方法虽然考虑了词语权重问题,但是将文本直接切分忽视了单词之间的相关性[39],且存在稀疏性和高维性的弊端[40]。2013年,Mikolov等[41]发布的Word2Vec使用语言模型得到词向量,并逐渐成为了最常用的文本表征技术之一,但是本质仍是静态的预训练技术,即不同上下文中的同一词语具有相同的词向量,没有解决上下文环境语义表示的问题。为了提取更深层次的特征表示,本算法引入具有多层双向transformer的预训练模型BERT。
BERT是Google为预训练语言表示而开发的NLP模型,是一种深度双向、无监督的文本语义表示模型[42],可以描述字符级、单词级、句子级,甚至是句间关系的上下文特征,根据上下文信息动态生成词向量,对于自然语言处理任务中一词多义、同义词等问题较为友好[43]。BERT作为一种可以提取深度语义的文本特征表示模型,在一定程度上缓解了传统模型在文本表示中遇到的同义词或者一词多义问题,辅助分析不同语言表达习惯下的文本语义内容,从而在一定程度上规避不同的撰写习惯导致的论文差异。BERT模型的处理流程中,首先将文本分词,进行全词MASK,并在文本的首尾加入标记,得到的结果作为BERT的输入,经过Transformer编码器,得到输出。BERT将文本中的每个字转化为三个embedding进行相加,将相加后的字符表示输入到Transformer结构中,利用多头自注意力机制进行特征提取,得到富含前后语义信息的字符表示[44]。
因此,本研究使用BERT的输出向量作为论文对象的特征向量,实验流程为:①采用chinese_L-12_H-768_A-12版本的BERT,将未分词的论文题录数据作为段落级别的输入,进行文档向量化表示;②设置模型各参数,其中文本最大长度被设置为128,单次输入训练模型的字符数设置为32,迭代次数设置为10;③输出所得的向量即为对应的AFM,之后采用ADC算法计算所有论文的ADC数值。BERT将可变长度的文本转化为可以代表整个文本语义的768维输出向量,从而在更低的内存开销下实现从语义角度对论文题录信息的文本表示[45]。
4 结果与分析
4.1 测度结果与分析
为了直观地展示基于BERT的ADC数值的分布情况,本文利用直方图表示ADC数值结果在不同分段中的频次分布,根据数据范围形成分箱,附标注密度估计KDE(Kernel Density Estimation)曲线,并且绘制频率分布条以显示落入每个分箱的观测次数的数据分布,最终绘制的直方图见图2。
图2 ADC数值结果分布直方图
图2中数值的整体分布偏离传统的正态分布,近似于泊松分布,观察横坐标的数值分布可以发现,ADC的数值分布区间为(-2,11),整体分布较为离散。综合KDE曲线和频率分布条发现,绝大多数的ADC数值在(-1,3)之间分布,在ADC>3的区间内分布的论文量占比15%左右,数值之间的差距较大;而ADC<0的论文数量占比39.7%,ADC之间的差距较小。
观察图2中的频率分布条发现,部分ADC数值结果分布较为离散,其中ADC大于8的论文有9篇,而ADC近似-2的论文有2篇,为展示不同ADC结果对应的论文情况,将离群值的论文信息按照降序进行排列,保留ADC数值至第三位小数,相关信息见表2。
表2 离群值论文信息展示
从表2中可以看出,序号1—9的论文ADC数值之间跨度较大,而序号21826—21827的论文ADC数值差距较小。ADC数值较大的论文中,以“行为-内容融合模型”“证据视角”为代表的论文在研究方法上较有新意,以“算法使用行为”“传播效果理论”为代表的论文研究内容独特,在以往的研究中涉及较少,而以“杜定友”“利德希尔斯矿工图书馆”为代表的论文研究对象不同于同类期刊,也获得较高的区分能力。ADC结果较低的论文偏向于述评型研究或常规型研究,研究较为基础、传统,主要包括一些常见的研究主题,在整个论文群体中难以呈现出研究特色,表现出较为明显的同质性。
通过本节分析可以发现:①论文区分能力ADC能够识别具有独特性的论文个体;②ADC数值较大的论文对象偏向于在研究内容、方法、对象上的创新,具有鲜明特色。
4.2 基于ADC的期刊分布分析
本小节以期刊为切入点,观察图书馆、情报与文献学学科21种期刊在2014—2018年ADC数值分布情况。首先统计汇总各期刊ADC取值为正和负的情况,用不同颜色的柱状图进行区分,相应的论文数量可见图3左侧纵坐标所示,并将ADC为正数的论文数量占该期刊所有论文总量的比值用红色散点表示,相应的占比数值可见右侧纵坐标所示。
图3 各期刊ADC论文数值结果描述柱形图
从图3中可以发现:①ADC正值占比最多的期刊是《数据分析与知识发现》,该期刊侧重于知识发现、数据挖掘、智能管理和决策支持等方面的技术、方法,尤其从海量、异构的数据中挖掘和发现知识以支持研究、管理和决策,在算法、实验方面的创新较为突出;而ADC正值占比最低的《图书情报工作》主要面向研究型图书情报机构,基于数字网络环境探究知识服务管理与图书情报工作转型发展,收录的论文研究内容主要集中在概念理论、观点发现以及模型方法[46],在实验方面的创新较少。综合多方面因素分析发现,期刊的办刊定位、收稿偏好可能会影响期刊的ADC数值水平。②图书馆学、情报学与文献学中,不同子学科期刊之间正值和负值的论文数量比例存在差别,但是整体呈现出较好的区分效果,ADC取值为正数的论文占比都超过55%,这说明学科整体呈现出多元化、特色化的趋势。③档案学科期刊中论文ADC数值为正的比例总体高于其他类别的学科论文;而图书馆类的期刊次之,总体正值论文占比排名靠前;情报学期刊占据中后的位置,图书情报交叉类期刊分布较为离散,可能由于本身偏向交叉学科领域,相较于独立学科而言其水平更容易呈现出两极分化的表现。
为观察不同学科及期刊中ADC数值结果的具体情况,对各期刊2014—2018年的ADC数值计算均值,保留四位小数,并根据期刊的刊名信息将期刊划分为“档案学”“图书馆学”“情报学”“图书情报类”学科,用不同颜色代表不同学科的期刊,按照均值从大到小排列,绘制的金字塔图见图4。
图4 各期刊ADC均值结果
图4与图3的总体排名顺序相似,所有期刊的ADC均值都高于0.5,ADC均值在(0.5,1)之间分布,不同期刊之间的数值差异较小,呈现出一定规律。具体而言:①档案学类期刊居于首位,ADC均值超出0.9,明显高于其他学科的期刊,有自身独特的理论体系及学科术语,主要围绕价值鉴定、档案考证、档案保护及存储、档案研究、档案馆研究、档案教育等主题展开,涵盖“档案考证”“文书处理”“档案编研”“公文”“保管权限”等关键词[47],也有各类档案理事会、理事会等小众化研究主题;②图书馆学期刊次之,均值分布在中上水平,以图书馆所收藏的各类信息资源、知识文献为核心研究对象,研究主题更加人文化,热点集中于移动技术、信息服务、资源共享等,通过对理论、模式与框架进行分析和整理,奠定坚实的图书馆学理论基础及框架体系,形成学科特色,获得较优区分能力;③情报学类期刊均值排名最为靠后,容易受到计算机、人工智能、数据科学、数据挖掘等技术影响,偏向于技术型研究成果,但是可能造成偏离专业核心内涵的情况,进而导致内容泛化和特色丢失的消极结果[48];④图书情报类期刊之间排名差距较大,总体高于情报学类期刊,《数据分析与知识发现》数值高于同类型其他期刊,利用知识服务及数据分析完成支持决策与实践探索,《图书与情报》及《图书情报工作》偏向于推动学科融合与交叉以提升竞争力,可能失去学科本身固有的特色。
本小节总结可得:①档案学期刊由于研究对象和学科术语的特性而获得较高的区分能力结果;②图书馆学期刊的体系化研究基础及人文化研究领域使得学科区分能力较好;③情报学与图书情报类期刊在数值上表现相似,但前者更容易在新学科、新技术冲击下丢失特色。
4.3 基于ADC的作者区分性分析
本小节关注作者产出所对应的论文区分能力情况,从第一作者的角度对本文数据集中的论文及作者信息进行统计汇总。由于作者中会产生重名问题,因此,在本节对作者进行手动筛选比对,挑选出部分重名的信息,统计为新的作者。最终发现,数据集中以第一作者身份出现的作者共有9781人,人均发表论文数量2.2篇,多数作者发文的数量范围在1—4篇之内。
为了观察在图书情报学界具有代表性的学者,笔者选择发文数量超出30篇的14位作者作为研究对象。同时,笔者对该数据集中全部作者以第一作者身份所发论文的ADC平均水平再次计算均值发现,所有的第一作者发表论文的ADC均值为0.7。以0.7为界限划分发表论文数量的区间,将代表性学者发表论文数量及其论文ADC均值用气泡图绘制出来,其中气泡的大小对应学者发表论文ADC均值的大小,不同的颜色代表学者所在的不同单位,如图5所示。
图5 作者发文量与ADC均值关系气泡图
代表性的学者绝大多数来源于武汉大学,其余均来自国内其他知名大学,比如吉林大学、安徽大学、浙江工商大学等,有部分学者从属于多个重点院校或科研中心,在学界的知名度和认可度较高[49]。此外,高产作者中绝大多数具有教授职称,其中以李纲为代表的学者入选“长江学者奖励计划”,说明该部分作者研究水平较高,在本专业领域具有一定的影响力[50],其余学者多数为高校图书馆员。由此可见,图书情报领域相关研究人员大多为国内著名大学的研究者,大学仍然是论文产出最为集中的地方。
从学科角度看来,代表性的高产学者侧重情报学,专注图书馆学较少,鲜少有档案学领域的学者。关于这部分代表性学者的ADC数值分布情况,我们猜测,一方面这批学者作为学界的领军人物,需要具有前瞻性和发展性,通过寻求与社会学、心理学、地理学、计算机技术等领域理论途径、技术方法的融合以突破传统图书情报领域,关注新技术、新方法服务新兴产业或行业,促进图书情报学科在新的时代背景下向前沿领域转型,相应的创新和变化使得ADC数值升高;另一方面由于本身的学术影响力,相应的学者可能受邀撰写理论概括性、文献综述性论文,以图书情报学传统方法作支撑,固本正源[51],潜心耕耘,因此论文ADC数值也会相应降低,最终这些学者全部发表论文的ADC数值维持在学界总体平均线的水平。
图5中的学者论文ADC均值作为综合性信息,直观地展示了作者的全部论文ADC均值、研究方向、所在单位信息,但是无法揭示学者在2014—2018年间ADC数值的变动情况,因此分年度绘制了学者ADC均值热力图,见图6。
图6 高产出作者论文年均ADC数值热力图
综合图5中研究内容和图6中学者年均ADC结果,以ADC平均值0.7为界限,将高产学者分为高区分性学者和低区分性学者。其中赵蓉英、黄如花、吴丹、储节旺由于ADC均值较高而被识别为高区分性学者,前三位学者的主要研究内容涉及大数据研究热点挖掘与分析、政府数据开放共享研究、用户行为分析与智慧信息服务等,紧跟国外情报学发展动态,每年的发文量持续稳定,普遍高于其他学者。虽然三位学者所在单位都是武汉大学,但是彼此的研究较为独立,研究的内容差异性也较大。储节旺作为安徽大学的资深学者,偏向情报学中的管理方向,以社会化网络、知识协同、开放式创新为主要研究内容,但2014—2018年间发文数量渐趋下降。低区分性学者以邱均平、司莉、李纲等为代表,其中邱均平、唐晓波、李纲作为图书情报学界资深学者,都涉及知识管理和情报研究领域,年度发文数量渐趋减少,邱均平更侧重于信息计量与科学评价领域,唐晓波专注于语义本体和数据挖掘方向,李纲涉及信息管理与信息系统内容。王晰巍的ADC年度均值波动较大,作为吉林大学信息管理系学者代表,历年的研究包括信息行为、舆情分析等网络信息生态相关主题,既关注图书情报学的热点与前沿应用,也善于从理论角度捕捉其他领域的发展动态。严贝妮、王福作为青年学者的代表,前者关注情报学中信息资源管理的内容,后者集中于图书馆个性化服务、图书馆服务技术应用、个性化服务内容[52]。同样作为图书馆学的研究者,司莉、肖希明、鄂丽君分别从图书馆学教育、知识组织与知识管理、信息资源开放获取、图书馆营销等角度展开对图书馆学的研究,探讨图书馆服务向智慧化、个性化转变的议题。
通过本节分析,概括可得:①高产作者多数偏向情报学学科,专攻图书馆学或档案学的学者较少;②ADC数值分布的结果与各学者在不同时间区间内的研究内容相符合,偏向热点话题和新兴领域的学者所产出的论文区分能力更强,侧重综述性评价和常规性研究的学者所产出的论文区分能力较弱。
4.4 基于主题热度的差异性分析
为从整体性视角研究ADC数值分布与主题变化之间存在的规律,本章节将从主题热度的角度揭示不同区间的主题情况。主题热度一般通过主题与文档之间的关联程度进行表示,其中相同的主题能够以不同的重要程度出现在不同的文档中,而被提及到的文档篇数越多则代表相应的主题热度越高。主题热度可以根据LDA模型的输出数据之一,即“文档—主题”的分布进行计算,通过计算得出某个主题在所有文档中出现概率的平均值,获得相应的主题热度。对不同ADC分区的论文题录信息进行LDA分析,以概括得出相应的主题内容。
考虑到将21827篇论文放在同一个论文集合中进行LDA分析可能会导致主题数量过多,因此,将论文按照ADC数值区间进行划分,对不同区间分别进行LDA主题分析,对比分析不同区间的主题数量与热点主题,以突出不同数值区间中论文的关键词语分布及研究内容差异,并且观察每个区间内的主题分布细节。根据主题热度算法在每个区间中筛选出前10个主题,以代表该区间研究的热点主题,见表3。
图3 各ADC分区中的LDA主题分析结果
研究发现,图书馆、情报与文献学学科论文在2014—2018年间的研究热点主要包括七大类,即图书馆相关类(图书馆服务、公共图书馆、高校图书馆、数字图书馆等)、社交媒体类(网络舆情分析、用户行为分析、社会网络分析等)、算法学习类(神经网络、遗传算法、算法改进等)、文献计量类(计量指标构建、多粒度学术对象评价、补充计量学等)、企业知识管理类(协同创新、战略决策、绩效评价等)、本体类(情感分析、实体/属性/关系抽取、知识图谱构建等)、学科建设类(跨学科交流、人才培养、职业分析等),其中与图书馆相关的研究热点最高,在所有区间中的主题排名都非常靠前,其余主题在各个区间中的研究热点排名和内容有较大波动。总体而言,随着ADC数值的增加,相同单位的论文数量下主题的数量呈现出增长的趋势,研究的主题更加丰富多元。
对比分析表3中三个区间的热点主题,在所有包含学科相关的热点主题中,虽然ADC<0的论文中包含图书情报学科建设内容,但相应的词语集中在图书馆学和情报学学科中,主要为情报学、图书馆学、情报分析、情报工作、目录学、图书、情报研究等,其中与档案学相关的仅有“档案学”作为学科介绍词而存在。在ADC≥2的区间中,档案学被单独分为一个热点主题,包含内容有档案馆、档案管理、文献、史料、归档、编纂、口述等,由于自身的理论体系、研究对象、工作业务、组织机构不同于图书馆学和情报学,且本身术语具有的独特性,而拥有较高的ADC区分值。
在ADC<0的区间内,占据前三个热点的主题都是与图书馆相关的主题,偏向于理论化和传统化的内容,术语较多集中在“研究领域、理论、服务模式、资源配置、资源整合、馆藏”;而后面两个区间则涉及到用户分析、机器学习、多粒度学术评价等新兴主题,术语更加多元化、新颖化,包括用户分析的生态系统、互联网、问答、情景,以及机器学习的本体、标签、聚类、特征,多粒度学术评价的影响力、新颖性、热点、领域、可视化等,在当下作为研究新热点具有非常大的研究价值。总结可得,ADC数值越小的论文对应的研究内容更加理论化、传统化、综合化,而ADC数值越高的论文更加新颖化、多元化、热门化。
观察三个区间内的主题可以发现,共同或类似的主题在每个区间内都存在,如机器学习。深入到文章内容中去挖掘可以发现,在ADC<0区间中,机器学习主题的术语偏向于理论化的浅显介绍,从理论、技术、方法的角度阐述相关的内容,词语也集中于概念、理论、文献、模型、学习、局限、规则、效果等描述性字词,以综述类及方法介绍类文献为主,较少利用数据和实验结果来验证观点;在0≤ADC<2的区间中,排名较为靠前的词语为进行、构建、实现、计算、实验、抽取、研究,能够针对具体的问题进行实际性的计算、研究、应用,提出新的方法、引入新数据、侧重于研究型成果的应用性和实践性;在ADC≥2的区间中,新的词语诸如推荐、预测、比较、发现、改进、创新则是从创新的视角对各种方法进行灵活运用,将相应算法推广到信息推荐、数据预测的前沿应用,甚至能够突破原理、改进流程,在具体的应用中完成对方法的深入理解,并提出相应解决方案、实现理论层次上的高难度创新。概括可得,随着ADC数值的增大,相似的主题下论文研究的内容更加深入、细化、具体。
本节分析可得:①图书馆、情报与文献学学科的研究主题中,最为热门的主题围绕图书馆展开;②随着ADC数值的增加,论文研究的主题不仅更加深入和细化,而且偏向于多元化、热门化的领域,反之则呈现出理论化、常规化的内容。
5 结论
本文选取了2014—2018年间被CSSCI核心期刊收录的图书馆、情报与文献学学科论文作为实验对象,采用ADC指标从内容差异性视角对论文对象的区分能力进行测度和分析,结合具有语义特征的BERT模型计算ADC数据结果,探讨论文ADC的总体、局部和个体区分能力特征。通过分析期刊的ADC分布对学科的整体区分能力进行测度,根据不同学者的研究方向和论文ADC总体水平,对学者总体的区分能力水平进行探讨,采用LDA主题分析深入分析了ADC较大和较小区间论文在研究主题上的差异。通过实验分析发现:①论文区分能力越强表明其研究内容越具独特性或创新性,对应的研究主题新颖化、多元化、热门化,视角更加深入、细化、具体,反之,越弱则说明研究同质性越明显,主题偏向理论化、传统化、综合化;②不同学科类别和期刊的论文ADC总体水平具有显著差异,图书馆学和档案学期刊的论文ADC总体水平要高于情报学期刊;③不同学者的论文ADC总体水平也存在明显差异,与其研究领域或主题相关,偏向热点话题和新兴领域的学者所产出的论文区分能力较强,侧重综述性评价和常规性研究的学者所产出的论文区分能力较弱。
总体来看,本文所提出的ADC方法能够有效地度量学术论文的差异性,适用于学术论文的差异性评价。然而本文也存在可以改进的地方:第一,后续将考虑改进基于BERT模型进行相似度度量的技术;第二,由于本文研究的来源论文局限于CSSCI中文期刊图书馆、情报与文献学学科,没有考虑多学科的对比和多语种的适用性,在后续的研究中,将考虑进行补充研究。