基于参考文献的里程碑论文识别研究
——以网络与信息安全领域为例
2024-05-28宋媛媛
宋媛媛,石 进
(南京大学信息管理学院,江苏 南京 210023)
0 引言
在学术领域,论文往往承载着学术成果,里程碑论文则是学术领域中发展趋势、重大突破与创新的体现。构建识别里程碑论文的模型,能够帮助高价值论文的发现与研究。近年来,随着元宇宙等数字技术的发展,网络与信息安全面临着更加严峻的考验,如何识别出领域内的里程碑论文,找到有价值的研究,是一项有意义的工作。然而过往研究中,对里程碑论文的概念并不明晰统一,其衡量指标也较为分散。希望以本文为我国的网络与信息安全领域的里程碑论文识别做出贡献,并应用于其他领域。
1 相关研究
学术领域中,论文是科学研究等的成果呈现形式之一,将里程碑的含义代入其中,定义里程碑论文。在目前的科学界,里程碑论文大多没有详细且统一的定义,而是通过知名学者的公开评价(同行评议等)来判断,其判断方式与标准也并不统一。各方学者对里程碑论文的概念阐述各不相同,大多为近似的概念[1],国外学者还对于里程碑论文的特征[2]进行研究。近似概念有具有里程碑意义的文献、关键文献等,国外的表述包括landmark publications[3]、influential publications[4]等。
网络信息安全是一门综合性学科,溯其源较为复杂,其发展与其他学科息息相关,领域内尚无学者进行里程碑论文的识别与分析研究。由于里程碑论文的定义尚不统一明晰,除了里程碑论文的识别与分析方法之外,本文还参考了近似概念论文的识别方法,以往研究对引用、创新[5]等指标着墨较多。作为学术发展过程中的重要节点,高度的创新力是里程碑论文的必然要求,高度的影响力是里程碑论文的必备条件。参考文献年谱分析(Reference Publication Year Spectroscopy,RPYS)较为常用。国内学者2016 年来[6]开始使用RPYS方法进行学科领域的根源分析,之后对领域重要文献的判别也做出贡献。利用参考文献分析工具CRExplorer,以脑机接口领域为例,吴闯等[7]对该领域发展具有里程碑意义的重要文献进行分析判断。基于引文网络[8]等方法,计算节点的入度与出度,寻找网络中心,建立量化指标,是识别里程碑论文的方法之一。以创新力为研究对象,方法包括基于网络结构变化的变革性潜能指标,S 指数[9]等。
此外,还有其他识别里程碑论文的方法,例如结合文献寿命与被引概率分布理论区分里程碑文献与奠基石文献,基于集合主题模型发现里程碑文献等。
2 里程碑论文识别
首先对里程碑论文概念做出解释:里程碑论文往往是学术领域内的核心文献,一方面其本身成果价值高,富有创新性,另一方面得到学者的广泛认同与引用,其知识与研究得到传承。里程碑论文是对某一研究领域或主题发展具有深远影响的根源性文献。
本文的模型构建以参考文献为基础,首先使用参考文献年谱分析方法寻找学术根源性文献,之后进行创新力与影响力的衡量,用以识别里程碑论文总集。并根据聚类结果将总集划分出潜在里程碑论文,提高方法的容错性。
参考文献年谱分析方法的步骤如下:①检索和收集该学科领域的所有相关文献。②导入CRExplorer 中,抽取所有的参考文献及其发表年,导出参考文献出版年谱图,根据时间窗分析峰值,即重要的参考文献出版年份,寻找可能的候选文献,构成候选传承力文献集。③由学科或研究领域专家鉴定,确定文献是否符合事实。由于RPYS 方法寻找的是历史根源性文献,而学科领域的传承根源可能来自于其他领域,因而为了确保领域为网络与信息安全,第三步是必要的。参考文献年谱分析结果为完成筛选的学术根源性文献集合。
数据获取与下载于2023 年12 月,根据2022 年度中国计算机学会(CCF)最新一版《中国计算机学会推荐国际学术会议和期刊目录》,于网络与信息安全方面推荐A、B、C 三类国际学术会议,在Scopus 数据库中进行来源出版物检索,将检索结果的文献类型限制为“Conˉ ference Paper”,年份不做限制,最终导出共计19418 篇会议论文。将全部会议论文导入CRExplorer,该工具能够实现参考文献消歧处理,即识别参考文献变体以及相似参考文献聚类融合,删除同一参考文献。之后进行人工筛选,最终得到符合条件的169583 篇参考文献。
进行参考文献年谱分析,时间窗自动设为1990—2023 年。根据参考文献所在年份的参考文献数与五年中位数的偏差,即与前两年、当年和后两年C 数量中位数的偏差确定9 个高峰年,依次为1990 年,1996 年,2000 年,2001 年,2003 年,2005 年,2012 年,2014 年和2016 年。选取每个高峰年下被引量处于TOP1%的文献共计437 篇,经筛选得到属于网络与信息安全领域的文献共计356 篇,构成传承力文献集。
S 指数是测度科研成果创新力指标的一种,其计算公式也是判断成果创新力的思维公式。本文计算创新力时将S 指数简化为Sy指数,Sy为某成果在y 年的S指数,Din和Dout是成果节点在参照客体构成的引文网络中的入度和出度。其中,Din为与该成果主题直接相关的参考文献数,代表成果创新的变异程度,Dout为该成果在该主题领域中从发表年至y 年的总被引次数,代表新知识产生以后对科学发展的影响。根据公式计算出每篇文献的创新力,S 指数值越小,说明文献的原创性越高。
基于被引频次的方法更适合选择特定领域中哪些文献对总体文献的科学进步产生重大影响角度提取关键文献[10]。为了降低极端概率的影响,借助外国学者Gringorten I I 的方法计算被引频次,量化当前文献集中各文献的影响力。计算得到的百分位P 数越大,说明文献的影响力越高。
随后,采用统计学中的K-means 聚类方法对文献类别进行分析,得到的聚类中心分别代表高高、低低和高低三种数值组合类型,分别对应里程碑论文145 篇,普通论文72 篇和潜在里程碑论文139 篇,里程碑论文数约占文献集总数的40.7%。对聚类效果的评价使用的是轮廓图法,3 个簇的轮廓值均值均在0.4 以上,因而论文集的划分效果较好。
3 验证与分析
3.1 综述验证
考虑到一篇科研成果的学术贡献和社会影响是需要一定的时间沉淀的,而综述恰是对一段时间内,某一专题的研究进展的评论与展望,所引用的都是经过作者严格筛选,对专题发展具有重大意义的文章。根据这一契合点,我们决定借助网络与信息安全领域内的综述,以里程碑论文在综述中的影响力、引用过里程碑论文的综述的发表时间跨度以及综述质量作为检验维度,且由于里程碑论文的分布并不符合正态分布等较为明显的分布特征,以非参数检验Mann-Whitney U 检验作为检验方法,以里程碑论文在各维度都显著优于非里程碑论文(潜在里程碑论文和普通论文)作为检验目的,进而完成里程碑论文的检验。
其中,综述通过在Scopus 数据库中用来源出版物检索2019 年度中国计算机学会(CCF)推荐的该领域A类国际学术刊物,并限制文献类型为“Review”获得;“里程碑论文在综述中的影响力”是指论文在综述集中的被引量;“引用过里程碑论文的综述的发表时间跨度”是指最早引用论文的综述与最晚引用的发表年份之差加一,若没有被综述引用,则时间跨度为0;“综述质量”是指综述的最高被引量与平均引用文献数之比,综述的最高被引次数与综述质量成正相关,最高被引越高,代表该综述质量越高,而平均引用文献数与里程碑论文在综述中的重要性有关,平均引用论文数量越少,代表里程碑论文越重要。检验结果如表1 所示。
表1 里程碑论文Mann-Whitney U 检验结果
从检验结果可知,各检验维度下的零假设显著性概率值均小于0.05,里程碑论文与非里程碑论文在各检验维度下均存在统计学差异,里程碑论文在各方面都显著优于非里程碑论文,由此也就证实了采用上述方法获得的里程碑论文的有效性和准确性。
3.2 里程碑论文分析
网络与信息安全领域涉及多个学科,其里程碑论文研究主题从最基础的信息安全到电子通讯,再到网络的冲击使得研究领域扩展,囊括了网络系统的软硬件,数据保密性、完整性,网络安全模型等。针对里程碑论文进行LDA 主题分析,其中密码学及其分支是最主要的主题,密码学是网络与信息安全领域重要的组成部分。随着时间的增长,里程碑数量的增长呈现先上升后下降的趋势。从时间轴上看,里程碑论文见证了网络与信息安全领域的发展,可以作为学术链的传承节点。
里程碑论文作者中,高校资深研究者大大推动了网络与信息安全领域的发展与进步。高校作者共计319 人次,占比76.5%,可见高校在科研研究中的深厚影响。其中一人独著的里程碑论文占比13.79%,里程碑论文合作则占比86.21%,占大多数。里程碑论文中,跨机构,跨国合作非常常见,由高校、企业牵头跨机构合作也很多,高校合作占跨机构合作89.23%。
美国作者、机构尤为突出,断层式领先,英国,德国等西方国家在网络与信息安全领域也作出了重要的贡献,里程碑论文均含10 篇及以上。3 篇以上10 篇以下里程碑论文的国家包括新加坡,加拿大等国家。而我国在破解MD5 以及哈希密码方面的论文也被识别为里程碑论文。
共计145 篇里程碑论文中,文献类型为“Life cycle”的文章共计82 篇,占比56.55%。这些文章在最开始的4 年内被引低于平均值,之后高于平均值,在最后的3年内被引低于平均值,符合论文的生命周期。共有77 篇论文被识别为经典的“Sleeping beauty”,即睡美人文献,占比53.1%,这些文章发表后的前两个3 年内被引低于平均值,之后至少有一次高于平均值。部分文献被识别为两种及以上的类型,“Sleeping beauty + Life cycle”占比26.2%。
4 结语
识别一个学科或者领域的里程碑论文有利于科研战略导向的优化,里程碑本为衡量距离的概念,本文将其应用于学术领域,借鉴学术谱系、奠基石文献、重要论文等近似概念的识别方法,识别里程碑论文。
本文将参考文献年谱分析首次引入网络与信息安全领域进行里程碑论文的识别。我们的里程碑论文识别方法结合了传承,影响与创新3 个维度,对参考文献使用参考文献年谱分析方法以及指标量化。通过参考文献识别里程碑论文在以往研究中已有端倪,本文在其基础上做了一定的改进。在网络与信息安全领域进行实证研究,通过综述确定了模型的有效性,同时,对里程碑论文的内容进行分析,直接验证了里程碑论文的合理性。
在网络与信息安全领域,根据对里程碑论文的分析,可以发现以美国为首的西方国家的领跑作用,另外合作研究占比极高,且作者所属高校占比约70%,高校是研究及合作研究的主力军。因而,加强多边合作,尤其是由高校牵头的合作可以促进学者研究价值的提高。在我国的网络与信息安全领域中,国家资源向高校的倾斜力度可以适当加大,另外也要扶持企业等应用研究的发展。密码学领域的研究在里程碑论文中占比也很高,我国在此领域也做出了贡献,聚焦此领域可以发展我国的技术领跑优势,做出更多有价值的研究。除此之外,针对已经做出的研究,可以更加重视睡美人文献,以寻求更多可能的里程碑论文,获得有价值的研究。