基于多代参考文献的单篇论文学科分类方法研究
2024-06-03黄颖虞逸飞孙蓓蓓等
黄颖 虞逸飞 孙蓓蓓等
关键词: 多代参考文献; 学科分类; 学科结构; 引文分析; 多学科期刊; 跨学科研究
DOI:10.3969 / j.issn.1008-0821.2024.06.010
〔中图分类号〕G254.1 〔文献标识码〕A 〔文章编号〕1008-0821 (2024) 06-0119-17
将科学文献归入适当的学科领域是实施有效的科学计量学分析的基本前提之一[1] 。学科分类系统不仅用于划分研究领域[2] , 也在引文指标归一化[3] 、跨学科测度[4] 、期刊排名[5] 等科学计量学实践中发挥重要作用。鉴于此, 学者们进行了不同粒度或结构层次的分类方案的实践探索, 主要可以划分为基于期刊的分类方法和基于论文的分类方法两种路径。
在期刊总是接受契合其出版范围的稿件这一假设下, 学术论文的学科在一定程度上可以通过期刊主题类别来定义。Web of Science(WoS)数据库和Scopus 数据库是期刊分类系统的典型代表。在这些系统中, 期刊被分配到1 个或多个学科类别, 学术论文的学科类别由其所发表的期刊类别决定。尽管WoS 和Scopus 凭借易于理解和可获得性等优势得到研究人员的广泛关注[6-8] , 但其分类准确性也受到诸多质疑[9-12] 。除了数据库出版商提供的分类系统外, 研究人员还进行了诸多尝试, 提出了诸如鲁汶-布达佩斯(Leuven-Budapest) 学科分类(又称ECOOM 学科分类)[1] 、UCSD 分类[13] 、Science -Metrix 分类[14] 等应用于不同场景的期刊分类体系。但是, 基于期刊的直接映射方式存在诸多弊端, 例如学科分类存在偏差[15] 、无法细分在多学科期刊上发表的论文[16] 、没有提供足够的分析清晰度进行文献计量标准化[17] 等。
面对文献研究主题广泛多元的挑战[18] , 加之跨学科研究的趋势愈发明显, 基于单篇论文层面的学科分类方法应运而生。与基于期刊的粗粒度分类方式相比, 基于单篇论文的分类从文章自身特点出发, 是一种自下而上的分类方法[19] , 其中基于引证关系和文本内容是两种主要的分类策略。文献间的引证关系, 从本质上揭示了知识流动与知识转移的过程[20] , 而参考文献作为施引文献的知识基础, 可将其认作是参考文献中的知识流向了施引文献[21] 。因此, 施引文献的主题往往可以由参考文献的学科分类来描述。Gl?nzel W 等[22] 基于参考文献信息实现了综合性期刊中单篇论文的主题分类; WaltmanL 等[23] 根据出版物之间的直接引用关系, 在构建三级分类体系的基础上, 实现了对近千万出版物的研究领域分配; 在此基础上, Ruiz-Castillo J 等[24]基于引用关系对出版物进行大规模聚类, 构建了12 个不同粒度的分类系统; Klavans R 等[25] 比较发现, 基于直接引用得到的分类结果比基于引文耦合或共引的分类结果更加准确。基于文本内容的单篇论文学科分类是另一种分类途径, 已有诸多探讨和实践。例如, Dimensions 数据库根据标题、摘要等文本内容并采用机器学习技术对其所收录的论文进行了学科类别标注[26] ; Kandimalla B 等[27] 应用深度注意力神经网络基于摘要文本信息对学术论文进行了分类; Eykens J 等[28] 基于论文标题和摘要利用有监督的机器学习方法对社会科学期刊的论文进行了单篇论文层面的类别划分; Dunham J 等[29] 通过文本信息识别了人工智能领域的相关出版物, 并为其分配了学科主题。此外, 也有学者尝试采用引用与文本相结合的混合聚类方法来提高分类效能[30] 。总体而言, 基于引证关系和文本内容的单篇论文学科分类方法各具优劣, 前者揭示了论文之间的链接但忽略了文本特征, 后者反之[19] 。基于单篇论文的学科分类可以有效解决期刊与论文之间的主题偏差, 实现对发表在多学科期刊上的论文分类, 但单篇论文分类在宏观分析中也存在局限[31] 。
作为对当前学科分类体系的补充, 本研究提出了一个基于多代参考文献的参数化分类方法, 以实现对单篇论文的学科分类。在该学科分类方案中,一篇文献的学科分配以其多代参考文献的研究领域为基础, 利用多代参考文献的学科分类信息来降低目标文献中学科分类的熵值, 从而将目标文献分配到1~3 个学科类别中。该方法与基于期刊的直接映射方法相比, 可以实现对于多学科期刊上的单篇学术论文分类; 与现有的基于论文的分类方法相比,该方法的操作复杂度相对降低, 并且可以为跨学科学术论文的识别提供可行方案。
1 研究方法
1.1 方法基础
在科学文献体系中, 各科学文献之间并非孤立存在, 而是相互联系的。文献之间的相互引证关系即为科学文献相互关系的主要表现。Porter A L 等[32]认为, 参考文献有效反映了科学知识和信息从被引文献流向施引文献的过程, 其所属学科分布也常被认为是揭示目标文献研究学科的重要依据[22,25,33] 。从逻辑上来说, 参考文献多样性是文献知识整合的最好测度[34] , 因而属于显性知识的参考文献以其极高的可获得性被广泛应用于相关研究中。
本研究将目标文献直接引用的若干篇参考文献称作一代参考文献。一代参考文献同样拥有其知识基础来源(二代参考文献)。以此类推, 基于文獻间的引用关系可以迭代产生多代参考文献。图1 展示了目标文献的多代参考文献模型。其中, 灰色部分表示有效参考文献, 即那些被数据库索引收录的文献, 拥有学科分类信息; 白色部分表示无效参考文献, 即没有被数据库索引的、学科分类不明确的文献, 在操作中需要剔除。因此, 如果一代参考文献中有大量的无效文献或发表于多学科期刊的文献,可能会掩盖目标文献的主要知识来源学科信息。通过增加不同代际的参考文献可以扩大知识来源文献规模, 有助于增加目标文献知识整合的学科范围。
引文网络中的知识流动可用于跟踪技术或科学知识的发展轨迹[35] 。从科学发展规律看, 知识流动具有明显的累积性和继承性[36] 。参考文献反映了目标文献学科领域基础研究和应用研究的知识累积[37] , 不同代际参考文献之间的知识同样是相互联系、彼此渗透的。Gl?nzel W 等[1] 于2003 年提出了ECOOM 学科分类体系, 该两级分类体系均匀覆盖了整个科学领域。如图2 所示, 以WoS 核心合集(SCIE, SSCI, AHCI)在1999—2018 年收录的文献为参照, 根据文献所属期刊的学科类别, 计算了不同ECOOM 学科领域文献的前二代参考文献学科相似度占比分布情况。学科相似度越高, 意味着一代参考文献与二代参考文献的学科结构越相似。结果显示, 地球与空间科学(G)领域有72 9%的文献的学科相似度位于[0.95,1.00]的区间范围内, 说明该学科领域文献的两代参考文献学科高度相似。在ECOOM 的16 个学科领域中, 学科相似度高于0.8的文献平均占比超过90%。其中, 艺术与人文科学(K)占比最低(71. 3%), 而神经系统科学与行为科学(N)则最高(96.6%)。整体上看, 各领域文献的一代与二代参考文献之间的学科相似程度处于较高水平, 说明不同代际参考文献之间的知识存在传递性, 因而参考文献在多轮迭代的过程中保持着相对一致的学科结构。由此可见, 通过多代参考文献的迭代方式, 丰富的信息量可以更好地呈现目标文献的知识来源结构, 进而为目标文献的类别分配提供依据。同时, 考虑到参考文献用以表征目标文献的精确度隨着迭代次数的增加而降低, 可以赋予间接引用的参考文献较低的权重, 进而降低信息熵。
1.2 方法步骤
本研究提出了一种基于多代参考文献的学科分类方法, 尝试在单篇论文层面将文章划分至特定的学科类别(每篇文章都归入1 个或多个类别), 可以在一定程度上解决学术论文与发表期刊主题不一致、多学科期刊论文分类等问题。具体方法流程如图3 所示, 包含以下3 个步骤:
1) 数据获取与预处理
WoS 学科分类系统是在综合考虑引用关系、期刊标题和专家意见的基础上建立的, 其在期刊分类准确性方面具有优势[10] 。ECOOM 学科分类体系建立在WoS 学科类别的基础上, WoS 学科分类在ECOOM 分类体系中被映射为16 个学科领域和74个学科类别[38] 。本研究以WoS 数据库为数据来源,获取目标文献的多代参考文献及其WoS 学科分类信息。由于更多的学科分类会增加引用不同学科分类来源的可能性, 同时增加学科分类的模糊性[39] ,因此本研究选择74 个ECOOM 学科类别作为基准学科, 将多代参考文献基于期刊进行映射, 并最终为目标文献分配若干个学科类别。
基于目标文献的多代参考文献的学科分类信息,使用全计数法计算历代参考文献中74 个ECOOM 学科分类的占比情况, 具体公式如式(1) 所示:
权重系数的设置标准最终影响着文献的学科分类结果, 因此, 本研究设置了5 种权重规则, 如表1 所示。不同权重的分配结果存在差异, 多种方式结合为提高分配成功率提供了可能。为此, 本研究进一步提出了(W1+W2)和(W1+W2+W5)这两种扩展方案。当权重类型设置为(W1+W2) 时,代表先基于W1 权重规则对文献进行分类, 针对无法分配的文献, 再使用W2 权重规则予以补充; 与之相类似, (W1+W2+W5)代表文献依次使用W1、W2 和W5 的权重规则, W1 的学科分类结果的优先级最高, 其次是W2 和W5。
为简化运算规模并提高论断准确性, 本研究选取目标文献的一代参考文献及二代参考文献的学科分布情况作为本研究文献分类的参照。当n =2 时,基于以上规则, 权重系数设置如表1 所示。
3) 分配论文学科类别
为兼顾多学科研究特征与计算效能, 本研究将学科类别规模限制为3 个, 即每篇学术论文最多被分配3 个学科。就单篇论文而言, 其参考文献中某学科的占比越高, 意味该学科是文献知识基础的主要来源, 因而该篇文献更有可能属于此学科范畴。基于这一假设, 本研究选取FS(?) i 数值最高的4 个学科, 降序排列后相邻的两个学科依次比较。经过细致的比对检验并结合领域专家的经验, 本研究最终将阈值设定为2/ 3(0.667), 并以此为标准设置参数化模型, 进而为目标文献标记上1~3 个学科,具体的判定流程如表2 所示。对于经过3 轮比较之后尚未被确认学科归属的学术论文标记为待定(TBD), 此类学术论文极有可能是真正的跨学科研究。为验证文献主题分配结果的准确性, 本研究综合考虑文献的标题、关键词、摘要等信息, 同时结合文献来源期刊和参考文献的学科分类情况, 对目标文献的学科分类结果进行综合评估。
在以上学科判定与条件的指导下, 本研究选取了若干篇发表于多学科期刊Nature 上的学术论文来说明分配过程。如表3 所示, 文章1 ( UT:000419769300025)的参考文献中占比第一的学科类别是地球科学与技术(G2), 且排名第二的学科类别(X0)与该学科的商小于0. 667, 因此这篇学术论文判定为属于G2。通过阅读文章1 的全文可知,该文主要探讨了最后一次冰川过渡时期的全球海洋平均温度, 符合G2 的学科范畴。又如, 文章2(UT: 000419769300035)研究了用于哺乳动物宿主体内微生物无创成像的声学报告基因, 其两代参考文献中排名第一的学科和排名第二的学科与其后一位学科的商分别为0.729 和0.376, 因此被归入微生物学(Z3)和生物化学/ 生物物理学/ 分子生物学(B1)中, 学科分类划分结果契合研究内容。同理,文章3(UT: 000419769300037)被分类至3 个学科,而文章4(UT: 000419769300030)则无法确定学科归属。结合4 篇文章的具体研究内容来看, 本研究提出的基于多代参考文献的单篇论文学科分类方法具有可行性和可操作性。
对于在多学科期刊上发表的论文, 将其进行更细致的学科分类被视为有效措施[22] 。本研究以是否在原始计算结果中和计算比重时考虑多学科科学为划分依据, 提出4 种不同的处理策略, 并以2018年发表在Nature 上的文章(UT: 000419769300037)为例开展案例分析, 具体过程和结果如表4 所示。其中, 除了方法A1 的分类结果包含多学科科学(X0)外, 细胞生物学(B2)和生物化学/ 生物物理学/ 分子生物学(B1)在4 种方法中均被判定为该文献的学科类别, 分析结果具有稳健性。因此, 通过应用本研究提出的方法, 发表在多学科期刊上的学术论文可以实现学科类别的归属判定。
2 学科分类效果的比较
为深入了解基于多代参考文献的单篇论文学科分类方法的应用效果, 本研究随机抽取文献进行核验。如表5 所示, 列举了6 篇论文在不同分类方案下的分类结果。其中, WoS 学科分类和ECOOM 学科分类均为基于期刊的学科分类方法, 前者来自WoS 数据库, 后者是在文献WoS 学科分类的基础上映射而来的。Fields of Research(FoR)学科分类是澳大利亚和新西兰标准分类(Australian and NewZealand Standard Research Classification, ANZSRC)的重要组成部分, 包含22 个一级学科领域和157 个二级学科类别[40] 。Dimensions 数据库根据论文的文本内容, 采用机器学习技术实现单篇论文自动分类[19] 。每篇論文至少分配到1 个FoR 学科领域中[26] 。作为一种单篇论文分类方案, 其分类结果具有相对准确性[41] 。以上各方法的学科分类结果将与本研究提出的方法进行详尽比对分析。
表5 中前3 篇文献均来自国际知名多学科期刊——Nature。基于期刊的学科分类方法将以上3篇文献都简单分类至多学科科学。然而, 基于单篇论文的学科分类方案捕捉了文献研究内容的差异,赋予了文献更细粒度的分类结果。
文章1(UT: 000342420800048)在本研究提出的方法中属于生物化学/ 生物物理学/ 分子生物学和细胞生物学两个学科类别, 与FoR 分类结果保持相对一致。
文章2(UT: 000413247900053)介绍了一种人工智能算法, 在Dimensions 数据库中被分配至人工智能和机器学习两个类别中, 而在本研究所提出的方法中被判断为计算机科学/ 信息技术领域。
文章3(UT: 000441673400035)研究了一种低温扫描电镜绘图方法, 是材料科学和物理化学领域的前沿创新, 同样可以运用本研究所提出的方法予以准确识别。
对于发表在具体学科期刊上的文章, 本研究提出的方法同样可以相对准确地判断其研究主题。
文章4(UT: 000262300600010)论证了“具有正曲率算子的流形是空间形式”, 发表于世界数学界最顶尖期刊之一的Annals of Mathematics 上。4 种学科分类方法均将其归入纯数学领域, 表明该篇文献无论是在发表期刊还是在知识基础上都严格遵循数学领域的研究范式。
文章5(UT: 000263319600062)来自多学科化学期刊Journal of the American Chemical Society, 基于单篇论文的分类方案予以更为具体的学科类别。运用本研究所提出的方法不仅可以识别出其可以划分为材料科学和应用物理学, 还补充了“P6-固体、流体与等离子体物理学” 这一学科类别, 契合该文中“抑制剂的化学位移扰动的幅度和方向模式的分析”。
文章6(UT: 000261996400002) 发表于Bioin?formatics 这一生物信息学领域的顶级期刊。该期刊涵盖了生物化学研究方法、生物工程学和应用微生物学等在内的5 个WoS 分类, 分属于4 个ECOOM学科领域。以该期刊出版的文献为例, 基于期刊映射的学科分类方法将全部期刊类别分配给了文章6, 而从单篇论文本身的研究内容出发, 则被认定是生物化学/ 生物物理学/ 分子生物学和微生物学的研究成果。
以上讨论表明, 与基于期刊的学科分类方法相比, 本研究提出的方法从目标文献的知识来源视角出发, 通过对目标文献知识基础的学科结构进行测度, 进而为其分配1 个或多个具体的学科类别, 使得分类结果具备较高的准确性。因此, 本研究方法不仅弥补了仅依据期刊映射得到的过于宽泛的结果,而且在处理发表于多学科期刊上的论文或者具有跨学科属性的论文时表现出显著优势。与同样为单篇论文学科分类方法的FoR 分类相比, 本研究方法的分类结果与其在学术论文的研究主题识别上有相对一致性。然而, 加权多代参考文献的论文分类方法以文献的学科类别为评判依据, 相较于论文的主题文本而言, 数据可得性更高, 且操作复杂度更低,因而是一种更为简便的学科分类方案。此外, 本研究方法的基准学科类别不受限制, 可适用于不同的学科分类体系中, 兼容性相对更好。
3 学科分类的应用场景
学科分类方法的可靠性不仅取决于典型数据分类结果的准确性, 还取决于其对不同分析层次的适用性、就不同目的的灵活性以及解释与复制的简易性[33] 。为探究本研究方法的实际应用效果, 本研究借助前二代参考文献来实现目标文献的学科类别归属判定, 并从不同学科领域和不同类型期刊层面的单篇论文分类的应用场景予以探讨。
3.1 不同学科领域的论文学科分类
本研究以WoS 核心合集收录的发表于1999—2018 年的学术论文作为研究对象, 根据论文发表期刊所在学科, 将文献划分至ECOOM 的16 个学科领域中。在此基础上, 运用不同的权重设置规则和多学科科学处理策略, 探究不同参数设置条件对分类结果的影响, 进而全面分析基于多代参考文献的单篇论文学科分类方案在不同学科领域的表现。
如表6 所示, 展示了不同领域文献的覆盖率分布情况, 其中覆盖率代表成功分配的文献数占该领域文献总数的比重。不同学科领域因其研究范式和知识结构特征各异, 在基于多代参考文献的主题分配下得到了不同的结果。其中, 社会科学Ⅱ(经济、政治和法律科学)(L)的覆盖率最高, 近97%的学术论文被确定学科类别归属, 其次为数学(H)。但是, 生物医学研究(R)和化学(C)的分配成功率较低, 在各类参数条件中, 平均约16%的学术论文处于待定状态。值得注意的是, 以上两个学科的覆盖率甚至低于多学科科学(X0)的覆盖率(85%),这在一定程度上表明生物医学研究和化学领域文献的跨学科性更为显著, 导致更多文章无法被归入特定学科类别。而就多学科期刊上的文章的主题分配问题而言, 结果显示, A3 和A4 策略的覆盖率略胜于A1 和A2, 说明在计算比重前后剔除多学科科学(X0)可以在一定程度上提升分配效果。
在5 种不同的权重设置规则中, W1 在各学科领域上的表现相对更佳, 平均覆盖率超过90%。但是, 单独使用W2~W5 的权重分配方案通常会导致较低的覆盖率。为进一步提高分配效果, 本研究进一步提出了(W1+W2)和(W1+W2+W5)这两种扩展方案, 前者在W1 的基础上补充W2 的结果,后者统筹考虑了3 种权重方案的分配结果。数据显示, 当使用(W1+W2) 时, 平均覆盖率为93%,生物医学研究(R)的覆盖率更是显著提升了5%;当权重规则为(W1+W2+W5)时, 平均覆盖率高达96%。由此可见, 权重系数叠加的方式有效地提高了分类方法在不同学科领域的适用性。
对于少量无法分类的文献, 本研究进一步分析了它们的特征, 主要涉及以下原因: ①文献没有参考文献; ②参考文献发表时间早, 超出了数据库检索范围, 即发表于1991 年之前; ③大部分参考文献所在期刊没有被WoS 收录, 因而这些参考文献没有WoS 学科分类, 导致无法映射至ECOOM 学科类别中; ④文献是跨学科研究, 即整合不同学科来源的知识以解决研究问题的学术论文, 其参考文献中各个学科均不占主导地位。
3.2 不同类型期刊的论文学科分类
本研究进一步遴选了3 本多学科领域期刊(Nature, Science, Proceedings of the National Acade?my of Sciences(PNAS)) 和3 本信息科学与图书馆学领域期刊(Journal of the Association for InformationScience and Technology(JASIST), Journal of Informe?trics ( JOI ), Scientometrics ( SCIM )), 获取其在1999—2018 年发表的全部学术论文及其多代参考文献, 从期刊层面展开讨论。
如表7 所示, 描绘的各期刊在不同参数条件下的学科分类情况, 可知多学科领域期刊的平均覆盖率(85%)显著低于信息科学与图书馆学领域期刊,这与多学科期刊本身广泛的研究领域和多元的学科背景息息相关。其中, A2 条件下的覆盖率相对更低, 此时仅有约79%的Nature 文献可以被划分至细粒度学科中。与上一节学科领域的比较结果类似, A3 和A4 可以显著提升多学科期刊上文献的被分配概率, Nature 的覆盖率提高至近89%。而当权重设置为(W1+W2+W5)时, 多学科期刊的覆盖率达到95%以上, 表明扩展方案是提高分类覆盖率的可靠途径。此外, 研究也发现发表在信息科学与图书馆学领域期刊上的学术论文也有部分属于跨学科研究, 难以归属到特定的学科类别中。
为了进一步挖掘上述6 本期刊的學科类别分布详情, 本研究分析了在(W1+W2+W5)和A4 的条件下, 各期刊论文的学科类别数量分布如图4 所示。总体而言, Nature、Science 和PNAS 的学科数量分布情况十分接近, 尽管以上期刊属于多学科范畴, 但超过40%的论文归属单一学科, 而同时涵盖3 个学科领域的文献占比约为20%。以上结果说明, 发表于多学科期刊上的文献未必具有多学科的研究背景, 基于多代参考文献的学科分类方案更加聚焦于论文本身, 可以合理细分此类文献。信息科学与图书馆学的期刊文献则呈现出不同的分布情况,有大量论文被归类于两个学科, 尤其是发表于JOI期刊上论文。一方面, 信息科学与图书馆学是一门跨学科广度大、强度高的学科, 其知识基础来源十分广泛[42-43] ; 另一方面, 此领域期刊往往同属于计算机科学/ 信息技术(E1)和教育与信息(Y1)等学科, 导致诸多参考文献被映射至上述两个学科。
进一步, 本研究追溯了各期刊文献的具体学科类别, 如图5 所示。可以看出, 多学科期刊上所发表论文的学科类别十分丰富, 其中生物化学/ 生物物理学/ 分子生物学(B1)、细胞生物学(B2)和遗传与发展生物学(B3)是此类期刊的主要研究领域。Nature 和Science 都十分关注应用化学与化工(G2),而PNAS 更关注神经系统科学与精神(病)药理学(N1)和微生物学(Z3)。信息科学与图书馆学的3本期刊呈现出相似的结果, 教育与信息(Y1)和计算机科学/ 信息技术(E1)占据了主要位置, 也有一定数量的文献被纳入商业/ 经济/ 规划(L1)、心理学与行为科学(N2)等学科范围内。这说明该领域文献以本领域学科为主, 并倾向于借鉴管理学、心理学等相关领域的知识和技术。
4 结论与讨论
当前单篇论文的学科分类系统大多是在期刊层面上定义的, 可以高效便捷且相对准确地对学科属性明晰的文献进行分类。但是由于期刊的映射方法过于宽泛, 因此无法辨识发表于相同期刊文献的研究主题差异, 且在多学科或者综合性期刊文献的处理上存在困难[23] 。此外, 随着学科边界日益模糊,研究人员向其他学科领域期刊投稿的现象愈发普遍, 仅仅依靠期刊对文献的研究主题进行界定存在局限。
本研究提出了一种基于多代参考文献的单篇论文学科分类方法, 其核心是挖掘目标文献的多代参考文献学科信息与结构, 通过一系列参数化模型和推导程序, 将单篇学术论文归入1~3 个学科类别中。本研究以1999—2018 年发表的WoS 文献为研究对象, 首先对单篇论文的分类结果进行比较评估,然后从学科领域和期刊层面分别验证了该方法的应用价值。与基于期刊的学科分类方法相比, 本研究提出的方法在单篇论文层面构建了与当前科学研究结构紧密匹配的、更具兼容性的学科分类方法, 整体而言, 其优越性主要体现在以下3 个方面:
第一, 该方法基于单篇论文层级而不是期刊层级, 因此它保留了来源于同一期刊的文献之间潜在的学科差异, 并且可以捕捉单篇论文更细致的研究主题。实践证明, 期刊的学科类别与其出版文献的研究领域并非完全一致, 因而基于期刊的学科分类方法存在误判的可能。相较而言, 本研究提出的方法从文献的知识来源视角出发, 以其多代引文的学科分类作为参考, 进而为单篇论文分配1~3 个主题, 其分类结果更契合文献研究内容, 具有一定优越性。
第二, 该方法可以有效解决来自多学科期刊的文献学科分类问题。传统的基于期刊的分类方法将发表于多学科期刊或者综合性期刊的论文标记为多学科论文, 显然忽视了文献自身的学科属性。通过运用不同的权重设置规则和多学科科学处理策略,本研究提出的加权多代参考文献的学科分类方法将可分类的论文占比提高到95%, 在一定程度上解决发表在覆盖面广、出版主题模糊的多学科期刊上文献的学科细分问题。
第三, 该方法为识别跨学科论文提供了一种可行方案。本研究选用的学科类别规模合适, 并允许将单篇论文分配至多个研究领域, 符合当代科学发展中跨学科性日益凸显的趋势。若一篇论文无法划分到1~3 个学科类别中, 可推测出其参考文献的学科跨度十分广泛, 且没有学科占主导地位, 表明这类论文具有显著的跨学科性。
然而, 本研究提出的基于多代参考文献的单篇论文学科分类方案完全依赖于文献引用关系, 也存在诸多局限。其一, 该方法以参考文献为基础, 因此只能應用于有参考文献的出版物, 这使得许多早期发表的论文因没有参考文献或参考文献没有被WoS 收录而无法进行分类, 而那些只有少量参考文献的出版物容易被错误划分而导致偏差; 其二,参考文献具有学科分类的出版物占比在不同领域之间存在较大差异, 例如在艺术与人文科学中, 仅有54.6%的文献含有WoS 检索的参考文献, 而该比例在生物科学(一般生物学; 细胞及亚细胞生物学; 遗传学)中高达99.4%, 这会使得某些领域文献的学科分配效果不佳; 其三, 本研究使用的基准学科仍然依赖于WoS 学科分类, 无法避免WoS 期刊分类错误的根源性漏洞以及ECOOM 学科类别的映射偏差, 最终导致分配结果出现偏差甚至错误。
总体而言, 本研究提出的方法不仅实现了多学科期刊文献的学科类别划分, 同时也为基于期刊的单篇论文学科划分提供了补充方案, 进而可以为面向国家、机构、个人等多元主体的科研评价与相关研究提供新的方法参考。然而, 参考文献数量及其学科分类情况会直接影响文献分类的精度。因此,在后续的研究中, 除了解决参考文献层面的文献数据问题之外, 还需要针对方法本身进行优化。例如,可以配合直接引用或耦合分析等方法进一步提升分类效果, 或结合论文的主题文本数据进行综合评估等。