被引类指标调整的科技论文学术影响力研究

2014-01-16郭强，赵瑾

图书馆理论与实践 2014年12期

关键词：指标值分值影响力

●郭强，赵瑾

（1．郑州大学信息管理系，郑州450001；2．中国人民解放军军官学院军事运筹教研室，合肥230031）

被引类指标调整的科技论文学术影响力研究

●郭强1，赵瑾2

（1．郑州大学信息管理系，郑州450001；2．中国人民解放军军官学院军事运筹教研室，合肥230031）

学术影响力；多属性描述

在对论文影响力与其施引期刊影响力之间的相关性进行考察的基础上，对论文发表三年后的被引次数以及最大年度被引次数所表征的论文影响力进行探讨，对相应的论文影响力描述以及影响力分值的分布情况进行了考察。

对科技论文的学术影响力进行考察时，由于论文的被引次数与论文的学术影响力之间具有较好的相关性，而且网络环境下期刊以及论文被引次数的获取具有便捷性，所以，能够将论文被引次数的绝对量作为论文学术影响力的侧面表征以及描述指标。由于论文的下载次数与被引次数之间存在差异，在论文的影响力指标中也需考虑论文的下载情况。在此基础上应纳入论文的相关被引类指标以及下载类指标以尽可能地满足对指标的全面性要求，而且当论文被具有不同影响力的期刊引用时，该论文所获得的影响力也会有所不同。因此，需要在被引次数绝对量的基础上对施引期刊的差异进行探讨。而且在对论文的影响力与其施引期刊的影响力之间的相关性进行考察的基础上，能够得到由被引次数的绝对量所表征的论文影响力与其施引期刊影响因子之和之间的正相关性，同时，也应对施引期刊影响力描述的全面性进行改进，或者是在施引期刊影响因子的基础上纳入相关的期刊影响力指标。类似地，在对论文影响力与施引期刊整体影响力相关性考察的基础上，也能够得到由论文被引次数的绝对量所体现的论文影响力与其施引期刊影响力分值之和之间的相关关系。其中，施引期刊的整体影响力由施引期刊的影响力描述体系及其影响力分值来得到。本文希望对考虑施引期刊影响力差异时的其余被引类指标所表征的论文影响力进行探讨，并对相应的论文影响力分值的分布与排序变化情况进行考察，由此对所得的论文影响力多属性描述的合理性进行侧面检验。同时，希望对施引期刊整体影响力表征的选取进行进一步探讨。

1 相关性考察

论文的影响力与其施引期刊的影响力之间具有一定的正相关性，因为施引期刊的影响力对被引文献的影响力具有促进作用，能够对两者之间的相关关系进行考察。其中，论文的影响力分值仍然是按照文献［1］中的论文影响力指标以及考虑论文的下载情况来得到。同时，选取施引期刊的整体影响力为论文施引期刊的影响力分值的累计和。由于论文影响力的被引类指标，包括论文总的被引次数与论文在发表后三年中的被引次数以及最大年度被引次数，经验考察的结果显示，这些指标往往具有较好的相关性。所以，如果由这些指标所表征的论文影响力与施引期刊影响力之间具有正相关性，那么，当不考虑其他被引类指标时，仅由论文发表三年后的被引次数指标与其余指标所表征的论文影响力也会与施引期刊的影响力之间具有这种相关关系。由于其他指标能够分别与论文所属期刊的影响力以及论文的下载情况相对应，在这些指标与论文的被引类指标之间存在独立性的假设基础上，也能够得到仅由论文发表三年后的被引次数所表征的论文影响力能够与其施引期刊的影响力之间的正相关性，从而能够在这两者之间建立线性回归关系，假设c=rk+b，其中，c为没有考虑施引期刊影响力差异时的论文在发表三年后的被引次数所表征的论文影响力，k为施引期刊的整体影响力。当考虑施引期刊的影响力差异时，可以得到由论文被引次数的绝对量所体现的论文影响力与其施引期刊整体影响力之间的正相关性，以及两变量之间的回归关系为d=r’k+b’。其中，d为被引次数的绝对量所表征的论文影响力。那么，由单位被引次数所体现的论文影响力能够等于r’乘以该施引期刊的影响力分值并与b’进行求和。如果论文发表三年后的被引次数所体现的论文影响力等于其中各个单位被引次数所体现的论文影响力的累计和，那么，当考虑施引期刊的影响力差异时，由论文在其发表三年后总的被引次数所表征的论文影响力能够为c’=r’k’+nb’。其中，n为论文发表三年后的被引次数，k’为论文发表三年后施引期刊的影响力分值之和。此时，由该指标所体现的论文影响力也能够与上述没有考虑施引期刊差异时该被引次数所表征的论文影响力具有较好的相关性，从而在一定程度上与直观认识相一致。毕竟论文的被引次数与其施引期刊的影响力分值之和之间会具有其正相关性。因为当论文被具有较高影响力的期刊引用时，论文所获得的影响力也会相对较高，从而能够为论文带来更多的下载次数并使论文具有被引用的可能。同时，系数r’与b’能够由被引次数的绝对量所体现的论文影响力与施引期刊整体影响力之间的回归关系来得到。如对于情报科学期刊在2004年6月出版的论文而言，可以得到这两个变量之间的回归关系为d=1.484k+0.173，并且判定系数能够达到0.780。其中，论文被引次数的绝对量与施引期刊影响力分值之和均取为该两变量均值化后的取值。需要指出的是，利用所选取论文的相应指标的平均值来得到均值化后的取值。实际上，需要调整所选取的论文范围，从而使得对于这种回归关系的考察以及对其中指标取值的确定能够具有一般性，或者是利用所选取的论文的指标平均值来对具有统计意义的论文范围的相应指标值的平均值进行近似。另外，在所得的回归关系中，论文的被引次数由CNKⅠ的镜像站版得到且统计时间为2011年10月。需要指出的是，假设图书情报类期刊论文的最大引文年限为3年，而且选取上述论文以及该统计时间是认为对论文的考察时段足够长，从而能够利用在该统计时间的被引次数来对论文总的被引次数进行近似。同时，施引期刊的整体影响力是利用对施引期刊的影响力分值进行求和来进行表征，在CNKⅠ的镜像站版中能够得到论文的施引期刊。在对施引期刊的影响力进行考察时，仍然选取期刊在其施引年度的影响因子与被引半衰期，以及期刊在其施引年度的被引次数与下载次数作为期刊影响力指标，并且利用这些指标的相对值来对期刊的影响力进行描述。［1］对于图书情报类期刊论文而言，由于其施引期刊的范围会相对较为集中，所以，在这里是利用该领域中的期刊在施引期刊年度指标值的平均值来对期刊相应指标值的平均值进行近似。同时，也由于施引期刊范围的相对集中性可以近似地认为不同施引期刊的指标值之间会具有一定的可比性。然而，在这里没有考虑当施引期刊属于不同学科时不同期刊的指标值之间的可加性。因此，上述指标的相对指标值是由这些指标值分别与图书情报类期刊在施引年度的对应指标的平均值进行相除来得到，并且图书情报领域的期刊划分仍然按照CNKⅠ镜像站中的期刊分类来得到。另外，在对指标的权重进行考察时，由于相对于所选取的指标而言，上述论文的施引期刊的数量会相对较少，因此，仍然利用判断矩阵来对指标的权重进行探讨。在对指标的相对重要性进行考察的基础上，能够初步得到指标的判断矩阵并且所得判断矩阵的一致性比率能够小于0.1且为0.039，由此能够接受该判断矩阵的不一致性。同时，该矩阵的最大特征值与相应的特征向量分别为8.391以及0.243、0.143、0.074、0.030、0.251、0.151、0.074、0.033，将该特征向量作为上述影响力指标的权重，并取施引期刊的影响力等于这些指标的线性加权求和。其中的指标值是取指标均值化后的取值且该均值化后的取值是利用上述选取的论文的相应指标的平均值来得到，那么，由此能够得到论文的各个施引期刊的影响力分值，以及能够对每篇论文的施引期刊的影响力分值进行求和。需要指出，这里的求和需要建立在不同期刊的指标具有可比性的基础上。根据上述论文被引次数的绝对量与其施引期刊整体影响力之间的回归关系，对于所选取的论文而言，能够得到当考虑施引期刊的影响力差异时，由论文发表三年后的被引次数所体现的论文影响力c’=1.484k’+0.173n。其中，n为发表三年后总的被引次数，k’为相应的施引期刊影响力分值之和。

进一步也能够得到，当考虑施引期刊的影响力差异时，由论文的最大年度被引次数所表示的论文影响力。如在论文影响力与其施引期刊整体影响力之间具有相关性的基础上，由于论文的被引总量与发表三年后的论文被引次数以及论文的最大年度被引次数之间具有较好的相关性。所以，当在论文影响力指标中不考虑前两个指标时，不会显著影响所得论文影响力与施引期刊影响力之间的相关性。同时，其余的论文影响力指标分别与论文的下载情况以及论文所属期刊的影响力相对应。因此，在假设论文的被引情况与论文的下载类指标，以及论文所属期刊的影响力指标之间具有一定的独立性的基础上，在这里近似地认为由论文的最大年度被引次数所体现的论文影响力与论文施引期刊的整体影响力之间相关关系的存在，从而建立这两者之间的回归关系为m=sk+a。其中，m为没有考虑施引期刊影响力差异时由论文最大年度被引次数所表征的论文影响力。另外，由上述论文被引次数的绝对量所表示的论文影响力与施引期刊整体影响力之间的回归关系d=r’k+b’，同样能够得到由单位被引次数所表征的论文影响力等于r’与该施引期刊影响力分值的乘积并与b’进行求和。那么，当考虑施引期刊的影响力差异时，如果能够假设由论文最大年度被引次数所体现的论文影响力等于其中各单位被引次数所表征的论文影响力之和，此时由最大年度被引次数所体现的论文影响力能够为m’=r’l’+n’b’。其中，m’为考虑施引期刊差异时由论文的最大年度被引次数所表征的论文影响力，l’为最大被引年度中施引期刊的影响力分值之和。当出现相同的施引期刊时，对该施引期刊的影响力分值进行累计，n’为论文的最大年度被引次数。对于上述所选取的论文而言，可以得到由论文的被引次数的绝对量所表征的论文影响力与其施引期刊整体影响力之间的回归关系为d=1. 484k+0.173。因此，由论文的最大年度被引次数所体现的论文影响力能够等于m’=1.484l’+0.173n’。

上述论文发表三年后的被引次数以及论文最大年度被引次数所表征的论文影响力是建立在论文影响力与其施引期刊影响力之间具有相关性的基础上，如对于所选取的2004年6月份出版的情报科学期刊论文而言，能够得到这两者之间的等级相关系数为0.718，且该两变量能够在0.01水平下在总体上等级相关。其中，对论文的影响力分值进行确定时，需要对指标的权重进行考察，仍然选取2004年6月以及2005年6月出版的图书情报期刊论文作为考察对象。由于论文的数量相对较多并且指标之间具有一定的相关性，所以，仍然对指标的主成分进行考察并由此得到指标的权重。在对各论文影响力指标进行均值化后能够得到这些指标的相关系数矩阵，在所得的总方差解释表中与前两个主成分对应的矩阵特征值分别为7.827、1.598，相应的方差累计百分比能够达到85.682%。而且各影响力指标的公因子方差也能够较为接近，如公因子方差的平均值为0.857且标准差仅为0.110。由此能够提取前两个主成分。同时，根据各指标与主成分之间的简单相关系数，这两个主成分能够分别与期刊类指标及论文类指标相对应，这也与直接从指标间相关系数的取值出发得到的指标划分相一致。进一步利用与主成分相对应的矩阵特征值及各影响力指标与这两个主成分之间的相关系数，可以得到主成分以及论文的影响力分值与各论文影响力指标之间的线性关系，其中的指标值是各个指标均值化后的取值，且相对指标的取值是利用指标值与同年度论文的相应指标值的平均值进行相除来得到。由于上述选取的论文均属于图书情报领域，所以，能够在一定程度上保证不同论文指标值之间的可比性。由于能够得到各影响力指标值的平均值，同时，论文施引期刊的影响力仍然利用对其施引期刊的影响力分值进行求和来进行表征，由此对于上述选取的情报科学期刊论文而言，每篇论文均有论文影响力分值与施引期刊的整体影响力与其相对应。所以，能够对这两个变量之间的相关情况进行考察。在这里采用等级相关系数的原因是由于直观上这两个变量的分布性质均不能够与正态分布相吻合。毕竟相对较多的论文的影响力分值会相对较低，同时，也会有相对较少的论文的施引期刊会具有相对较高的整体影响力。需要指出，这里仅对论文施引期刊的影响力进行考察，意味着没有将论文被学位论文及会议论文引用的情形包含在内。然而，对论文的总体被引情况进行反映时，需要将这两种施引情形纳入在内，由于学位论文、会议论文的影响力描述与施引期刊影响力表征之间的可比性，所以，在这里没有将这两种情形考虑在内。同时，在对论文的影响力分值进行考察时，将论文的总被引次数作为论文的影响力指标，包括了学位论文、会议论文引用的情形。因此，这里的论文影响力分值与施引期刊的影响力分值并没有建立在相同的被引次数基础上，而且也需要调整所考察的论文范围，使得对两变量相关性的考察能够具有一般性。此外，需要对施引期刊整体影响力的表征进行探讨。如选取施引期刊的影响分值的最大值来对施引期刊的影响力进行描述时，能够得到论文影响力与其施引期刊影响力之间的相关系数为0.566，而当选取施引期刊影响力分值的平均值作为表征时，该两变量之间的相关系数为0.307，并且在0.1水平下该两变量在总体上等级相关。可以看出，此时，两变量之间的相关系数相对较低并且显著性水平也仅为0.1，由此需要对施引期刊影响力分值的分布情况作进一步的考察，并使得所选取的表征能够对论文被引情况中的施引数量以及影响力大小均能进行有效地反映。除了论文影响力与施引期刊影响力之间的相关性之外，上述论文发表三年后的被引次数及最大年度被引次数所表征的论文影响力也需要建立在论文影响力指标中被引类指标之间具有相关性的基础上。如对于选取的在2004年6月以及2005年6月出版的图书情报论文而言，能够得到被引类指标之间的简单相关系数最小值为0.922，并且均能够在0.01水平下在总体上具有相关性。同时，需要对变量之间的等级相关性以及指标取值的分布情况进行考察。

2 影响力描述

在对论文的影响力进行考察时，能够考虑由论文被引次数的绝对量与论文发表三年后的被引次数以及最大年度被引次数所分别体现的论文影响力，并且当考虑施引期刊的影响力差异时，由论文被引次数的绝对量所表征的论文影响力能够取为施引期刊的影响力分值之和。同时，由后两者所体现的论文影响力，能够分别与论文发表三年后施引期刊的影响力分值之和及最大被引年度中施引期刊的影响力分值之和相对应，能够进一步对论文影响力指标进行主成分考察，并由此对指标的权重以及论文的影响力分值进行探讨。同时，其余的影响力指标仍然选取为论文所属期刊的影响因子与论文的下载次数以及论文的年均下载次数，而且需要考虑这些指标的相对指标。［1］相对指标的取值仍然是利用2004年6月出版的图书情报类期刊论文的对应指标值的平均值来得到。

在这里，由于仅对在2004年6月出版的情报科学期刊论文的施引期刊的影响力进行了考察，所以，在对指标的权重进行探讨时，由于这些论文属于相同的期刊而具有相同的所属期刊影响因子，由此在这里是利用指标的判断矩阵来对指标的权重进行确定。如在对指标相对重要性进行考察的基础上能够初步得到这些指标的判断矩阵。该矩阵的特征值与特征向量分别为8.623以及0.254、0.138、0.037、0.181、0.234、0.063、0.038、0.055。同时，该判断矩阵的一致性指标为0.089，相应的一致性比率等于0.063并且小于0.1。由此可以接受该初步得到的矩阵的不一致性，并将该特征向量作为上述选取的论文影响力指标的权重，那么，在假设所选取的论文影响力指标具有一定的独立性的基础上，取论文的影响力分值等于这些指标的线性加权求和。同时需要考虑的是，指标与论文影响力之间的正相关性以及假设这些指标对于论文影响力进行反映时能够具有一定的全面性。其中，对指标进行求和时指标值仍然取为指标均值化后的取值，其原因是均值化后不会改变上述影响力指标的符号，由此能够对指标值与论文影响力分值的累计量以及累计量之间的关系进行考察，同时，也能够使得影响力指标取值之间具有可加性，由此能够根据各指标的取值来得到论文的影响力分值以及对该影响力分值的分布情况进行考察。

直观上对于特定的主题而言，相对较少的论文会具有相对较高的论文影响力，相对较多的论文影响力分值会相对较低。如果将上述选取的情报科学期刊论文按照其影响力分值进行降序排列，并对论文的影响力分值以及相应的论文数量求累计和，那么能够对所得累计量之间的关系进行考察并对上述论文影响力分值的合理性进行检验，或者是这种影响力分值在论文中的分布情况应当与直观认识相一致。由此从侧面对由论文发表三年后的被引次数以及由最大年度被引次数所分别表征的论文影响力的合理性进行探讨。需要指出的是，在确定论文的影响力分值时，除了被引类指标之外，指标均值化后的取值是由2004年6月与2005年6月出版的图书情报类期刊论文的相应指标的平均值来得到。对于被引类指标而言，由于仅对2004年6月出版的情报科学期刊论文的施引期刊的影响力进行了考察，所以，被引类指标均值化后的取值是仅由在2004年6月出版的情报科学期刊论文的相应指标的平均值来得到，需要对考察的论文范围进行调整以保证均值化后的指标值之间的可比性。

在此基础上，希望能够对被引类指标所体现的论文影响力的合理性进行初步探讨，如能够得到论文累计量与相应的论文影响力累计分值之间的关系（如图1所示）。

图1 论文累计量与论文影响力累计分值之间的关系图

在图1中，横轴为论文累计量的对数，纵轴为论文影响力的累计分值。在得到论文的影响力分值时需要对最大年度被引次数所表征的论文影响力进行考察。当具有最大被引次数的年度为多个时，对这些年度进行任意选取并由所得年度中的施引期刊的影响力分值之和来得到最大年度被引次数所表征的论文影响力。由图1可以看出，论文影响力分值在论文中具有一定的布拉德福分布特征。如取分区数为3时，能够得到各分区影响力累计分值的平均值为14.687，而标准差仅为1.109，且各分区中论文累计量的相继比的平均值为1.683且标准差仅为0.024。当取分区数为5时，同样能够得到所得各分区中的影响力累计分值的平均值与标准差分别为8.812、0.603，而各分区中论文数的相继比的平均值为1.365且标准差为0.227。此时可以看出，在末尾分区处相对偏高的论文数相继比或者是末尾分区中的论文数量会显著增加，由此意味着在末尾分区中会有较多的论文具有相对较低的影响力分值。由图1也可以看出，在论文累计量偏高的区域论文影响力累计分值的增速会有所下降。另外，当分区数取为3时，能够得到核心区与非核心区的论文累计量与影响力累计分值之间的拟合关系分别为p=2. 909q0.911与p=18.779Ln（q）-22.793。其中，p与q分别为论文影响力的累计分值以及论文累计数量。由此，对于这里得到的论文影响力分值而言，影响力分值在论文中的分布情况能够在一定程度上与布拉德福分布的要求相吻合，同时，也能够与相对较少的论文会具有相对较高的影响力分值相一致。另外，分别考虑施引期刊差异以及仅考虑被引次数的绝对量时的论文影响力分值进行比较。如在这两种情形下由论文发表三年后的被引次数以及由最大年度被引次数所表征的论文影响力会有所差异，能够对这种不同所造成的论文影响力分值的排序变化情况进行考察，从而对这里的影响力多属性描述的合理性进行探讨。

当不考虑施引期刊的差异时，仍然选取论文的被引类指标与论文所属期刊的影响力及论文的下载情况对论文的影响力进行反映。［1］这些指标包括论文的被引总量、论文发表三年后的被引次数、最大年度被引次数、论文所属期刊的影响因子、论文所属期刊的相对影响因子、论文的下载次数、论文的年均下载次数以及相对年均下载次数。同时，仍然利用指标的判断矩阵对指标的权重进行考察，并且将论文的影响力分值取为对这些指标的线性加权求和，其中的指标值为各指标均值化后的取值，并且该取值是由2004年6月与2005年6月出版的图书情报类期刊论文的相应指标的平均值来得到。由此对于所选取的情报科学期刊论文而言，在仅考虑被引次数绝对量的情形下，能够得到每篇论文的影响力分值，能够进一步将论文按照该影响力分值进行降序排列，类似地根据上述考虑施引期刊影响力差异时的论文影响力分值也能够得到论文在该情形下的影响力排序，由此能够对两种情形下的论文排序差异进行考察。

图2 被引次数与论文影响力排序值差异之间的关系图

在图2中，横轴为论文的被引次数（考虑施引期刊差异与仅考虑被引次数的绝对量时，论文的影响力排序会有所差异），纵轴为对应被引次数范围内的论文排序值差异的平均值。能够注意到，当被引次数相对较高时，论文影响力的排序情况没有发生显著变化，随着被引次数的减少，论文影响力排序的变化幅度也会有所增加。当被引次数相对居中时，考虑施引期刊差异时的论文排名在总体上会有下降趋势，或者是论文的排序值会有所增加。而当被引次数相对较低时，考虑施引期刊的差异会使得论文的影响力排名具有上升趋势。从直观上在被引次数相对较高的区域论文的施引期刊在总体上可能也具有相对较高的影响力。所以，建立在施引期刊影响力分值基础上的论文发表三年后的被引次数与最大年度被引次数所表征的论文影响力也会相对较高。而在考虑施引期刊差异时论文也会具有相对较高的影响力分值。同时，具有较高影响力分值的论文数量会相对较少，在高影响力分值区域中论文的分布会较为分散，这也是不会显著改变论文影响力排名的另一个原因。另外，从直观上当论文的被引次数相对较低时，考虑施引期刊的差异在总体上对论文的影响力排序会具有提升作用。并且对于论文发表三年后的被引次数以及最大年度被引次数所体现的论文影响力而言，当考虑施引期刊的差异时，这些论文影响力的排名与没有考虑施引期刊的差异相比在总体上也均会有所上升。同时，在该区域中论文的分布会相对较为密集。所以，影响力分值的变化也会使得论文的排序值具有相对较高的变化幅度。在被引次数相对居中的区域，由于每篇论文的施引期刊的影响力均会有其分布特征。所以，当考虑施引期刊的差异时，原先具有相同被引总量的论文的影响力分值会出现分化，由此会使得在该区域中论文的影响力排名总体上会出现下降趋势。对于论文发表后三年的被引次数以及最大年度被引次数而言，如果考虑施引期刊的影响力差异，那么，由这两个变量所表征的论文影响力也会出现分化，从而成为这些论文影响力的排名会具有下降趋势的因素，由此对合成的论文影响力的排名也会具有降低作用。

当分别考虑施引期刊的差异与仅考虑被引次数的绝对量时，这两种情形下的由论文发表三年后的被引次数以及最大年度被引次数所表征的论文影响力会有所不同。在这里，希望对这种不同对论文影响力描述的影响及对论文影响力分值的分布情况进行初步探讨。另外，需要指出的是，仍然需要调整论文的考察范围，使得对该论文影响力多属性描述的考察具有有效性和一般性。

［1］金晶，等.不同学科领域自然科学论文学术影响力评价与比较的可行性研究［J］.科技管理研究，2010（14）：279－284.

G255.51

1005－8214（2014）12－0052－05

郭强，男，教授，博士，研究方向：信息管理理论分析及绩效评估、系统复杂度评价，发表EⅠ检索及核心期刊文章多篇；赵瑾（1977－），男，博士，讲师，研究方向：复杂系统分析。

2014－01－08［责任编辑］阎秋娟