多属性学术评价方法鲁棒性及产生机制研究
2022-02-11俞立平张再杰
俞立平 张再杰
摘 要:[目的/意义]本文提出多属性学术评价方法鲁棒性问题,即尽管评价方法不同,但评价结果排序却大致不变,评价方法选择似乎变得不那么重要,研究其产生机制具有重要意义。[方法/过程]本文在理论分析的基础上,以JCR2019管理学期刊评价和线性评价、TOPSIS、因子分析3种评价方法为例,通过计算不同评价方法的实际权重,将其放在同一框架下进行比较。[结果/结论]研究发现,指标高度相关是多属性评价方法鲁棒性的根本原因,本质上是不同评价方法的实际权重组合对高相关指标评价不敏感;评价指标相关度越高,评价方法鲁棒性越严重;评价方法鲁棒性还受高相关指标数量、评价对象数量的影响;实际权重对于评价方法的选择具有重要的指导意义;一定要重视多属性学术评价方法鲁棒性现象。
关键词:学术评价;权重鲁棒性;评价方法鲁棒性;学术期刊
DOI:10.3969/j.issn.1008-0821.2022.02.014
〔中图分类号〕G302 〔文献标识码〕A 〔文章编号〕1008-0821(2022)02-0152-11
Research on the Failure of Multi-attribute Academic
Evaluation Method and Its Generation Mechanism
Yu Liping1,2 Zhang Zaijie3
(1.School of Statistics and Mathematics,Zhejiang Gongshang University,Hangzhou 310018,China;
2.Collaborative Innovation Center of Statistical Data Engineering,Technology & Application,
Zhejiang Gongshang University,Hangzhou 310018,China;
3.Guizhou Green Development Strategy High End Think Tank,Guizhou University of Finance and
Economics,Guiyang 550025,China)
Abstract:[Purpose/Significance]This paper proposes the failure of multi-attribute academic evaluation methods,that is,although the evaluation methods are different,the ranking of evaluation results has a certain degree of acceptability.The choice of evaluation methods seems to become less important.It is of great significance to study its generation mechanism.[Method/Process]Based on theoretical analysis,JCR2019 management journal evaluation was taken as example and linear evaluation,TOPSIS,and factor analysis were used.By calculating the actual weights of different evaluation methods,they were compared under the same framework.[Result/Conclusion]The study found that the high correlation of indicators is the root cause of the failure of the multi-attribute evaluation method.In essence,the actual weight combination of different evaluation methods is not sensitive to the evaluation of high correlation indicators;the higher the correlation of the evaluation indicators,the more serious the failure of the evaluation method;the failure of the evaluation method is also affected by the number of high correlation indicators and the number of evaluation objects;actual weights have important guiding significance for the choice of evaluation methods;we must pay attention to the failure of multi-attribute academic evaluation methods.
Key words:academic evaluation;weight failure;evaluation method failure;academic journals
在科技評价中,针对同一评价对象的评价结果必然存在差异。以世界大学评价为例,目前主流的世界大学排名包括英国泰晤士报、英国QS、美国新闻与世界报道、中国软科等,由于评价机构不同、评价数据不同、评价方法不同等原因,评价结果存在较大差异,导致同一所高校在不同的大学评价中排序并不一致。尽管对于不同评价机构的评价方法抱有不同看法,争鸣一直存在,但对于这种现象的存在,无论是学术界还是公众,均采取容忍态度。
一种现象是,对同一评价对象采用不同评价方法已经越来越普遍。为了更加全面地进行学术评价,采用指标体系进行多属性评价已经成为主流的方法。以学术期刊评价为例,目前采用的多属性评价方法包括因子—BP人工神经网络[1]、灰色关联分析[2]、主成分分析[3]、套索方法[4]、自由处置壳(FDH)[5]、结构方程模型[6]等。关于多属性评价方法的选择依据目前尚没有形成共识,这样就产生了不同评价方法不同评价结果问题,这似乎并没有影响学术评价的发展。
另一种现象是,不同评价方法评价结果存在高度相关。以大学评价为例,虽然评价体系和评价方法不同,但排在各大排行榜前列的中国大学基本上是一致的。此外,有研究表明,不同评价方法的大学评价结果之间存在高度的相关性[7]。这就促成人们思考一个问题,从宏观视角出发,评价体系与评价方法的重要性似乎也没有那么大,任何一种评价方法的结果似乎总体上可以接受,只要是不太挑剔。
两种现象说明不同评价方法之间存在着某种稳定机制。本文将这种现象称为评价方法鲁棒性,其表现主要体现在两个方面,第一是不同评价方法的评价结果存在一定的共识,使得评价方法的选择变得不那么重要了。第二是从多属性评价方法角度,没有一种方法有充分依据证明其是唯一合理的,也没有一种评价方法得到公认是学术评价中不宜采用的。如果借用灵敏度分析的视角,这其实也是评价方法某种情况下失灵的一种体现,即评价方法不同对评价结果表现出某种不敏感。
研究学术评价方法鲁棒性问题具有重要意义。首先,从理论上分析学术评价中多属性评价方法鲁棒性的原因和形成机制,有利于丰富情报学与科学计量学理论;其次,从应用角度,也为多属性评价方法的选择、提高学术评价的质量提供重要参考,从而降低学术评价的系统误差,提高学术评价的公信力与公平性。
1 文献综述
评价方法鲁棒性是本文提出的新的现象,相关领域缺乏研究。关于不同评价方法的稳定性、鲁棒性或灵敏度研究,李星明等[8]从评价指标角度分析了投资环境评价的灵敏度。张立军等[9]从无量纲化方法和样本容量两个方面分析度量综合评价模型的鲁棒性。李伟伟等[10]引入异常数据,比较不同赋权评价方法排序结果的变化程度。高晓红等[11]从信息提取视角对多属性评价方法进行分析,发现可组合出若干新的多属性评价方法,可用系统方差度量其稳定性,当无量纲化处理恰当时,复合信息提取有助于提高结果的稳定性。
关于不同多属性评价方法的比较研究,刘建昌等[12]比较了高校科技创新能力评价的几种方法,包括主成分分析、DEA、因子分析、层次分析、模糊综合评价、灰色关联等。吴忠谦[13]选取4个国际典型的国家科技竞争力评价方法,比较其理论基础、评价对象和具体指标。杨瑞仙等[14]从评价机构、评价目的、评價指标、评价角度等方面对国内外主要大学排名方法进行了比较。雷佳丽等[15]则比较了国内外智库评价方法,发现国内智库与国外智库评价相差较大。俞立平等[16]对科技评价中的加法合成、乘法合成、对数合成、代换合成方法进行比较,发现评价结果差距较大。俞立平等[17]还研究发现,除了线性评价方法,非线性评价方法之间难以进行比较。
从现有的研究看,关于多属性评价方法的稳定性研究有一些进展,研究视角包括评价指标、无量纲化方法、样本容量、异常数据、信息提取等。关于多属性评价方法比较研究,视角包括多属性评价方法、理论基础、指标体系、评价对象、可比性等。总体上,关于多属性评价方法鲁棒性的相关研究,在以下方面有待进一步深入:
第一,缺乏从多属性评价方法本身视角出发研究其鲁棒性,这方面的研究极为缺乏。多属性评价方法有几十种,找到一个分析框架比较困难,迫切需要从理论上加以推进。
第二,关于评价方法鲁棒性的表现、测度、产生机理缺乏深入系统的研究,加上学术评价目的不同、对象不同、指标体系不同、评价方法不同,这一切增加了研究的复杂性。
本文在理论分析的基础上,提出通过实际权重建立线性学术评价与非线性学术评价的比较框架,并以JCR2019管理学期刊为例,评价方法以线性评价、TOPSIS、因子分析3种有代表性的方法为例,通过岭回归与偏最小二乘法计算实际权重,并提出评价方法鲁棒性的测度方法,对高相关指标与全部指标评价方法鲁棒性程度进行比较,以分析学术评价方法鲁棒性的产生机制,最终得出结论。
2 理论分析与研究方法
2.1 多属性评价方法鲁棒性的理论分析
1)多属性学术评价方法的分类
从指标体系合并为评价得分的方法角度,多属性学术评价可以分为两大类,一类是线性评价方法,即通过一定方法赋权,然后对指标体系标准化后进行加权汇总,得到评价得分。另一类是采用某种数学原理进行合成,得到评价值,称为非线性评价方法,如图1所示。对于线性评价方法,普遍涉及权重,赋权方法包括主观赋权、客观赋权,或者结合主客观进行赋权,而对于非线性评价方法,有的涉及权重,如加权TOPSIS、灰色关联评价等,有的则不涉及权重,如主成分分析、因子分析等。
2)不同多属性评价方法的比较框架——实际权重
多属性评价方法目前已经有几十种,之所以存在评价方法鲁棒性,是因为这些评价方法之间可能存在某种潜在的共性。权重其实正是多属性评价方法共性的具体体现,对于线性评价方法与部分非线性评价方法,它们直接与权重相关,对于不涉及权重的非线性评价方法,其实也可以通过一定的方法得到模拟权重或实际权重,这样就建立了不同多属性评价方法的比较机制。
对于线性多属性评价方法,俞立平[18]提出评价赋权并不是真正的权重,因为不同评价指标标准化后均值并不相等,应该用评价赋权乘以标准化后指标的均值占整个评价值的比重表示权重,这就是线性评价方法的实际权重。
对于大多数非线性评价方法,俞立平等[19]提出可以通过对评价值与评价指标进行回归,然后根据回归系数大小进行归一化处理,得到各评价指标的模拟权重,或者实际权重。为了防止多重共线性,回归方法可以采用岭回归或偏最小二乘法。但是对于评价结果是排序的评价方法不能直接回归,需要经过特定的处理,如采用排序因变量模型进行回归。
通过以上两种方法的预处理,使得所有的多属性评价方法之间可以横向进行某种比较,或者说由于模拟权重或实际权重概念的引入,将所有非线性评价方法已经转换成线性评价方法,即评价值基本上可以视为评价指标按实际权重进行加权汇总的结果。
3)权重鲁棒性与评价方法鲁棒性的关系
权重鲁棒性是指不同评价指标大小排序如果基本一致时,即不同指标表现为“同增同减”时,无论权重组合如何变化,评价值的排序也会保持不变的一种现象,其根源主要是评价指标之间高度相关。
下面以k个高相关指标为例进行进一步说明,假设两个评价对象标准化后的评价指标值分别为P1,P2,…,Pk和Q1,Q2,…,Qk,指标权重为ω1,ω2,…,ωk,k为“同增同减”指标个数,则C为评价值,P和Q的评价结果为:
CP=ω1P1+ω2P2+…+ωkPk
CQ=ω1Q1+ω2Q2+…+ωkQk(1)
P和Q评价值之差为:
CP-CQ=ω1(P1-Q1)+ω2(P2-Q2)+…+ωk(Pk-Qk)(2)
假设P比Q优秀,由于评价指标存在“同增同减”现象,则有Pi′-Qi>0,此时权重组合ω无论如何变化,CP永远大于CQ。即权重组合对评价结果没有任何影响,这就是权重鲁棒性。
在多属性评价中,无论是线性评价还是非线性评价,均已经计算得到模拟权重即实际权重,那么权重鲁棒性在线性与非线性评价中同样存在。也就是说,当评价指标高度相关时,尽管多属性评价方法不同,即评价指标的实际权重组合不同,但对多属性评价方法的评价结果排序也不会产生太大影响,这就是多属性评价方法鲁棒性的根源,如图2所示。
4)评价方法鲁棒性的进一步分析
第一,高相关指标产生的权重鲁棒性是一种局部鲁棒性。即这种权重鲁棒性只会发生在高相关指标之间,当这些指标的实际权重总计较大时,容易造成评价方法鲁棒性。而当这些指标的实际权重总计较小时,不一定会产生评价方法鲁棒性。根本原因是其他低相关指标对整个评价值也会产生影响,这种影响大小在不同的多属性评价中相差较大。
第二,同一多属性评价可能存在多组互不相关的局部权重鲁棒性现象。比如X1、X2、X3指标之间高度相关,X7、X8之间也高度相关,但X1、X2、X3与X7、X8之间相关度较低。在这种情况下,评价方法鲁棒性与否取决于两组评价指标的实际权重总和,其越接近1,越可能存在评价方法鲁棒性。
第三,评价对象数量多少会影响评价方法鲁棒性。當评价对象较少时,由于各评价指标区分度较大,因此可能不管采用什么评价方法,评价结果的排序基本一致。但是这并没有破坏评价方法鲁棒性的理论基础,本质上还是评价指标之间高度相关。由于多属性决策方案往往只有几种,从这个角度,在多属性决策中,更容易出现评价(决策)方法鲁棒性。
第四,评价方法鲁棒性是一把双刃剑。一方面,评价方法鲁棒性使得采用高相关指标评价时,评价结果对评价方法的选择不太敏感,表面看似乎降低了评价的科学性、严肃性。但是另一方面,正因为评价方法的不敏感,也使得评价结果容易得到公众的承认。所以必须加强对评价方法鲁棒性的研究,评估其影响,让其从黑箱走向白箱。
2.2 研究方法
1)线性评价实际权重的计算
Wj=∑mi=1ωjXij∑mi=1∑nj=1C′ij=∑mi=1ωjXij∑mi=1∑mj=1ωjXij=ωjXijC′ij(3)
式(3)中C′为线性评价结果,Xij为标准化后的评价指标,ωj为评价赋权,Wj表示模拟权重或实际权重,傅蓉[20]称其为结果权重。实际权重是指标加权汇总值占所有指标评价得分总值的比重,也可以用该指标加权均值占评价得分均值的比重表示。
2)非线性评价实际权重的计算
对评价值与评价指标进行回归,此时的回归系数大小本质上就是评价指标重要性的体现,将其归一化处理就是权重。需要注意的是,所有变量必须取对数,否则不同评价指标的回归系数之间是不可比的。
由于学术评价指标之间往往高度相关,存在多重共线性,此时传统的回归方法会失效,为了克服这个问题,可以采用岭回归与偏最小二乘法回归,它们均具有一定的克服多重共线性的功效。本文从提高研究的稳健性出发,同时采用这两种方法估计非线性评价方法的实际权重,取两种方法的平均值作为最终结果。
岭回归由Hoerl A E等[21]提出,是一种改进的最小二乘法回归,主要应用在自变量高度相关容易出现多重共线性的回归中。岭回归过放弃OLS的无偏性,以降低部分精度和牺牲部分信息为代价,从而获得更好的回归效果。
偏最小二乘法由Wold S等[22]提出,它综合主成分分析、典型相关分析、多元回归3种方法,在存在多重共线性、样本数量较少、数据分布偏倚的情况下,估计效果较好。
3)权重鲁棒性测度
多属性评价方法鲁棒性的产生的主要原因是评价指标之间高度相关,因此,首先通过指标之间的相关性大小来测度评价指标的鲁棒性度,称为相关系数法。对于k个相关度较高的评价指标而言,指标之间的两两相关系数Rij共有C2k个,用1减去相关系数的均值就得到评价指标相关系数权重鲁棒性度WR:
WR=1-∑RijC2k(4)
相关系数权重鲁棒性度WR越小,说明其权重鲁棒性度越大。在统计学中,根据相关系数高低大致可以判断相关性大小,WR是1减去相关系数的均值,因此相应地可以将权重鲁棒性等级分为高度鲁棒性(WR<0.1)、中度鲁棒性(0.14)多属性评价方法鲁棒性测度
对于给定的评价指标体系,采用不同的多属性评价方法评价,可以得到不同的评价结果排序,计算不同多属性评价方法评价结果的排序差异,就是多属性评价方法鲁棒性度。对于不同的多属性评价方法,本质上相当于实际权重组合不同,分别进行评价,然后比较不同评价方法的平均排序变化程度,假设评价方法A的评价值排序为RA,评价方法B的评价值排序为RB,m为评价对象数量,则评价方法排序鲁棒性度VR为:
VR=∑mi=1RBi-RAim(5)
評价方法排序鲁棒性度VR越小,说明评价方法鲁棒性度越高。对于k种评价方法而言,评价方法的两两鲁棒性度共有C2k个,取其平均值,就可以得到不同评价方法的排序鲁棒性度:
RR=∑VRC2k(6)
2.3 研究框架
本文的研究框架如图3所示。以JCR2019管理学期刊为例开展相关研究,研究目的主要包括3个部分:
第一,在管理学期刊评价指标体系中,筛选其中相关系数较高的评价指标组合,以此来检验高相关指标的权重鲁棒性度,以及权重鲁棒性对线性评价、TOPSIS评价、因子分析评价的方法鲁棒性度的影响。
选取线性评价、TOPSIS、因子分析3种方法的理由是,线性评价作为一大类代表性的方法在学术评价中应用很广,TOPSIS与因子分析都是非线性评价方法,TOPSIS涉及评价指标权重,而因子分析不涉及评价指标权重,这样所有多属性评价方法的种类均大致涉及。由于这3种方法相对成熟,为节省篇幅,其技术细节不再一一赘述。
第二,选取管理学期刊的全部评价指标进行评价,并测度其权重鲁棒性度,以及权重鲁棒性对线性评价、TOPSIS评价、因子分析评价的方法鲁棒性度的影响。由于全部指标之间的相关系数相对较低,因此评价方法鲁棒性度相对较小,这样可以和高相关指标评价进行鲜明的对照。
第三,在以上过程中计算每种评价方法的实际权重,并比较实际权重组合,从而进一步阐述将所有评价方法放在同一权重框架下进行比较的意义。如果没有这个框架,就无法进行权重鲁棒性与评价方法鲁棒性的进一步分析。
3 研究数据与实证结果
3.1 研究数据
本文以管理学期刊影响力评价为例进行相关实证研究,作为一种算例,本文的研究重点是评价方法鲁棒性的形成机制,并不是具体的学术期刊影响力评价。研究对象和数据选择JCR2019管理学期刊,选取的评价指标包括影响因子JIF、5年影响因子IF5、他引影响因子IFW、即年指标II、总被引频次TC、特征因子ES、论文影响分值AIS共7个指标。本文并没有选取被引半衰期与引用半衰期两个表现学术期刊时效性的指标。JCR2019共有管理学期刊225种,由于存在数据缺失,清洗后还有193种期刊。
本文采用线性评价、TOPSIS、因子分析3种方法进行评价,以分析评价方法鲁棒性的形成机制。在线性评价与TOPSIS评价中,均涉及权重,因此采用专家赋权法确定权重,邀请学术期刊评价领域7位知名专家,评价指标和权重赋值如表1所示。需要说明的是,本文重点研究评价方法鲁棒性,相关方法选取及权重赋值仅仅作为算例,主要是为了说明问题。
3.2 评价指标相关系数
为了筛选出几个高相关指标组合研究其评价方法鲁棒性问题,首先计算7个评价指标的相关系数,结果如表2所示。影响因子、5年影响因子、他引影响因子之间的相关系数较高,影响因子与他引影响因子的相关系数为0.987,5年影响因子与他引影响因子的相关系数为0.951,影响因子与5年影响因子的相关系数为0.948。3个指标组合的评价指标鲁棒性度WR为0.038,小于0.1,处于高权重鲁棒性水平。
由于还要对所有7个评价指标组合研究其评价方法鲁棒性问题,进一步计算7个评价指标组合的权重鲁棒性水平,计算结果WR为0.337,说明基本不存在权重鲁棒性。
3.3 高相关指标评价分析
1)不同评价方法高相关指标评价结果比较及评价方法鲁棒性测度
首先基于影响因子、5年影响因子、他引影响因子3个指标组合,分别采用线性、TOPSIS、因子分析3种方法进行评价。在线性评价中,这3个指标的权重仍然采取专家权重的归一化处理结果,即权重由原来的0.11、0.20、0.15转换为0.24、0.44、0.32,目的是在保证权重比例不变的情况下使得权重之和为1。
采用TOPSIS评价时,影响因子、5年影响因子、他引影响因子的权重同样分别是0.24、0.44、0.32。
采用因子分析评价,KMO检验值为0.759,Bartlett检验值为1 146.544,p值为0.000,符合采用因子分析法的前提条件。结果发现只有1个公共因子,方差贡献率高达97.45%,因此采用单因子分析进行评价。
以上3种评价方法的评价结果如表3所示,由于篇幅所限,这里仅公布按线性评价排名前30位的期刊评价结果。
从前30名的评价结果看,尽管评价方法不同,但评价结果排序总体上一致。进一步计算评价方法排序鲁棒性度,线性评价与TOPSIS之间的排序鲁棒性度为0.383,线性评价与因子分析的排序鲁棒性度为1.358,TOPSIS与因子分析的排序鲁棒性度为1.161,三者平均的总体排序鲁棒性度RR为0.967,也就是说,尽管评价方法不同,但评价结果的排序差异仅有0.967个位次,这种差异应该说很小,说明对于高相关指标而言,评价方法存在鲁棒性现象。
2)不同评价方法高相关指标实际权重计算结果
下面同时采用岭回归与偏最小二乘法,对TOPSIS和因子分析的评价值与评价指标分别进行回归,将回归系数进行归一化处理得到模拟权重,然后将岭回归模拟权重与偏最小二乘法模拟权重进行平均,得到实际权重,以进一步分析评价方法鲁棒性的形成机制。
首先计算TOPSIS评价的实际权重,在进行岭回归时,发现标准系数之和为0.6时,模型趋于稳定,因此取此时的回归系数组合作为最终结果,影响因子、5年影响因子、他引影响因子的回归系数分别为0.274、0.289、0.272。
继续采用偏最小二乘法进行回归,当隐含成分为1时,拟合优度为0.999,具有极高的拟合度,因此取隐含成分为1的回归系数组合作为最终评价结果,回归系数分别为1.000、0.997、1.003。
高相关指标TOPSIS評价的实际权重如表4所示,最终影响因子的实际权重为0.331,5年影响因子的实际权重为0.339,他引影响因子的实际权重为0.330。
继续计算高相关指标因子分析的实际权重,在岭回归时发现当标准系数之和为0.6时,模型趋于稳定,影响因子、5年影响因子、他引影响因子的回归系数分别为0.278、0.280、0.278。
继续采用偏最小二乘法进行回归,当隐含成分为1时,拟合优度为1,回归系数分别为1.004、0.991、1.005。
高相关指标因子评价的实际权重如表5所示,最终影响因子的实际权重为0.334,5年影响因子的实际权重为0.332,他引影响因子的实际权重为0.334。
3)不同评价方法高相关指标实际权重比较
对于线性评价,基于式(3)计算出实际权重,这样,3种评价方法的实际权重均已经计算出来,连同专家权重如表6所示。
专家权重以及不同评价方法实际权重的对照说明如下几个问题:
第一,不同评价方法之间的实际权重也存在较大差距,权重大小排序相差较大,并无规律可循。
第二,高相关指标之所以存在评价方法鲁棒性现象,原因是评价指标高度相关,使得尽管评价方法的实际权重组合不同,但对评价结果的影响较小。
3.4 全部指标评价对比分析
1)不同评价方法全部指标评价结果比较及评价方法鲁棒性测度
选取全部7个指标进行评价。在线性评价中,采用表1中的专家赋权,对评价指标采用极大值标准化,然后进行加权汇总。
采用TOPSIS评价时,对于评价指标同样按照表1的专家赋权进行加权汇总。
采用因子分析评价,KMO检验值为0.803,Bartlett检验值为1 974.141,p值为0.000,符合采用因子分析法的前提条件。其旋转成分矩阵如表7所示,共有两个公共因子,因子1相关指标为影响因子、5年影响因子、他引影响因子、即年指标、论文影响分值,因子2的相关指标为总被引频次、特征因子。因子1的方差贡献率为52.93%,因子2的方差贡献率为33.90%,两者合计86.83%,具有较高的解释水平。
以上3种评价方法的评价结果如表8所示,由于篇幅所限,这里仅公布按线性评价排名前30位的期刊评价结果。从前30名的评价结果看,尽管评价方法不同,但评价结果排序差异相对高相关指标要大很多。进一步计算评价方法排序鲁棒性度,线性评价与TOPSIS之间的排序鲁棒性度为3.793,线性评价与因子分析的排序鲁棒性度为4.104,TOPSIS与因子分析的排序鲁棒性度为3.161,三者平均的总体排序鲁棒性度RR为3.686,也就是说,由于评价方法不同,导致评价结果的排序差异为3.686个位次,应该说排序变化较大,是高相关指标评价总体排序鲁棒性度0.967的差不多4倍,说明在评价指标相关度较低的情况下,评价方法鲁棒性现象并不严重。
2)不同评价方法全部指标模拟权重计算结果
首先计算TOPSIS评价的实际权重,在进行岭回归时,发现标准系数之和为0.7时,模型趋于稳定,因此取此时的回归系数组合作为最终结果。采用偏最小二乘法进行回归时,当隐藏成分为3时,拟合优度为0.995,并且不再提高,因此取此时的回归系数作为最终结果。
TOPSIS评价的岭回归系数和偏最小二乘法回归系数如表9所示,分别将回归系数进行标准化得到模拟权重,再将模拟权重进行平均,得到实际权重。5年影响因子、影响因子、他引影响因子的实际权重相对较高,即年指标的实际权重最低。
继续计算因子分析评价的实际权重,在进行岭回归时,发现标准系数之和为0.7时,模型趋于稳定,因此取此时的回归系数组合作为最终结果。采用偏最小二乘法进行回归时,当隐藏成分为2时,拟合优度为1.000,因此取此时的回归系数作为最终结果。
因子分析评价的岭回归系数和偏最小二乘法回归系数如表10所示,分别将回归系数进行标准化得到模拟权重,再将模拟权重进行平均,得到实际权重。影响因子、5年影响因子、他引影响因子的实际权重相对较高,特征因子的实际权重最低。
3)不同评价方法全部指标实际权重比较
对于全部指标的线性评价,基于式(3)计算出实际权重,这样,3种评价方法的实际权重均已经计算出来,连同专家权重如表11所示。
专家权重以及不同评价方法实际权重的对照说明如下几个问题:
第一,无论是线性评价方法还是非线性评价方法,实际权重与专家权重相去甚远。
第二,不同评价方法之间的实际权重也存在较大差距,而且权重大小相差较大,并无规律可循。
第三,影响因子、5年影响因子、他引影响因子3个指标的实际权重均处于较高水平,原因有待进一步探索。
第四,就全部指标评价而言,总体上并不存在评价方法鲁棒性,原因是评价指标相关度较低,使得不同评价方法实际权重组合不同,对评价结果的排序影响较大。
4 研究结论
1)本文发现了多属性评价方法鲁棒性的产生机制
本文针对多属性评价方法鲁棒性现象,通过在线性评价中直接计算实际权重,在非线性评价中通过岭回归和偏最小二乘法间接得到实际权重,将所有多属性评价方法视为实际权重加权线性评价方法,从而构建了统一的对比分析框架。
在此基础上,无论选择什么评价方法,每种评价方法均对应一套实际权重组合,评价方法变化仅仅相当于实际权重组合不同,但由于评价指标高度相关,评价结果的排序基本维持不变,这就是评价方法鲁棒性的形成机制。
2)评价指标相关度越高,评价方法鲁棒性越严重
本文的实证研究结果表明,当评价指标高度相关时,评价方法鲁棒性现象越严重。当选用影响因子、5年影响因子、他引影响因子3个高相关指标进行分析时,其平均相关系数为0.962,平均排序位次变化仅为0.967;当选用7个评价指标进行分析时,其平均相关系数为0.663,平均排序位次变化为3.686。
3)评价方法鲁棒性还受高相关指标数量、评价对象数量的影响
在同一评价中,由于可能存在多组高相关指标,各组指标内部均呈高度相关,各组高相关指标的实际权重有一个总和,所有各组高相关指标实际权重的总和越大,评价方法鲁棒性越严重。当评价对象较少时,会加剧评价方法鲁棒性,因为此时评价对象的区分度较大,容易出现不管评价方法如何变化,评价结果的排序大致不变的现象,但这并没有改变评价方法鲁棒性的产生机制。由于多属性决策方案一般较少,因此多属性决策方法鲁棒性现象更加常见。
4)实际权重对于评价方法的选择具有重要的指导意义
无论是线性学术评价还是非线性学术评价,均可以通过一定的方法计算出实际权重,即在学术评价中各指标真实的相对重要性,这颠覆了对传统专家权重的认识,因为专家权重往往并不等于实际权重。可根据实际权重进行评价方法的选择,使得评价指标的实际权重更加符合评价管理要求。
5)一定要重视多属性学术评价方法鲁棒性现象
在多属性学术评价中,评价结果往往是应用于管理的,许多評价对个体会产生较大影响,因为涉及其声誉、工作绩效、资源分配等,评价方法鲁棒性固然有利于保证起码的评价公平,防止评价方法不同带来的误差,但评价方法鲁棒性毕竟只存在于高相关指标中,对整个评价指标总体而言,评价方法鲁棒性并不严重,因此一定要注意评价指标赋权和评价方法选择,以提高整个评价的水平。
需要说明的是,本文讨论的是定量学术评价中的权重鲁棒性与评价方法的鲁棒性问题,至于定性评价中的相关问题,本文暂不讨论。
参考文献
[1]俞立平,阮先鹏,陈一涛,等.基于因子—BP人工神经网络的期刊评价方法选择研究[J].现代情报,2020,40(11):128-135,153.
[2]邱殿明,张连峰.科技期刊影响因子与其相关评价指标关系研究——灰色关联分析视角[J].情报科学,2020,38(9):116-120.
[3]李跃艳,熊回香,李晓敏.基于主成分分析法的期刊评价模型构建[J].情报杂志,2019,38(7):199-207.
[4]江永众,陶虹琳,杜彦璞.套索方法在期刊评价指标选择中的应用[J].统计与决策,2018,34(17):86-88.
[5]赵蓉英,王建品.基于FDH模型的学术期刊评价新方法[J].图书情报工作,2018,62(8):100-106.
[6]熊国经,熊玲玲,陈小山.基于PLS结构方程模型进行学术期刊评价的实证研究[J].情报理论与实践,2017,40(8):117-121.
[7]曾强,赵公民,俞立平.世界大学评价比较及对中国“双一流”大学评价的启示[J].情报杂志,2019,38(3):61-66.
[8]李星明,吴国蔚.投资环境评价体系的指标灵敏度分析[J].世界经济与政治论坛,2007,(3):15-23.
[9]张立军,陶璐.多指标综合评价模型鲁棒性度量方法研究[J].统计与信息论坛,2011,26(5):16-20.
[10]李伟伟,易平涛,郭亚军.差异驱动型评价方法的稳定性及差异凸显能力比较[J].运筹与管理,2015,24(1):216-221.
[11]高晓红,李兴奇.基于信息提取的综合性评价方法比较[J].统计与决策,2020,36(22):27-31.
[12]刘建昌,石秀,江燕.高校科技创新能力评价方法比较研究[J].中国高校科技,2014,(6):51-53.
[13]吴忠谦.国家科技竞争力评价方法比较——基于国际典型案例的分析[J].科技管理研究,2019,39(19):50-56.
[14]杨瑞仙,梁艳平.国内外高校科研评价方法比较研究[J].情报杂志,2015,34(9):107-110.
[15]雷佳丽,郑军卫.国内外智库评价方法比较分析[J].情报理论与实践,2019,42(4):166-171.
[16]俞立平,潘云涛,武夷山.科技评价中效用函数合成方法的比较研究[J].科技进步与对策,2010,27(1):106-110.
[17]俞立平,潘云涛,武夷山.学术期刊多属性评价方法的可比性研究[J].编辑学报,2010,22(5):381-384.
[18]俞立平.线性科技评价中自然权重问题及修正研究——动态最大均值逼近标准化方法[J].统计与信息论坛,2018,33(10):27-33.
[19]俞立平,潘云涛,武夷山.学术期刊非线性评价模拟权重的动态变化研究[J].软科学,2011,25(4):135-140.
[20]傅蓉.平衡计分卡指标权重前后不一致现象研究[J].金融论坛,2011,16(9):71-74.
[21]Hoerl A E,Kennard R W.Ridge Regression:Biased Estimation for Nonorthogonal Problems[J].Technometrics,2012,12(1):55-67.
[22]Wold S,Martens H,Wold H.The Multivariate Calibration Problem in Chemistry Solved By the PLS Method[M].Edited by A Rule and B Kagstron,Springer-Verlag,Heidelberg,1983.
(责任编辑:陈 媛)
收稿日期:2021-05-13
基金项目:浙江省自然科学基金重点项目“制造业从数量型创新向质量型创新转型机制研究”(项目编号:Z21G030004);浙江省一流学科A类项目(浙江工商大学统计学,管理科学与工程);国家社会科学基金“学术期刊评价——指标创新与方法研究”(项目编号:21FTQB016)。
作者简介:俞立平(1967-),男,教授,博士,博士生导师,研究方向:技术经济、科技评价。张再杰(1969-),男,研究员,研究方向:区域经济、绩效评价。