综合评价理论及方法在学科评价中的应用研究

2024-03-04邵燕霞于会萍

华北电力大学学报（社会科学版） 2024年1期

邵燕霞，于会萍

（1. 华北电力大学图书馆, 河北保定 071003；2. 华北电力大学党政办公室, 河北保定 071003）

习近平总书记在全国教育大会上指出，要深化教育体制改革，健全立德树人落实机制，扭转不科学的教育评价导向，坚决克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾，从根本上解决教育评价指挥棒问题[1]。2020 年10 月，中共中央、国务院印发了《深化新时代教育评价改革总体方案》，明确提出到2035 年，基本形成富有时代特征、彰显中国特色、体现世界水平的教育评价体系[2]。学科评价作为高等教育领域教育评价的一个特殊范畴，是一个多因素综合评判问题，符合多指标综合评价方法的特征，运用综合评价理论，构建一套相对科学的能够反映哲学社会科学各学科特征的评价指标体系，选择合适的评价方法模型对学科的功能特色、内涵发展及建设成效实现多维多元评价是学科评价发展的趋势。

学科评价指标体系是由多个相互联系、相互作用、具有代表性的评价指标，按照一定层次结构组成的有机整体。随着大数据时代网络和计算机技术的发展，体现学科发展水平和建设成效的数据大量涌现，可选择的评价指标越来越多。随着教育评价的改革，学科评价立足我国高等教育实际，对我国高校学科建设总体水平和阶段性进展进行评价，哲学社会科学学科更加强调发挥文化传承创新与智库作用，自然科学学科更加强调科技成果转化应用与解决关键核心技术问题[3-4]。构建学科评价指标体系既要彰显中国特色、富有时代特征，也要体现世界一流水平。

学科评价多数采用定量评价与定性评议相结合的方法。首先，依据公开数据、可参考的第三方评价结果及监测数据进行定量评价；其次，对学科建设过程中发布的进展报告、自评报告、典型特色案例及其他写实性材料，组织专家进行定性评议，定量结果定性结论互相补充、互为印证[5]。科学合理的学科评价是改善学科评价过程、优化学科评价措施和提升学科评价效果的有效途径之一。

一、综合评价理论内涵及研究进展

综合评价（Comprehensive Evaluation，CE）概指对多属性体系结构描述的对象系统作出全局性、整体性的评价，即对评价对象的全体，根据所给的条件，采用一定的方法给每个评价对象赋予一个评价值（又称评价指数），再据此择优或排序[6]。综合评价是一项系统而复杂的工作，是人们认识事物、了解事物、判断事物并作出决策的重要手段之一，在社会、经济、教育、科技、管理等各领域具有广泛的应用。对一个事物的综合评价往往要涉及多个因素，这些因素在评价方法中体现为指标，将反映评价事物的多项指标的信息加以汇集，得到一个综合指标，以此来从整体上反映被评价事物的整体情况就是多指标综合评价方法[7]。多指标综合评价方法具备以下特点：包含若干个指标，这些指标分别说明被评价事物的不同方面；评价方法用一个总指标来说明被评价事物的一般水平。综合评价的方法很多，但具体操作程序大致相同，包括确定评价目标、构建评价指标体系、确定指标权重、建立评价的数学模型，分析评价结果等几个步骤。其中构建评价指标体系、确定指标权重、建立评价的数学模型这三个环节是综合评价的关键环节。随着综合评价理论及应用研究的发展，评价方法越来越多、越来越复杂，在社会、经济、管理及工程等领域的应用也越来越广泛。目前，国内外单一综合评价方法有数百种之多[8]，众多领域的学者在该领域取得了丰硕的研究成果。而基于单一评价方法的组合评价作为一个重要的研究方向也受到越来越多的关注[9-11]。

自20 世纪80 年代以来，随着学科评价理论的深入研究，学者们在学科评价研究领域中也引入了很多综合评价方法，如多元统计分析法、数据包络分析法、层次分析法、模糊综合评价法、灰色综合评价法、人工神经网络评价法以及组合评价方法等，这些研究针对学科评价的出发点不同，解决问题的思路不同，为我们选取合适的评价方法进行学科评价提供了有益的借鉴。在利用单一综合评价方法研究中，郭建校等[12]建立了自然科学学科研究水平综合评价指标体系，采用因子分析法提取公共因子对原指标进行分组，以各公因子方差贡献率做为权重系数，结合各因子得分，建立综合评价模型并进行实证分析。李霞等[13]在主成分分析的基础之上对负载因子进行稀疏化，利用稀疏主成分分析提取学科评估的关键指标，构建一级学科评估模型，并利用实际数据对模型进行了分析和测试。郭新立[14]采用数据包络分析法建立了学科技术有效性评价模型，将高等学校学科看成同类型的决策单位，确定投入产出指标，进行有效性评价。程国庆等[15]构建了偏好强度可调的DEA 模型，通过设置不同的偏好强度比下限实现无偏好、偏好序以及具体偏好强度情形的效率测算，对我国“世界一流大学”建设高校学科投入产出效率状况进行实证研究。张晓加等[16]应用层次分析法构建评价自然科学学科科学地位的层次分析结构模型并计算各指标权值, 利用权威性统计数据对数理、化学、生命、地球和技术学科的学科综合评价权值进行测算。丁哲学[17]构建重点学科三级评价指标体系，运用改进的层次分析技术确定评价指标体系的权重，根据加乘法则建立评估数学模型。陆跃峰[18]从评估要素的分析、数学方法的选择以及计算技术的应用三个方面对高等工程教育学科评估进行了探讨,文中选用模糊综合评价方法，建立了学科评估的多层次模糊综合评判模型。笪可宁等[19]构建了学科水平综合评价指标体系，运用模糊综合评价方法进行了实证检验。彭丽华[20]构建了重点学科质量评价指标体系，采用灰色综合评价法进行了实证分析。在利用组合评价方法应用研究中，殷春武[21]构造了学科集群和产业集群协同创新能力评价指标体系，探讨了利用OWA 算子集结多种权重进行组合赋权，利用语言标度与灰度相结合的评价标度，给出一种基于模糊灰度的双集群协同创新能力评价方法。董章等[22]构建了国防特色学科人才培养效果评估指标体系，采用主观赋权法的模糊层次分析法实现指标权重的初定，进一步利用BP 神经网络的非线性映射能力优化指标权重，利用国防特色学科人才培养效果评估模型进行实证研究。张晓文等[23]采用层次分析法与直觉模糊综合评判法相结合，运用层次分析法确定世界一流学科建设成效评价体系各指标权重，然后分层次进行模糊综合评判，提出了直觉模糊加权平均算子（IFWA）和直觉模糊主因素突出算子（IFPFP）两种直觉模糊合成算子，并对其进行实例分析。

通过对以上研究内容的梳理，可以发现，这些研究是选用不同的评价方法从不同的角度对学科进行评价。有的采用单一综合评价方法，有的采用组合评价方法，对学科从学科建设、学科水平、学科质量、学科投入产出效率等不同的角度进行评价，研究的内容从评价指标的筛选、指标权重的确定到评价模型的建立侧重点也各有不同。采用多元统计分析法实际上是利用“降维”的思想确定指标之间可能存在的相关信息，达到用维数较少的有效特征指标来表示原有数据的主要信息的目的，面对越来越多的可选择评价指标，多元统计分析法有助于指标体系分析发现并提取与学科评价目标有关的特征指标。数据包络分析法主要用于多输入-多输出的有效性评价，有助于客观分析学科的投入产出效率，优化学科建设资源配置。层次分析法把复杂问题表示为有序的递阶层次结构，在决策判断过程中引入定量分析，主要用于确定学科评价指标体系的指标权重。模糊综合评价法针对学科评价中存在的不确定性和模糊性指标引入模糊思想，将一些边界不清、不易定量的因素定量化。灰色综合评价法从评价信息的非完备性角度出发进行关联度分析评价学科的优劣次序。人工神经网络评价法通过学习规则建立相应的非线性数学模型并不断进行权值修正使输出结果与实际值之间差距不断缩小，BP 神经网络主要用于指标权数确定。组合评价方法将已有的单一评价方法进行组合运用在指标数据处理、指标权值确定、评价过程优化、评价结果确定等方面有助于对学科做出更合理、更科学、更全面的评价。目前，学科评价的理论和实践研究缺乏结合哲学社会科学学科特征指标的综合评价方法。因此，本文在已有的学科评价研究成果的基础上结合学科评价的实际情况，将评价过程中评价信息的不确定性和模糊性以及指标权重确定的主观性，结合模糊数学和人工神经网络的相关理论，提出了基于专家评价法、层次分析法和BP 人工神经网络评价法结合模糊思想及理论的哲学社会科学学科全流程组合评价方法。

二、综合评价方法在学科评价中的应用

综合评价有赖于评价方法的选择，采用不同的单一评价方法对同一对象进行评价，评价结果常常存在差异，评价结果的差异源于评价方法对评价信息利用角度和挖掘深度不同以及可能存在的评价者人为因素等原因。评价结果的差异将导致决策结果的不同，根据具体的被评价对象选择合适的评价方法显得尤为重要，但也存在很多困难，选择任何单一评价方法都难以对客观事实进行全面准确地判断，为解决多方法评价结论差异性问题，众多学者提出了“组合”评价思想，并且基于漂移性和相容性假设对组合评价方法进行收敛性检验，发现经过若干次组合，几种组合评价结论能趋于一致，说明有效的组合评价方法比单一评价方法具有优势[24-25]。

总体而言，组合评价方法大致分为三类，对几种单一评价方法的指标权重进行组合，即组合赋权法；对几种单一评价结果进行组合，即评价结果组合法；对几种评价方法本身的组合，是指对两个（或以上）综合评价方法进行有机结合，不仅在指标赋权和评价结果两个局部环节进行组合，而是在综合评价全流程反映组合思想，只有在各个阶段都比较科学合理的情况下才能最终保证综合评价结果的科学性和合理性。对复杂对象的综合评价必须针对问题的不同侧面应用不同的方法，将已有的评价方法综合运用，相当于利用组合的思想开发出一种新的评价方法[26]。

在采用组合评价法时，单一综合评价方法并不能随意组合，需要采用一定的方法进行选择，对组合评价方法引入事前检验和事后检验。事前检验是检验选择的几种单一评价方法的一致性或相容性，采用Spearman 等级相关系数[27]、Kendall 一致性系数[28]及确定相容方法集[29]进行事前检验；采用Spearman 等级相关系数进行事后检验[28]，对几种组合评价的相对有效性进行分析也属于事后检验[30-31]。无论是事前检验还是事后检验，目的主要是希望通过有效的组合评价解决单一评价结论不一致的问题。

目前，组合评价在学科评价中的理论及应用研究相对较少，针对学科评价缺乏方法体系的研究，在选取组合方法时缺乏统一的标准。本文拟结合哲学社会科学学科评价指标体系探讨在学科评价过程中综合运用专家评价法、层次分析法、BP 人工神经网络评价法和模糊思想及理论的组合评价方法。哲学社会科学学科评价过程主要包括四个环节：评价指标的筛选，即从哪些方面考察哲学社会科学学科水平，找出影响评价学科水平的各层次因素；指标数据的标准化处理；确定指标体系中各层指标的权重，由于每个指标在指标体系中的作用和重要性不同，必须对各指标赋予不同的权重系数；评价方法的选择，取决于学科评价的目的和哲学社会学科的特点，选择常用的评价方法，尽量降低算法的复杂性，提高适应性。

（一）哲学社会科学学科评价指标体系的建立

指标体系是从总的或一系列目标出发，逐级确定子目标，最终确定各专项指标。评价指标的筛选应结合实际工作遵循具有代表性、简约性、独立性、可比性和可行性等几个原则进行初步确定评价指标。网络和计算机技术的快速发展使得可获取的体现学科水平的信息量激增，可用的评价指标越来越多，这些指标之间可能存在相关性或重复性，因此，需要对初选的指标进行筛选，主要采用专家调研、经验确定及统计分析方法来进行确定。统计分析方法主要有相关分析法、主成分分析法、因子分析法、聚类分析法等。本文以教育部印发的第五轮学科评估指标体系框架[32]为基础构建了哲学社会科学学科三级评价指标体系，见表1。第五轮学科评估指标体系框架以习近平新时代中国特色社会主义思想为指导，立足我国高等教育实际，以立德树人成效为根本标准，设置了思想政治教育和师德师风建设的考核指标，破除五唯，强化“代表作”和“典型案例”评价，哲学社会科学评价更加凸显中国特色、中国风格和中国气派。

表1 哲学社会科学学科三级评价指标体系

（二）哲学社会科学学科评价指标数据的标准化

哲学社会科学学科评价指标体系22 个三级指标中，既有定性指标又有定量指标,这些指标具有不同的量纲，因此指标间具有不可共度性，需要作无量纲处理，将评价指标数值统一量化到[0~100]范围内。定性指标具有一定的模糊性，相应的指标数据确定需要引入专家评价法以及模糊数学的理论和方法将这些边界不清、不易定量较为模糊的定性指标数据进行量化、标准化，与定量指标一样具有可比性。定量指标都属于效益型指标，即指标值越大越好的指标。

专家评价方法是评价者（专家）依据阅历经验和专业知识对评价对象做出的主观、定性结论的价值判断。评价结果往往受到评价者的兴趣、偏好、情绪等主观因素的影响。专家评价方法具有使用简单、直观性强的特点，但其理论性和系统性不强，难以保证评价结果的客观性和准确性。适用于战略层次的决策分析对象，不能或者难以量化的对象系统，对评价的精度要求不是很高的系统。

学科评价中对“用人单位评价”、“社会服务贡献”、“国内声誉调查情况”和“国际声誉调查情况”等定性指标的评价往往采用模糊语言给出不同程度的评语。“用人单位评价”的评价，反映用人单位对该学科毕业生专业素质和职业素养的刻画。“社会服务贡献”的评价，反映哲学社会科学学科在政策咨询、智库建设、公共服务、传承弘扬中华优秀传统文化、推进中国特色社会主义文化建设、促进人类文明发展以及在开拓治国理政研究新领域新方向取得创新性先导性研究成果的肯定与认可，相对于自然科学学科，难以通过量化指标全面呈现建设成效，更加依靠学术共同体，提高同行评价质量，另外，哲学社会科学学科具有鲜明的意识形态属性，要突出马克思主义指导地位，坚持社会主义办学方向，就要牢牢把住学术评价中的政治关。“国内声誉调查情况”和“国际声誉调查情况” 的评价，反映学科在国内国际的吸引人才、商业投资和科研合作等方面的竞争力。

评价指标的隶属度采取线性递增函数进行刻画：

xmax指评价系统区域范围内某项指标的最大值；xmin指评价系统区域范围内某项指标的最小值；xi指评价系统区域范围内该项指标的实际值。

评价指标数据按照上面所述模糊处理方法，得到单因素评价矩阵。假定对m 所高校的某学科做评价，用rij表示对第i 所高校某学科第j 个指标的模糊评价结果（i=1,2,…,m；j=1,2,…,22）,确定单因素评价矩阵R。

（三）哲学社会科学学科评价指标权重的确定

指标权重的确定是综合评价中一个非常重要的环节，同一组指标数据不同的权重会导致不同的评价结果，使得权重的确定对评价或决策具有重要意义。根据计算权数的数据来源不同，将确定权重的方法主要分为主观赋权、客观赋权和组合赋权三种。主观赋权主要由专家根据经验主观判断确定权重，如果选取的领域专家合适，赋权过程公正合理，则评价结果具有权威性，但该方法成本较高，稳定性差。客观赋权利用数学理论对原始指标数据计算分析获取权重，虽然排除了主观因素，但有时确定的权重与指标的实际重要程度存在较大差异。组合赋权存在两种思路，一种思路是对主观赋权法和客观赋权法所得的权重进行合成，这种主客观相结合的赋权方法，希望利用专家的经验判断和利用数学理论对原始指标数据计算分析获取的权重合成后达到优势互补的目的；另一种思路采用多种方法确定权重，对生成的权重进行合成。本文对构建的哲学社会科学学科三级评价指标体系拟采用主客观组合赋权方法确定指标权重。采用主观赋权法中的专家调查法和层次分析法确定指标权重,提高主观赋权的准确性；利用BP 人工神经网络对样本数据进行学习，获得评价专家的经验知识，尽可能消除权重确定中存在的人为因素，使网络连接权重具有实用性和有效性。

层次分析法（Analytic Hierarchy Process，AHP）[33]是美国运筹学家T.L.Saaty 提出的一种定性与定量相结合的多准则决策方法。AHP 通过构建一个层次结构模型，利用给定的定量信息把决策过程数学化，从而为求解多目标、多准则或无结构特性的复杂决策问题，提供一种简便的决策方法。AHP 在建立层次结构及构造判断矩阵过程中主观成分影响很大，要使AHP 的决策结论尽可能符合客观规律，决策分析者必须对学科评价有比较深入和全面的认识。根据哲学社会科学学科评价指标体系，把学科评价问题层次化，建立的哲学社会科学学科综合评价层次分析结构，如图1 所示。

图1 哲学社会科学学科综合评价层次分析结构图

哲学社会科学学科评价涉及22 个相关因素，这些因素体现为学科评价指标体系中的三级指标，有些指标不能用量化关系来表达，单纯用定性的方法或定量的方法无法实现评价，把这些指标按照指标间的相互关联及隶属关系建立层次结构模型，实现最底层（如u111、u211、u311 等22 个指标）相对于最高层（U）的相对重要性权值的确定或相对优劣次序的排序。

层次分析法引入了1 ～9 标度法，根据专家评判构造判断矩阵，通过计算判断矩阵的最大特征根及其对应的特征向量，计算出某层次指标相对于上一层次中某一指标的相对重要性，依次沿递阶层次结构从上而下逐层计算，即可算出最底层相对于最高层的相对重要性，即权值。从最高层到最底层为四层结构，需要逐层建立13 个判断矩阵，其中,准则层u1、u2、u3、u4 对于目标层U 的判断矩阵为A，见图2：

图2 准则层对于目标层的判断矩阵

矩阵中A11、A12、A13、A14 等表示u1 相对于u1、u2、u3、u4 的目标重要值，依次类推建立其它判断矩阵。满足Aii=1（i=1,2,3,4），

为了保证结论的合理性，需要对构造的每一个高于2 阶的判断矩阵进行一致性检验，计算一致性指标CI：

式中λmax为判断矩阵的最大特征根。

平均随机一致性指标RI 的值列于下表，见表2。

表2 平均随机一致性指标

当随机一致性比率：

时，可以认为判断矩阵具有满意的一致性，否则需要调整判断矩阵的元素取值。

利用Python 语言中的numpy.linalg.eig（R）计算判断矩阵特征值和对应特征向量可以得到最大特征根及其特征向量，获得指标层、准则层和准则子层的层次单排序，根据层次单排序逐层计算指标层、子准则层和准则层对目标层的合成权重，进行总排序，以确定结构图中各级元素在总目标中的重要程度，设W =（w1,w2,…,w22）为学科评价指标体系中22 个三级评价指标的权向量。

（四）哲学社会科学学科评价方法的选择

人工神经网络是模仿生物神经网络功能的一种运算模型，输入和输出之间一般是非线性的。由神经元相互连接构成。在神经元中各输入信号被加权求和，经作用函数后发送输出，该作用函数称为激励函数（activation function）。神经网络具有学习功能，各神经元之间的连接权不能预先准确地确定，根据样本模式逐渐调整权值。神经网络的输出则依神经元的连接方式、权重值和激励函数的不同而不同。神经网络需要通过一定的算法进行训练，成熟的网络模型及相应算法很多，这里介绍一个典型算法—误差反向传递学习算法（BP 算法）。基于BP 算法的人工神经网络评价法（Artificial Neural Networks，ANNs）[34]是D.E.Rummelhart 提出的一种神经网络模型，是一种多层前馈网络，具有自学习能力。

建立加入模糊处理的基于BP 网络的学科评价神经网络模型，见图3。根据评价指标体系确定评价因素集，选取22 个三级指标构成因素集，因素集的个数决定了BP 人工神经网络的输入节点。收集一些经传统综合评价取得成功的学科评价各指标历史数据及评价值，用于确定各指标的隶属度，建立单因素评价矩阵，且BP 神经网络是建立在样本数据训练的基础上，需要对模型进行训练。三层BP 人工神经网络模型，输入层神经元为22 个，输出层神经元只有一个，隐含层神经元这里取k=（22*1）/2=11，k 没有统一的规则，实际操作时可以选不同的隐含层点数进行训练对比，直到训练的偏差达到能被接受的程度为止。训练神经网络需要单因素评价矩阵、理想输出值、初始权值，初始权值可以取0～1 的随机值，权值经过自适应学习后得到正确的内部表示，训练好的神经网络作为综合评价的有效工具。

图3 加入模糊处理的基于BP 网络的学科评价神经网络模型

图中，Up1, Up2, …,Up22为第p 所高校的某学科评价的样本指标实际值，记为：

rp1，rp2，…，rp25为标准化评价指标数据，记为：

BP 模型的输入层神经元，其输入与输出相同。隐含层和输出层的神经元节点的作用激励函数选取S 型函数f（e），wij（i=1,2,···,22；j=1,2,···,11）为输入层第i 个节点到隐含层第j 个节点的连接权值，wj^（j=1,2,···,11）为隐含层第j 个节点到输出节点的连接权值，ypj（j=1,2,···,11）为第p 个学科评价样本隐含层第j 个节点的输出，op为第p 个学科评价样本的输出。

输入第p 个样本评价向量rp={rp1,rp2,···,rp22}（p=1,2,···,m），隐含层节点j 的输出记为：

式中， θj表示隐含层节点h 的偏置值，f 是Sigmoid 函数。

输出层节点的输出记为：

式中， θ表示输出层节点的o 的偏置值，f 是Sigmoid 函数。

神经网络对样本训练是为了修正权值wij和wj^使m 个样本的期望输出op*与实际输出op的总误差E 极小化，总误差函数为：

隐含层输入权值修正公式为：

输出层输入权值修正公式为：

上式中，学习率η 的设置直接影响网络的收敛速度，设置偏低能够保证网络收敛，但收敛速度会很慢，设置偏高可能直接导致网络无法收敛。

利用上面层次分析法确定的指标体系中22 个三级评价指标的权向量及单因素评价矩阵采用加乘法则得到学科综合评价结果向量，然后对结果进行排序。

综合评价模型如下：

式中：

R =（rij）m*22为m 个学校哲学社会科学某学科22 个标准化指标数据矩阵；

W =（w1,w2,…,w22）为学科评价指标体系中22 个三级评价指标的权向量；

O*=（o1*,o2*,…,om*）为m 个学校哲学社会科学某学科的综合评价结果向量，作为BP 神经网络对样本训练的期望输出op*

BP 神经网络反复迭代，调整连接权值wij和wj^直到收敛，得到网络自适应学习正确的内部表示，学习训练结束。训练好的神经网络可以作为哲学社会科学学科评价的有效工具。

三、结语

组合评价思想在学科评价中的应用研究具有重大的现实意义，学科评价对评价结果的有效性和全面性要求越来越高，通过纵向分析和横向比较，在学科建设过程中总结阶段性进展、查找学科结构性短板、呈现学科优势与不足和助力学科内部治理能力提升等方面突出诊断功能，实现以评促建、以评促升，推动学科内涵式发展。本文针对哲学社会科学学科评价提出了在学科评价全流程反映组合思想的评价思路，在评价指标选取、指标数据标准化和指标权重分配这几个重要评价环节结合模糊思想及理论对专家评价法、层次分析法和BP 人工神经网络评价法的组合运用进行理论探讨，充实了学科评价理论体系。文中对涉及到的最大特征值和特征向量的计算方法，S 型激励函数的优缺点没有讨论，这些需要在实际操作过程中结合已有的学科评价领域的研究成果进行理论探讨和实践比对。