技术评估中专家一致性评价方法研究综述

2023-10-17刘书雷吴昕阳武小悦

科技管理研究 2023年16期

黄超，刘书雷，吴昕阳，武小悦

（1.国防科技大学系统工程学院；2.国防科技大学前沿交叉学科学院，湖南长沙 410073）

1 研究背景

“技术评估”的概念于1960 年在美国首次提出，重点关注超音速运输、环境污染和基因筛查伦理等的影响［1］。1972 年，美国国会通过了《技术评估法案》，成立了技术评估办公室（Office of Technology Assessment,OTA），为公共政策和立法相关的科学和技术问题提供中立客观依据，为技术影响和发展提供早期预警［2］。Coates［3］将技术评估定义为一种政策研究工具，通过系统地识别、分析和评估技术对社会、文化、政治、环境等产生的短期和长期的影响，为决策者提供合理选择技术的决策信息。任何国家投入科学研究领域的资源是有限的，不可能大力发展所有领域的各项技术［4］，因此，为了识别领域中的关键技术，了解关键技术的发展现状，预测关键技术的未来发展趋势，帮助决策者合理分配资源，指导制定正确的发展路线和科学的战略决策，各个国家都十分重视开展技术评估工作。

专家评价是利用专家给出的信息对事物进行评价的方法。在实际应用中，对于难以获取数据进行客观分析的问题常采用专家评价进行评估分析［5］，例如绩效评价、技术方案评价、人员选拔、风险评估和科研项目立项评审等。专家评价是现有技术评估领域用于获取数据的主要方法之一，由于技术的复杂性和评估标准的多样性，单一领域内的专家难以给出客观结论，因此，技术评估需要不同领域内的专家进行合作，通常涉及R&D 研究人员、工程技术专家、政治学家、经济学家等［6］。与个体评价相比，专家群体评价集成了多位专家的评价信息，能充分利用不同专家的知识结构和思维优势，从而对一些复杂、重大的决策问题作出相对科学的评估分析［7］。由于专家的知识结构、社会经验、个人偏好、评价尺度不同，以及其他因素的影响，对于同一问题，不同专家可能有不同的认识和判断，给出的评价结果会存在一定程度的差异［8］。专家一致也称为“意见一致”或“专家共识”，又被称为“专家意见的协调程度”［9］，反映了所有专家对研究对象的评价结果一致或相近的程度。专家一致性可用于描述专家群体的评价结果达成一致的程度［10］。对专家一致性进行评价，有助于甄别与群体意见差别较大的专家，从而进一步了解产生不一致的原因或剔除不一致的评价意见，逐渐使群体达成共识，有助于研究人员作出更科学合理的判断与决策［11］。

专家一致性是群决策的核心重点问题，受到领域学者的广泛关注。对现有相关文献进行梳理分析发现，国内外学者对专家一致性评价方法进行研究时，多以使用现有专家一致性评价方法解决现实应用中的专家一致性评价问题为目标，如Wei 等的研究［12］，或提出一种新的专家一致性评价方法为目标，如Han 等的［13］，且已发表的文献中应用类和理论类文献居多、综述类文献较少，仅发现张恒杰等［14］对群体共识的研究范式和进展进行了综述，但该研究并未介绍专家一致性评价方法的分类和研究现状。经过回顾分析发现，鲜有针对专家一致性评价方法发展现状及趋势的综述类文章。鉴于此，本研究依据现有文献，系统梳理总结关于专家一致性评价方法的研究现状和发展趋势，并对未来的研究工作进行展望，以期帮助相关领域学者对专家一致性评价方法有一个系统清晰的认识，促进专家一致性研究的进一步发展和实际应用。

2 专家一致性评价方法的分类

技术评估中的专家评价主要用于以下两类问题：（1）指标评价。针对特定指标，要求专家给出评价对象的指标评价值。在这种情况下，专家给出的是一种绝对意义上的信息，例如采用百分制描述某项技术的发展水平。（2）方案排序，即要求专家给出若干被评价对象的偏好排序。在这种情况下，专家给出的是一种相对意义上的信息，例如依据重要性对多项技术进行排序。这两类问题都需要运用集结模型将各位专家意见聚合成专家群体的评价结果。

根据上述专家评价的两类问题，将专家一致性评价方法分为指标评价问题的专家一致性评价方法和方案排序问题的专家一致性评价方法。由于专家一致性评价方法的提出背景不同，模型的复杂程度以及应用领域的范围不同，因此每个方法都有其适用性和局限性。其中，指标评价问题中的专家一致性评价方法的关键目的为识别专家对指标赋值是否达成一致；方案评价问题中的专家一致性评价方法则主要用于解决排序信息，例如偏好矩阵和序数值等类型的专家数据的一致性判断问题，不仅需要判断专家之间是否达成一致，而且还需要给出不一致的修改方向，以促进共识达成。两类问题中的一致性方法如表1 所示。

表1 专家一致性评价方法分类

3 指标评价问题的专家一致性评价方法

依据评价指标的数量，可将专家一致性评价方法分为单指标下专家一致性评价方法和多指标下专家一致性评价方法。

3.1 单指标下专家一致性评价方法

单指标是指对专家给出的各项指标的评分值独立处理，即针对所有指标下的评价信息独立判断。现有研究主要依据方差/标准差、变异系数等离散程度统计量对专家一致性进行分析。

方差/标准差反映了专家评价数据的绝对离散程度。若方差/标准差小，说明专家意见集中，反之则说明专家意见离散程度大。如丁梦兰［15］通过计算每个指标下专家评分的标准差，判断一、二级指标中专家对某一指标重要性评价的一致性程度，用于构建政府数字化转型背景下公务员数字素养评价指标体系；邢文涛［16］利用方差衡量专家对指标打分意见的统一程度，将均值和方差作为标准，对单个指标的标准性、指标体系的科学性进行评估，依据这两项参数筛选指标，实现了水运工程质量评价指标体系的测验和完善。

变异系数反映了专家评价的相对离散程度，描述了专家评分的相对波动程度，变异系数越小，表示专家意见分歧越小，意见越集中、协调程度越好［17］。根据王瑞等［18］、Hou 等［19］的研究，一般情况下，当变异系数小于0.25 时，表示专家协调性较好。如田丹等［17］在构建北京市产科护理安全管理评价指标体系过程中，使用变异系数衡量各专家对指标的重要性、可行性、敏感性评分的波动程度，判断专家评分是否一致；Hou 等［19］在建立基于护理结局分类的中国脑卒中住院患者护理结果核心评价指标体系的研究中，运用变异系数度量被咨询专家对一级指标、二级指标、三级指标的评分意见的一致性。

基于离散程度的专家一致性评估方法模型简单、计算难度小，解释直观、容易理解，常被应用于细化分析专家群体对评估对象在各个评价指标下评分的一致性程度，例如在进口食品社会关注度研究中专家对不同品类食品的社会关注度的评价一致性［5］、指标体系构建过程中专家对各指标重要性的评分一致性等，但该方法忽略了专家独特的知识背景、兴趣和社会关系，在评估过程中认为专家的重要性一致，未考虑专家权重对专家一致性的影响。

3.2 多指标下专家一致性评价方法

多指标是将专家给出的多项指标的评分值统一处理，即针对多个指标下的评价信息集中判断。对于多指标评价问题，主要依据相关关系、显著性检验等方法分析专家一致性。

3.2.1 基于相关关系的专家一致性评价方法

基于相关关系的专家一致性评价方法，通过利用不同的相关关系测度衡量专家个体评价信息与专家群体评价信息之间的相似程度，进而对专家群体的一致性进行判断。目前常用的相关关系测度方法包括皮尔逊相关系数、距离测度、组内相关系数等。

采用皮尔逊相关系数可以计算专家个体与专家群体对同一研究对象给出的评价信息之间的相似程度，基于此定义群体共识指标。如Zhang 等［20］针对具有犹豫模糊语言信息的紧急多属性群决策问题提出了一种自适应共识模型，利用皮尔逊相关系数定义了专家在各方案上的共识度，将各方案上所有专家的共识度聚合得出各方案的共识度，进一步定义了专家个体贡献度指标和软群体共识指标。

距离测度根据专家个体评价信息与专家群体评价信息的距离值定义群体共识指标。如Li 等［21］要求专家使用1～100 的数值对各方案在各指标下的表现进行评分，利用距离测度计算每位专家给出的实数值评价信息与专家群体实数值评价信息之间的距离值，得出专家个体共识度，对所有专家个体共识度加权平均获得群体共识度，基于此提出了一种基于有限信度和社交网络的大规模群体决策共识方法；魏翠萍等［22］运用犹豫模糊语言术语集的距离测度方法，计算两两专家给出的犹豫模糊信息的共识水平，将所有成对专家之间的共识水平聚合，构建了群体共识指标。

组内相关系数（intraclass correlation coefficient，ICC）常用于度量不同评定者对同一研究对象评价结果的一致性或可靠性，可解释为组间方差与总方差的比值［23］。在专家一致性评估过程中，根据是否考虑评定者误差，可分为绝对一致性和相对一致性。绝对一致性ICC 表示为研究对象方差与总方差（研究对象方差、评定者方差和均方误差的和）的比值，用于衡量评定者是否给予研究对象一致的评分；相对一致性ICC 则不考虑评定者方差，用于测量专家之间的评分是否高度相关，在表现形式上仅分母与绝对一致性有所差别，仅包括研究对象方差和均方误差［23］。ICC 值位于区间［0,1］内，越接近1 则表示越一致，一般认为低于0.40 表示一致性较差，大于0.75 表示一致性较高［24］。如刘思琦等［25］使用组内相关系数分析专家在对错畸形严重程度的主观判断中评价的一致性；Chamberlain 等［26］在构建预测营养风险的指标研究中，利用组内相关系数测试了专家群体对指标重要性评分的一致性。

基于相关关系的专家一致性评价方法，既可用于定量数据，也可用于定性数据，适用范围广，已被广泛应用于解决专家整体一致性评价问题。

3.2.2 基于显著性检验的专家一致性评价方法

基于显著性检验的专家一致性评价方法，首先对专家给出的总体评分值或总体评分值的分布形式作出一个假设，然后构建统计量判断假设（备择假设）是否成立。现有相关研究主要依据卡方检验和方差分析检验专家之间的评分值是否存在显著性差异。

方差分析是基于专家给出的评分数据，假设由于不同专家（或研究对象）导致的偏差效应为0，构建检验统计量判断假设是否成立。如杨依霏等［28］要求专家从4 个评分维度对11 个学科门类中的每篇论文进行评分，利用单因素方差分析评估同一门类中3 位专家对论文的评分是否存在显著差异；高先务等［29］利用重复二元方差分析检验m个专家对n个方案在m个属性下主观评价偏差的一致性，判断专家、方案对评分有无显著影响，以及专家与方案之间有无显著交互影响。

显著性检验法可以从专家群体、专家个体、方案和属性等多个角度对专家一致性进行检验，能够快速找出与其他意见有差异的评价信息，计算量较小，可操作性强。

4 方案排序问题的专家一致性评价方法

依据专家评估的信息形式，将方案排序问题中的专家一致性评价方法分为两类：基于判断矩阵的专家一致性评价方法和基于序数值的专家一致性评价方法。

4.1 基于判断矩阵的专家一致性评价方法

在一些决策问题中，由于需要考虑不同因素的影响，专家直接给出所有评价对象的全序较为困难，所以在对比时，专家常常采用相对尺度，通过两两比较建立同一环境下不同评价对象的判断矩阵，尽可能减少不同评价对象相互比较的困难，提高准确度。现常用相似性度量、距离测度、主成分分析等方法分析判断矩阵信息形式下的专家一致性。

4.1.1 基于相似性度量的专家一致性评价方法

基于相似性度量的专家一致性评价方法根据不同的相似性测度衡量两两专家给出的判断矩阵或是专家个体与专家群体判断矩阵之间的相似性，对其群体一致性进行评估。现有常用的相似性测度有相容性、余弦相似度、灰色关联等。

相容性被定义为两两专家之间的判断矩阵或是专家与群体之间的判断矩阵的对称元素之积的平均值，基于此构建专家一致性指标。如陈侠等［30］利用相容性指标定义了各方案的一致性指标及专家群体一致性指标，给出了基于互反判断矩阵的专家一致性判别方法及调整方法，当专家群体判断结果未达成一致时，选出一致性最差的方案，通过相应调整方法修改专家原始意见，以促进专家群体达到满意的一致性；Grošelj 等［31］针对三角模糊偏好矩阵信息形式的决策问题，利用传统层次分析法的相容性指数定义了个体模糊共识指数来衡量两个决策者之间的接近程度，进而对专家群体的一致性进行分析。

余弦相似度以专家给出的判断矩阵为依据，利用几何平均法将各专家对方案评价的判断矩阵聚合为各专家对方案的评价向量，通过余弦相似函数计算由判断矩阵得出的两位专家的评价向量之间的接近程度，然后度量群体成员的一致性水平值。如王丹力等［32］在专家群体一致性研究过程中，首先对专家给出的判断矩阵的一致性进行检验，以保证专家逻辑的前后一致，而后考虑了专家权重的影响，根据余弦值的大小判断两个专家之间为强一致性或是强不一致性，基于此提出了专家群体强一致性指标和专家个体一致性指标，用于衡量专家群体的一致性和专家个体的一致性。在群体一致性判断过程中，通过个体一致性指标可以找出一致性较差的专家和一致性较好的专家，通过建议一致性较差的专家对比参照一致性较好的专家的评估意见，用于修改自身判断，促进群体共识达成。

灰色关联是利用灰色关联度描述每位专家给出的判断矩阵与群体判断矩阵对于同一方案判断值之间的紧密程度，灰色关联度越大，说明专家与决策群体的评估越接近，即一致性越高，将各方案下所有专家的灰色关联度指标值聚合得出各方案的一致性指标，将所有方案的一致性指标加权平均获得专家群体的一致性指标。如李礼等［33］针对基于互反判断矩阵的群体决策的不一致问题，运用灰色关联度理论建立了专家一致性判别方法和调整方法，设置一致性阈值为0.73，对不满足一致性要求的专家评价值进行调整。该方法能够识别偏离群体的专家意见，定位到具体需要修改的某个评价值。

基于相似性度量的专家一致性评价方法在评估过程中考虑了不同专家重要性的影响，有效利用了专家权重信息，可以确定需要调整的专家和某项具体评价内容，但是该方法是基于专家给出的两两判断矩阵进行的，在评估过程中需要首先考虑专家给出的判断矩阵的一致性，以保证专家逻辑的正确性。

4.1.2 基于距离测度的专家一致性评价方法

基于距离测度的专家一致性评价方法是，通过运用不同的距离测度计算专家个体判断矩阵与专家群体判断矩阵之间的距离值或是专家与专家判断矩阵之间的距离值，定义专家个体共识度指标，对专家个体共识度进行加权平均定义群体共识度指标或是选取最小专家个体共识度作为群体共识度，并根据实际问题设定相应群体共识度阈值，判断群体的共识程度是否达到标准。现大多使用以下4 种距离测度：一是汉明距离，例如Ren 等［34］针对犹豫模糊语言偏好关系的群决策问题，运用犹豫模糊语言汉明距离度量专家个体偏好信息与整体偏好信息的最小相似度，提出了最差共识指数，建立了共识达成算法，提出了一种基于矩阵一致性和群体共识测量的群决策求解方法；二是曼哈顿距离，例如Cheng等［35］利用对数曼哈顿距离度量两个专家给出的区间互补判断矩阵的差异，定义了两决策者之间的个体共识指数，将任意两个决策者的所有个体共识指数中的最小值作为群体共识指数；三是欧氏距离，例如Wan 等［36］针对概率语言偏好关系的大规模群体决策问题，基于欧式距离测度开发了一种新的基于个性化个体语义的共识达成过程，用于判断在大学COVID-19 监测计划选择过程中决策者的共识度；四是闵可夫斯基距离，例如Zhang 等［37］研究了直觉乘法偏好关系的群体决策背景下共识问题，提出了改进的直觉积性模糊数之间的汉明距离、欧几里得距离和闵可夫斯基距离，基于提出的闵可夫斯基距离度量专家个体与群体之间的距离值，定义了专家个体共识度，以最小专家个体共识度作为群体共识度。

基于距离测度的专家一致性评价方法可以解决多种含有不确定信息和模糊信息的专家一致性评价问题，例如犹豫模糊语言偏好、区间互补偏好、直觉模糊偏好等。该方法处理效率高，已被广泛应用于模糊决策中的共识研究。

4.1.3 基于主成分分析的专家一致性评价方法

基于主成分分析的专家一致性评价方法是根据每位专家给出的判断矩阵的最大特征值及对应的特征向量，将该特征向量归一化后作为专家对评价对象给出的评价系数，得出专家群体决策的评价系数矩阵，使用主成分分析法将多位专家的评价系数融合，利用主成分贡献率衡量专家群体决策结果的一致性程度。如邱梦奇等［38］基于层次分析法（AHP）要求m位专家通过两两比较建立每位专家对于g个雷达导引头系统抗干扰能力的判断矩阵，分别对m位专家给出的判断矩阵进行特征值分解，将最大特征值对应的特征向量作为同一环境下不同雷达导引头系统抗干扰能力的评价系数，得出m×g维群体评价矩阵，利用主成分分析法对该矩阵进行降维处理成1×g维群体评价矩阵，通过主成分贡献率衡量专家群体决策结果的一致性程度。

基于主成分分析的专家一致性评估方法，将专家一致性判断、信息聚合和综合评价融为一体，不仅可以根据主成分贡献率来定量分析专家群体决策结果的一致性程度，还可以利用降维后的数据直接得出最终决策结果，更有效地剔除了不一致的专家意见，使得专家个体评价结果对最终决策结果的影响变小、评价结果更为合理。此外，该方法还具有计算速度快的优势。

4.2 基于序数值的专家一致性评价方法

在分析多个研究对象的重要性次序时，常要求专家对整体研究对象进行排序，给出所有研究对象的全序值，据此选出一个最优值作为决策结果。目前常用Kendall 协调系数解决序数值类型的专家一致性评价问题。Kendall 协调系数是基于专家给出的研究对象的排名顺序，计算评估对象序数的偏离值总和，构建检验统计量W，根据W值判断专家一致性，W取值范围为0～1，数值越大代表专家意见的一致性越高［9］。如Akhmetshin 等［39］采用专家估计方法获得税收分析所必需的数据集，要求一组专家按重要性对俄罗斯联邦税法进行降序排列，使用Kendall 协调系数评估专家意见的一致性；Shapo 等［40］在运用德尔菲法和排序方法实现软件项目风险评估技术的研究中，采用Kendall 协调系数评估专家对排序法的意见一致性；Nikitin 等［41］在混合系统的研究过程中，将Kendall 协调系数作为共识指标，判断10 位专家对因素影响程度的意见一致性，并进行卡方检验，以证明结果具有统计学意义。

基于Kendall 协调系数的专家一致性评价方法，实现过程直观简洁、计算简便，鲁棒性强、易于掌握，被广泛应用于解决各类一致性评价问题。

5 结论

随着实践应用环境的变化、知识和信息量的急剧增长以及技术评估的问题日益复杂，专家评价作为技术评估研究中获取数据的重要方法，为我国科技创新、经济增长和社会发展中的技术评估问题提供了科学有效的解决途径，专家一致性评价是群体偏好有效集成的前提条件。本研究从技术评估中的指标评价和方案排序两类问题，对国内外学者提出的不同适用环境的专家一致性评价方法进行了较为系统的综述。依据实际应用中涉及的指标数量将指标评价问题细分为单指标和多指标两类，单指标下专家一致性评价方法主要被应用于反映专家群体对指标体系中各指标重要性评价的一致性程度，帮助决策者筛选指标，用于解决此类问题的专家一致性评价方法主要有方差/标准差和变异系数；多指标下专家一致性评价方法主要被应用于度量群决策中专家群体对评估对象评分的一致性，用于解决此类问题的专家一致性评价方法主要有皮尔逊相关系数、距离测度、组内相关系数、假设检验、方差分析。依据专家给出的评价信息的数据类型将方案排序问题细分为判断矩阵（偏序）和序数值（全序）两类，基于判断矩阵的专家一致性评价方法主要被应用于测量专家群体达成共识的程度，用于解决此类问题的专家一致性评价方法主要有相容性、余弦相似度、灰色关联、距离测度和主成分分析；基于序数值的专家一致性评价方法主要被应用于衡量专家群体对研究对象排名顺序的一致性程度，用于解决此类问题的专家一致性评价方法主要是Kendall 协调系数。

现有专家一致性评价方法研究成果较多可用于解决不同环境下的专家一致性评价问题，每种方法都具其自身优势，但也存在一定的局限性。为进一步推进和拓展专家一致性评价方法的研究工作，本研究认为未来专家一致性研究应用如下：

（1）如何根据不同问题选择一种合适有效的专家一致性评价方法。现有相关研究缺乏一个评估框架帮助研究人员依据不同问题选择相适应的专家一致性评价方法。研究人员在判断专家一致性的过程中，并不应该仅以测量专家一致性或是判断专家是否一致为目标，应充分考虑进行专家一致性测量的目的，从而判断选用哪一种评价方法最为恰当。

（2）在专家一致性评价过程中，阈值是判断专家一致性是否达到要求的重要评判标准。目前鲜有文献分析阈值的设定方法，常采用主观方式设定阈值，缺乏客观性和合理性。因此，应开发更为客观的方法确定阈值，使得专家一致性判断结果更加客观合理、准确有效。