基于评估过程数据的指标体系优度评价方法
2022-11-15刘彬薛奇刘同张宪
刘彬 薛奇 刘同 张宪
(军事科学院 战略评估咨询中心,北京100091)
1 引言
开展评估工作是督导任务开展、推进落地见效、促进管理水平提升的重要手段。高质量指标体系是开展高质量评估工作的基本条件。当前,针对各类对象建立的指标体系五花八门,各具特点,构成了庞大的“评估指标库”。若有一套定量评价指标体系,可以帮助评估工作者从“评估指标库”中遴选出质量较高的指标体系,将大大提升评估工作的效率。而探索构建这套指标体系,开展“对评估工作的再评估”,则是推动指标体系构建走向标准化、规范化的一个重要手段。
已有众多研究者对指标体系的规范化设计开展过学术研究。就设计原则来看,李远远等认为综合评价指标体系的构建要遵循目的性、全面性、可行性、稳定性、协调性和结合性等原则[1,2]。苏为华、邱东等则认为在对指标体系考察时,可以从齐备性、协调性、可行性、准确性、区分度(辨识度)、冗余度(重叠度)等方面进行考量[3~5]。德鲁克在《管理的实践》一书中提出目标管理要遵循SMART原则,即准确性(Specific)、可度量性(Measurable)、可实现性(Attainable)、相关性(Relevant)和时限性(Time-bound)[6]。由此可知,目的性、全面性、可行性、准确性和协调性是目前学界普遍认可的指标体系设计原则。在“对评估工作的再评估”实践应用方面,国内开展得还不多,近年来主要集中在教育评估和政府绩效评估领域。王云峰等对河北省重点学科评估的元评估进行了实证研究[7];严芳对教育元评估的理论和方法做了有益的探索[8];王颖等设计了学校办学质量元评估量表,并对17份省级基础教育阶段学校办学质量的评估方案进行了评定[9];徐梦佳等针对2018 年开展的本科审核评估,采用元评估的方法分析了审核评估的优点与不足[10]。在政府绩效评估领域,盛明科等用元评估的方法分析了政府绩效评估指标体系效度的评价方法[11];吴建南等针对元评估框架、指标和方法等进行了建设性的讨论[12];周碧华等对福建某县级市的政府绩效考核进行了元评估分析[13];黄健新等对公务员考核开展了元评估,验证了开展元评估对提升公务员考核的必要性[14]。
从已有研究看,针对指标体系的“再评价”研究并不多,且容易陷入“自说自话,自我证明”的困境之中。“再评价”的基本逻辑是:为了评价原指标体系构建一套“再评价”指标体系,借助Delphi专家评议求得指标的“质量”得分,再拿评分来证明这套“再评价”指标体系可用,其操作过程基本与原评估工作割裂,给出的优化意见也偏于表面。从各种评估实践中可以看到,评估产生的偏差并不局限于数理统计,指标内涵不清晰、评价模型过于复杂等因素都是造成评估偏差的原因。因此,本文着眼于将可以表征指标体系“优劣”的过程信息纳入优度评价过程,并借鉴数理统计中的“优度评价”概念,给出了一套定性定量相结合,但以定量为主的指标体系“质量”评价方法。
2 指标体系优度评价方法
2.1 相关概念内涵
指标体系优度评价是以指标体系为对象开展的一种综合评估活动,其目的是衡量指标体系的“质量”,即对其预期评价目标的实现程度。优度评价的输入为被评指标体系及其使用过程中产生的数据信息、优度评价的专家意见,输出为代表指标体系“质量”的优度评价结果。通过优度评价,发现已有指标体系在指标设计和数据统计方面可能存在的风险偏差,给出调整建议,进而实现对原指标体系的优化。
借鉴数理统计中“优度”概念,指标体系优度包括信度(Reliability)和效度(Validity)两部分内容。指标体系信度是指指标数值统计结果的可靠性程度,主要依托客观数据;指标体系效度是指评估指标在多大程度上描述了评估对象的特征并反映了评估目的,反映的是用评估指标描述评估对象客观要素的准确程度。指标效度的评定主要依托专家,通过主观经验判断指标与所需测量的内容之间关系的密切程度[5]。
评估过程数据是指在评估过程中,从每个正在执行的活动中收集到的原始测量值。例如各被评单位自评活动的开始和结束日期,与评估方沟通对接的次数,提交材料中存在的缺陷数量、数据修正的次数及最终形成评估报告的时间等。在整个评估工作中可以收集到大量这样的数据,这些数据需要结合评估任务进行分析、汇总和转化,才能成为反映原指标体系是否“可用、好用”的信息。
2.2 指标体系构建
在文献研究基础上,按照二维交叉的方式构建指标全集,具体见表1。表中横向为优度评价的原则维度,纵向为优度评价的内容维度。
表1 交叉法构建的初始指标全集
(1)指标体系目标贴合度,即原指标体系达到既定评价目的和评价要求的程度,为信度和效度综合评价指标。信度评价方面,利用原指标体系针对评价目的设定的相关指标权重进行评价,权重分配越针对评价目的,贴合度越好;效度评价方面,可通过对专家评议结果进行数据化处理得到的平均值及聚合度来描述贴合度,取值越高,贴合度越好。
(2)评价要素覆盖度,即原指标体系选取的评价要素占评价要素要求的比例,为信度和效度综合评价指标。根据评估目的和要求,评估对象会被定性分解为可评价的要素全集,而原指标体系对应的要素集,则是结合实际情况(如时间限制、人员限制、统计方式、技术手段等)从要素全集中选取的要素子集,该指标通过计算要素子集中的要素个数占要素全集的百分比,定量衡量指标体系的覆盖度。
(3)指标内涵清晰度,即指标内涵明确具体的程度,为信度和效度综合评价指标,利用评估过程中一些关键统计数据的出错率或反复修改次数进行定量计算,超过一定阈值,则认为指标内涵清晰度差。
(4)指标数据可测度,即指标体系底层定量指标占比,为信度评价指标。尽管定性指标对指标体系评价效度的作用不可忽视,但在当前指标设计尚缺标准规范的情况下,应保证指标体系有较高的指标数据可测度。
(5)指标间独立度,即指标间信息重叠的程度,为信度和效度综合评价指标。评价要素重复越多,指标体系的重复率越高,独立度越低。
(6)指标体系稳定性,即不同专家在使用指标体系进行评价时意见的聚合程度,为信度评价指标。聚合程度越高,该指标体系的稳定性越高。
(7)指标赋权合理度,是指标体系中被赋予合理权重的指标个数占比,为信度和效度综合评价指标。效度评价需要依靠优度评审专家意见。
(8)指标数据可靠度,即体系底层数据来源可证实的指标个数占同级指标总数的百分比,为信度评价指标。该指标强调指标数据有权威或有第三方说明材料辅助证明,保证指标体系有可靠的基础。
(9)指标使用满意度,实际上是对评估委托方的满意度调查,为效度评价指标。
2.3 指标建模
2.3.1 指标体系目标贴合度A1
针对给定评估目标或重点关注的评估对象(要素),指标体系目标贴合度包括权重贴合度和评价贴合度2 项子指标。权重贴合度的计算基于原指标体系相关指标的权重设置,为信度指标;评价贴合度则基于专家意见的统计均值和离散度,为效度指标。
设原评估任务可分解为G项子目标,对其中的第g个子目标的贴合度bg可表示为:
式(1)中,Ug为原指标体系中与该项子目标的相关指标权重之和(这里的“相关” 主要指两类:一是“有无相关”,二是“趋势相关”),qg为原指标体系对第g个子目标的贴合度自适应权重,表达式为:
引入贴合度自适应权重可以同时处理以下两类问题:若某项评估任务子目标同原指标体系中的某项评估指标对应,且该指标相对于其他指标完全独立,则其自适应权重为1,贴合度即为指标权重;若原指标体系中有多项指标指向同一评估任务目标,且彼此间不完全独立,则须结合自适应权重求解。
对各项子目标的权重贴合度计算完成后,可知指标体系的权重贴合度为:
评价贴合度是从效度的维度,对目标贴合度的评价意见均值、聚合度进行求解。与文献[15] 采用协调度评价相比,本文直接采用期望和方差处理,其数学含义更明确,数据实际意义更直观。若原指标体系中有N个指标,请P个专家对指标体系目标贴合度进行评议,并将评价意见分为J档,则P个专家对第i个指标与体系评估目标贴近程度的期望值为:
式(3)中,sij表示第i个指标第j档贴合度的评分值;pij表示将第i个指标评为第j档贴合度的专家人数。
评价意见的聚合度能够反映出专家对贴合程度意见是否统一。聚合度越高,说明专家评价的意见越统一,评价期望越可信。基于专家意见数据,借鉴标准差的形式来描述聚合度的大小,对第i项指标的评价意见聚合度可表示为:
式(4)中,sip为第p个专家对第i个指标的评分值。一般地,若,表明意见聚合度较高。指标体系的评价贴合度可表述为:
式(5)中,Wi为该指标占指标体系权重。对权重贴合度、评价贴合度分别赋权,且,可得指标体系目标贴合度的计算模型为:
2.3.2 评价要素覆盖度A2
指标体系的评价要素覆盖度是衡量指标体系全面性的重要指标[16]。基于评价目标分解出由M个评价要素形成的集合E ={E1,E2,…,EM},由指标体系反映出的要素集为K个评价要素形成的集合E' ={E'1,E'2,…,E'K}。若K =M,且指标不重复,表明指标体系对评价要素实现全覆盖。
若各评价要素的重要性相同,则评价要素覆盖率的计算公式为:
若各评价要素的重要性不同,则可以为各评价要素设定相应的权重,按照指标集反映的要素权重之和占比求解。
通常情况下,由于评估对象的内涵和外延会随认识的深入、外界环境的变化有所调整,因此评价要素全集很难获得,也可考虑采用负面清单式评分,按遗漏重要要素、多项一般要素、个别一般要素等划分评分标准。
2.3.3 指标内涵清晰度A3
指标内涵清晰度同样采用客观数据和主观经验相结合的方式进行评价。一方面,该指标评分以审核发现的数据错误率为依据,对指标内涵的清晰度进行界定。若单项指标统计数据错误率超过一定阈值则认为内涵清晰度存在问题,其计算模型为:
式(8)中,Wi为该指标占原指标体系权重,ei为该项指标统计出错次数,为该指标的样本数。
另一方面,对单个指标的内涵清晰度划分为“清晰”“一般”“模糊”三个等级,并分别赋值1,0.6,0.2(阶梯划分和赋值均可按照实际情况调整)。借鉴式(3)得出单个指标及整个指标体系清晰度的效度评价值
2.3.4 指标数据可测度A4
设原指标体系中指标总数为N,可量化的指标个数为Ca,则指标可测度可表示为:
2.3.5 指标间独立度A5
指标间独立度可以用指标体系重复率的倒数来度量。用Tm表示评价要素集的第m个评价要素被涉及的次数,则评价要素集重复的次数集为T ={T1,T2…,TM}。
若各评价要素的重要程度相同,则指标体系独立度为:
若各评价要素的重要程度不同,评价要素集对应的权重集为W' ={W'1,W'2,…,W'M},则指标体系重复率为:
由式(13)可知A5≤1;若A5=1,则各指标不存在重叠或交叉;A5越小,各指标重叠交叉现象越严重。因此,根据较少重叠性原则,A5取值应尽可能接近1。
2.3.6 指标体系稳定性A6
假设存在一组数据可以反映被评价对象的真实水平,那么不同参评者的评价结果与这组数据越“相似”,则可以认为指标的稳定性越好。通常情况下,这组真实数据无法获得,在操作中通常选取所有参评方测评结果的平均值,或个别具有代表性参评方的结果作为“相对真实值”。
设评审专家数量为P,第p名专家的测评分为将专家测评的平均分数组作为理想数据组,其中xi为:
计算每一个参评专家的测评分与该理想数据组的差异程度ρp:
最后,对P个参评专家的测评分差异程度求平均,可得指标体系的稳定性系数A6为:
A6越大,表明采用该指标体系得出的数据差异性越小,其稳定性越高;反之,A6越小,指标体系的稳定性就越差。
2.3.7 指标赋权合理度A7
指标赋权合理度结合专家评议的方式开展。设指标总个数为N,专家个数为P,认为存在指标赋权不合理的专家意见数为L,则指标赋权合理度为:
另外需要注意的是,提出一项指标赋权不合理则意味着其他指标权重须做出相应调整,此处须留好专家意见作为后续权重调整的依据。
2.3.8 指标数据可靠度A8
指标可靠度的度量有两种方式。当既有数据可以被权威部门溯源时,可靠度为:
式(18)中,可溯源指标数为R,相应指标权重为Wi。
若指标数据无法被权威部门溯源,则须借助专家打分法。对可靠度进行分级并设置相应分值,由专家对指标数据的可靠度进行评定。一般来说,有定量数据支撑的指标更可靠,具体指标的结果比综合指标结果更可靠。
借鉴式(3)得出单个指标可靠度的评价值,则指标体系可靠度为:
2.3.9 指标使用满意度A9
由委托方和参评方进行评分,分别针对指标数据统计渠道是否通畅、评估模型(含评分标准)是否合理、特殊情况是否被考虑三个方面进行评价。设委托方及参评方个数为S,第s个参评人对第i个指标的满意度为uis,则评价模型为:
2.4 指标集成
根据前面分析的评价内容,建立指标体系“优度” 评价的目标函数Zsup:
式(21)中,Ai为各指标评价结果,wi为体系优度评价模型中各指标的权重,其值根据具体要求设定。需要强调的是,一级指标的5 个维度必不可少,9 项指标中指标体系目标贴合度、评价要素覆盖度、指标内涵清晰度、指标数据可测度、指标赋权合理度和指标使用满意程度6 项指标为主功能指标,建议采用相对较大权重。
3 案例研究
假设某集团对其下属的10 家产品研制单位开展年度计划及规划任务执行情况评估,指标体系见表2。项目立项率、经费下达率及到账率为集团现阶段主要关注点,“竞争择优率” 和“优势民企配套率” 两项指标为政策指导性指标。
表2 年度研制计划执行情况评估指标体系
按照优度评价专家意见,对各优度评价指标分别赋权为:0.20,0.10,0.15,0.1,0.05,0,0.1,0.15,0.15。由于案例为各单位组织的自评估,评估对象差异较大,其结果的聚合度没有实际价值,因此指标体系稳定性A6权重设为0。
3.1 计算指标体系目标贴合度A1
权重贴合度的计算:在被评指标体系中,规划任务累计立项率B1和年度新上项目立项率B5这2 项指标与立项率直接相关,且立项率低会明显影响当年的任务执行和经费规模,使得B6~B9指标得分偏低;B10~B12指标的设置主要针对新上项目,也会受立项率影响,由此得到与立项率相关的权重总值为0.10+0.13+0.12+0.11+0.13+0.08+0.05+0.05+0.03=0.80;与经费下达率直接相关的指标为计划经费下达率B7,受其影响明显的指标为B8~B12,其相关权重总值为0.11+0.13+0.08+0.05+0.05+0.03=0.45;与经费到账直接相关的指标为计划经费到账率B8,受其影响明显的指标为B9~B12,其相关权重总值为0.13+0.08+0.05+0.05+0.03=0.34。将上述计算值代入式(2),可得
表3 评价贴合度计算过程数据
表3 评价贴合度计算过程数据
3.2 计算评价要素覆盖度A2
结合评估目标,将计划管理要素分为{规划、计划、项目、合同、经费、风险、质量}7 项,“规划”“计划” 分别对应一级指标下内容,“项目”“合同”“经费” 则由执行环节的指标反映。“风险” 由风险可控度指标反映。“质量” 则由竞争择优率、自主研发比例和优势民企配套率反映。综上,原指标体系反映的评价要素实现全覆盖,因此A2=100%。
3.3 计算指标内涵清晰度A3
信度评价:对10 家被评单位在自评报告中出现错误评分的次数进行统计,并认为出现1 次错误为偶然错误,最终发现有7项指标存在2次或2次以上错误,见表4。由式(9)可知指标内涵清晰度为81.6%。
表4 各被评单位自评报告中出现错误评分的次数
效度评价:请5 位专家对12 个指标的清晰度进行评价,过程数据见表5,可知B2=0.877。
表5 指标内涵清晰度效度评价过程数据
3.4 计算指标数据可测度A4
被评指标体系中12 项指标均被量化,且各单位均可按要求上报量化数据,可知指标可测度A4为100%。
3.5 计算指标间独立度A5
分别对评价要素{规划、计划、项目、合同、经费、风险、质量}进行统计,过程数据见表6,可得A5=26.8%。
表6 指标内涵清晰度效度评价过程数据
从该指标的结果可以看出,本套指标体系的指标间独立性不强,其主要原因是评价要素存在管理逻辑上的强关联,规划执行情况为计划执行的累计,计划执行的内容反映在项目和经费两个途径,项目又是通过合同开展实施,经费不到位势必影响项目执行的风险与质量。指标间独立度也体现出,实际评估的对象是一个系统和复杂整体,体现出很强的关联性。
3.6 计算指标赋权合理度A7
将合理度分为“可靠”“一般”“不可靠”3 个等级,对应评分为1,0.6,0.2。评估后请5 位专家对指标赋权的合理程度进行评议,结果为无调整意见,图1 给出了原指标体系权重与指标评价贴合度的计算结果,曲线形态基本一致,可知赋权合理度A7为100%。
图1 原指标体系权重与指标评价贴合度的计算结果比较
3.7 指标可靠度A8
从统计数据看,项目管理机构掌握的数据有项目立项、经费的下达和到账情况,可与被评单位数据对表,可靠度较高。但项目过程管理的相关指标,如竞争择优率、自主研发比例及优势民企配套率的统计数据均由被评单位上报,项目管理机构并不掌握实际情况,没有形成数据验证的闭环,因此无法验证。结合式(18),B5=(1-0.05-0.05-0.03)×100%,则指标体系的数据可靠度为87%。
3.8 指标使用满意度A9
案例中设定的满意度评价标准为:若评估渠道、模型合理性、特殊情况被限定三方面均达到要求,评分ui为1;若有一方面未达到要求,评分ui为0.8;有两方面未达到要求,评分ui为0.3;均达不到要求,评分ui为0。10 位被评方代表和1 位委托方代表分别对原指标体系的使用满意度打分,规划任务完成率B2、规划任务风险可控度B4、计划任务完成率B6、竞争择优率B10、优势民企配套率B12等5项指标的满意度不高,综合专家意见打分,得出A9=74.14%。
3.9 改进建议
综上,结合各指标权重可得原指标体系综合优度得分为82.88,指标体系优度良好,但仍存在问题,依据评分情况提出如下建议。
(1)明确个别指标内涵边界。计划经费到账率B8、竞争择优率B10、优势民企配套率B12等3 项指标存在明显内涵清晰度问题,其指标模型还须深化研究。
(2)统一评分逻辑。个别计算模型与常规评分逻辑不符,如规划任务风险可控度B4的评分模型与得分为负相关,即计算结果越小,指标评分越高,与其他指标正相关的评价逻辑明显不一致,多个参评单位本项指标计算出错。
(3)评分标准需要区别。指标满意度显示,个别指标的满分标准不应设定为100%,尤其对于显示竞争择优和优势民企配套情况的B10,B12两个指标,须结合产品的特殊性重新制定更为合理的评分标准。
4 主要结论
本文给出了一套考虑因素较全、评价模型较丰富的指标体系优度综合评价方法,并给出了指标体系目标贴合度和指标内涵清晰度的定量评价模型,案例研究表明,提出的优度评价指标体系具有较好的可行性。此外,指标体系目标贴合度计算模型是一种独特的标签算法,具有可按特定评价目标,对不同指标体系进行模块化选用的潜在应用价值。