政府绩效外部评估：现状评价、问题识别与前景展望

2017-01-04于文轩马亮杨媛编译马亮

甘肃行政学院学报 2016年5期

关键词：评估政府

于文轩马亮（著）；杨媛（编译）；马亮（校）

（1.南洋理工大学人文与社会科学学院，新加坡639798；2.中国人民大学公共管理学院，北京100872）

政府绩效外部评估：现状评价、问题识别与前景展望

于文轩1马亮2（著）；杨媛2（编译）；马亮2（校）

（1.南洋理工大学人文与社会科学学院，新加坡639798；2.中国人民大学公共管理学院，北京100872）

作为加强政府外部问责的一种重要方式，政府绩效外部评估自2000年以来在中国发展迅猛，但至今很少有人对此进行研究。为了填补这个研究空缺，本文梳理了中国政府绩效外部评估的发展历程，并对其代表性项目的绩效进行了评价。研究发现，尽管中国政府绩效外部评估的总体质量令人满意，但仍然存在一些问题。政府绩效外部评估需要进一步提升其独立性、效度和信度，同时需要将原始数据向社会公众发布，以利于重复和验证。这些方面的改善，可以进一步提升政府绩效外部评估的质量、信度和功能性。虽然政府绩效外部评估是强化政府外部问责的有力工具，在当前中国也是十分必要且发展迅猛的，但要建立有效的政府绩效管理系统，在加强科层控制和内部问责的同时推进外部民主问责，还需要系统性的政治和行政改革方能实现。

政府绩效评估；第三方评估；外部绩效评估；公共管理改革

一、引言

政府绩效外部评估（EGPE）是指由新闻媒体、智库、私营企业、公共利益团体或学术机构等非政府组织发起和实施的政府绩效评估。[1][2]在西方国家，政府绩效外部评估的历史可以追溯到18世纪，但直到20世纪80年代新公共管理运动（NPM）兴起，系统性的政府绩效外部评估活动才得以在国际范围内出现并繁荣。[1][8][9]世界银行、联合国、世界经济论坛（WEF）、国际管理发展研究所（IMD）、联合国开发计划署（UNDP）、国际货币基金组织（IMF）、透明国际（TI）和自由之家等多个国际组织都制定了关于国家治理各个领域的政府绩效评估计划，并且每年都会发布各个国家和地区的排名。[1]此外，许多非营利组织、学术机构、大众媒体和咨询公司也会定期发布各种各样的排名，比如区域竞争力、生活质量和商业环境等方面的排名（例如，埃森哲和美世咨询公司对城市生活成本的排名[3][4]）。

部分受到西方国家实践的影响，[5]中国的政府绩效外部评估活动在同期也出现并得到了快速发展。[6][7]包括学术机构、民间智库、非营利组织、大众媒体和咨询公司在内的非政府组织对政府绩效的各个方面都展开了评估，如公共服务供给、政府效能建设、政府透明度、公共服务满意度和电子政府等。尽管在全球范围内政府绩效外部评估活动日益繁荣和重要，但在公共管理领域对它的研究却并不发达，只有少数研究涉及。[1][2][8][9][10]例如，关于美国高等教育机构质量的排名比比皆是，但是关于这些排名质量的研究却很少。对中国政府绩效外部评估活动的发展和绩效的研究，状况也大致如此。

本文提出并应用了政府绩效外部评估的质量评价方案，试图回答以下问题：（1）中国在2000年以后为什么出现了一系列的政府绩效外部评估活动？（2）中国现有的政府绩效外部评估项目的绩效如何？（3）政府绩效外部评估活动在中国面临什么样的机遇和挑战？我们认为，本文的评估方案、研究方法、结果和分析不仅将有助于中国政府绩效评估理论和实践的发展，而且补充了现有政府绩效评估和外部评估的研究文献，特别是对政府绩效评估工具的评价，如政府报告卡、计分卡、公共服务绩效排名和标杆管理等。

本文分为五个部分进行阐述。第一部分，回顾了绩效评估的相关文献，并提出了一个用于分析不同评估主体特点的五维框架，为后文的分析提供理论基础。第二部分，梳理了中国政府绩效外部评估的发展历程，指出它补充了传统的内部问责机制，为中国当前的政治环境提供了有力的外部问责。第三部分是研究方法。第四部分是主要结果，介绍了本文对中国当前政府绩效外部评估项目的质量分析结果。第五部分，结合研究发现，总结了中国政府绩效外部评估面临的挑战和机遇，并提出研究不足和未来研究方向。

二、政府绩效评估及其主体

绩效评估是绩效管理的重要组成部分，它可以为管理者提供必要的管理信息，以改进组织管理和实现组织目标。[11]许多和绩效评估相关的话题，如绩效评估的历史[12]、绩效评估的价值[13][14]、绩效指标的设计[15][16]、绩效评估在地方政府的使用[17][18][19]、政府绩效评估实施的决定因素和障碍[20][21]，以及绩效信息使用[22][23]等都得到了广泛的研究。这些研究的主要目的是帮助公共管理人员了解绩效评估的价值，从而设计全面有效的绩效评估标准，建立绩效评估系统，改进绩效信息的使用，从而加强组织控制和实现组织目标。绩效评估在很大程度上被当作强化组织内部自上而下问责的工具。虽然在政府绩效评估中，公民参与的价值一直被强调，[24][25]但公民对政府绩效的评估要么被认为是不可靠的，要么容易被误用，或者仅仅作为对现有政府绩效评估系统的补充。[26][27][28][29][30][31]

在治理时代，政府机构与私营企业、非营利组织及公民合作，共同提供公共物品和共同创造公共价值。[32][33]负责收集内部政府信息、实施公民调查以及分析绩效数据的公共管理人员，不再垄断和控制政府绩效评估活动。为响应社会对政府绩效信息的更多需求，由国际组织、非营利组织、新闻媒体、民间智库、公民团体和学术机构等非政府组织发起和开展的政府绩效外部评估活动，在国际范围内如雨后春笋般发展起来。

这些非政府评估主体在参与政府绩效评估活动时，有不同的动机、价值和评估方法。因此，我们需要制定一个类似于私营部门绩效评估专家所建议的战略绩效评估理论，[34]比较内外部评估主体所提供的绩效指标和绩效信息的有效性。借鉴利益相关者理论，[35]华乐勤和吴建南（2010）提出，绩效评估涉及多个利益相关主体，包括政府机构、私人及非营利组织、公民等。[5]不同的利益相关者在设计绩效指标、收集绩效数据和使用绩效信息方面，有不同的偏好和优势。根据米切尔评分法，利益相关者的重要性可以从三个维度衡量：权力性、合法性和紧迫性。[35]因此，不同政府绩效评估主体在政府绩效管理中的影响，取决于它们的利益相关性。但是，利益相关者理论是基于私营部门的情形而发展起来的，如果把它用于研究公共部门绩效评估参与者，则需要作进一步改善。在本文中，我们提出一个五维框架，用以评估不同主体在参与政府绩效评估时所扮演的不同角色及各自的特征（见表1）。

表1 政府绩效评估主体的五维分析框架

从表1可以看出，六个绩效评估主体在独立性、信息可及性、专业水准、影响力和问责性这五个方面表现出了不同程度的差异。然而，现实中不同政府绩效评估主体之间的相互作用往往会复杂得多。在政府内部，每个分支机构（立法、司法或行政）都要接受来自其他分支机构的监督和评估；在这一框架中，我们只关注了政府的行政机构。而即使在行政这一分支内，除了职能机构开展的绩效评估活动外，还有审计机构对其不同级别和辖区的职能机构进行的审计和评估。此外，评估者和评估实施者之间也存在显著差异。例如，上级行政机构或政府会聘用外部专业咨询公司来审计和评估其下属单位的绩效。在这种情况下，专业咨询公司可以获取更多的内部信息，其评估活动主要用于内部管理控制和内部问责，而不是外部问责。这与咨询公司自己发起和执行的政府绩效评估项目截然不同。

为了简化理论，本文将绩效评估主体分为六大类，包括政府、公民、大众媒体、学术机构、非营利组织和私营企业，并将他们视为评估实施者。鉴于本文的重点是非政府组织及其与作为被评估者的政府机构之间的互动关系，我们将政府行政机构（包括审计和内部纪律检查机构）都纳入政府绩效评估的范畴。不同评估主体在评估政府绩效方面，有不同的动机和目的。在政府内部，执行机构主要通过绩效评估进行管理控制并强化内部科层问责，而司法和立法机构主要用来加强内部和横向问责。大众媒体、学术机构、公民、非营利组织和私营企业等其他评估主体，则主要是为了加强政府外部问责而对政府绩效进行评估。

为了保证绩效评估结果客观地反映真实的政府绩效，负责进行评估设计和指标筛选的评估实施者应该独立于被评估者。但是，由于绩效结果常被用于财政和人力资源分配，或者作为奖励和惩罚工作单位及人员的依据，公共管理者很可能会采取不正当的行为和博弈策略，去操纵绩效信息的搜集和发布过程。[21]因此，公民、学术机构和非营利组织等评估主体的独立性，被认为是政府需要其参与绩效评估的主要原因之一。[36]在绩效信息的可获得性方面，政府相对于非政府组织具有巨大的优势。即使有政府信息公开制度，非政府组织在获取与政策制定和政策实施有关的信息方面，也处于非常不利的地位。此外，不同评估主体在收集、分析和报告绩效信息方面的专业水准也不同。其中，学术机构的能力最强，其次是大众媒体和非营利组织。[37]公民虽然在提供自己的感知数据方面具有优势，但他们通常缺乏分析和报告绩效结果的专业知识。最后，这些评估主体能在多大程度上影响政府政策的制定和实施呢？作为内部管理工具以及自上而下的控制机制，政府内部自上而下的绩效评估的影响最大；在外部评估中，大众媒体因为能对政府施加外部压力而最具影响力。Coplin、Merget和Bourdeaux（2002）指出，正是因为大众媒体的参与，他们的麦克斯韦尔社区标杆管理计划（MCBP）才得以吸引地方政府的注意力，进而影响政府的决策。[37]

综上所述，每个绩效评估主体在五个维度上各有优劣，公共管理者应尽可能将所有评估主体都纳入绩效评估过程之中。只有通过各个主体的合作，政府绩效才能得到全面有效的评估，绩效评估的目标才能得到实现。[38]

三、中国政府绩效评估的发展

受计划经济体制的影响，中国政府建立了以目标责任制为主的绩效管理体系。[5][6]作为一种内部的、自上而下的、目标导向的绩效管理系统，[39]目标责任制在各级政府强制实施，涵盖几乎所有公共管理和政策领域，包括经济增长、产业重组和升级、财政收入、社会稳定与发展、计划生育、节能减排、环境保护等各个方面。一方面，通过强大的绩效目标设定、分级问责和干部晋升激励机制，目标责任制成功地促使地方政府及其官员积极落实上级政府制定的政策和设定的目标，这被认为是中国经济实现奇迹般增长的重要因素之一。[40][41]但另一方面，目标责任制深植于中国单一制的威权体制之中，并导致固有性和系统性的功能失常。由于党政体制和法治之间缺乏必要的制衡，绩效目标通常由上一级党委机关或政府机构领导人的个人意愿决定，并导致绩效目标常常自相矛盾，而且忽视了地方的具体情况。[42]通过与严格的官员晋升和惩罚机制以及关系文化的结合，目标责任制还引发了地方政府官员相当严重的反常行为，比如目标替代、短期主义、次优选择、博弈和弄虚作假等。[39]此外，由于立法、司法和行政部门之间的制衡不够，以及自上而下的“胡萝卜加大棒”式的激励政策，目标责任制会迫使地方政府官员迎合上级政府和领导人的利益。[43]因为过度强调目标责任制中的经济增长和社会稳定指标，造成了诸多政治、经济和社会问题。[44][45]

为了解决这些问题，中国地方政府一直在试图通过各种方式将外部非政府组织（所谓的“第三方”）引入政府绩效评估的过程中，来改革目标责任制（如表2所示）。

表2 不同评估主体在中国地方政府绩效评估中的参与情况

在A、B、C、D、E四种情形中，地方政府会邀请公民、大众媒体、学术机构或非营利组织来评估其绩效，并将评估结果纳入目标责任制。例如，珠海、南京和沈阳等城市在20世纪90年代就开展了公民调查项目“万人评政府”，由政府官员面对面访问上万个居民和企业，以听取他们对政府绩效和公共服务质量的意见。[46]此外，地方政府还聘请专业调查公司、大众媒体、非营利组织或大学机构等设计绩效评估指标，实施公民调查和分析绩效信息。[47]一些学者将这种做法看作政府正在进行的实验的一部分，即在没有选举民主的情况下建立公民参与的外部问责制。[48]而另一些学者则认为，这些做法是“上层政府领导人为了加强下级官僚的垂直问责而实施的一种策略，它与以往通过动员群众打击官僚主义的精神是一致的”。[49]

第二种观点得到了部分实证研究的支持。杨宇谦和吴建南认为，政府机构向公众征求意见的公民调查，往往面临一系列方法论问题。[47]华乐勤和吴建南研究发现，政府绩效评估中的公民意见和建议所占权重相当低，公众舆论尚未对政策制定产生实质性的影响。[37]苏伟业在分析武汉的“民主评议政风行风”活动后发现，由政府发起和主导的第三方评估项目不能反映政府部门的真实绩效，其实质上是一种加强科层控制的管理手段，而非民主手段。[49]

鉴于由政府发起和主导的“第三方”评估存在诸多问题，从2000年开始，学术机构、大众媒体、民间智库和咨询公司等非政府组织开始发起并实施政府绩效外部评估活动，重点关注中国公共服务供给和社会治理各方面的绩效。例如，兰州大学中国地方政府绩效评价中心分别在2004、2005和2006年，从企业角度评估了甘肃省级部门和地级市政府的绩效。[50]从2007年开始，华南理工大学政府绩效评价中心发起并实施了对广东省21个地级市和121个县的政府绩效评估。[51]《瞭望东方》周刊从2007年开始在全国范围开展中国最具幸福感的城市的网上调查。零点咨询公司在对各级政府的调查基础上，每年都会发布公共服务满意度报告。[52]

由于在中国语境下“第三方评估”的概念具有模糊性，[51]因此本文将F、G、H、I、J和K情形下的评估（见表2），即由包括新闻媒体、民间智库、公共利益集团、学术机构和私营企业等在内的非政府组织发起并实施的评估，都定义为政府绩效外部评估。中国政府绩效外部评估的倡导者认为，外部评估主体具有独立性、专业性和可信度等特征，因而是评估政府绩效的最佳参与者之一。[53]他们还认为，政府绩效外部评估活动可以有效解决现有目标责任制存在的问题，并成为政府外部问责的有效工具，从而推动政府提高管理能力、行政透明度、政治问责，以及公共服务供给效率和效果。一些公共管理学者甚至认为，政府绩效外部评估将在推进中国行政改革和转变治理模式方面发挥关键作用，并为下一步的政治改革铺平道路。[54][55]

中国的政府绩效外部评估看起来如此前途光明，但它真的能满足众人对它的期待吗？迄今为止，还没有学者系统研究中国的政府绩效外部评估活动。但是，关于政府绩效外部评估却有很多问题亟待解决。比如，外部评估者包括哪些主体？他们是否独立？他们评估的内容是什么？他们评估的质量如何？他们评估的实际影响怎么样？这些问题的回答，对中国政府绩效外部评估的可持续发展具有重要的理论和实践意义。

四、研究方法

借鉴组织报告卡的相关研究，[2][8][9]以及对公共服务提供和治理的国际排名的研究，[1]结合中国政府绩效外部评估的特点，本文开发了一个政府绩效外部评估的评价方案，它由独立性、相关性、效度、信度、易懂性和功能性等六个维度组成（见表3）。

独立性是外部评估的价值所在。不同绩效评估主体在评估时持有不同的动机、议程和策略，独立性则是他们评估信度的来源。[2]但是在组织报告卡的文献以及政府绩效国际排名的比较研究中，学者们没有将独立性作为其评价方案的一个维度。造成这一现象的原因可能是在西方民主国家，政府外部评估者的独立性被认为是理所当然的。然而，在多数情况下，比如在像中国这样的国家，政府外部评估者是否独立可能是一个相当重要的问题，因为它会严重影响评价工作的合法性和可信度。

相关性是指评估项目是否反映了政府和公众所关注的紧要和重要的公共管理问题。

效度是指评估在多大程度上反映了评估对象的真实绩效水平。根据Gormley和Weimer（1999）[8]及Hood等（2008）[1]开发的框架和指标，效度可以通过以下几个维度进行测量：（1）评估是否具有理论支持（理论支持）；（2）是否测量了所有重要的绩效维度（全面性）；（3）所选的样本是否具有代表性（代表性）；（4）是否采用了复杂的统计方法（统计方法）；（5）评估是否采用了适当的加权方法（加权）。

信度是指重复测量时表现出的稳定程度。[56]根据Hood等（2008）开发的标准，信度可以通过两项指标来衡量，即评估是否提供关于其结果的纵向比较（可比性），以及评估的原始数据是否可供公众重复和检验（透明度）。[1]

表3 中国政府绩效外部评估项目的评价框架和编码方案

易懂性意味着外部绩效评估的价值取决于绩效信息的使用者在多大程度上可以理解和消化评估结果。它的衡量依据是外部评估报告中是否使用解说性的语言和图表，[15]以便于公众理解评估结果。

功能性是指评估结果在多大程度上被目标群体接受和使用。它可以通过一项评估被媒体报道的次数，以及在政府报告或政府官员的演讲中是否被提及来判断。

在文献回顾、报纸档案查阅、网上检索及专家访谈的基础上，我们依据以下四个标准选取了中国11个政府绩效外部评估项目进行分析。首先，我们选取由国内非政府组织进行的政府绩效外部评估项目，因此排除了国际组织，以及外国的媒体、非营利组织和咨询公司进行的政府绩效评估。其次，我们选取那些能够提供不同政府机构或辖区排名的评估。再次，我们重点关注与公共服务供给相关的排名，从中提取学者普遍关注的公共管理问题，而不是针对供水、能源和社会福利等具体公共政策领域的评估。最后，为了保证能获取足够的信息进行分析，我们只选取那些公开发布评估报告、书籍或者文章的外部评估项目。我们认为这11个项目较好地代表了中国政府绩效外部评估的现状（我们对11个项目的组织机构进行了匿名处理，简介见表4）。

Hood等（2008）提出三种评价方式：一是采用德尔菲法邀请国际学者进行评价；二是采用一套包含主观和客观指标的量表进行评价；三是开发一个客观的编码方案进行内容分析。[1]本研究采用最后一种评价方法，因为我们认为基于特定属性计数的客观内容分析法可以减少主观偏见，提高评价的有效性。

依据以上的评价框架，加上对内容分析相关文献的梳理，[57][58]本文开发了表3所示的编码方案，据此进行内容分析。首先，由两位作者分别独立审查相关的研究报告、媒体报道、互联网搜索结果、政府文件和高级政府官员演讲等定性材料，以检查评估项目是否具备某些特定属性。例如，为了检查项目的效度，两位作者分别独立阅读了研究报告，看项目是否对相关研究和实践进行了综述，以及项目是否基于文献综述去解释并论证了指标设计和选取。如果具备某个属性，我们将其编码为1，否则为0。为了衡量项目的公众关注度，我们在中国知网的重要报纸全文数据库中以项目标题和评估者为关键词，检索了每个项目出现的频次。在检查了11个项目20个属性的存在情况之后，两位作者比较了它们的编码结果，并计算编码员间的一致性比率来检查编码员间信度（intercoder reliability，ICR）。[58]表5报告了每个属性上的编码员间一致性比率，表明编码具有较高的信度。[57][58]总的编码一致性比率为0.82，即两个编码员的编码结果平均来讲有82%是相同的。

表4 中国的政府绩效外部评估项目

在第一轮编码之后，两位作者（编码者）重新检查了两种编码结果的一致性和差异性，以确认他们是否遗漏了一些重要的信息。表5显示了最终的编码结果，包括编码一致率和每个评估子维度的平均分数。此外，我们还采访了一些评估人员、政府官员和专家学者，以获得更多有关中国政府绩效外部评估的信息，以及它所面临的机遇和挑战。

五、结果和讨论

表5和表6展示了本文对11个政府绩效外部评估项目的最终排名。从表6可以看出，11个项目的平均得分为4.90分（满分为6分），项目之间存在显著差异。媒体B、学术机构C、媒体A分别以4.60、4.10和3.60的得分排在最后三名。学术机构H的B省政府绩效评价项目和学术机构A的省级公共服务评价项目分别以5.75和5.65的得分位居榜首，紧接着是学术机构D的服务型政府指数调查，得分为5.50。除学术机构C外，学术机构进行的评估表现都要优于媒体、智库和私人咨询公司。这里必须指出的是，学术机构C的政府绩效评估项目表现不佳，可能主要是因为其项目直接由政府资助和我们所获得的研究材料不够丰富。

在独立性方面，11个项目的总体得分为0.95分（满分为1分），表明中国的政府绩效外部评估主体具有相当高的独立性。除了A省政府绩效评价项目是得到政府财政支持外，其他10个项目在人事管理和财务管理方面都是与评估对象独立的。受内容分析方法的客观限制，本文没能找出这11个评价机构在独立性方面的具体差异，而且也没有证据表明政府机构通过施加不适当的压力影响了评估的独立性。因此在未来的研究中，评估主体在多大程度上以及在哪些方面独立于评估对象，仍然值得进一步去探索。中国的学术机构一般被认为比大众媒体、私人咨询公司和民间智库更加独立。2005年的一项全国公民社会信任度调查显示，有61%的受访者信任学术机构，不到一半的受访者（48%）信任大众媒体，只有35%的受访者信任政府公职人员。大多数受访者认为，学术机构获得高信任度的原因是其具有更为专业的知识，相对独立的地位以及传统文化影响下的高道德水准。[59]在中国，虽然近年来大众媒体得益于市场化和自由化而享有更多的自由，但它们在很大程度上仍然受到政府的控制，被认为是政府的“喉舌”[60]。因此，在评估政府绩效时，其独立性和可信性是值得怀疑的。

表5 中国政府绩效外部评估项目编码结果

在相关性方面，11个项目的评估内容都是政府和公众极其关切的政策领域，如公共服务供给、服务型政府建设、政府行政和财政透明度、政府管理能力以及电子政务等。在过去30年里，中国通过GDP导向的发展政策实现了惊人的经济增长，却忽视了公共住房、教育、医疗和环境保护等基本公共服务的供给，[61]从而出现了各种政治、社会和经济问题，并对党和政府的治理能力和政治合法性构成了严重挑战。随着全球化、新自由主义和市场化的发展，以及批判性公民的兴起，中国政府正在经历从经济增长驱动型政府向服务型政府的转变。[62]因此，非政府组织发起和实施了各种评估项目，旨在推动政府提高行政效率，优化公共服务供给，提高管理水平和财政透明度。[63][64][65]

在效度方面，11个项目的平均效度得分为0.74分（满分为1分），各项目间存在相当大的差异。从表5可以看出，有3个项目的概念框架缺乏相应的理论支持，4个项目没有论证其评估方案，2个项目完全没有理论支撑。此外，学术机构开展的项目往往具备理论和相关文献的支持，并试图去证明其评估方案的设计和测量是科学的。从表5还可以看出，总体效度的差异主要是由统计方法和加权方法两个维度的差异导致的。这两个子维度也是中国政府绩效外部评估在整体有效性方面最弱的两个领域。11个项目中只有3个（27%）项目采用了高级统计方法，有7个（64%）项目没有证据表明其使用了加权方法。

在信度方面，从表6可以看出，信度的缺失可能是中国政府绩效外部评估存在的最严重问题。通过审查11个项目的报告和相关文件，我们发现11个项目中有4个（36%）没有公布其全部排名和评估结果（见表5），而是选择性报告了排名和结果。此外，除了公开出售其评估原始数据的私人咨询公司A，以及利用公开可用的数据进行评估的“省级公共服务评估”项目外，大多数项目没有公布其原始数据以便公众进行重复和验证。

在易懂性方面，大多数项目都利用了图表来展示其调查结果，还提供公共媒体报告或执行摘要，以促进公众沟通和理解。

表6 中国政府绩效外部评估项目评价得分

绩效信息的使用是绩效管理的关键一环，[23]因此从功能性角度讲，评估结果能在多大程度上引起政府和公众的注意，以及在多大程度上影响微观层面的个人决策和宏观层面的政府政策变化，就决定了政府绩效外部评估的价值和可持续性。[2][8]本文从公众注意和政府使用两个方面来衡量评估项目的功能性。考虑到大众媒体在塑造公众观点和影响政策议程中的重要作用，公众注意可以用媒体的报道次数进行衡量。[66]政府对评估信息的使用，则可以通过该项目在政府工作报告或政府官员公开演讲中被提到的次数来衡量。我们在中国知网（CNKI）的中国重要报纸数据库中检索发现，这11个项目获得相当高的媒体关注——平均每个项目有51篇报道，实际报道数从2个到152个不等，差异较大。报道次数的中位数是32次。通过对网络搜索结果、政府工作报告和官员演讲的文本分析发现，11个项目中有9个（81%）的评估结果受到了政府关注。学术机构D、学术机构E、学术机构H、学术机构F和媒体A关于服务型政府、行政透明度、地方政府绩效和幸福指数的绩效排名，在相关政府部门的工作报告及市长或高级官员的公开演讲中被多次提及。我们的访谈结果也表明，这些排名对政府及其官员造成了一定的压力。然而有趣的是，我们发现东北的一个地方政府，因其在学术机构E行政透明度评估中的得分较低，敦促其公职人员提高行政透明度；除此以外，其他政府主要拿这些评估结果来彰显其政绩并提高其形象和声誉。

六、结论

在本文中，我们论述了中国政府绩效外部评估的发展现状，并评估了代表性外部评估项目的绩效。我们发现，学术机构在中国政府绩效外部评估中充当了主要的评估主体，大多数政府绩效外部评估项目都是由其发起和实施的。整体来看，中国的政府绩效外部评估项目在独立性、相关性、效度、易懂性和功能性等方面表现相当不错。它们具有相对的独立地位，评估内容针对的是具有实际意义的问题，项目的效度得到了一定程度的保证，并且确保其排名和结果容易被公众理解。它们还利用大众媒体吸引公众和政府的关注，并在中国已经产生了一定的实际影响。

虽然政府绩效外部评估项目在中国处于蓬勃发展态势，并且在补充现有的内部目标责任制，在提高政府透明度和外部问责方面发挥着积极作用。但是本文的研究发现，它们还面临着各种各样的问题和挑战，其中最主要的问题是其独立性和信度。

首先，对政府绩效外部评估项目来说，最大的挑战是如何保持其独立地位。虽然尚没有证据表明这11个项目的排名和评估被操纵过，但这些评估主体是否受到政府的影响，以及在多大程度上受到影响，仍然值得我们进一步反思。中国的学术机构，特别是大学和研究机构都是由教育部或其他相关中央政府部门或地方政府资助和管理的。因此，在一个缺乏强有力的监督和制衡的单一制政体中，没有足够的学术独立和自由，学术机构在多大程度上可以保持其独立性是值得怀疑的。随着对外部评估和排名日益增加的宣传及政府的关注，一些评价者承认越来越多的政府官员在与他们联系，试图以各种方式影响排名结果。一些政府绩效外部评估的学术机构和倡导者指出，由于缺乏制度支持，外部评估主体需要自觉地进行自律，保持较高的道德标准。[50]耐人寻味的是，这恰恰在某种程度上反映了它们在进行评估和排名时所面临的外部压力及影响。

其次，中国的政府绩效外部评估需要进一步提高其信度。对政府绩效外部评估的可持续性发展而言，信度低是致命性的。到目前为止，很少有政府绩效外部评估项目公布其原始数据，以便公众进行验证和重复。导致这一现象的原因可能有两个。一方面，评估者可能对自己研究的质量没有信心。我们的调查发现，大多数政府绩效外部评估项目对其抽样方法、样本代表性、统计工具和加权方法的描述都不够明确。另一方面，他们可能不想让政府机构和官员因为其表现不佳的排名而感到尴尬。最糟糕的情况是，评估可能受到了外部压力的影响，导致评估者篡改数据或发布错误的排名，但目前我们还没有证据去支持这一推论。

政府绩效外部评估在独立性和信度上面临的潜在挑战，已经开始威胁到了评估的效度。在我们的访谈中，政府官员抱怨说越来越多的政府绩效外部评估项目在涌现，但却经常产生自相矛盾的评估结果，因此他们已经开始对这些评估失去兴趣了。还有消息称，一些学术机构和学者违反了专业规范和行为准则，向社会提供有偏误甚至被篡改的评估报告。为了应对这些挑战，公共管理学者需要采用更成熟的研究设计和更高级的统计工具，进一步提高评估的效度和信度。最为重要的是，要通过公开数据供公众监督和审查，并增加评估的透明度。

虽然政府绩效外部评估受到了高度关注，并且在提高行政效率、强化政治问责、推进政治改革和促进中国治理模式转变等方面有巨大潜力，但是它们在多大程度上影响了政府的政策制定和实施仍然不清楚。正如我们的研究结果所显示的那样，政府可能只是选择性地使用政府绩效外部评估项目来彰显其政绩，或者是为了提高其声誉和形象，而不是真正用来改善其管理。此外，政府绩效外部评估仅仅是当前目标责任制的一个补充。建立有效的政府绩效管理体系以实现其内部和外部责任，则需要中国进行更为系统和根本的政治改革。[63]

由于本文只是对政府绩效外部评估的探索性研究，因此可能存在以下几方面的不足：首先，尽管本文基于客观编码方案的内容分析具有一定的客观性，但它可能无法捕捉不同项目之间的细微差异。例如，如果有两个项目都在报告中论证了他们所使用的评价指标，但当前的编码方法并不能区分哪个方案是正确且充分的。其次，虽然本文采用客观指标和多人评分法，试图把评价的主观性降到最低，但最好是有更多的编码人员参与并开发出更加复杂的评价指标。因此在未来研究中，我们会邀请更多学者参与开发和完善编码方案。当然，还有一些与中国政府绩效外部评估相关的重要问题值得我们进一步探索，比如研究不同类型的评估主体与不同层级或地区的政府之间存在的互动关系。

（本文初稿曾于2013年在新加坡南洋理工大学举行的连氏公共管理国际会议、香港教育学院举行的第二届社会政策和治理创新：亚洲政策学习和政策转移国际会议上发表。笔者感谢吴伟、何包钢、杨开峰及其他参会者对本文提出的意见和建议。本文部分内容于2015年在Public Performance&Management Review上发表，笔者感谢匿名审稿人的建议，以及新加坡连氏基金会“连氏中国服务型政府研究项目”所提供的资金支持。马亮感谢主编罗梁波的邀请，以及杨媛的翻译和编辑。文责自负。）

［1］Hood C，Dixon R，Beeston C.Rating the Rankings：Assessing International Rankings of Public Service Performance［J］.International Public Management Journal，2008，11（3）：298-328.

［2］Coe CK，Brunet JR.Organizational Report Cards：Significant Impact or Much Ado about Nothing?［J］.Public Administration Review，2006，66（1）：90-100.

［3］Accenture.Delivering Public Service for the Future：Navigating the Shifts［R］.Arlington：Accenture，2012.

［4］Mercer.Quality of Living Worldwide City Rankings 2012［R］.New York：Mercer，2012.

［5］Walker RM，Wu J.Future Prospects for Performance Management in Chinese City Governments［J］.Administration&Society，2010，42（1 suppl）：34S-55S.

［6］Burns JP，Zhou Z.Performance Management in the Government of the People's Republic of China：Accountability and Control in the Implementation of Public Policy［J］. OECD Journal on Budgeting，2010，10（2）：1-28.

［7］Gao J.How Does Chinese Local Government Respond to Citizen Satisfaction Surveys?A Case Study of Foshan City［J］.Australian Journal of Public Administration，2012，71（2）：136-147.

［8］Gormley WT，Jr.Assessing Health Care Report Cards［J］.Journal of Public Administration Research and Theory，1998，8（3）：325-352.

［9］Coe CK.A Report Card on Report Cards［J］.Public Performance&Management Review，2003，27（2）：53-76.

［10］Piotrowski SJ，Ansah ESI.Organizational Assessment Tools：Report Cards and Scorecards of the Federal A-gencies［J］.Public Administration Quarterly，2010，34（1）：109-142.

［11］Aguinis H.Performance Management［M］.Upper Saddle River，New Jersey，US：Prentice Hall/Pearson Education，2009.

［12］WilliamsDW.MeasuringGovernmentinthe Early Twentieth Century［J］.Public Administration Review，2003，63（6）：643-659.

［13］HolzerM，YangK.PerformanceMeasurement and Improvement：an Assessment of the State of the Art［J］.International Review of Administrative Sciences，2004，70（1）：15-31.

［14］Wholey JS.Performance-Based Management：Responding to the Challenges［J］.Public Productivity&Management Review，1999，22（3）：288-307.

［15］Hatry H.Performance Measurement：Getting Results［M］.Washington，D.C.：Urban Institute Press，2006.

［16］Poister TH.Measuring Performance in Public and Nonprofit Organizations［M］.New York：Wiley，2003.

［17］Berman E，Wang X.Performance Measurement in U.S.Counties：Capacity for Reform［J］.Public Administra tion Review，2000，60（5）：409-420.

［18］HoontisP，KimT.AntecedentstoMunicipal Performance Measurement Implementation［J］.Public Performance&Management Review，2012，36（1）：158-173.

［19］MelkersJ，WilloughbyK.ModelsofPerformance-Measurement Use in Local Governments：Understanding Budgeting，Communication，and Lasting Effects［J］. Public Administration Review，2005，65（2）：180-190.

［20］de Lancer Julnes P，Holzer M.Promoting the U-tilization of Performance Measures in Public Organization：An Empirical Study of Factors Affecting Adoption and Implementation［J］.Public Administration Review，2001，61（6）：693-708.

［21］van Thiel S，Leeuw FL.The Performance Paradox in the Public Sector［J］.Public Performance and Management Review，2002，25（3）：267-281.

［22］Heinrich CJ.Do Government Bureaucrats Make Effective Use of Performance Management Information?［J］. Journal of Public Administration Research and Theory，1999，9（3）：363-393.

［23］Moynihan DP，Pandey SK.The Big Question for Performance Management：Why Do Managers Use Performance Information?［J］.Journal of Public Administration Research and Theory，2010，20（4）：849-866.

［24］Ho A，Coates P.Citizen-Initiated Performance Assessment：The Initial Iowa Experience［J］.Public Performance&Management Review，2004，27（3）：29-50.

［25］Yang K，Holzer M.The Performance-Trust Link：Implications for Performance Measurement［J］.Public Administration Review，2006，66（1）：114-126.

［26］Dalehite EG.Determinants of Performance Measurement：An Investigation into the Decision to Conduct Citizen Surveys［J］.Public Administration Review，2008，68（5）：891-907.

［27］Kelly JM，Swindell D.A Multiple-Indicator Approach to Municipal Service Evaluation：Correlating Performance Measurement and Citizen Satisfaction across Jurisdictions［J］.Public Administration Review，2002，62（5）：610-621.

［28］Kelly JM.Citizen Satisfaction and Administrative Performance Measures：Is there Really a Link?［J］.Urban Affairs Review，2003，38（6）：855-866.

［29］Stipak B.Citizen Satisfaction with Urban Services：Potential Misuse as a Performance Indicator［J］. Public Administration Review，1979，39（1）：46-52.

［30］Schachter HL.Objective and Subjective Performance Measures［J］.Administration&Society，2010，42（5）：550-567.

［31］ParksRB.LinkingObjectiveandSubjective Measures of Performance［J］.Public Administration Review，1984，44（2）：118-127.

［32］Rhodes RAW.The New Governance：Governing without Government［J］.Political Studies，1996，44（4）：652-667.

［33］Kettl DF.The Transformation of Governance：Public Administration for Twenty-First Century America［M］. Baltimore，Md.：Johns Hopkins University Press，2002.

［34］Atkinson AA，Waterhouse JH，Wells RB.A StakeholderApproachtoStrategic Performance Measurement［J］. Sloan Management Review，1997，38（3）：25-37.

［35］Mitchell RK，Agle BR，Wood DJ.Toward a Theory of Stakeholder Identification and Salience：Defining the Principle of Who and What Really Counts［J］.The Academy of Management Review，1997，22（4）:853-886.

［36］Arndt C.The Politics of Governance Ratings［J］. International Public Management Journal，2008，11（3）：275-297.

［37］Coplin WD，Merget AE，Bourdeaux C.The Professional Researcher as Change Agent in the Government Performance Movement［J］.Public Administration Review，2002，62（6）：699-711.

［38］Behn RD.The Psychological Barriers to Performance Management：Or Why Isn't Everyone Jumping on the Performance-Management Bandwagon?［J］.Public Performance&Management Review，2002，26（1）：5-25.

［39］Gao J.Governing by goals and numbers：A case study in the use of performance measurement to build state capacity in China［J］.Public Administration and Develop ment，2009，29（1）：21-31.

［40］Maskin E，Qian Y，Xu C.Incentives，Information，and Organizational Form［J］.Review of Economic Studies，2000，67（2）：359-378.

［41］Li H，Zhou L-A.Political Turnover and Economic Performance：The Incentive Role of Personnel Control in China［J］.Journal of Public Economics，2005，89（9-10）：1743-1762.

［42］Gao J.Hitting the Target But Missing the Point：The Rise of Non-Mission-Based Targets in PerformanceMeasurement of Chinese Local Governments［J］.Administration&Society，2010，42（1 suppl）：56S-76S.

［43］Lieberthal K.Governing China：From Revolution Through Reform［M］.New York：W.W.Norton，2004.

［44］O'Brien KJ，Li L.Selective Policy Implementation in Rural China［J］.Comparative Politics，1999，31（2）：167-186.

［45］Zhao S.The Accountability System of Township Government［J］.Chinese Sociology and Anthropology，2007，39（2）：64-73.

［46］Chen Z，Li D，Wang J.Citizens'Attitudes Toward Local Government Public Services：A Comparative Analysis Between the City of Xiamen and the City of Phoenix［J］. Public Performance&Management Review，2010，34（2）：221-235.

［47］Yang Y，Wu J.Are the Bigger Fish Caught? China's Experience of Engaging Citizens in Performance Management System［J］.Public Administration Quarterly，2013，37（2）：143-173.

［48］He B.Civic Engagement through Participatory Budgeting in China：Three Different Logics at Work［J］. Public Administration andDevelopment，2011，31（2）：122-133.

［49］So BWY.Civic Engagement in the Performance Evaluation of the Public Sector in China［J］.Public Management Review，2013：1-17.

［50］包国宪，张志栋.我国第三方政府绩效评价组织的自律实现问题探析［J］.中国行政管理，2008，（1）：49-51.

［51］郑方辉.第三方评价地方政府整体绩效的实证研究——以广东省市、县两级政府为例［J］.中国行政管理，2008，（5）：13-17.

［52］Saich T.Citizens’Perceptions of Governance in Rural and Urban China［J］.Journal of Chinese Political Science，2007，12（1）：1-28.

［53］吴建南，阎波.谁是“最佳”的价值判断者：区县政府绩效评价机制的利益相关主体分析［J］.管理评论，2006，（4）：46-53.

［54］高洪成，娄成武.异体评估：我国政府绩效评估的路径选择及理论建构［J］.中国行政管理，2012，（9）：46-59.

［55］徐双敏.政府绩效管理中的“第三方评估”模式及其完善［J］.中国行政管理，2011，（1）：28-32.

［56］Litwin MS.How to Measure Survey Reliability and Validity［M］.Thousand Oaks，CA：Sage Publications，Incorporated，1995.

［57］Krippendorff K.Content Analysis：An Introduction to Its Methodology［M］.Thousand Oaks，CA：Sage，2004.

［58］Bowen WM，Bowen C-C.Content Analysis.In：Miller G，Yang K，eds.Handbook of Research Methods in Public Administration.New York：Taylor&Francis，2008：689-704.

［59］盈竹.中国信用小康指数为60.2分［J］.小康，2005，（9）：17-18.

［60］Zhao Y.Media，Market，and Democracy in China：Between the Party Line and the Bottom Line［M］. Champaign，IL：University of Illinois Press，1998.

［61］Wu W，ed Building Service-Oriented Government in China：Lessons，Challenges and Prospects.Singapore：World Scientific,2012.

［62］Zheng Y.Society Must Be Defended：reform，openness，and social policy in China［J］.Journal of Contemporary China，2010，19（67）：799-818.

［63］Yu W.Open Government Information：Challenges Faced by Public Human Resource Management in China［J］. International Journal of Public Administration，2011，34（13）：879-888.

［64］Podger A，Wanna J，Chan HS，et al.Putting the Citizens at the Centre：Making Government More Responsive［J］.Australian Journal of Public Administration，2012，71（2）：101-110.

［65］Xue L，Liou KT.Government Reform in China：Concepts and Reform Cases［J］.Review of Public Personnel Administration，2012，32（2）：115-133.

［66］McCombs ME，ShawDL.Theagenda-setting function of mass media［J］.Public Opinion Quarterly，36（2）：176-187.

（编辑：康宁）

D035

1009-4997（2016）05-0013-11

2016-09-08

于文轩，新加坡南洋理工大学公共政策与全球事务系助理教授，研究方向：公共部门绩效评价、政府信息公开、公民参与以及量化研究方法等；通讯作者：马亮，中国人民大学公共管理学院副教授，研究方向：公共组织创新、政府绩效评价与管理、城市管理、电子政务；杨媛，中国人民大学公共管理学院硕士研究生。