公共治理质量的评估:指标、模型与方法论

2016-04-02托尼布瓦尔德埃尔克洛夫勒著郝诗楠编译

探索 2016年1期

[英]托尼·布瓦尔德,[英]埃尔克·洛夫勒著,郝诗楠编译

(1.英国西英格兰大学布里斯托商学院;2.英国“治理国际”组织;3.华东政法大学政治学研究院)

1 从“好的服务”到“好的治理(善治)”

在1980年代以及1990年代,如何提供好的公共服务是国际上公共部门改革的焦点所在。许多方法被发展出来以帮助政府提升服务质量,比如通过政府立法的途径(例如:英国、美国与意大利等国所通过的相关法案)[1]或非政府的方式(例如:欧洲质量管理基金会的卓越模型,EFQM Excellence Model)来进行。不过,采用这些方式的人所理解的“质量”概念大不相同。

而今的政府正逐渐意识到:尽管服务质量依旧很重要,但是这并不足够[2]。一些政府机构发现,有许多棘手的问题没法仅仅通过提升服务质量得到解决——尤其是在许多欧洲国家正着手削减福利的背景下。除此之外,很多人也发现,那些认为(政府)服务质量好的公民或利益相关方并不一定信任政府——很多情况下,当服务质量提升后,信任并未随之而至[3]。因此,评价一个公共组织并不能仅仅看它所提供的服务质量,而且还要看它履行其政治、环境以及社会责任时所采用的方法。随着这一理念愈发为人所知,新一波的政府改革浪潮也随之而起,这就是我们熟知的“公共治理”改革。

而这一改革也与1980年代中期至1990年代中期流行的“新公共管理”运动热度有所降低有关。与此同时,该运动较为狭隘的视野引发了诸多不满。首先,即便政府部门变得更加“经济、高效以及有效”,它们也不足以解决那些“棘手的问题”。甚至是在所有公共组织都能提供高质量服务的前提下,这些问题也得不到解决。其次,与私营部门的伙伴关系变得日益重要,其重要性超过了以往对抗性的合约关系。而这也被视作信任的来源。第三,新公共管理运动中对“公民”的定义过窄,他们不仅仅是消费者,而且也应该是合作者。第四,在许多国家,政府的丑闻无关服务质量的低下,而是与政府完成既定任务的方式有关。比如说,公民和利益相关方在决策过程中是否有被告知决策的所有背景信息,又或是政治家和政府职员是否诚实和公平。最后,长期可持续的经济、社会以及环境政策需要所有策略与政策的联合——不仅仅是机构内部的而且也包括跨机构甚至是跨部门的。也就是说,所有组织都应是一个整体,单一部门的取向已被认为是不合时宜的。

2 “治理”的概念

学界对“公共治理”的定义甚为庞杂。不过,与社会科学家不同的是,实务部门的人士通常不在乎如何定义“治理”。在我们看来,公共治理的定义确实应随着情境而变化,因此不同的利益相关者和国家对于这一概念的定义也有所不同。不过,在本文中,我们还是为了分析的目的给出了一个对“治理”的特殊定义,这个定义可以帮助我们很容易辨识不同的利益相关者是如何恰当地被囊括进公共治理质量评估之中的。与此同时,我们还认为其他不同的“治理”概念的内核都与我们提出的定义相差无几。因此,在本文中,公共治理指的是“利益相关者为了影响公共政策结果的互动方式”;而“善治”则指的是“所有利益相关者在某个公共政策结果已经改进或治理原则已取得共识的议题(或领域)中的谈判,其中不论是公共政策结果的改进或治理原则的共识都被每个利益相关者所执行或经常性地评估”。

3 如何测量“好的公共治理”

正如前述,虽然“治理”的概念十分模糊,但这种模糊性却使这一概念广受欢迎。不同的机构和个人都提出了自己对于“治理”的理解。国际组织也利用这种模糊性使得它能够被更多国家和利益相关者所接受。不过,如果我们想要测量公共治理的质量,那么就必须明确治理到底意味着什么。如果说新公共管理更关注的是工具(好比是“设计一台好的钢琴”),那么善治则更关注结果(好比是“好的钢琴能弹出好的曲子”)。这样看来,治理的评估就意味着“评估音乐会的质量”。然而,音乐会的质量难以量化。因此,现在的问题是,我们是否能够量化不可量化之物?我们并不打算也不可能给出个明确无误的回答。然而,我们依旧认为公共治理质量评估的潜在价值是不言而喻的,而且很多利益相关者(这当然包括了多数经合组织国家之中的公众)都希望这种评估可以被执行而且其结果也能被公告周知。就此而言,既有的绩效测量方式远远不够,我们需要新的概念框架、不同的评估模型以及新的指标。根据前述关于“善治”的定义,我们认为测量需要包含两个关键领域:一是公共政策结果的改进;二是所有利益相关者对于一系列(公共政策制定与实施的)原则和流程的执行。

4 政策结果的改进:对生活质量改进的测量

尽管新公共管理运动中的“结果取向”常遭人诟病,但最近人们又重新燃起对于政策结果评估的热情。随着公众的“觉醒”[4],越来越多的公民和利益相关者希望知道政府相关活动的信息。特别是政治家们常被问到他们的政策到底在达成某一目标的方面给人们带来了什么不同[5]。因此,越来越多的人开始关注测量公共机构的干预对于生活质量(而不是这些干预活动本身的质量)改变的影响。这意味着我们的评估应当至少包含以下几个方面:(1)民众对于安全水平而非国防服务质量的感知(在这里,安全指的是免于外敌的攻击);(2)民众对于社区安全水平而非警察和预防犯罪服务质量的感知;(3)收入以及工作环境的水平而非经济发展项目的绩效;(4)民众所享受的医疗以及社会福利水平,而非医疗以及社会护理的质量;(5)民众对于他们所想了解议题的理解水平,以及他们所想完成任务的能力水平,而非他们所享有的教育与培训服务的质量;(6)民众所想享用之设施的可得性水平,而非道路和公共交通服务的质量;(7)民众所处之环境的质量,而非环境保护或改进的措施;(8)民众在其居所的舒适性,而非房屋建造和修缮服务的质量;(9)民众所享有的闲暇和文化体验的质量,而非娱乐、体育以及艺术服务的质量。

以上几个标准意味着测量公共部门所提供之服务的质量或数量只是纯粹工具性的。不过,我们现在所面临的挑战是如何依据上述标准来找到测量生活质量改进的恰当方式。在下表中,我们给出了四种不同的测量生活质量表现的指标。

表1 生活质量评价指标的类型

其中,Ⅰ型指标指的是评价个人生活质量各方面的总体性指标(比如对于其总体生活质量表示“幸福”或“非常满意”的受访者比例),Ⅱ型指标指的是对生活质量各方面进行评价的特定指标(比如寻求依据其他国家、地区或城镇的受访者比例),Ⅲ型指标指的是对生活质量的某一方面进行评价的总体性指标(比如对于其人际关系、工作环境或健康状况表示“非常满意”的受访者比例),Ⅳ型指标指的是对生活质量的某一方面进行评价的特定指标(比如寻求提升住房条件而搬家的受访者比例)。

以上每种指标在特定的环境中都有其适用性。很明显,如果一直能用I型指标那是再好不过了,因此在国际上常采用这种测量方式(比如美世咨询公司的生活质量年度报告)。不过,这种测量所能得到的信息甚少。II型指标的使用可视作一种补充,但是这种指标在本质上过于混杂,因而难以聚合。由此观之,我们应常用III型与IV型指标,它们提供了对生活质量的总体或特定评价,但只涵盖了某些特定的方面。我们常从健康、社会护理以及环境视角出发来构建生活质量评价指标。

尽管上面所列的每一种指标都需要仔细的解读(因而常常被误读),但它们的确向我们指明了公共决策所应考虑的生活质量的诸个方面。近年来,评价生活质量的项目如雨后春笋般出现。首个对于此类指标的提议应是1992年里约地球峰会之后为了应对《面向21世纪的行动计划》而提出的。早期的指标主要关注的是环境和可持续议题,而一些最近构建的生活质量指标则有所不同。比如,最广为人知的生活质量评价指标就是联合国的人类发展指数(HDI)。其中,“发展”的定义十分宽泛,从收入到长期福利水平,不一而足。HDI和其他三个次级指数(性别发展指数、性别赋权测量指标以及人类贫困指数)构成了一个完整的人类发展评估体系。人类发展指数对于国家的排名所遵循的不是严格的经济统计数据,而是公民的生活质量——其测量指标包括预期寿命、教育水平和经调整后的实际收入。

此外,德国贝塔斯曼基金会的“指南针项目”则通过纳入关键的利益相关者以支持一种本地化的生活质量定义。它试图在多个城市与当地的政府机关发展出一种“战略管理”方式。这种方式包含四个步骤,一是当地政府通过与公民及其他利益相关者协商提出一个长期的外部视角以及战略目标,二是构建一个可用于比较的本地化生活质量评价的指标体系,三是在收集完数据之后根据数据来制定改进的建议,四是评估改进建议对于总体战略执行的贡献度。每逢地方当局达至第四阶段时,则开始一个新的循环。英国审计委员会与70个试点地方当局合作开发出了一套包含38个指标、衡量13个主题领域的生活质量测量工具。其中,经济领域有4个指标,社区参与领域有4个指标,社会领域有17个指标,环境领域则有12个指标。在这38个指标中,有28个可以通过“客观数据”进行衡量,10个则需要通过问卷的方式衡量。这些指标意在推动地方当局更关注生活质量的议题,并依照其标准行事——不过这些至今仍未通过法律的形式来推动。欧洲委员会在1997年推出的“欧洲城市审查”旨在评估欧盟城市的状况以及提供可资比较的信息。而今,试点城市已经从最初的58个扩大到了200余个。评估的指标体系包含了5大领域(社会经济发展、公民参与、培训与教育水平、环境、文化以及娱乐)的33个生活质量评价指标。不过,这些指标经常发生变动,以至于城市间的比较成了一件困难的事。

尽管对生活质量进行测量的项目方兴未艾,但它们的不足也显而易见。首先,现有的项目大都是面向社会科学家和统计学家的,它并没有把普通民众(或政治家)当成它们的受众。其次,很少有政治家会使用这些生活质量的评价指标。再次,现有项目的大多数数据仍是由地方当局所收集的,其他非政府机构和个人并没有很好地参与进来。最后,现在各类评价指标常用来做地区间或机构间的比较,但是这种比较并非十分有益,而且常常沦为对“谁乃最佳”的无谓争论。

5 对公共治理原则与流程改进的测量

相比于对生活质量结果的测量行动,对公共治理原则在公共领域的实践以及对治理流程被相关组织所遵守程度的测量较少。近年来,一些论者开始梳理公共治理所应遵循的主要原则和流程[6]。这里,我们列出十条在理论与实务界常被提到的“善治”标准:(1)公众参与;(2)透明;(3)回应性;(4)平等与包容(性别、族群、年龄以及宗教等);(5)道德与诚实行为;(6)公平(程序公正);(7)在全球环境中竞争的能力;(8)在伙伴关系中有效工作的能力;(9)可持续;(10)尊重法治。这些原则和流程并非绝对,它们的重要性会根据情境与时间的变化而改变。此外,不同的利益相关者在实践中对于上述标准也有不同的理解。也就是说,对于治理原则和流程质量的评估是取决于利益相关者的。

近年来,有不少项目旨在对治理流程质量的某些方面进行测量。其中,一些是全国层面的,一些则是地方层面的。在这里,我们简要介绍几个最有意思的项目。一是,最广为人知的治理指数是由透明国际开发的腐败感知指数(CPI)。始于1995年的CPI是一个“由各类次级调查所组成的总调查”,其反映的是本国及外国商人和国别分析师的感知。2002年的CPI是由2000—2002年的15项调查综合而成,包含了102个国家(地区)的数据。其中,超过70个国家(地区)的得分低于5分(满分10分,代表着“清廉”),而得分低于2分的国家(地区)则被归类为“腐败猖獗”。而那些得分高于9分的国家全都是富国。二是,在对之前由发展援助委员会提出的“参与式民主”与“善治”标准进行修正的基础上,世界银行推出了“第二代”治理指标。这些指标不仅包含了“对行政机关的限制以获得回应性”,而且也包括了“行政机关的管治能力”。三是,“民主审查”是一个由艾塞克斯大学以及利兹大学共同开发的项目[7]。它是一个由学者、律师、记者以及其他人士组成的松散联合体。一方面,该项目中的诸多成员被其他机构聘任以承担更为广泛的民主评价,另一方面,一些机构如英国的国际发展部也被聘为该项目的成员以改进其自身的治理标准。“民主审查”项目旨在评价一个国家治理过程中的民主和人权面向,它包括了四个系列的标准:(1)自由与公平的选举;(2)政府的开放、回应性和责任性;(3)公民与政治权利和自由的保障;(4)社会的民主。

6 多元利益相关者的评估

前面的论述中曾提到任何治理领域的评价都需要考虑特定的利益相关者。这就需要我们考虑什么样的利益相关者需要被纳入这类评价之中。但这并没有一个绝对的标准,在每种不同情境中,影响政策结果和治理流程的是不同的利益相关者。然而,很明显的是,治理评估应当总是基于多元利益相关者的评估原则,而非自我评价或由某些对特定治理议题并不关心的利益相关者(专家)来进行评价。

一个基于多元利益相关者原则的治理测量实践是由“治理国际”(GI)所开发的“GI治理健康检查”项目。该项目通过焦点小组的方式,让公共部门和非营利部门的组织及其关键的利益相关者(包括民众、代表特定议题的政治家、第三部门代表、商业部门、媒体、政府部门官员以及对特定议题负有责任的其他层级的政府机关)能够对重要的治理元和政策成果进行360度的评估。和之前所提到的治理测量项目不同,该项目并不仅仅提供了诊断,而且还意在推动被纳入的利益相关者采取行动以改进已发现的治理缺陷。具体而言,该项目所采用的是一种系统性的多元利益相关者方法,而且将媒体纳入其中,这在其他类似的项目中是没有的。

7 鼓励对公共治理的质量进行测量

强调生活质量、治理原则和治理流程的重要性是一回事,而将它们付诸实践则是另一回事。到底是什么原因让利益相关者能够参与到这类评估活动中来?不论如何,某种治理评估指标的存在并不意味着其测量过程总是受到广泛的欢迎;即便其受到了欢迎,也不一定意味着其会被用于改善公共政策的决策。利益相关者们在推进公共治理质量评估时也会面临着一些抉择。首先是动机问题——公共治理质量评估的兴趣从何而来?我们认为,利益相关者有如下动机会推动公共治理质量的评估。第一是回报,比如某些评估机构会对表现良好的公共治理项目提供奖励或奖金;第二是督查,比如某些治理评价机构(如英国的审计委员会)拥有对被评价对象进行监督的权力;第三是贷款或拨款的条件,比如世界银行将公共治理某些方面的改善设定为提供援助的前提条件。其次是谁来领导的问题——谁应该来对公共治理进行评价?以往,人们常常在自我评价和外部(独立)评价之间徘徊。然而不论是哪一种评价方法都有其不足之处。在这种情况下,由特定利益相关者参与的360度评价就显得较为可行——它既保证了评价的独立性,又能够保证评价者对于情境和核心议题的理解。与此同时,这种评价结果也更容易被政府部门重视,并嵌入利益相关者和政府部门之间相互学习的关系之中。不过,这一过程并不容易,它需要花费更多的金钱和时间。

显然,上述所列之动力并不一定能够完全激发对公共治理评价的热情,对于360度的多元利益相关者评价流程来说尤为如此。不过,我们有理由相信这些动力有时还是可以发挥作用,特别是在强大的利益相关者对狭隘的服务提供评价结果表示不满时。这时一些意识到自身不足同时需适时改进的政府部门就会加入到评价中来。然而,我们并不能保证这种状况对于一些存在大量缺陷的机构会同样如此,尤其是在这些机构并不容忍改革所带来的阵痛之时。在这种情况下,我们认为公共治理的评价只能由高一级的政府机关来施行。

8 结论

我们已经看到国际上对于生活质量评估的兴趣已经超过了对服务质量的评估兴趣。而且,近年来也有许多对治理流程改进进行测量的趋势出现。不过,“善治”的定义依旧争议颇大,因此对于“善治”的评价方式根据情境的不同也有所不同。但这并不是它(评价)本身的问题,一些标准化的做法的确对我们大有裨益,尤其是在它们能够提供可用于比较的标尺之时。因此,如果对于“善治”的测量可以在更广的范围内持续推进,那么这将是很有价值的。

然而,这个领域的更多努力还是集中在对发展的评价以及对公共治理质量评价更为系统化方法的测试上。若要让这些评价发挥更大的作用,我们就必须将其置于某种“惩罚性”的机制之中,无论这个机制是国家层面的监督还是国际层面的拨款条件设定。

参考文献:

[1] Tony Bovaird,Arie Halachmi.Learning from International Approaches to Best Value[J].Policy and Politics,2001(29).

[2] Tony Bovaird,Elke L?ffler.Moving from Excellence Models of Local Service Delivery to Benchmarking“Good Local Governance”[J].International Review of Administrative Sciences,2002(68).

[3] Performance and Improvement Unit.Social Capital[A].Discussion Paper,Cabinet Office.

[4] Henry Milner.Civic Literacy:How Informed Citizens Make Democracy Work[M].Hanover,NH:University Press of New England,2002.

[5] Sandra Nutley,Annette Boaz.Evidence-based Policy and Practice[A].in Tony Bovaird and Elke L?ffler(eds.)Public Management and Governance.London:Routledge,2003.

[6] Jan Kooimans.Modern Governance:New Government–Society Interactions[M].London:Sage,1993.Rod Rhodes.Understanding Governance:Policy Networks,Governance,Reflexivity and Accountability[M].Buckingham:Open University Press,1997.

[7] David Beetham,Stuart Weir.Democratic Audit in Comparative Perspective[A],in Hans-Joachin Lanth,Gert Pickel and Christian Wegel(eds.)Demokratiemessung.Opladen:Westdeutscher Verlag,2000.