政府绩效的公众主观评价模式:有效，抑或无效？——关于公众主观评价效度争议的述评<br/>

政府绩效的公众主观评价模式:有效，抑或无效？——关于公众主观评价效度争议的述评

2010-02-01李佳源

中国人民大学学报 2010年4期

倪星李佳源

一

政府绩效评估，就是运用一定的指标和方法，对各级政府及其工作人员的绩效进行测量、考核。评估结果能反映其工作的实际效果，从而达到改进政府工作，提高管理效率和服务质量的目的。在公共管理实践中，政府绩效评估具有内部控制、结果导向和外部责任三项主要功能，是优化政府管理、提升公共服务质量的重要战略工具，因而受到越来越多的关注。在长期的公共管理实践中，逐渐形成了两种主要的政府绩效评估模式，即重视成本效益分析的客观测量模式及强调满意度等软指标的公众主观评价模式①公众主观评价是指在政府绩效评估中，通过公众这一评估主体的主观知觉获取有关公共服务绩效状况的信息，有学者称之为软指标评估、公众评议政府或者公众参与的政府绩效评估。出于讨论方便考虑，本文不对这些不同的称谓作严格区分。。20 世纪80 年代以来，伴随着新公共管理运动的兴起，在顾客至上和结果导向的理念引导下，当代政府绩效评估的关注重心从繁文缛节、内部控制逐渐转向外部公众满意，公众主观评价模式备受重视和推崇。美国许多地方政府开始将公众满意度作为衡量公共服务质量的重要指标[1］，王小虎等人（Xiaohu Wang ＆Gianakis ，G.A.）的研究也发现地方官员倾向于采用公民对部门绩效的主观评价[2］。

公众主观评价模式的理论预设是公众能够知觉政府运作的实际绩效并且公众作出的评价与公共服务的实际绩效状况相一致。许多公共管理学者和实践者在讨论公众主观评价的意义时，总是想当然地把这种理论预设当做无需检验的公理，而将注意力更多地集中在论证公众评估政府绩效的意义、方法、操作流程和数据的获取与使用等方面。[3］但事实上，如果要把公众主观评价作为政府绩效评估的可靠工具，这一工具本身的效度如何是我们必须首先回答的问题。

20 世纪70 年代以来，陆续有学者开始关注公众主观评价的效度问题，他们围绕公众主观评价是否可以准确反映公共服务的实际绩效，以及影响公众主观评价的相关因素等问题展开争论。我们认为，公众主观评价的效度是公共管理实践者和研究者都不能忽视的重要问题。通过对主要来自美国《公共行政评论》（Public Administration Review）的权威文献的梳理，本文力图呈现这场争论的来龙去脉，并结合中国实践探讨其中的启示与借鉴意义。

二

从现有文献来看，对公众主观评价效度的质疑主要源于有关不同的城市居民群体对公共服务质量满意度差异的研究。坎贝尔和舒曼（Campbell ，A.＆Schuman，H.）对美国15 个城市的调查发现，相比较于白人，黑人对警察、公立学校、垃圾回收和公园等公共服务的满意度较低。随后的相关研究也得出了相似的结论，如福勒（Fowler ，F.）发现黑人对警察服务的知觉和评价远远低于白人。尽管这些研究不是专门针对公众主观评价工具的效度问题，也没有进一步论述种族因素在多大程度上影响了公众对服务的满意度，但是却为该主题的研究提供了启发和思路，即公众主观评价可能受到非服务特征因素的影响。后来，斯蒂帕克（Stipak，B.）、布朗和库尔特（Brown，K.＆Coulter，P.B.）、帕克斯（Parks ，R.）以及珀西（Percy，S.L.）等人均是沿着这种分析思路，研究种族、收入、年龄和受教育程度等个体特征及其他非服务因素对公众主观评价政府绩效的影响。

学术界对公众主观评价的效度的争论，肇始于斯蒂帕克在其博士论文中的研究发现。围绕地方政府服务的差异是否对公众评价产生影响这一问题，斯蒂帕克以洛杉矶大都会区为个案进行了研究，发现没有充分的证据来证明服务质量影响了公众对地方政府服务的主观评价。斯蒂帕克随后发表了几篇有影响力的文章，对过度依赖公众主观评价的做法进行了系统深入的反思。

斯蒂帕克的研究思路是对具体公共服务项目的客观绩效与公众的主观评价进行多元线性回归分析，进而测算两者在统计上的相关性。他将公众主观评价作为因变量，服务特征（如破案率、被抢财物损失的挽回率、每万人全职警察数量、每千人七类严重犯罪数量）、政府特征、社区特征以及个体特征（如受教育程度、收入水平、性别、种族、年龄）作为自变量，建立回归方程。通过公众对警察、公园、娱乐设施、垃圾回收以及其他基本服务作出的评价，获取有关的主观评价数据。客观绩效数据则是针对不同的服务项目，从服务产出、服务投入、行政工作量三个方面设置具体的指标来采集。统计分析表明，公共服务的特征不能很好地解释公众主观评价的差异，公众对公共服务质量的知觉似乎不能准确反映实际的情况。基于此，斯蒂帕克认为，地方政策制定者不能简单地根据主观指标的绩效信息来判断社区服务质量的好坏。他认为:“这类指标的含义是不清楚的，先前一些研究已经表明满意度或者评价指标并不总是准确地反映了政府提供的服务。而且，潜在的分析困难是很大的，这些困难并不都是可以解决的。因此，使用满意度数据来评估服务绩效可能会误导政策分析者”。[4］

针对上述结论，斯蒂帕克认为可能的解释包括四个方面。首先，公众满意度能否作为有效的绩效衡量标准取决于它是否反映了服务的质量，而事实上，公众对满意度调查问题的回答并非只受到来自公共服务质量的影响。在对洛杉矶大都会区的研究中，斯蒂帕克把受访者对警察、公园、垃圾回收等基础服务的主观评价看做服务特征、政府特征、社区特征和个体特征四组自变量的函数。通过多元回归分析得到的数据无法支持服务特征影响了公众对服务的评价的观点，而且服务特征的客观指标对公众满意度的预测能力较其他因素（如种族、年龄）小。其次，公众并不总是能够准确知觉政府公共服务的实际绩效。只有当服务质量特别好或特别差的时候，公众对服务质量的知觉才会受到影响并发生变化。再次，即使主观评价和客观指标之间存在关联性，政策制定者也不能对主观评价的数据作简单化比较，进而推论不同地区间的服务质量的高低。斯蒂帕克认为，只有在主观评价与客观服务质量之间呈现单调递增关系的情况下，我们才能利用主观指标进行服务质量高低的排序。但是，由于公众对服务的偏好和期望的复杂性，这种单调递增关系往往是不存在的。换言之，高的主观评价并不一定意味着高的服务质量。最后，政策制定不能过于依赖公众主观评价信息的原因还在于研究本身的“非实验性”（nonexperimental ）。[5］在斯蒂帕克看来，大多数关于公众满意度的民意调查没有采用实验研究的方法设置实验组和控制组，因此，无法排除其他与服务无关的因素对公众主观评价的干扰。

在此基础上，斯蒂帕克对公共管理实践中应用公众主观评价问题提出了一些建议。（1 ）在社区服务满意度调查中，研究人员一般很难采用严格的实验法排除与服务特征无关的因素对公众主观评价的影响。斯蒂帕克主张采用多元回归分析解决非实验性问题，借助多元回归数据可以看出相关变量与公众对城市服务评价的相关度。当然，多元回归分析本身也无法克服非实验研究方法带来的推论困难，因为受访者的某些个体特征变量是无法测量的，如个体对服务质量的期望，而这恰恰可能是影响公众满意度的一个重要因素。（2）如果确实要采用主观指标测量服务的质量，调查者必须针对服务的具体维度来向服务使用者采集绩效信息，而不是笼统地向他们调查对某项服务的总体满意度。例如，当我们简单地询问公众对警察服务的满意度时，所得到的回答可能受到一系列因素的影响，包括受访者是否是犯罪受害人，最近是否被警察拦截，被拦截时警察对待他的态度等。因此，必须根据服务的具体维度来设计调查问题，这样才能获得更为全面和有价值的信息。（3）总体满意度这样的绩效指标反映了公众对公共服务的态度，而这种态度反过来又会影响公众对执法人员（如警察）工作的配合程度。因此，执法人员可以根据不同地区、不同时间、不同人群的满意度差异灵活采用合适的操作标准。

总之，斯蒂帕克的贡献在于通过经验研究对公众主观评价与公共服务的客观绩效状况相一致这个假设提出质疑。在他看来，正是因为没有意识到公众主观评价的复杂性，许多城市管理者才会简单地根据满意度来推论不同区域或不同时段服务质量的变化。这个推论只有在公众准确知觉服务质量的前提下才能成立，而经验研究表明这个前提不一定能成立。

在《警察服务供给的主观和客观测量》一文中，布朗和库尔特同样通过实证研究的方法对简单使用公众主观评价数据的做法提出质疑。在他们看来，如果政策制定者使用公众满意度调查的方法来获取有关服务质量的信息，那就必须弄清楚:客观测量和主观评价在多大程度上产生一致或矛盾的结果？哪些变量能够解释公众主观评价的变化？在多大程度上，公众的主观评价反映了公共服务的客观绩效？他们采用的研究方法与斯蒂帕克类似，即通过对警察公共服务供给的客观绩效指标及公众在该项服务上的主观满意度进行回归分析，进而检验公众主观评价受到客观绩效指标的影响的程度。布朗和库尔特构建了一个基于警察服务的公众满意度模型来呈现其研究的推进逻辑。在这个模型中，作者建立了以下三组假设:（1）公众对警察服务的满意度是在若干具体服务维度基础上作出的，包括警察响应速度、警察接警方式、与其他社区相比本社区的警察保卫工作、与其他社区相比本社区警察的响应速度、与其他社区相比本社区警察的接警方式、与其他社区相比本社区的犯罪率等六个方面；（2）公众在这些具体维度上的满意度与其人口统计学特征、政治态度特征、接受服务经历、对服务的期望等个体特征显著相关；（3）警察服务的客观绩效指标与公众满意度直接相关。[6］

在接下来的研究中，布朗和库尔特对阿拉巴马州塔斯卡卢萨市16 个校区的538 名市民进行电话访问获取数据。在市民主观评价数据的采集方面，研究人员询问受访者对警察服务的评价（分为优秀、良好、一般和差四个等级），了解受访者对警察保护、警察响应速度以及警察接警方式的看法；同时，研究人员要求受访者就上述方面与城市其他社区的情况进行比较，因为这种比较会影响他们对本社区服务的满意度。为了测量市民对警察服务的期待程度，研究人员将之操作化为市民在社区夜间活动的安全感。对于客观绩效指标数据，研究人员从城市警察档案记录中获得有关警察响应时间、出警数量、逮捕数、严重犯罪数等客观数据。为了检验研究假设，布朗和库尔特采用多元回归分析技术，对公众满意度与警察服务的各个维度间的关系、公众满意度与公众个体特征之间的关系以及公众满意度与客观绩效指标之间的关系进行分析。

数据显示，模型中警察服务的六个细分维度（自变量）可以解释市民总体满意度（因变量）55%的变化。其中，响应时间、接警方式以及对警察保护的公正性的知觉三个具体维度在0.05 的水平上显著，这说明公众对警察服务的总体满意度是基于这三个具体维度的知觉作出的。根据第一组假设检验的结果，布朗和库尔特进一步分析了公众满意度的三个主要维度与公众个体特征（包括年龄、种族、收入及受教育程度等变量）之间的关系。他们发现，公众对地方政府质量的评价、公众受侵害次数与公众满意度的三个维度均存在显著相关性，对三个维度的变化具有良好稳定的解释力。他们最后分析了客观绩效数据与市民主观评价之间的关系。对公众满意度的三个细分维度和八个具体的客观评价指标分别进行回归分析的结果表明，二者之间并没有显著相关性。换句话说，主观满意度水平与客观服务水平彼此之间似乎是独立的。对此，他们给出了自己的解释，公众是依据自己的期望来看待公共服务的客观绩效的，这可能是主观评价和客观评估之间存在较弱的一致性的重要原因。

应该说，布朗和库尔特的研究较斯蒂帕克更为严谨，尤其是他们意识到公众对公共服务的评价可能是基于服务的不同方面而作出的判断，并对公众满意度进行维度细分，避免了模糊的问题导致模糊化的回答这一弊端。另外，他们将公众对服务的相对满意度（相比较于其他社区）变量纳入分析模型中，这也使得研究设计更为科学。当然，研究中的一些指标操作化不尽合理。例如，将公众对警察服务的期待定义为夜间安全感，显得颇为牵强。而且，进行电话访问的时间是1981 年的3 月至5 月，而分析所用的客观绩效指标是1978 年1 月到1979 年9 月的数据，中间的时间差可能是导致主观满意度水平和客观服务水平之间弱相关性的重要原因。另外，他们在统计分析过程中没有区分直接接受公共服务和间接接受公共服务的受访者，这也是后来一些学者抨击的地方。

三

斯蒂帕克、布朗和库尔特对公众主观评价效度的质疑发人深省，但也招致不少学者的反驳，包括布鲁登尼、帕克斯、珀西在内的许多学者加入到这场争论当中，他们分别从规范研究和经验研究的层面提出自己的见解。

布鲁登尼和英格兰德（Brudney，J.L.＆England，R.E.）从“合作生产”（coproduction）的角度重新审视公众主观评价模式的价值。[7］所谓合作生产，是指在公共服务供给上改变政府生产公众消费的传统模式，转而由公共部门和公众作为积极平等的合作者共同参与到公共服务的生产过程中。这种合作生产模式需要公众主动表达服务需求，通过协商与公共机构在服务供给上达成一致。从这个角度讲，民意调查是公众表达意愿以及政府了解公众对公共服务需求的重要途径。同时，了解公众的满意度对综合评价一项公共服务的绩效是十分必要的。布鲁登尼和英格兰德认为，一项公共服务可以从效率、效益、回应性和公平性四个维度进行评价。在效率和效益维度，主要涉及公共服务的价格和数量，可以用一些硬性指标表示，行政官员掌握的信息较公众充分，前者比后者更适合扮演评估角色。而在回应性和公平性维度，作为服务的消费者和公共政策的目标群体，公众对服务质量、服务分配的知觉则为评价提供了更有价值的信息。通过政府为主的客观绩效测量和公众为主的主观评价，公共服务的供给将实现合作生产。由于公共服务的合作生产离不开这四个评价维度的信息，就决定了公众主观评价模式的不可替代性。而且，在他们看来，基于公众的主观评价模式（citizen-based measure ）有助于弥补单纯依赖客观产出指标无法评估政策影响的缺陷。布鲁登尼和英格兰德的论述是有说服力的，他们从规范层面阐释了公众主观评价的民主宪政价值及其对于民主治理的重要性。但由于缺乏实证研究，显得对斯蒂帕克等人的质疑回应力不足。

此后，帕克斯、珀西各自发表了颇具影响力的文章，对公众主观评价和客观绩效测量之间的弱相关性提出了新的替代性解释。帕克斯认为，主观评价和客观测量之间缺乏一致性的原因可能有两个:一是所采用的客观指标和主观指标在概念上有区别，两者的指向不同，也即两套指标测量的并不是同样的内容。[8］例如，警察保护等服务的财务支出和人员配备更多的是对投入的客观测量，而公众在评价服务质量高低的时候关注的是公共服务供给所产生的实际效果。即使采用逮捕率和犯罪率这些和公众密切相关的指标来评估警察服务的质量，也是有问题的，因为它们不能涵盖警察工作的全部内容。也许警察服务在某些客观指标上的绩效是出色的，但却由于在其他指标上的表现不佳而降低了公众的总体满意度。二是由于使用了总体客观测量（aggregated objective measures ）的数据。事实上，公众接受的不是城市总体的公共服务，而是自身居住或工作范围内的公共服务。因此，与城市总体公共服务水准相比较，社区服务的客观评价指标与公众主观评价之间具有更密切的关系。帕克斯认为，斯蒂帕克之所以得出客观测量和公众主观评价之间不一致的结论，原因在于他使用辖区平均绩效水平，忽视了辖区内部更小单位之间的服务供给的差异。在洛杉矶大都会区，警力资源分布在空间上呈现非均衡性，为了打击犯罪，那些高犯罪率的区域往往配置了更密集的警力资源。简单采用整个地区的平均绩效指标数据显得过于粗糙，且在多元回归分析中可能降低这些客观绩效自变量的解释力。因此，帕克斯主张采用社区服务的客观绩效指标进行分析，这类指标承载的信息和公众的主观感受是密切相关的。

珀西也认为，将公众主观评价与客观绩效测量之间的差异归结为公众知觉错误的做法是不妥当的，这种归因只有在客观绩效信息是真实有效的前提下才能成立。他指出，斯蒂帕克等人表面上提出了对使用公众满意度作为绩效指标的质疑，但实际上这些研究只是提供了服务供给的客观测量没有显著影响公众主观评价的证据罢了。客观测量之所以无法对公众主观评价产生显著影响，原因在于对服务的客观测量是一个情境因素，受到犯罪率、响应时间等指标的影响。而事实上，公众不会特别关注这些因素。相反，个人与警察的接触、媒体的报道这些因素反而可能对公众知觉产生更强烈的影响。所以，不能由于主观评价和客观测量之间的弱相关性就草率地得出公众评价不准确的结论。[9］

应该说，帕克斯和珀西的解释颇具启发性，但要回答“公众对服务的主观满意度能否反映事实上的客观服务绩效”的问题，经验数据的支撑是不可或缺的。

帕克斯认为，要探究主观指标和客观指标之间是否相关，研究者必须弄清楚两者之间是如何发生联系的。也就是说，投入是通过怎样的过程转化为结果输出的？在这个过程中有哪些中间指标？公众是如何构建他们对公共服务的评价的？为此，帕克斯选取警察响应速度和公众对警察响应速度的知觉进行研究，建构了一个公众对警察响应速度的知觉模型，该模型①模型中“＋”、“-”、“？”分别表示两个变量间的关系是正相关、负相关及方向待检定。位于虚线左边的变量为间接变量，虚线右边的变量为直接变量，间接变量通过直接变量影响公众对社区警察快速响应的知觉。（见图1）区分了影响公众知觉的直接因素和间接因素。

帕克斯的数据来源于对美国密苏里州圣路易斯（St.Louis ）大都会区的研究。他首先根据最近一段时间是否与警察打过交道将受访者分为两组，各获得559 个和2 789 个个案。针对这两组受访者，帕克斯分别将影响因素与公众对警察响应速度的知觉进行多元线性回归分析，得到的结论和斯蒂帕克等人的相似，即机构记录反映的客观绩效数据并没有对受访公众的主观评价产生显著和直接的影响。例如，负责巡逻的正规警察比重的回归系数只有0.006 ，即负责巡逻的正规警察的比重每增加10 个百分点，公众对警察响应速度的知觉才提高0.06 分（5 分制）。而且，针对第二类受访者（近期未与警察打过交道）建立回归方程的判定系数只有13.8%，说明回归方程的总体解释力不理想。但是，帕克斯认为，这些发现并不足以支撑客观绩效改变不会导致主观评价变化的观点。在客观指标和主观指标之间存在一些中间变量，客观指标通过中间变量进而作用于公众的主观知觉。如果只关注客观绩效指标对公众主观知觉的直接影响，将大大低估其实际影响力。

图1 影响公众对社区警察响应速度知觉的因素

为了检验这种假设，帕克斯详细梳理了影响公众知觉社区警察响应速度的各种因素，构建出主观指标和客观指标相互影响的单向模式网状图。在这个网状图中，客观指标的变化将引起某些中间的客观变量或主观变量的变化，进而引起公众对社区警察响应速度知觉的变化。例如，负责巡逻的正规警察的比重不仅直接作用于公众对警察响应速度的知觉，也可以通过市民报告遇见巡逻警车的频率、与警察交往经历的不满意率等内生变量间接地对因变量产生影响。为了准确测量各个自变量对公众知觉的叠加影响力，帕克斯采用统计学中的路径分析方法，分别计算了各个自变量对因变量的直接、间接和总的影响力。统计结果表明，原先与公众知觉相关性弱的自变量通过其他变量明显提高了与因变量的相关度。例如，负责巡逻的正规警察比重这一变量对因变量的直接影响系数只有0.09 ，但通过中间变量的作用可以将总影响系数提高到0.26 。这表明，将中间变量纳入公众主观评价和客观测量的相关性分析中显得更为合理。因为社会现象之间的关系是复杂的，各种因素相互关联并形成一个复杂的因果网。采用路径分析方法测算客观绩效指标对公众主观评价的总影响力，这是帕克斯的创新之处，极大地拓展了既有的研究思路，也为斯蒂帕克等人的研究结论提供了一种新的解释。

珀西则是通过一个警察沟通研究项目①该项目是美国印第安纳大学政治理论与政策分析工作室开展的，他们通过对田纳西州沃思堡市警察局收到的5 000 多个求助电话进行分析来采集数据。来检验公民知觉和评价公共服务的影响因素。他首先建立了一个理论框架（见图2 ），认为公众对特定服务行为的评价受到了他们对这些行为的知觉、对行为的期望、服务环境的特征以及公众个体特征的影响。在此基础上，公众对特定服务的评价进而影响了他们对服务机构整体绩效的评价。珀西认为，早前研究的不足之处在于没有将公众对服务的期望纳入回归分析方程中，而这是影响公众对服务质量知觉的关键变量之一。

珀西首先搜集和分析了警察局电脑辅助调配系统中记录的三个有效节点:第一个节点是求助电话被话务员分配到调配器的时间，第二个节点是警察被派遣的时间，第三个节点是警察到达现场的时间。第二个节点减去第一个节点得出求助者大致的等待时间，第三个节点减去第二个节点得出警察前往现场的时间，第三个节点减去第一个节点得出警察响应时间的总体估算。同时，为了收集市民的意见和评价，研究者通过电话访谈了1 200 多位最近两周内打过求助电话的市民，调查内容包括市民与警察局话务员的交流、对响应时间的评价、现场警察的行动以及受访者个体特征等。然后，研究者将求助电话的数据和电话采访的信息进行配对，总共获得625 个个案，形成了整份研究的数据库。

图2 公众知觉和评价服务机构绩效的理论框架

珀西的研究围绕三个问题展开:（1）公众对公共服务绩效的知觉是否准确？（2 ）公众对服务绩效的知觉在多大程度上影响了他们对具体公共服务行为的评价？（3 ）公众对特定服务行为的评价是否影响了公众对服务机构总体绩效的评价？对于第一个问题，珀西通过比较公众对警察响应时间的估算和警察局记录来检验。数据显示，公众估算的响应时间平均值为16.6 分钟，而警察局电脑系统记录的平均响应时间为15.5 分钟，两者数值上十分接近。另外，两种测算方式的交互分类分析显示两者之间的相关系数达到0.44 ，这就证明了公众能够准确知觉警察响应速度的实际状况。研究者还通过多元回归分析来检验公众主观知觉的警察响应速度与实际响应记录之间的关系。结果显示，警察响应时间记录自变量的标准化回归系数为0.37 ，远高于其他自变量的系数值，且通过0.01 的显著度检验。而包括收入、种族、教育、性别等个体特征的自变量均没有通过显著性检验。期望变量与公众对警察响应时间满意度在0.01 的水平上呈正相关关系。相比较于参照组（即认为警察响应速度与预期一致的受访者），认为警察抵达现场速度比预期要快的居民所报告的警察响应时间要少4.25 分钟，认为警察抵达现场速度比预期要慢的居民所报告的警察响应时间要多8.5 分钟，这验证了作者在理论框架中提出的期望变量影响公众对客观服务绩效知觉的假设。

为了回答第二个问题，珀西将受访者对响应时间的知觉和期望、服务环境的特征、受访者个体特征视作三组自变量，将公众对响应时间的主观满意度评价视作因变量，进行多元回归分析。数据显示，公众报告的响应时间和公众主观满意度在1%的水平下呈负相关关系，公众报告的响应时间变量的回归系数为-0.01，即在公众知觉中警察响应时间每增加10 分钟，公众主观评价打分将降低0.1 分（5 分制），这说明公众对警察响应时间的主观评价在某种程度上是基于对实际响应时间的知觉。服务环境的特征（如社区犯罪率）对于公众主观评价没有显著影响，期望变量对主观评价则有显著影响。回归方程显示，相比较于参照组（即回答警察响应时间与预期一致的受访者），认为警察响应时间比期待要快的受访者在对警察响应时间的满意度上的打分要高出将近0.5分，而认为警察响应时间比期待要慢的受访者在对警察响应时间的满意度上的打分要低1.22 分。在受访者个体特征方面，只有年龄和态度对公众主观评价存在显著性影响。由此可见，公众对响应时间主观评价的变化更多的是通过知觉和期望变量得到解释，公众的主观评价主要是受到其对机构行为的知觉和期望的影响。

为了回答第三个问题，珀西将公众对警察行为的评价、对社区犯罪情况的知觉、服务环境的特征、公众个体特征作为自变量，将公众对警察服务的总体满意度作为因变量进行回归分析。结果发现，对接线员响应的满意度、对警察响应时间的满意度、支持警方工作的态度三个变量与公众对警察服务总体满意度之间存在显著的正相关关系，而公众对社区犯罪情况的知觉、受访者的受教育程度与因变量存在显著的负相关关系。这一发现证明，公众对服务机构总体绩效的主观评价与其对特定服务行为的评价显著相关。

根据上述数据分析的结果，珀西提出了三个重要的研究结论:（1）公众拥有知觉服务机构绩效的能力；（2）公众对公共服务的评价是基于他们对服务质量的知觉作出的；（3）公众对特定服务行为的评价影响着他们对服务机构总体绩效的评价。与之前的研究相比较，珀西的独到之处就在于，他将知觉变量和期望变量纳入分析中，并证实这两类变量显著地影响了公众的总体满意度。

四

综上所述，尽管公众参与政府绩效评估在许多国家和地区如火如荼地开展，但现有文献仍未对公众主观评价的效度给出一个令人信服的答案，理论与实践中的争执仍将持续。首先，公众能否准确知觉和判断公共服务的实际绩效？或者说，公众的主观评价与公共服务的客观绩效是否一致？其次，公众对公共服务的主观评价在多大程度上是基于对客观绩效的知觉？如果说公众对公共服务的评价受到其他非服务特征的干扰，那么，评估工具的效度将大打折扣。最后，如何提高研究设计的科学性？在既有的研究中，学者们在对具体服务领域的选取、研究假设的操作化、统计工具的选择上有很大的不同，究竟应该如何提高研究设计的精细化和合理性是值得进一步探讨的问题。

基于对上述文献的梳理，笔者认为，今后深化公众主观评价效度研究的时候必须注意以下问题:

第一，政府机构记录的真实性问题。现有文献大多将主观评价的效度操作化为在某项具体服务上公众主观评价与实际绩效之间的一致性程度，其中公众主观评价一般是采用公众满意度调查获取的数据，实际绩效则是取自机构记录。这种研究设计中暗含的假设是，政府服务的实际绩效等同于机构记录的绩效。而事实上，由于数据本身的真实性问题，机构记录不一定能够准确反映政府实际绩效状况。从这个角度看，帕克斯等人的逻辑基础是不牢固的。

第二，样本的代表性问题。在帕克斯、珀西等人的研究中，基本都是采用简单随机抽样的方法获取样本。在分析公众主观评价受何种因素的影响问题上，为了提高样本的代表性，采用分层随机抽样的方法更为科学合理。

第三，在客观绩效指标的选取上必须更加慎重。斯蒂帕克和布朗等人所采用的客观绩效指标备受质疑，如诺森特布、哈罗和汤普森曾联合致信美国《公共行政评论》编辑部，表达了对斯蒂帕克的研究结论的不同看法[10］。他们认为，斯蒂帕克选取的客观指标与公众主观评价之间缺乏一致性是正常的，因为该研究采用“逮捕率”、“破案率”、“严重犯罪率”等指标，公众一般不会关注这些指标，从而导致了多元回归分析中公众主观评价与客观绩效指标之间的弱相关性。此外，必须区分投入指标和产出指标，多元回归分析时采用产出指标可能会更加合理。

第四，分析工具的选择问题。在前面介绍的文献中，学者们都是选择简单的多元线性回归作为分析工具。但实际上，公众主观评价与公共服务客观绩效之间的关系不一定是线性关系。根据经济学的边际效益递减原理，随着公共服务质量的提高，其带给服务使用者的边际效益会逐渐下降。从这个意义上讲，公众对公共服务的主观评价与实际绩效之间很可能是一种非线性关系。如果借助非线性相关分析和非线性回归分析，或许可以更深刻地揭示两者之间的内在联系。

本文所引用的文献全部来自美国公共行政学界的研究成果。在对公众主观评价效度的实证研究上，国内学术界相对滞后，现有研究基本上停留在规范层面，如讨论公众参与政府绩效评估的必要性和积极意义[11］，以及如何完善政府绩效评估中公众参与的机制设计[12］，等等。应该说，这些规范研究对于弘扬公众的主体地位、保障政府绩效评估的公众导向具有重大意义。但是，目前我国许多地方政府已经开始将公众主观评价纳入政府绩效评估体系中，并产生了重大的现实影响。为促进政府绩效管理实践的科学化，我国公共行政学界应当积极开展公众主观评价效度的实证研究，与国外现有的研究成果进行对话，以期为公众参与政府绩效评估的实践提供更有力的理论指导。

[1]Poister ，T.H.＆Streib，G.“Performance Measurement in Municipal Government :Assessing the State of the Practice”.Public Administration Review，1999 ，59（4）.

[2]Xiaohu Wang ＆Gianakis ，G.A.“Public Officials'Attitudes toward Subjective Performance Measures ”.Public Productivity ＆Management Review，1999 ，22（4）.

[3]Daneke ，G.A.＆Klobus-Edwards，P.“Survey Research for Public Administrators ”.Public Administration Review，1979 ，39（5）.

[4]Stipak，B.“Citizen Satisfaction with Urban Services :Potential Misuse as a Performance Indicator ”.Public Administration Review，1979 ，39（1）.

[5]Stipak，B.“Are There Sensible Ways to Analyze and Use Subjective Indicators of Urban Service Quality”.Social Indicators Research，1979 ，6（4）.

[6]Brown，K.＆Coulter，P.B.“Subjective and Objective Measures of Police Service Delivery”.Public Administration Review，1983 ，43（1）.

[7]Brudney，J.L.＆England，R.E.“Urban Policy Making and Subjective Service Evaluations :Are They Compatible ？”.Public Administration Review，1982 ，42（2）.

[8]Parks ，R.B.“Linking Objective and Subjective Measures of Performance ”.Public Administration Review，1984 ，44（2）.

[9]Percy，S.L.“In Defense of Citizen Evaluations as Performance Measures ”.Urban Af fairs Review，1986 ，22（1）.

[10]Rosentraub，M.S.＆Karen Harlow，Lyke Thompson.“In Defense of Surveys as a Reliable Source of Evaluation Data”.Public Administration Review，1979 ，39（3）.

[11]彭国甫、谭建员、刘佛强:《政绩合法性与政府绩效评估创新》，载《湘潭大学学报》（哲学社会科学版），2008（1）。

[12]陈振明等:《公共服务绩效评价的指标体系建构与应用分析》，载《理论探讨》，2009（1）。