基层政府绩效评估中的多重行动逻辑、策略分化与繁文缛节

2023-09-01李倩

上海行政学院学报 2023年4期

摘要：绩效评估是政府行动的指挥棒和国家治理的重要工具，近年来一向以“结果导向”见称的绩效考核却催生了基层的繁文缛节困境。基层政府绩效评估中多元主体的行动逻辑与策略分化如何引发繁文缛节？案例研究表明，在程序纠偏与技术治理的背景下，三类评估主体分别遵循信息控制、避责、赋权逻辑，在策略性互動中加剧基层政府的繁文缛节困境：对于上级考核者而言，纠偏导向的强控制策略导致绩效信息的重复生产；对于下级政府而言，繁文缛节异化为避责工具，通过责任转嫁和模仿机制在政府间不断扩散；被拉入评估剧场的公众则通过评估技术获得有限却激进的赋权，官僚运作规则进一步下沉至非正式制度领域，对民意的回应流变为“为公众留痕”。

关键词：繁文缛节；绩效评估；行动策略；规则负担

一、问题的提出与文献回顾

绩效考核工具的使用是中国经济增长与社会发展的重要动力。随着现代化进程的推进，政府绩效评估的技术理性不断提升，公民参与日渐隆盛，已成为不可或缺的国家治理手段。近年来，一向以“结果导向”见称的绩效评估却催生了繁文缛节困境，“以材料论英雄”“文山会海”困扰着基层政府与民众，减轻规则负担和根治形式主义的呼声不绝于耳。这与以往政府绩效评估受到的“唯结果论”批评形成鲜明对比[1]。为什么绩效评估会从“为达目的不择手段”转变为“小心翼翼的文牍主义”？在基层治理场景中，多元评估主体的策略性互动如何推动繁文缛节的生产？这是本文的研究问题。

繁文缛节是具有一定负功能的规则冗余，这种负功能体现在无助于组织目标[2]，或是有损组织绩效[3]。繁文缛节常被看作是一种“官僚病”，官僚组织内的繁文缛节来源有二：一是源自科层体制内在的控制倾向[4]，为实现组织目标、协调行动，官僚组织需要对个人的自由裁量权和资源使用进行限制[5]，若控制超过必要限度将产生繁文缛节。二是源于外部利益相关者的诉求，如公众、媒体、非营利组织等通过法律、舆论影响规则设置，最终导致繁文缛节[6][7]。

在新公共管理运动中，绩效评估被视为翦除繁文缛节的有效途径，因其能通过“结果导向”和“管理授权”将公共管理者从过程控制中解放出来[8]，专注于公民期望的政策结果。在中国基层治理的场景中，绩效考核却有可能过程控制，成为文山会海、痕迹主义、形式主义等繁文缛节的诱因。那么，本土情境中的绩效评估如何引发基层的繁文缛节？针对这一问题学界主要围绕三个方面展开：第一，技术工具说，即评估方案的不完善引致繁文缛节。繁文缛节被认为是绩效评估的消极后果，如产出导向的指标设计导致形式主义问题[9]；绩效考核工具“政出多门”，导致基层单位疲于应对各个上级单位的评估[10]；绩效指标设计不科学、考核过于频繁、考核方式和结果运用不当，导致政府绩效评估陷入痕迹主义困境[11]；评价标准不一、整改常态化导致基层考核任务过于繁重[12]。第二，科层结构说，即科层体制的权责分配与控制逻辑导致基层政府面临过重的规则负担。职责同构的政府间关系为繁文缛节提供了组织基础，各级政府都有着超出自己职责范围的任务，基层政府在问责压力之下利用材料代替实际工作[13]。压力型体制下的全过程绩效考核、同级组织间的竞争模仿，以及基层对社区（村）的注意力干预共同促成“文山会海”[14]；加上软性公共行政任务的硬性操作，各级政府不断加码留痕，考核由绩效导向转化为痕迹导向[15]。为应对重复考核，基层政府在有限时间内程式化地生产文件、制造文档[16]，以规则主义取代结果主义，涌现出各类应激行为和面子工程[17]。第三，外部监督说，即将评估中的繁文缛节归咎于公民参与和外部监督的缺失。相较于国外研究更关注政府迫于公众压力而主动设置的规则负担，学界多认为中国治理场景中的繁文缛节是公众参与和外部监督缺位的结果。在绩效评估中引入公民参与，有利于防范信息失真和博弈行为、提升政府形象和政治合法性[18]，缺少公民参与则会导致绩效评估沦为内部管理工具[19]。当治理机制一味迎合上级要求、忽略公众自下而上的信息反馈，会导致乡镇干部为应付检查大搞形式主义[20][21]；文牍主义等评估失灵问题的背后，是权威为本的技术治理逻辑压制了作为服务对象的公众的需求[22]。

在国外主流研究中，绩效评估中的繁文缛节并未引起充分重视，绩效评估被认为是繁文缛节的“处方”而非病因，这或许与中西方的行政体制改革处于不同阶段有关：不同于西方国家试图通过绩效评估摒弃程序僵化的官僚制，中国正经历从强激励的行政体制转向透明和规则导向的改革形态[23]。国内研究从不同角度说明了评估工具在繁文缛节形成过程中的重要作用，但仍存在探索空间：第一，技术工具说没有充分考虑制度背景的作用。自1985年目标责任管理制推行伊始，绩效评估在目标体系的一致性、评估程序的科学性与规范性等方面不断改进，技术工具说无法解释为什么评估技术日趋完善，繁文缛节反而愈演愈烈。第二，科层结构说未能回应在新的时代背景下，科层结构对评估工具的影响机制有何变化。例如，压力型体制一直是政策执行问题的通用解释，但层层加码的压力内容却并非一成不变——曾经在GDP指标竞赛中“以结果论英雄”的地方政府，为何会热衷于填表等过程控制行为，现有理论需要对新时期科层结构中的压力来源、表现形式与传导机制作更具针对性的探讨。第三，外部监督说认为公众缺少参与和影响政策的渠道是繁文缛节的主要致因，较少讨论公民参与在评估过程中的异化可能。实践中，满意度评价是公民参与绩效评估的重要方式，同时也是地方政府制造繁文缛节的关键诱因。

基于此，本文拟从三个方面对上述问题作出边际贡献：第一，聚焦绩效评估领域的繁文缛节。繁文缛节具有情境性，在不同场域的含义和侧重差别巨大[24]，因此有必要在特定的治理场景中进行分析。第二，关注在强调责任政府的新时代背景下，绩效评估如何诱发基层的繁文缛节。第三，为解释繁文缛节的生产机制提供一个多重行动者分析框架（见表1）。这一框架对技术工具、科层结构与公民参与的理论视角进行整合，探讨多元评估主体的策略性互动如何引发繁文缛节。

本文以J县Y镇的脱贫攻坚工作考核为例展开分析。案例研究作为一种定性研究，其长处在于能实现情景化叙事与因果分析的互证[25]，较适合研究“现象与环境背景界限模糊、变量比数据点更多[26]”的中国基层治理问题。脱贫攻坚是近年中西部地区的重点工作，各级政府、职能部门将脱贫任务融入日常政府管理与公共服务，与此同时各地基层扶贫考核中普遍出现形式主义困境，中央多次下文叫停①，为观察绩效评估中繁文缛节的生产机制提供了绝佳舞台；而乡镇位于国家与社会的边界，同时面对上级政府与公众两个方向上的压力，较能体现多重行动者对评估过程的影响。目前脱贫攻坚战已经取得全面胜利、绝对贫困已经消除，但诱发评估负担的制度基础依然存在，文山会海、过度填表、频繁迎检等现象同样存在于环境保护、安全生产等非扶贫领域，相信本研究对化解其他政策领域的繁文缛节亦有参考价值。笔者于2017-2018年的6-8月间对J县Y镇进行了参与式观察，并于2019年、2020年对Y镇的扶贫干部进行追踪访谈，得以了解基层政府及公众对待绩效评估的复杂态度，以及不同层级政府在指标设计、督查机制、相机策略方面的宝贵信息；文中资料主要来源于田野观察、制度文件和对扶贫干部与村民的访谈记录。本文首先探讨新时代背景下上级政府、下级政府和公众在政府绩效评估中秉持的行动逻辑及策略选择；其次，通过案例分析，揭示多重主体的互动在绩效评估过程中如何引发繁文缛节；最后，阐述本文可能的理论及实践启示。

二、分析框架：新时代背景下绩效评估主体的行动逻辑与策略分化

（一）新时代背景下的政府绩效评估：程序纠偏与技术治理

在新时代国家治理现代化的发展进程中，政府绩效评估嵌入的制度环境发生改变，问责逻辑逐渐超越绩效逻辑。十八大以来，中央强调政府行为应遵循法治和规则导向，治理模式从行政自由裁量权层层下放向强化内部控制机制转变[27]。上级政府开启垂直管理的扩权运动，加强对基层政府工作的全过程控制[28]。随着问责制的全面持续强化，政府官员在多重考核指标上的失职可能导致职位不保，政治锦标赛升级为淘汰赛[29]。

上述制度背景推动了政府绩效评估在“程序纠偏”和“技术治理”两个维度上的转向：（1）程序纠偏。长期以来，我国政府绩效评估与干部晋升、财政奖励绑定在一起，在激励地方政府、实现社会经济高速发展的同时也带来共谋[30]、恶性博弈[31]、执行偏差等消极后果。出于对以往指标治理中地方政府越轨失控的纠偏考虑，新时期的绩效评估体现出更强的程序控制倾向：例如，更强调规则遵从和循证治理，对政策执行过程中违规行为强化问责力度；更关注绩效数據的真实性、重视公众或舆论一端提供的信息；等等。（2）技术治理。当前绩效评估的制度设计更加规范化、精细化，对管理技术和数字治理技术的融汇运用更为娴熟。满意度评估、第三方评估等多元评估技术的进入，让评估过程更为开放，极大地增强了公众的话语权；数字信息技术日新月异，为监督问责和评估结果的利用创造更多的可能：政府内部信息系统的大数据比对提升了绩效信息的真实性；遥感技术为随机抽查提供便利，降低督查验收过程中的共谋概率；数字平台之间的联动促进了评估政策之间的协调性和系统性；等等。

在程序纠偏和技术治理的背景下，绩效评估主体的行动逻辑亦发生转向，这一转向的非预期后果便是繁文缛节。分析繁文缛节的生产机制前，下文将首先分析转型背景下上级政府、下级政府与公众三类主体在绩效评估中的行动逻辑及策略选择。

（二）作为考核者的上级政府：信息控制

考核者对信息控制的需求根植于科层体制的结构性困境，因为代理方（下级政府）通常比委托方（上级政府）拥有更多的信息。在新时代背景下的评估情境中，作为考核者的上级政府对于获取准确信息有更迫切的需求：首先，程序纠偏意味着考核者比以往更不信任低层级政府。考虑到中国的治理规模、政治责任差序格局和尚未完善的数据系统，地方官员特别是基层一直存在隐瞒信息、选择性上报和信息造假的冲动[32]。上级政府控制信息既是为了了解政策执行情况，也是为了避免因下级组织越轨而承担连带责任。其次，随着治理技术边界不断拓展，上级政府得以打通信息向上披露的渠道、更精准地约束下级政府的自由裁量权，降低委托代理机制内生的道德风险。

为了在评估中获取更精确的绩效信息，上级政府主要有压缩授权、随机化与跨层级监测三类应对策略。第一，向下压缩授权。压缩授权空间意在让下级政府全面呈现政策执行的过程信息，以供核查监督。新公共管理范式中的绩效评估以授权为主要特征[33]，这与改革开放以来提升地方官员自主性、通过量化政绩指标激励经济增长的逻辑一致；但地方政府“重结果轻程序”的经济行为层层加码，对社会公平和生态环境造成严重破坏，此后高层政府调整授权结构，在实现绩效目标的基础上日益强调对程序规则的遵从。实践中压缩授权的主要做法有：（1）财权上收，通过控制资金流动和使用权限实现对下级政府的监督；（2）程序细化，制定更精确的规则类指标约束下级政府的行动边界；（3）基于信息技术进行组织控制，例如，通过大数据技术比对核查基层上报的绩效信息，或是要求项目单位定期将工作进度场景上传平台，以增加数据造假成本、方便跟踪监管。

第二，随机化机制。将监督与随机性结合是一种常见的政府内监管方法，其原理在于提升目标设定、信息收集、行为矫正的不可预测性，从而消除被监管者的机会主义行为[34]。随机化机制在绩效评估场景中十分常见，例如，考核者刻意制造检查过程的不确定性、灵活变化检查标准与地点，从而营造监管压力、确保政策质量、制约下级政府的短期行为[35]。绩效评估的随机化策略包括评估时间上的随机化，如不提前通知被考核者的“暗访”；空间上的随机化，如通过随机抽样选择评估地点；考核条件与违规后果的随机化，如“四不两直”工作方法中的“不发通知、不打招呼、不听汇报、不用陪同接待”等。

第三，跨层级监测。中国政府复杂的条块体制和漫长的层级链条，意味着评估层级越高、信息不对称问题越严峻。跨层级监测让考核者得以直面信息源，最大限度地摒弃虚假信息和噪声信息，破坏下级政府串谋作弊的空间。具体做法包括跨层级考察一线政策执行者，如“一竿到底”式考核验收、“四不两直”中的“直奔基层、直插现场”；或是直接向政策对象与公众收集相关信息，如入户问卷调查、电话调查访问等。

（三）作为被考核者的下级政府：责任规避

作为被考核者的下级政府首要的行动逻辑则是避责。首先，对下级政府而言，程序纠偏意味着更大的问责压力。重大社会政策通常以“政治挂帅”的方式推进，决策者具有相当大的自由裁量权，政策规则本身并不能向官僚提供稳定预期[36]，一旦考核与问责挂钩，官僚感知到的不确定性风险将显著增加。中国治理体系的惯例是通过动员机制（开会、检查）和组织机制（成立机构、委任成员）推进行政工作，界定职责和权限主要通过领导指示而非立规陈述[37]。这也意味着如果基层官员面临不当问责，将无法向韦伯式官僚制中的规则体系寻求保护。其次，信息和管理技术的发展进一步限制了被考核者的博弈空间。例如，统计技术、信息系统的完善大幅提升高层级政府的数据核查能力；第三方评估、公众满意度的引入，导致基层政府对考核结果的影响力减弱。换言之，在新时代背景下，被考核者操纵数据的难度更大，惩罚性后果也更严重，基层官僚的行为动机逐渐从邀功（credit claiming）向避责（blame avoidance）转变[38]。

为规避问责风险，下级政府主要有指标加码、责任转嫁与模仿三种策略。第一，对规则类指标主动加码。程序纠偏与强化问责会引发合规成本（compliance cost）攀升，当上级政府压缩授权空间，下级政府也有意通过放弃自由裁量权应对高昂的合规成本[39]。对规则类指标主动加码是放弃自由裁量权的常见手段，不同于结果类指标强调最终政策效果，规则类指标是对政策执行过程的度量（如档案文件、走访记录等）。主动加码的规则类指标既可为下辖组织施加更多程序约束，也是对抗上级政府任意问责的豁免依据。

第二，责任转嫁。在政策执行中，官僚感受到的行政负担越重，越倾向于将行政任务转移给其他层级[40]。当考核问责氛围日趋浓厚，地方政府组织致力于转移的不单是行政负担，还有潜在的连带责任风险[41]。上级政府可以通过“属地管理”将行政任务与责任推给下级组织，再通过文山会海撇清连带责任，隐含的逻辑是决策者既已将政策宣传到位，如果验收出错则主要责任可归咎于具体的执行者[42]，因此，作为执行末端的基层政府常需面临大量重复性的会议和文件。

第三，模仿。新制度理论将组织模仿行为看作是应对不确定性的自然反应[43]，模仿的动机有效率和合法性两方面的考虑[44]。在政治挂帅的重大社会政策项目中，无论基层政府做事是否符合条款，都可能要对舆论不满等最终结果负责。当被考核者不确定怎样才能在高度复杂的行政任务和连带责任中全身而退，模仿其他组织的避责经验是一种理性选择。如果避责经验不断扩散，越来越多的组织可能迫于合法性压力在制度上趋同。

（四）作为政策对象的公众：赋权互惠

作为政策对象的公众在评估中的行動逻辑主要是赋权互惠，即为上下级政府提供协助的同时，凭借技术赋权为自身谋求政策福利。首先，出于信息控制和避责需求，上级政府和下级政府都有动机在绩效评估中引入公民参与，公众由此得到实质性赋权。上级政府通过公众参与评估能够缓解多层级委托代理中的信息困境，协助监督属地政府的政策执行过程，因为公众能够在回应性和公平维度提供更有价值的绩效信息[45]；下级政府则需要公众在“评估剧场”中配合筹备、验收等工作。例如，在考核模拟演练中扮演“观众”，或是在上级督查的满意度考察中给出正面评价。考核者与被考核者的双向需求将公众拉进原本“内向性”的评估体系中，公众也因此获得向政府进行议价甚至利益挟持的机会。其次，公众也需要参演“评估剧场”获取关系资本，以化解行政负担、享受政策福利。治理技术高度发展的一个意外后果是公众的行政负担飙升，无论是信息收集的学习成本、由行政过程中压力体验带来的心理成本，还是提供身份文件等合规成本[46]，都可能导致政策对象不堪重负，进而放弃应得权益。大量民生政策的推动高度依赖于基层官僚的政策解释和执行落实，仅凭目标群体一己之力可能连申报资格都无处知悉。

得到赋权之后的公众并非只是被动的配合者，他们在参与评估的同时积极采取策略，拓展行动空间：第一，加入“剧场”。基层绩效考核的实施环境很多时候是熟人社会，基层官僚基于非正式关系游说公众，要求他们在评估剧场的各个环节扮演“认可官方”的角色。公众特别是政策福利的目标群体一般也愿意配合，因为既可以借此与基层官僚建立政治关联，也可以缓解行政负担、为日后新政策进场奠定合作基础。第二，议价谈判。利用考核结果与问责紧密挂钩的特性，公众可以通过承诺向上级政府提供何种绩效信息，作为与属地政府的谈判筹码。第三，问责挟持。在问责压力较大的关键时间节点（如中央大督查期间），少数群体利用“弱者的武器”要挟属地政府和基层官僚为其实现不合理私利。问责挟持与议价谈判的区别在于公众的诉求是否在政府职责之外，例如，有村民利用基层的脱贫验收压力，将赡养义务“甩锅”给政府，甚至将老人作为争夺贫困帽子的筹码[47]。

三、绩效评估主体的策略性互动与繁文缛节生产机制：以J县Y镇为例

（一）绩效评估中的繁文缛节困境：规则负担过重

J县Y镇位于中部省份西南边陲，辖14个行政村，1个居委会，161个村（居）民小组，常住人口约3万人，2016年经全面调查摸底共识别出贫困户3102户9066人，于2020年顺利脱贫摘帽。由于地处山区交通不便，Y镇经济基础十分薄弱，然而脱贫过程中基层政府的最大困境不是脱贫之艰，而是评估过程中沉重的规则负担。就这一点而言，Y镇近似于“最不可能案例”——如果脱贫难度最大的基层政府注意力都在规则与程序之上，那么其他地区也将难以避免此类问题。

Y镇在脱贫攻坚评估工作中的规则负担主要体现在以下三点：第一，围绕考核指标的程序性事务繁重。镇政府工作人员和驻村扶贫工作队花费大量时间在资料档案、会议文件等过程导向和规则导向的指标上。精准扶贫涉及财政、医疗、社保、教育、农业、水利、交通、电力、住建等众多领域，这些专业部门的贫困治理方案主要依靠发文来督促乡镇落实；在数字治理的背景下，海量基础信息的录入任务压到一线工作人员身上，一旦信息有误，就可能被扣上“账实不符”的帽子，Y镇一位乡镇干部表示“一本册子要填2000余个空，填的数字还得有‘逻辑性”（BH-LDZ-20170810②）。第二，迎检任务繁重。基层政府和扶贫干部既要迎接上级政府和行业部门的考核验收，也要监督检查下辖村级组织的扶贫工作；除了定期监测自查，还要接受门类繁多的督查巡查、交叉考核、第三方评估、媒体暗访等各类检查。第三，迎评工作存在大量重复性内容。例如，同一段时期内基层干部参加的各级培训会议内容往往大同小异；台账及各类表格的填写由于格式和内容的微调，需要反复入户核实确认，即使有电子存档，也需要保留书面档案；等等。

上述规则负担是典型的繁文缛节，因其执行考核规则的成本之高，已对扶贫目标产生显著的负面影响：第一，对常规扶贫工作的挤出效应。乡镇干部和驻村干部除了要填写大量表格、频繁参与会议和培训，还需严格考勤打卡、不断走访入户，完成上述考核指标之后大多已无余力再为帮扶对象筹划个性化的脱贫方案。而种类繁多的评估活动导致基层政府将注意力主要集中在应付检查上，Y镇BH村的驻村扶贫干部提到，“从中央到地方各级检查都很多，现在我们90%的精力都在填表、应付检查。政策从制定到落地产生效果总要有个过程，过多精力在应付检查上面，做实事的时间就会少很多”（BH-LDZ-20170810）。第二，评估活动的经济成本占用了本应用于脱贫的有限资源。2017年是Y镇所在的J县考核负担较重的一年，其扶贫办的三公经费比上年增加89%，增加部分主要用于组织、接待各类督查；Y镇下辖贫困村月均打印费过万，另外，每次迎检打扫卫生的人工费、制作各类宣传牌、粉刷外墙导致的资源耗费也较大。第三，对基层政府和民众的政策认同产生不利影响。调研中参与访谈的基层干部认为，过于频繁的迎检已经干扰到扶贫工作的正常开展；村民则认为，这是形式主义的政绩游戏，自己并没有真正受惠其中（LS-ZCM-20180825）。

（二）信息控制中的纠偏悖论：绩效信息重复生产

上级考核者的信息控制逻辑及其行动策略是Y镇政府繁文缛节困境的重要诱因。脱贫攻坚战略比以往扶贫政策更强调信息的真实性，考核者对于信息控制的需求也更强烈。然而上級控制导向越强，基层注意力离“信息质量”越远，考核者由此出台新一轮纠偏措施，在此过程中绩效信息重复生产，这是繁文缛节的第一个生产机制。

首先，考核者压缩授权可能导致基层注意力从政策结果转向规则遵从；而不同条块上级组织的多重考核会加剧绩效信息的重复生产，重复达到一定规模即产生繁文缛节问题。上级压缩授权策略首先体现在扶贫资金专项化。J县《扶贫办财政专项扶贫资金绩效自评报告》显示，2016-2020年中央和省级转移支付占Y镇所在J县扶贫专项资金80%以上，其中仅2016年J县就向国开行和农发行申请了10.7亿元的扶贫融资，相当于当年财政收入体量的2倍。高位推动的资金流伴随着更严格的管理规范，J县基层政府在分配扶贫资源时自主性受到极大约束，专项资金的报账率只有50%-60%，主要原因在于审计进度缓慢、报账手续繁琐。压缩授权还体现于基层政府的主体责任从“绩效结果”变为“政策过程”。例如，Y镇在《结对帮扶责任人脱贫攻坚军令状考核管理评分标准》中设置的“完成脱贫目标”指标内容为：督导村支两委、扶贫专干对脱贫对象按“五个一批”分类识别，脱贫程序符合规定、精准扶贫资料与佐证资料齐备。

与此同时，Y镇面临不同条块上级组织的多重考核③，导致合规性评估信息重复生产。例如，仅2017年4-5月，Y镇所在的市人大、政协系统组成13个巡查督导组，展开两轮集中巡查督导；同时发改委、扶贫办、国土等部门抽调人员开展易地扶贫搬迁专项督查；审计系统同时开展扶贫资金监督管理专项审计督查，每一轮考核Y镇都需要准备信息等待查验。不同组织甚至同一组织不同时间段考核的政策标准和验收偏好不一而同，基层干部需要对同一批信息反复调整，“今年（2018年）基本上每个月都有检查，一天最多来了四个检查组，每次都要把所有材料重新规整一遍，资料做烦琐了不会扣分，但是如果检查人员认为应该有的资料没有，搞不好要问责”（BY-DSJ-20180820）。

其次，随机抽查和跨层级监测更依赖文件等资料证据，基层政府不得不生产大量合规性文本用于迎检。随机抽查的不可预测性和跨层级监测的控制性权威，是突破信息垄断与基层共谋的“尚方宝剑”；但其中的组织成本和时间成本也更高。以Y镇所在省的2018年督查方案为例，督查组从省直单位抽调人员，组建49个督查组、10支机动督查小分队，以“四不两直”方式对70余个县开展常态化联点督查；各督查组每次督查时间通常为5-10天，一天就要走访四五个村，要想获取尽可能多的信息，只能从文件、台账、会议纪要等间接资料证据入手。这一定程度上也解释了为什么中央三令五申之下形式主义问题依然沉疴难除：监测层级越高、控制力度越大，则信息成本越高，也就越依赖于间接资料。这些资料有一个非常贴切的名字——“佐证材料”：是佐证贫困的真实性，更是佐证基层政府行为的合规性。

最后，当合规导向下的信息质量难以支撑决策需求，上级考核者再次加强控制，催生“以形式主义应对形式主义”的纠偏悖论。严格的信息控制策略消解了基层考核造假和共谋的空间，也导致信息生产的目的逐渐偏向“数字合规”而非“政策改进”。Y镇多次督查报告显示，绝大多数扶贫干部填报的信息都存在内容与程序上的瑕疵（如“扶贫手册和脱贫计划致贫原因、帮扶成效、帮扶措施等某项内容未填写”），不完整的信息不足以服务于上级政策制定与调整，当考核者认为呈报信息不合意，会倾向于再次加强控制： 2017年中央和省级暗访Y镇贫困村时还会提前半小时通知扶贫队长带路，2018年之后则是抽样后通过GPS定位直接入户；省级层面开始对接医保、民政等职能部门信息系统，比对上报数据的“逻辑性”；Y镇自身除了使用官方App考核平台，开始利用微信定位临时抽查驻村情况，确保入户走访率；同时，与“数字出错”相关的整改惩罚措施也更为严厉。新的纠偏需求成为下一轮基层工作重点：“同一份贫困户资料最少改了六七次，上面的要求一直在变，下面各村的格式也不一样，就这么来回改；碰到领导来检查指导工作，表格又要多加几条，还得重新弄”（BY-LDZ-20190312）。控制与反控制之下，绩效信息的采集和调整周而复始，同时加重考核者和被考核者的规则负担，造成“以形式主义应对形式主义”的恶性循环。

（三）避责逻辑中的理性选择：繁文缛节成为自保工具

受上级政府信息控制策略的影响，下级政府的行动逻辑转向避责，繁文缛节成为Y镇基层官僚的“自保”工具；对规则类指标的恪守与加码、责任转嫁、模仿等策略回应，都导致Y镇的规则负担不断扩散升级，这是繁文缛节的第二个生产机制。

第一，繁文缛节被用于对抗考核中的不确定性风险。对于基层政府而言，考核的不确定性风险体现在即使遵守规则也不一定能有效避责。Y镇在脱贫攻坚考核中的不确定性风险源自两个方向：一是上级督查活动；二是公众的满意度调查。一方面，督查活动将考核者与被考核者对立起来，“问题清单”异化为“问罪清单”。Y镇一名结对帮扶人表示： “我也被抽到其他地方搞督查过，真不是有意挑错，上面有规定，查不出问题就是我的问题。”（TY-YFX-20200820）督查方的任务是“查出问题”，这些问题通常会成为问责依据，惩罚导向取代诊断导向，被考核者趋于避责。另一方面，满意度指标的“测不准”风险进一步加剧了Y镇基层官僚的避责倾向。满意率在考核分数中占比不高（一般为5%），却是重要的扣分项和问责依据——重点检查中的公众“差评”可能导致相关责任人受到约谈诫勉，甚至本级组织一票否决。然而，公众的主观评价与公共服务质量之外的多方面因素有关[48]，不完全由基层官僚的履职努力决定。2017年之前Y镇的民意测评问卷只设置了满意程度的三个选项（见表2），对不满意的原因不具备诊断功能；2018年之后测评方案开始关注贫困户的政策知晓情况（如是否认识扶贫专干、是否了解帮扶政策），增加开放选项询问不满原因，然而调查员一天要访谈数十户，只能按部就班记录问答，加上为了避免“串供”，往往禁止扶贫干部在调查期间多作解释，导致满意度“错判”时有发生。例如，Y镇出现过有村民因为年迈记不清长期走访的帮扶干部的姓名，或是督查当天户主出差、留守家人不了解政策，甚至是非貧困户因享受不到扶贫福利而给出差评。在强调问责严肃性的背景下，基层官僚面对不合理差评的申诉难度较大，一般只能求助于台账、走访记录、照片、签字等“有形证据”。从这个角度而言，繁文缛节是基层政府面对高问责风险时理性选择的结果。

第二，责任转嫁导致繁文缛节在纵向层面层层下压。由于中央动员的重心向“责任到人”和“事后追责”进一步倾斜，竞争性项目对地方吸引力下降，“不出事”的人事逻辑取代“干得多”的政绩逻辑[49]。压力型体制下的连带责任促成了避责共同体，每一级政府都有对下级施加更严格程序控制的冲动，主动加码悉数加到了规则类指标上。例如，2017年Y镇所在的省一级评估方案中，纯粹的规则类指标（主要涉及日常管理，如责任状签订、走访签字、数据表册等）只占8%，到J县（对乡镇）、乡镇（对村）的基层考核方案中，与台账、佐证资料完成情况的相关分数已达到60%以上，同时规定由资料出错导致的扣分“不保底”。此外，以属地管理之名，利用会议、发文区分决策责任和执行责任的做法，也在层级效应下将繁文缛节进一步放大。Y镇一位扶贫队长提到，“这两个月已经培训了四五次，每次的内容都差不多，开会都讲清楚了，再出错就是我们属地的责任了”（GZ-ZJT-20190715）。

第三，繁文缛节通过组织间模仿在横向层面迅速扩散。繁文缛节是避责模仿的结果：成功避责的经验在善于交流学习的地方政府间会形成“示范效应”：基层组织之间相互观望模仿，上级组织主动推介优秀经验，不同组织应对上级考核的策略趋于一致，冗余规则成为通用制度固定下来。例如，与Y镇相邻的Z镇因为“资料创新”被检查组点名表扬后，县扶贫办组织全县乡镇前去学习观摩台账规范和制作技巧。繁文缛节也是避责模仿的过程：地方的交流多以考察、文件、会议等方式开展，这些过程本身会加重基层政府的规则负担。此外，评估中的“参照整改”也是一种半强制性的模仿手段：随机抽查看似只有少数贫困村需要接受检查，但一村整改，全镇需要对照自查，如果暗访级别高、督查意见重要，可能还需要全县、全市参照整改；由于很多整改对策都是资料完善和数据核查，个别单位的规则负担迅速扩散到所有同级组织。

（四）技术赋权下的参与困境：民意表达内化为繁文缛节

公众在参与绩效评估的过程中得到了技术赋权，这赋予公众不同以往的议价能力，也让官僚规则下沉至非正式制度治理领域，基层规则负担进一步加重，这是繁文缛节的第三个生产机制。

第一，剧场效应中公众参与内化为考核程序的一部分，基层政府的规则负担转化为公众的行政负担，引发“信任悖论”。公众既是公共服务的接受者，又是评价者；扶贫手册填写、走访签字、满意度调查等诸多考核内容没有公众在场就无法开展。对公众而言，他们最关心的是能否享受政策福利、如何脱贫致富，却不得不配合各级组织无休止的资料收集、入户走访与模拟考核。例如，高频率参与评估剧场令部分民众不胜其扰，Y镇一位受访贫困户对扶贫干部的频繁走访颇为不满，“天天走访又不办实事，签个字就算扶贫了，都是形式主义”。（LY-CG-20180805）这种不满如果引发负面舆情，有可能触发上级考核方案中的“扣分项”甚至一票否决，解决方案通常是更严厉、更事无巨细的整改要求和督查暗访，基层政府严阵以待，更卖力地完善资料、消除程序瑕疵，新的繁文缛节加剧公众不满，形成“信任悖论”。

第二，绩效评估的有限赋权方式赋予公众超常规的议价能力，基层官僚于是以繁文缛节为武器，规避职责和能力范围之外的公众诉求。总体而言，当前绩效评估对公众的赋权是一种“有限但激进的赋权”：一方面，公众对绩效评估的影响范围较窄，仅停留在绩效评价环节，对于评估方案的设计、目标及指标设定、绩效报告的监督、绩效信息的使用等环节[50]较少有建言渠道，属于“被动信息供给者”[51]；另一方面，公众赋权在上级控制逻辑的加持下威力倍增，负面民意与官员问责挂钩，一个差评或舆情事件就能令基层政府如履薄冰。公众在绩效评价环节的影响力提高了民众的预期，给部分扶贫对象带来“政府应该解决所有问题”的刻板印象：例如，调研中，曾有贫困户在打麻将期间向扶贫干部借赌资，被拒绝后威胁举报，最后该扶贫干部为避免问责风险无奈向贫困户送去200元（HC-OYN-20200530）；亦有贫困户在领取低保补助后，抱怨镇里为何不包分配工作、生活用电为何不优惠打折（ZJ-NMW-20200720）。当基层官僚无法满足公众诉求又惧怕问责（如举报、满意度考核被差评），最安全的办法就是托庇于可查证的规章制度和台账记录，以抵制上级督考者的任意干涉权，为拒绝“界外诉求”设置正当性。

第三，面对“公众评价”的问责效力，基层政府对民意的回应流变为“为公众留痕”，官僚规则下沉至非正式制度领域，规则负担进一步扩大化。税改以后，基层政权组织向一个更理性化、精细化的官僚制组织发展，各类文件档案、记录报表相关的规则体系逐渐建立[52]。如果说在缺乏监管和财政资源匮乏的背景下，基层正式权力可能是“非正式运作”[53]的状态，那么十八大以来公众监督和财政资金专项化的持续推进，则是将以往国家-社会边界的模糊治理地带不断纳入公共权力空间。Y镇所在的J县几乎所有领域都在开展台账建设，哪怕是此前惯于依赖非正式关系的纠纷调解、信访治理等事项。在这样的背景下，上级考核者对民意表达和回应性的强调，最终流变为下级政府在行政程序中“为公众留痕”，官僚体制的运作规则不断下沉，即使是Y镇村干部与贫困户的日常交流也需以照片、签字等形式留存在正式档案中，成为考核文牍的一部分。

四、讨论与结论

理解评估中的繁文缛节生产机制是减轻基层考核负担、化解形式主义的重要切入点。案例研究表明，在程序纠偏与技术治理的背景下，政府绩效评估中的考核者、被考核者和公众分别秉持信息控制、责任规避和赋权互惠逻辑，选择相应的行动策略，在互动中促成基层的繁文缛节困境：上级政府的强控制策略导致绩效信息重复生产；繁文缛节被下级政府用于规避不确定性风险和问责压力，经由责任转嫁和模仿机制在政府间迅速扩散；公众被拉入评估剧场，凭借有限却激进的技术赋权，获得向政府议价甚至利益挟持的能力，基层官僚则采取“留痕策略”消解赋权影响，进一步加剧规则负担。

本研究的理论启示在于：第一，有助于理解制度背景对绩效评估实施过程的动态影响。绩效评估是提升国家治理能力的重要工具，但它并非一成不变，而是会随着国家治理需求动态更迭。我国在通过行政问责制重建官僚制理性的转型过程中，绩效评估也从强调结果演变为过程与结果并重，繁文缛节是这一过程的非预期结果。第二，有助于重新审视考核评估中上下级政府的权责关系。现有研究认为，在政策推进过程中，中央（委托方）更关注政策执行结果，所以评估过程（检查验收）与结果利用（激励分配）之间的关系松散[54]。而本研究表明，中央的抽查验收足以对基层的激励分配产生决定性作用，其中的关键机制就在于政治问责的隐性嵌入：虽然中央不直接制定绩效指标，但省以下各级政府都将中央抽查的负面评价作为减分项甚至一票否决依据；加上评估技术的发展，又让上级对于监管问责的承诺有了更高的可信度，各级政府层层避责，导致繁文缛节逐级扩散。第三，深化对绩效评估中公众参与的理解。现有研究认为，公众的不信任可能导致其为公共管理者施加更多限制性规则[55]。在中国基层政府绩效评估实践中，公众并非以外部监督的方式向官僚施加规则，而是通过触发政府内部的控制机制对基层产生威慑，因此，越是将公众评价的结果作为末端问责工具，越容易将基层注意力从公众的实际需求转移到对程序规则的精雕细琢之上。

未来绩效评估实践应更关注评估方法与政府治理结构及基层社会文化的适配性，在评估方案的稳定性、授权与问责的关系、指标体系的一致性、绩效信息的利用等方面不断完善，将公众参与提供的“信息财富”[56]，真正转换为政策改进的诊断依据。值得一提的是，由于本文使用的是单案例研究方法，研究结论的外推性尚需进一步验证；另外受篇幅所限，本文没有考虑第三方评估、媒体暗访等其他评估主体对繁文缛节的影响；不同层级政府评估中繁文缛节程度是否一致、特征类型是否存在差异也有待后续考察，这也是本研究未来拟关注的议题与方向。

注释：

①相关文件如：中共中央办公厅《关于持续解决困扰基层的形式主义问题为决胜全面建成小康社会提供坚强作风保证的通知》；中共中央办公厅《关于解决形式主义突出问题为基层减负的通知》；《国务院扶贫开发领导小组关于在扶贫考核中切实减轻基层工作负担的通知》；《国務院扶贫办关于解决扶贫工作中形式主义等问题的通知》等。

②编码规则：文本资料编码-访谈对象代码-资料采集时间。

③包括县级政府的年度考核，中央、省、市各级政府的督查巡查，上级职能部门的抽查，省级政府组织和委托的第三方评估等。

参考文献：

[1]尚虎平.政府绩效评估中“结果导向”的操作性偏误与矫治[J].政治学研究，2015（3）：91-100.

[2]BOZEMAN B. Bureaucracy and red tape[M]. Upper Saddle River，NJ： Prentice Hall，2002： 12.

[3]DEHART-DAVIS L.The unbureaucratic personality[J]. Public administration review，2007，67（5）： 892-903.

[4]BALDWIN J N. Perceptions of public versus private sector personnel and informal red tape： their impact on motivation[J]. The American review of public administration，1990，20（1）： 7-28.

[5]BRODKINE Z. Bureaucracy redux： management reformism and the welfare state[J]. Journal of public administration research and theory，2007，17（1）： 1-17.

[6]WELCH E W，PANDEY S K. E-government and bureaucracy：toward a better understanding of intranet implementation and its effect on red tape[J]. Journal of public administration research and theory，2007，17（3）：379-404.

[7]RAINEY H G，PANDEY S，BOZEMAN B. Research note： public and private managers perceptions of red tape[J]. Public administration review，1995，55（6）： 567-574.

[8]MOYNIHAN D P. Managing for results in state government： evaluating a decade of reform[J]. Public administration review，2006，66（1）： 77-89.

[9]周志忍.我国政府绩效评估需要思考的几个问题[J].行政管理改革，2011（4）： 37-41.

[10]刘旭涛，邱霈恩.关于改进我国政府绩效管理制度的建议[J].行政管理改革，2009（2）：72-74.

[11]黄贵辉.“痕迹主义”的衍生逻辑及治理路径——基于政府绩效管理视角分析[J].治理现代化研究，2020，36（4）：60-64.

[12]陈辉，陈晓军.内容形式化与形式内容化：精准扶贫工作形式主义的生成机制与深层根源[J]. 中国农村观察，2019（3）：52-63.

[13]周振超，张金城. 职责同构下的层层加码——形式主义长期存在的一个解释框架[J]. 理论探讨，2018（4）：28-33，1.

[14]杨帆，王诗宗.组织多重互动下基层“文山会海”的形成机制——一项多案例研究[J].行政论坛，2021，28（2）：75-82.

[15]李利文. 软性公共行政任务的硬性操作——基层治理中痕迹主义兴起的一个解释框架[J].中国行政管理，2019（11）：38-45.

[16]杨帆，章志涵.“繁文缛节”如何影响专项治理绩效？——基于基层政府数据的混合研究[J]. 公共管理评论，2020，2（4）：110-132.

[17]孙德超，周媛媛. 从繁文缛节到有效规则：精准扶贫目标置换问题的治理路径[J]. 学术研究，2020（6）：58-62.

[18]周志忍. 论政府绩效评估中主观客观指标的合理平衡[J].行政论坛，2015，22（3）：37-44.

[19]EBRAHIM A. The many faces of nonprofit accountability.The Jossey-Bass handbook of nonprofit leadership and management [M]. San Francisco： Jossey-Bass，2010： 101-121.

[20]周雪光. 中國国家治理的制度逻辑[M].北京：生活·读书·新知三联书店，2017：12.

[21]傅利平，陈琴，董永庆，等. 技术治理何以影响乡镇干部行动？——基于X市精准扶贫政策执行过程的分析[J]. 公共行政评论，2021，14（4）：119-136，199.

[22]韩江风. 技术治理逻辑下社会工作评估的失灵与优化——以T市W街道社会工作评估项目为例[J]. 理论月刊，2019（12）：143-154.

[23]马亮. 作为一种官僚病的繁文缛节：评《官僚制与繁文缛节》[J]. 公共行政评论，2010，3（1）：183-194.

[24] KAUFMANN W，HAANS R F J. Understanding the meaning of concepts across domains through collocation analysis： an application to the study of red tape[J]. Journal of public administration research and theory，2021，31（1）： 218-233.

[25]赵鼎新. 质性社会学研究的差异性发问和发问艺术[J]. 社会学研究，2021，36（5）：113-134，228-229.

[26]YIN R K. Case study research： design and methods[M]. California：Sage，2009：18.

[27]曹正汉.中国上下分治的治理体制及其稳定机制[J]. 社会学研究，2011，25（1）：1-40，243.

[28]盛明科，陈廷栋.“痕迹主义”的产生机理与防治对策——以行政责任为视角[J]. 行政论坛，2019，26（4）：69-74.

[29]渠敬东，周飞舟，应星. 从总体支配到技术治理——基于中国30年改革经验的社会学分析[J]. 中国社会科学，2009（6）：104-127，207.

[30]周雪光. 基层政府间的“共谋现象”——一个政府行为的制度逻辑[J]. 社会学研究，2008（6）：1-21，243.

[31]GAO J. Pernicious manipulation of performance measures in Chinas cadre evaluation system[J]. The China quarterly，2015： 618-637.

[32]陈科霖.应急管理中缘何出现“信息悖论”现象？——基于中国国家治理视角的考察[J]. 北京科技大学学报（社会科学版），2020，36（2）：51-54.

[33]MOYNIHAN D P. Managing for results in state government： evaluating a decade of reform[J]. Public administration review，2006，66（1）： 77-89.

[34]胡德C，斯科特C，詹姆斯O，等. 监管政府：节俭、优质与廉政体制建设[M].陈伟，译. 北京：生活·读书·新知三联书店，2009：48，53.

[35]周雪光.运动型治理机制：中国国家治理的制度逻辑再思考[J]. 开放时代，2012（9）：105-125.

[36]韩博天. 红天鹅：中国独特的治理和制度创新[M].石磊，译. 北京：中信出版社，2018： 34.

[37]张静. 行政包干的组织基础[J]. 社会，2014，34（6）：85-97.

[38]倪星，王锐. 从邀功到避责：基层政府官员行为变化研究[J]. 政治学研究，2017（2）：42-51.

[39]BOZEMAN B，FEENEY M K. Rules and red tape： a prism for public administration theory and research[M]. NY：ME Sharpe，2011：50-51.

[40]BURDEN B C，CANON D T，MAYER K R，et al. The effect of administrative burden on bureaucratic perception of policies： evidence from election administration[J]. Public administration review，2012，72（5）： 741-751.

[41]王汉生，王一鸽. 目标管理责任制：农村基层政权的实践逻辑[J]. 社会学研究，2009，24（2）：61-92.

[42]李倩.政府绩效评估何以催生基层繁文缛节负担？——基于多层级治理视角[J].中国行政管理，2022（7）：63-72.

[43]DIMAGGIO P J，POWELL W W. The iron cage revisited： institutional isomorphism and collective rationality in organizational fields[J]. American sociological review，1983，48（2）： 147-160.

[44]周雪光. 组织社会学十讲[M]. 北京：社会科学文献出版社，2003：90-91.

[45]BRUDNEY J L，ENGLAND R E. Urban policy making and subjective service evaluations： are they compatible？[J]. Public administration review，1982，42（2）： 127-135.

[46]MOYNIHAN D，HERD P，HARVEY H. Administrative burden： learning，psychological，and compliance costs in citizen-state interactions[J]. Journal of public administration research and theory，2015，25（1）： 43-69.

[47]杨静，向定杰，管建涛. 儿女不孝致贫，扶贫干部帮还是不帮[J]. 半月谈，2018（10）：46-47.

[48]STIPAK B. Citizen satisfaction with urban services： potential misuse as a performance indicator[J]. Public administration review，1979，39（1）： 46-52.

[49]周飛舟，谭明智. “责任到人”的治理机制及其作用——以脱贫攻坚战为例[J]. 学海，2020（3）：49-58.

[50]霍哲，张梦中.公共部门业绩评估与改善[J]. 中国行政管理，2000（3）：36-40.

[51]周志忍. 政府绩效评估中的公民参与：我国的实践历程与前景[J]. 中国行政管理，2008（1）：111-118.

[52]欧阳静. 村级组织的官僚化及其逻辑[J]. 南京农业大学学报（社会科学版），2010，10（4）：15-20.

[53]孙立平，郭于华. 软硬兼施：正式权力非正式运作的过程分析——华北B镇收粮的个案研究[J]. 清华社会学评论特辑，2000： 21-46.

[54]周雪光，练宏. 中国政府的治理模式：一个“控制权”理论[J]. 社会学研究，2012，27（5）：69-93.

[55]BEHN R D. The big questions of public management[J]. Public administration review，1995，55（4）： 313-324.

[56]费斯勒J W，凯特尔D F.公共行政学新论——行政过程的政治：第2版[M]. 陈振明，朱芳芳，等，译.北京：中国人民大学出版社，2013：205.

How Does the Strategic Interaction of Multiple Actors in Performance

Measurement Trigger Red Tape Dilemma at Grassroots-level？

—A Case Study on Poverty Alleviation Program of Town Y

Li Qian

In recent years，performance measurement，which has always been known as result-oriented tool for state governance，has given rise to red tape dilemmas at grassroots level in China. This article examines how the divergent actions and strategies of multiple actors in performance measurement trigger red tape on the case of Poverty Alleviation Program of town Y. Case study shows that three types of evaluators，each following the logic of information control，blame avoidance and reciprocal empowerment，respectively，have exacerbated the red tape problem at the grassroots level through strategic interactions. For the upper-level government，the strong control over information collection has resulted in the duplication of performance data. For the lower-level government，red tape is used as a weapon for blame avoidance，leading to the horizontally and hierarchically spread of rule burdens through responsibility shifting and imitation. As for the public，they are drawn into the evaluation arena and empowered to a limited but radical extent by evaluation techniques such as satisfaction surveys. The fear of potential punishment due to dissatisfied public opinions has caused street-level bureaucrats to relinquish their discretions and create more red tape.

Red Rape; Performance Measurement; Strategic Interaction;Rule Burden

責任编辑王玉