国际法治评估中的技术政治及中国立场

2021-02-26杜维超

法学 2021年2期

杜维超

一、作为全球治理技术的法治评估

国际法治评估，是指国际上以国家为主要单位，基于定量的法治指标（indicators）对法治现象各维度进行量化，并将结果进一步聚合成法治指数（indices）的法学研究及法治实践方法。就国际法治评估的内容而言，有研究根据法治功能层次，将其分为法律制度的运作、人的尊严和权利、社会秩序维护三种类型；〔1〕See Svend-Erik Skaaning, Measuring the Rule of law, Political Research Quarterly, Vol.63:2, p. 449-460（2010）.也有的根据法治要素，将其分为目的（问责、受法律约束、公平、平等）、主体（政府官员、法官、检察官）、实质内容（秩序、人权）、绩效标准（公平获取、认可度、透明度）或组织原则（独立、分权、参与）等内容；〔2〕See Maurits Barendrecht, Rule of Law, Measuring and Accountability: Problems to be Solved Bottom up, Hague Journal on the Rule of Law, Vol.3:2, p. 281-304（2011）.还有研究将财产权保护、营商法治环境也纳入法治评估内容。〔3〕See Jørgen Møller & Svend-Erik Skaaning, On the limited Interchangeability of Rule of Law Measures, European Political Science Review, Vol.3:3, p. 371-394（2011）.就国际法治评估的指标形式而言，有些关注法治情况的专项评估，如联合国法治指标项目（The United Nations Rule of Law Indicators），美国国际开发署主导的各种跨国评估等，而当前影响力最大的是世界正义工程（World Justice Project）开发的法治指数；但更常见的是作为二级指标纳入其他跨国制度评估的附属性评估，如全球治理指数（WGI）、世界自由指数（GCS）、全球竞争力报告（GCR）下的法治指标，国际国家风险指数（ICRG）、盖洛普世界调查（GWP）下的法律与秩序（Law and Order）指标，国家转型指数（NT）下的司法制度指标（Judicial Framework and Independence）等。有学者梳理出150 多种包含法治相关内容的跨国制度评估体系。〔4〕See Adeel Malik, State of the Art in Governance Indicators, Human Development Report Oきce Occasional Paper （2002）.可见，不管从评估内容还是指标体系上看，国际法治评估与治理、人权、自由、民主、转型等其他类型的跨国制度评估之边界并不清晰。基于本文的研究立场及理论假设，以下讨论将采取较广义的概念对相关国际评估指标及体系给予全景式考察。

指标工具在近30 年来崛起为全球治理的新兴技术，其背景包括：国际投资勃兴引发的制度评估需求、冷战结束后的制度转型要求、各国改进政策效果的信息需求、新制度经济学和社会科学定量研究提供的方法论支持。〔5〕See Christiane Arndt & Charles Oman, Uses and Abuses of Governance Indicators, OECD Publishing, p. 15-18（2006）.指标方法被认为可以“有力地支撑数据驱动型决策发展，以及基于证据的稳健的政策评估文化”,从而极大地提升了全球治理的科学性和治理效果。〔6〕See Michaela Saisana & Andrea Saltelli, Rankings and Ratings: Instructions for Use, Hague Journal on the Rule of Law, Vol.3:2, p. 247-268（2011）.法治评估作为一种重要的指标工具应用形式，在全球治理中的地位也日益凸显，并被认为发挥着若干重要功能。

（1）法治指标作为制度改革动力。通过就特定法治领域制订指标，引发各国政府对制度缺陷的重视，以设定制度改革议程优先级；通过指标评分凝聚社会共识，提供改革的“合法感”；为改革提供数据型论据，明确改革内容和方向。当前各国政府更频繁的将法治评估结果作为发起改革的依据——正如经合组织和欧盟委员会联合研究中心在一份报告中发现的：在政策分析的背景下，指标可用于判断趋势，并吸引对特定问题的关注。〔7〕See Juan Carlos Botero, Angela Maria Pinzon-Rondon & Christine S. Pratt, How, When and Why Do Governance, Justice and Rule of Law Indicators Fail Public Policy Decision Making in Practice? Hague Journal on the Rule of Law, Vol.8:1, p. 51-74 （2016）.（2）法治指标作为流程和绩效管理工具。在各种国际、国家机构推动的法律援助及法治发展项目中，主导方通过法治评估控制项目流程、评估项目实施进展，并根据评估结果进行资源配置，以实现组织激励效果。如联合国开发计划署等下属机构针对司法制度、反腐败、青少年犯罪等各种国际援助和发展计划，制定了多种评估指标，在全球范围内开展评估，以决定下一步项目推进和资源配置方向。〔8〕See Jim Parsons & Monica Thornton, Data as a United Nations Rule of Law Programming Tool: Progress and Ongoing Challenges, in Juan Carlos Botero, et al., Innovations in Rule of Law: A Compilation of Concise Essays, HiiL and The World Justice Project, 2012.（3）法治指标作为政策研究依据。在法律与发展理论语境下，法治指标测评提供了各国法治领域的精确数据，关于法律制度与经济社会发展之间因果关系的计量研究得以广泛展开，国际组织和各国政策制定者得以检验法律制度建设与其他社会变量（如贫困、经济增长和人类发展）之间的相关性关系，从而为政策制定提供定量依据，并形成了“数据驱动型”的决策模式。〔9〕See David Restrepo Amariles, Transnational legal indicators: The Missing Link in a New Era of Law and Development, in Pedro Fortes, et al., Law and Policy in Latin America, Palgrave Macmillan, 2017.（4）法治指标作为非正式法律渊源。法治指标的设计经常依据某种与法治有关的国际公约进行，指标实际上成为对公约法治内涵的评注和解释。随着这些法治评估体系影响力的扩张，其指标内容经常被各国法院采纳为“国际法律契约”的一部分，适用于国内司法裁决，从而使得法治指标成为一种非正式法律渊源。例如，美洲人权委员会根据《美洲人权公约补充议定书》第19 条制订了细致的法治指标，哥伦比亚宪法法院将其作为其司法裁判依据进行援引。〔10〕See René Urueña, Indicators and the Law: A Case Study of the Rule of Law Index, in Sally E.Merry, Kevin E.Davis & Benedict Kingsbury, The Quiet Power of Indicators: Measuring Governance, Corruption and Rule of Law, Cambridge University Press, 2015.（5）法治指标作为塑造全球法治共同体的平台。法治评估进程形成了法治领域学者、政府部门和社会群体就法治主题进行互动和辩论的公共空间。通过指数的制订和评估，法治评估推动了各国之间、各法治主体之间关于法治知识的交流，凝聚了关于法治的国际共识，创造了一个超主权国家的法治知识共同体，并进一步将指标凝结的法治理念向全球扩散。法治指标实际上成为跨越制度和文化进行交流的通用语言。〔11〕See Willem F.M.De Vries, Meaningful Measures: Indicators on Progress, Progress on Indicators, International Statistical Review, Vol.69:2, p. 313-331（2001）.

二、国际法治评估的知识谱系及其技术中立假设

法治评估作为一种治理技术，有其特定的理论前提和话语模式。从知识谱系上看，它源自西方国家治理中的实证主义传统，此传统经由新公共管理运动的兴起发展到指标化阶段，并与法律与发展运动合流而进入国际法治实践领域。使用数字信息来理解世界，被Mary Poovey 称为“作为一种知识形式的现代性事实”（modern fact as a form of knowledge），此一事实是西方认识世界的基本方式，并塑造了过去四个世纪大部分的知识体系，〔12〕See Mary Poovey, A History of the Modern Fact: Problems of Knowledge in the Sciences of Wealth and Society, University of Chicago Press, p. xiii （1998）.这种数学化的认知方式强调的是客观性和普遍性。在此观念背景下，统计数据作为治理模式的起源可以追溯到19 世纪早期现代民族国家在西方的形成，强大的中央集权政府开始突破封建制的藩篱，精确的统计下的人口、财产和土地，并据此施行统治，统计数据成为国家规训社会的工具，从而形成了福柯所谓的“治理术”（governmentality）；近代功利主义学者则要求将政治的重心从形而上的抽象观念转向社会效益的衡量，并据此认为统计和社会经济指标才是治理的核心，数据统计方法可以将政治变成科学，将治理变成技术；最终，随着现代福利国家的形成，国家的社会保障和再分配职责日益扩张，对社会精细控制所依赖的信息需求同步提升，统计数据由此作为一种知识工具和治理工具在国家内部蓬勃发展，并向全球传播。

这种实证主义治理传统，经由新公共管理运动而发展到指标化管理阶段。“二战”后，随着消费主义的兴起和对商品可靠性需求的提升，企业管理的重点逐渐从提高生产率转向产品生产过程的标准化，因此普遍采用了目标化、指标化管理方法。随着新公共管理运动的兴起，这种指标管理技术从私人部门扩散到公共行政部门，各国政府和国际组织也开始广泛采用指标方法对行政进行绩效评价和管理。〔13〕See Benoit Frydman, From Accuracy to Accountability: Subjecting Global Indicators to the Rule of Law, International Journal of Law in Context, Vol.13:4, p. 450-464（2017）.指标方法引发了“治理领域的度量革命”，日益挑战基于传闻证据、经验、传统和直觉的旧行政文化，并塑造了数据驱动的新治理文化。〔14〕See Michael Ignatieあ & Kate Desormeau, Measurement and Human Rights: Introduction, in Measurement and Human Rights: Tracking process, Assessing Impact, Carr Center for Human Rights Policy Project Report （2005）.与此同时，“法律与发展运动”在美国兴起。这一运动认为法律体系是国家发展和社会现代化的制度基础，因此广泛地进行跨国制度比较，并倡导向落后国家进行法律移植。〔15〕参见［美］戴维·杜鲁贝克：《论当代美国的法律与发展运动》，王力威译，载《比较法研究》1990 年第2 期，第46-53 页。此运动吸纳了制度经济学的研究方法，强调研究材料的量化、规范的市场化和分析的数学化，以展开制度相关性定量研究；同时为了准确度量各国制度发展情况，以针对性地进行法律援助和制度移植，大量使用了新公共管理运动中兴起的指标化方法，形成了一系列法治指标。〔16〕See Amanda Perry-Kessaris, Prepare your Indicators: Economics Imperialism on the Shores of Law and Development, International Journal of law in Context, Vol.7:4, p. 401-421 （2011）.

在上述知识脉络的叙事中，法律的指标化代表了法学的数学转向（mathematical turn），即依靠数学和统计技术来描述法律现象和法律理论，数学论点成为对法律现象的可接受的解释。此观点认为，传统法学知识体系依赖语言、论证、历史和质性社会学的解释方法，无法摆脱主观性和价值信仰，而数学可以拓展法律研究和法律推理的方法和技术，以期为法律人提供关于法律的更科学、更一般的见解。〔17〕See Adam Aft, Alex B.Mitchell & Craig D.Rust, An Introduction to the Journal of Legal Metrics, Journal of Law, Vol.2:1, p.15-17（2012）.很多学者据此认为，法治指标作为法学数学转向的成果，其核心优势之一是其技术中立性：因为数字是对社会事实的简单描述符号，因此指标作为一种数学形式，是一种去政治化的中立技术行为，从而可以抵抗各种理论和政治偏见。国际法治评估体系的主导者同样广泛宣扬这一观点，认为跨国法治指标是不具有强制性的纯粹知识工具，仅以中立的方式向决策者提供客观信息，因此它具有更广泛的技术性、自愿性和共识性；〔18〕See David Restrepo Amariles, Legal Indicators, Global Law and Legal Pluralism: An Introduction, The Journal of Legal Pluralism and Unoきcial Law, Vol. 47:1, p. 9-21（2015）.例如，世界银行前总法律顾问Ibrahim Shihata 就强调，“治理”与“干预政治事务”截然不同，法治评估作为治理技术是政治中立的。〔19〕See Alvin YH Cheung, Measuring the Measures: Rule of Law Indices and Abusive Legalism, LawArXiv Papers （2019）.跨国组织、非政府组织、国际智库和各国政府普遍采信了这一观点，接受国际法治评估的去政治化和技术中立性假设，并在此基础上进行研究和决策。

三、法治评估的技术中立迷思之祛魅

由于法治概念的本质属性和国际法治评估的技术路线，仅就方法论层面而言，也无法以完全技术中立的立场还原社会事实，更无法完全排除主观判断和政治立场的渗入。法治评估的主要步骤包括法治的概念化、操作化、测量及解释，其含义依次为确定要测量的实质对象、确定测量对象对应的可观察社会事实以制订指标、测量社会事实并根据指标打分、对测量结果进行理论解释。以下将逐项予以考察。

（一）法治概念的本质可争议性

法治评估的第一个步骤是对法治的“概念化”，即在抽象层面上界定测量对象的内涵，以与其他相邻概念形成明确区隔，唯此才能展开下一步的测量，〔20〕See John Gerring, Social Science Methodology: A Criterial Framework, Cambridge University Press, p. 40 （2001）.其实质就是：法治评估要评估什么内容？法治评估的技术中立假设，实际上隐藏着一种法治概念的客观论观点，即认为法治概念是超然于价值判断之外的客观实在体，由此指标可以牢固地锚定于既存概念而保证中立性。但是，近年来法治理论界已经普遍同意，法治是个“本质可争议的概念”（essentially contested concept），法治是体现了政治共同体观念的社会构建性概念，由于对法律社会功能的不同立场，概念化过程中必然隐含着若干实质价值判断，“想找到语义明确和意识形态中立的法治定义是不可能的”，〔21〕Jeremy Waldron, Is the Rule of Law an Essentially Contested Concept （in Florida）?, Law and Philosophy, Vol.21:2, p. 137-164（2002）.对法治实质内涵的讨论，终将诉诸各种互相竞争的韦伯式“理想类型”。法治评估的技术中立假设忽视了概念化过程中渗入的政治立场。

当前对法治评估概念化的研究普遍援引了Brian Tamanaha 关于“厚”及“薄”法治的概念二分法，其中大致认为薄法治强调严格遵守法律制度，厚法治则纳入了某些实质性政治价值。据Wolfgang Merkel 的总结，当前国际上不同评估体系在由薄到厚的法治概念连续光谱中的定位隐含着三种政治立场——法制、自由民主法治、社会民主法治（具体内容见下表1），其政治价值内涵依次增加。法治的极简概念（minimalist）形式化程度最高，也最大化地排除了实质政治立场。然而，多数国际评估体系对法治的概念化并不局限于其极简范畴，Merkel 坦言，“极简概念无法区分大多数民主国家与半专制政权之间的差异”，因此当前评估体系概念化主要在中层概念（midrange）内取舍组合，并纳入部分最大化（maximalist）概念，形成各自的评估范围。显然，法治的中层概念采纳了西方自由民主主义政治立场，其中政治性基本人权、权力分立、民主性等要素，实质上遵循的都是作为西方意识形态核心的政治观念和制度设计。概念化路线的此种选择，使得评估的前提下已经渗入了政治立场。

表1 法治概念化的政治立场

评估的结果验证了这些政治立场的存在。Merkel 发现，将中东和北非的法治评估得分与拉丁美洲、南亚等区域相比，其在世界银行法治指数（WGI）中的得分显著高于在自由之家自由世界指数（FW）和贝塔斯曼转型指数（BTI）中的得分。其原因是WGI 更关注法律的社会效果和有效治理，对“犯罪和暴力事件发生率”情况给予较高打分权重，因此犯罪率较低的中东和北非得分较高；而后两种指数更重视西方式的选举民主制及政治性基本权利，这导致虽然拉丁美洲面临着广泛的治理失效和社会溃败问题，但其在“言论自由和政治问责（民主）”项目得分却明显高出全球平均水平。〔22〕See Wolfgang Merkel, Measuring the Quality of Rule of Law, in Michael Zurn, Andre Nollkaemper & Randy Peerenboom, Rule of Law Dynamics: In an Era of International and Transnational Governance, Cambridge University Press, 2012.实际上，各种评估指标广泛存在着所谓“经合组织偏见”，即指标设计基于西方发达国家的政治理论传统和制度偏好，而忽略不同国家社会发展阶段和结构差异下的核心制度需求和治理效能，导致对不符合西方民主法治定义国家更不利的评价结果，例如，在各种国际法治指数对前苏东国家和中国长期以来的低评分。〔23〕同前注〔1〕，Svend-Erik Skaaning 文。实际上已有学者指出，由于其概念化过程中的立场差异，许多影响广泛的法治指标是没有可互换性（interchangeability）的，即因为其不同的概念边界，其衡量的实质上是不同的社会事实，导致概念互相缺乏关联，指标也没有可比性——“学者们各自分析了非常不同的事情，却都坚称他们研究的是法治”。〔24〕同前注〔3〕，Jørgen Møller、Svend-Erik Skaaning 文。正因为法治概念化面临着此种困难，评估指标的所指和能指实际处于游离状态，法治话语体系的表层融贯经常隐藏着法治概念内核的冲突，不同政治立场下的法治评估体系，自然会产生惊人的不同结果，中立性也就存疑了。

（二）指标丢失社会信息细节

法治评估的第二个步骤是操作化，即将概念转化为可观察的社会事实，并据此开发具体指标。〔25〕See Juan Carlos Botero, Robert L.Nelson & Christine Pratt, Indices and Indicators of Justice, Governance, and the Rule of Law: An Overview, Hague Journal on the Rule of Law, Vol.3:2, p. 153-169 （2011）.指标化使得复杂的社会信息易于理解并可供比较，这也是指标化方法产生的原因。法治评估的技术中立假设因此也隐含了一种还原论观点，即要求评估能完整地还原指标对应的可观察社会事实，从而避免主观判断的干扰。但由于法治要素是由高层次抽象概念型构的，其向作为具体社会事实的低层次社会系统映射时经常出现概念上的滑坡，导致法治指标经常不可避免地过度概况法治社会现象，进而使得评估丢失社会信息细节，与社会事实产生鸿沟。

一是正式规则和实际社会效果的鸿沟。以国际民主法治指数评估为例，民主是一个高水平的概念，对权力关系公开性、监督问责机制、社会参与赋能有着较为复杂的要求，但由于其对应的社会事实过于烦杂而难以全部指标化，很多评估体系将其滑坡为定期举行的竞争性选举。〔26〕See Tom Ginsburg, Pitfalls of Measuring the Rule of Law, Hague Journal on the Rule of Law, Vol.3:2, p. 269-280（2011）.一位赴印度的志愿者律师发现，虽然该国在选举制度方面有着漂亮的“书本上的法”，导致在各种民主法治指数中评分较高，但其权力分享格局并未成熟，监督问责机制也不完善，人民社会参与程度比较落后。〔27〕See Linda D McGill, Measuring the Rule of Law in India: A Volunteer Lawyer’s Experience, Maine Law Review, Vol.60:2, p.537-545（2008）.同样来自印度的一个反例是，世界银行对印度各邦的行政许可简化、反腐败法规情况进行了评估，但对公司的调查却发现，对那些许可程序、反腐败法规指标在世行项目中评分更低的州，受调查公司对其投资环境反而打分更高，显然世行的指标更关注形式化规则的完整，却未能准确地衡量实际制度运行情况和政府实现制度设计的能力。〔28〕See Amanda Perry-Kessaris, Recycle, Reduce, and Reflect: Information Overload and Knowledge Deficit in the Field of Foreign Investment and the Law, Journal of Law and Society, Vol.35:1, p. 67-75（2008）.高水平法治概念的滑坡导致指标所衡量的规则无法真实的体现本来要测量的实际法治社会效果。二是指标普遍性与本土具体情境的鸿沟。指标化的普遍性和可比性要求经常导致其无法顾及复杂的本土社会情境。例如，自由之家建立了关于人权水平的综合指数GCS，但被学者认为仅衡量了西方发达国家重视的几种政治性权利，却遗漏了《经济、社会及文化权利国际公约》中所载的大量实质社会经济文化权利，而发展中国家在此类实质权利提升方面的巨大努力和进步被忽视了，而由于经济社会发展阶段的局限所导致政治性权利不同于西方的安排形式则被聚焦批判；反之，发达国家虽然在历史上长期的政治斗争中形成了较为成熟的政治权利制度，但也由于其社会结构固化和深层次变革的困难，貌似完善的规则体系下反而在种族、性别、劳工等领域长期存在隐性的结构性歧视，对于西方在此类经济社会文化权利上的种种人权缺陷，GCS 指数却并无体现。Jed Rubenfeld 对此尖锐的批评道，此类指数实际上体现了美国保守主义意识形态的霸权，暴露了国际治理的“反民主本质”。〔29〕See Philip Alston, Promoting the Accountability of Members of the new UN Human Rights Council, Journal of Transnational Law & Policy, Vol.15:1, p. 49-96（2005）.

上述情形还导致了所谓“表演政治学”的登场。该概念意为：由于指标统计的政治压力导致了组织的特殊回应形式，即组织忽略制度的实质效果，而更关注符合指标要求的书面制度建设，以应付指标压力，获得政治资本。〔30〕参见左凤荣等：《统计与政治》，载《开放时代》2014 年第1 期，第11-77 页。例如，拉丁美洲一些国家为了应付司法制度评估，积极地推进司法改革，比照指标要求建立了公共辩护、听证会等制度，辩护数量、结案量等指标也有提升，但学者经过实地观察发现，虽然制度机构的建设符合指标要求而导致评分提升，但制度的运行效果并不好，司法服务质量几乎没有实质性改进。〔31〕See Linn Hammergren, Indices, Indicators and Statistics: A View From the Project Side as to Their Utility and Pitfalls, Hague Journal on the Rule of Law, Vol.3:2, p. 305-316（2011）.由于指标丢失社会细节，使得法治建设中的技术性目标被政治资本化成为可能，法治建设是需要政治责任感的工作，而指标化的过度抽象可能导致负面政治激励和政治表演的产生。

（三）测量依赖感知性数据

法治评估中测量环节的任务是针对各指标搜集评估对象相关数据，并将数据转化为具体的分值。当前国际法治评估项目主要采取三种测量方式：文本审查、民众调查、专家调查。其中文本审查对象包括文件、报告、统计数据、法律文本；民众调查对象包括个人和私营企业成员；专家调查对象包括法学专家、律师、政府部门官员、国际组织成员、非政府组织成员和专业商业评估机构成员等。〔32〕See Jim Parsons, et al., Developing Indicators to Measure the Rule of Law: A Global Approach, Vera Institute of Justice （2008）.后两者主要通过对调查对象发放调查问卷进行。文本审查方式似乎更能保障客观性，但实践中存在如下问题：（1）正式法律文本很可能只能捕捉“书本上的法”，却无法体现法律制度运行的实质社会效果；（2）除了统计数据外，其他文本无法直接转化为分值，仍然需要依赖专家编码和人工打分；（3）由于法律社会关系的复杂性，客观数据经常很难与特定评价相联系，例如，某地区刑事案件数量低，并不一定意味着该地治安水平高，也有可能体现了该地警务部门的效能低下；（4）如Daniel Kaufmann 所说，法治事项多数是“天然固有不可观察性”的社会现象，无法体现为客观数据，例如，实际腐败情况、政府服务企业能力等事项都无法采用客观数据来体现。这导致当前国际法治评估更重视对法治效果的调查，主要采取专家调查和民众调查的测量方式，此类数据依赖于专家和民众的主观感知，即所谓“感知性数据”（perceptual data）。〔33〕See Daniel Kaufmann, Aart Kraay & Massimo Mastruzzi, Governance matters VIII: Aggregate and Individual Governance Indicators 1996-2008, The World Bank （2009）.（可参见世界银行专家对几种主要法治评估项目数据类型的统计，见下表2。〔34〕See Daniel Kaufmann & Aart Kraay, Governance Indicators: Where Are We, Where Should We Be Going? The World Bank （2007）.）

表2 全球主要法治评估项目数据类型

很多学者指出，因为评估者的主观判断和个人偏见无法避免，对感知性数据的依赖引起了信度问题。〔35〕See Gerardo L.Munck & Jay Verkuilen, Conceptualizing and Measuring Democracy: Evaluating Alternative Indices, Comparative Political Studies, Vol.35:1, p. 5-34（2002）.在西方理论和话语体系在全球扩散的背景下，各国专家成为实质上的知识共同体，其知识、信息来源和理论立场更加接近，而且专家们经常分享观点和阅读相同的文献，从而更容易形成类似的偏见。〔36〕See Gene A.Brewer, Yujin Choi & Richard M.Walker, Accountability, Corruption and Government Eあectiveness in Asia: An Exploration of World Bank Governance Indicators， International Public Management Review, Vol.8:2, p. 204-225（2007）.例如，一项实证研究发现，由于专家普遍相信民主能减少腐败的理论假设，经过与公开报告的对比，专家们在各种反腐败评估中普遍显著低估了有选举制度国家的腐败程度；〔37〕See Daniel Treisman, What Have We Learned About the Causes of Corruption From Ten Years of Cross-national Empirical Research? Annual Review of Political Science, Vol.10, p. 211-244 （2007）.另一个常见偏见是对富国的光环效应，即高估富国的指标得分。一项检验性研究发现，由于相信良好治理与经济发展的正向关系，专家们在法治评估中普遍对经济发达的富国给予更高的法治评分。〔38〕See Tor Krever, Quantifying Law: Legal Indicator Projects and the Reproduction of Neoliberal Common Sense, Third World Quarterly, Vol.34:1, p. 131-150（2013）.个人对法律制度的评价还可能会受到与法律无关的事项或偶然事件的影响，一个反例是，21 世纪初阿根廷发生经济危机后，一年之内该国的WGI 专家评级大幅度下降，但该国的法律制度在该年度内实际上并无根本性变革。〔39〕同前注〔31〕，Linn Hammergren 文。有学者因此提出，专家们可能根本无法系统深入地研究不同国家的各单项指标，而是基于对一个国家状况的一般性感受来进行评估，而这种感受经常源自某些国家的国际声誉和形象。〔40〕See Tom Ginsburg & Mila Versteeg, Measuring the Rule of Law: Pushing Forward, LSI Forum, Vol.2, p. 10-12（2016）.当前西方占据全球舆论和话语权优势，并对其政治竞争对手国长期进行舆论抹黑和攻击，例如，当前西方媒体对中国防疫措施不公正的报道广泛地影响了西方民众乃至部分专家，在此情况下感知性数据显然无法避免各种主观判断和政治偏见。

（四）结果解释的不确定性

法治评估作为国际治理技术的应用最终需归结到对评估结果的解释和挖掘。对评估结果的解释有三种路径：一是就特定指标在各国间进行横向比较，以确定评估对象某法律制度的发展程度及在全球的位置；二是就特定指标在某国内部进行时间段上的纵向比较，以确定某法治领域的改革效果和法治建设进程；三是将特定法治指标作为自变量，将其他社会现象作为应变量，用定量方法验证其相关性，以解释法治的社会效果，为决策提供支撑。但上述解释路径均有极大的不确定性，使得评估难以排除主观判断。

就横向比较而言，仅由于指标化和测量方法的固有缺陷，已经使得数据偏差难以控制；除此之外，学者又用计量方法对几种指标差异的显著性进行了检验，发现在合理的置信水平下，很多国家间的评分差异并没有统计意义上的显著性；WGI 的评估专家就明确提示，用户要避免对国家间的细微评分差异进行过分解释，这些差别在统计意义上或社会现实意义上都缺乏解释价值，例如，秘鲁在反腐败工作上的评分领先于牙买加，但两国数据的置信区间存在很大的重叠，使得这一结果在统计学意义上无法推导出任何有意义的结论。〔41〕See Aart Kraay, Daniel Kaufmann & Massimo Mastruzzi, The Worldwide Governance Indicators: Methodology and Analytical Issues, The World Bank （2010）.而各国发展背景和社会情景的差异，进一步干扰了数据可比性，例如，西方某些人权评估体系在反歧视指标下特别重视种族歧视的相关制度规定，但在中国这种种族比较单一、历史上也不存在种族歧视问题的多民族国家，自然也不会有太多反种族歧视制度设计。在不同的社会背景下，即使统计意义上显著的评分差异有时也很难进行结果推论。就纵向比较而言，由于跨国评估需要高资源投入，当前绝大部分评估项目都不是每年开展的，还有很多临时性和短期性评估项目；另外由于理论发展和政策目标变化，一些评估体系的指标设置频繁变动，例如，WJP 法治指数的指标经过多次调整，一级指标由13 项最终调整到9 项，这都导致很多指标评估结果为横断面数据，无法纳入时间序列，也就无法解释前后因果关系，在此种情况下，对某法治事项即使完成评分，也不能根据该评分判断此法治事项的改革进展；即使是纵向可比的指标，由于对社会性事实无法设置对照组，面对社会关系中因果关联的复杂性也就无法控制混杂变量，此时即使某单项指标增长或降低了，也无法确切证明这一变化是源自实质法治改革计划的进展还是其他社会因素的干扰。〔42〕See Elin Cohen, et al., Truth and Consequences in Rule of Law: Inferences, Attribution and Evaluation, Hague Journal on the Rule of Law, Vol.3:1, p. 106-129 （2011）.

对法治社会效果的定量考察尤其困难。首先从统计学技术上看，由于法治概念边界的模糊性，法治指标并不是一个良好的自变量，例如，学者采用探索性因子分析法对WGI 指数的6 个一级指标进行了分析，发现这些指标概念有大量重叠，它们均与一个更大的笼统概念有着强相关性，〔43〕See Laura Langbein & Stephen Knack, The Worldwide Governance Indicators: Six, One, or None? The Journal of Development Studies, Vol.46:2, p. 350-370 （2010）.这使得仅以法治指标为因变量作出的因果解释都是不稳健的。另外，由于社会治理领域的复杂性，任何社会变化都难以归结为单一要素，遗漏解释变量几乎是不可避免的，例如，肯尼亚的行政许可改革完成的当年，其GDP 就暴跌了29%，显然法制改革与GDP 变化之间的相关性无法建立，而实际情况是当年该国发生了严重的暴力事件。〔44〕同前注〔42〕，Elin Cohen, et al.文。可以说，由于法治的特殊属性，社会科学定量研究方法中本就存在的问题在法治定量研究中更加严重了，例如，由于干扰变量过多，统计上的相关性难以推导出因果性，而法治领域存在着更为严重的自相关、共线性、内生性问题，法治相关的数学模型也更加不稳健而缺乏预测力……此类种种情形使得依赖法治指标进行的相关性解释几乎都难以避免各种主观判断。

四、国际法治评估中的技术政治

正因为法治评估的技术中立性在理论层面的不可能，使得技术政治得以嵌入国际法治评估。福柯的技术政治理论揭示，政治权力本是一种通过法律、禁忌和审查机制进行控制的压制性力量，而近代以来，技术成为新型政治权力机制，形成了规训日常生活的“权力—知识之网”（the web of power/knowledge），统计指标就是此种技术类型之一。此种技术政治的实质是用观念上的建构压制乃至取代情景化、地方化和本土化知识。〔45〕参见李三虎：《技术，空间和权力——米歇尔·福柯的技术政治哲学》，载《公共管理学报》2006 年第3 期，第34-43 页。本文认为，国际法治评估正是这种新型权力机制在全球扩散的后果，表面中立的评估技术实质上嵌入了隐性政治权力结构，其形式包括软性权力支配、单向的政治意识形态输出和实质不对等的权力关系，从而使得国际法治评估有可能蜕变为一种技术政治（technopolis），成为西方国家打破民族国家边界、压制各国地方性法治话语的政治规训工具。

（一）国际法治评估中的软性权力支配

技术政治的特征，是技术取代传统制度成为新型权力支配和控制手段。国际法治评估的技术中立性假设强调其非强制性，但实际上评估过程嵌入了各种软性权力控制手段，通过控制资源分配、影响国家信用和声誉、制造政治压力等方法，使得被评估国家不得不遵从指标的规训，从而使指标成为实质上的全球法，异化为一种政治支配权力。

第一种支配手段是控制资源分配，尤其表现为各种国际援助与评估结果的挂钩。法治评估在法律与发展运动中诞生的重要原因，就是美国国际开发署可以借此衡量受援助国按照美国方案进行法治改革的进展，并以此决定给予经济援助的力度和方向。20 世纪末以来，世界银行等国际组织的援助也越来越多地与治理评估结果挂钩。例如，世界银行国际开发协会（IDA）向贫困国家提供的无息信贷和经济援助，是根据其开发的“国家政策和制度评估（CPIA）”治理指标的评估结果分配的，该机构针对各国“制度和机构框架治理”设置了20 条指标，其中直接纳入了其他几种法治评估项目的数据。之后这种模式受到各种国际机构和援助国的欢迎，例如，亚洲开发银行、非洲开发银行等机构普遍使用WGI、DB 等国际法治评估结果作为援助分配的依据。美国专门负责对外援助的政府组织千年挑战集团（MCA）更是明确指出要“奖励那些根除腐败、尊重人权并遵守法制的国家”，并针对“公正执政”“投资于人民”和“鼓励经济自由”三方面内容制定了17 种政策指标，根据评估结果分配对外援助。〔46〕同前注〔38〕，Tor Krever 文。附加政治条件的经济援助使得法治评估隐藏了软性支配力量。第二种支配手段是影响国家信用和声誉。多种研究指出，法治评估的结果影响着投资者、消费者、游客、移民等人群对特定国家的观感，从而影响其对人力、经济等资源的获取能力；“用脚投票”“政府竞争”“制度竞争”等理论均在不同角度验证了不同制度水平对地区竞争力的影响，法治评估结果由此深刻地塑造着被评估国家的“制度吸引力”，乃至在一定程度上影响了这些国家的发展能力。法治评估甚至在一定程度上影响着全球资本和投资的流动，例如，国际主权信用评级普遍将法治情况纳入各国评级依据，而评级机构其对法治情况的审查经常参考援引各种国际法治评估结果，评级结果则极大地影响着各国的全球金融信用和金融能力。〔47〕同前注〔18〕，David Restrepo Amariles 等文。表面上非强制性的国际法治评估，在此通过间接塑造制度吸引力和竞争力，而成为一种塑造规范性权威的制度行为。第三种支配手段是制造政治压力。政治压力没有法律那种正式的规范性和强制力，却可以通过抬升社会预期、引导公众舆论来产生实质社会后果、控制国家行为。如一项研究表明，反腐败指数的低排名导致肯尼亚政府面临较大的国内舆论批评和政治压力，而开展了反腐败工程；〔48〕See Kevin E.Davis, Legal Indicators: the Power of Quantitative Measures of Law, Annual Review of Law and Social Science, Vol.10, p. 37-52（2014）.而在另一个案例中，法治指数项目对巴西政府产生了政治压力，使得其开始进一步推动司法改革，谋求提高司法效率。〔49〕See Pedro Rubim Borges Fortes, How Legal Indicators Influence a Justice System and Judicial Behavior: the Brazilian National Council of Justice and “Justice in Numbers”, The Journal of Legal Pluralism and Unoきcial Law, Vol.47:1, p. 39-55（2015）.实际上，话语权是西方软实力的核心组成部分，软实力的常见运用形式就是通过话语权制造政治和舆论压力，影响乃至破坏一国原有政治力量格局。法治指标的评估和解释经常成为西方强化、运用自身法治话语权的手段，而由于法治评估技术中立性的伪装，此种话语相较直白的政治话语能更无阻碍地在全球扩散传播，在深层次上影响着全球权力格局。

正因为上述法治评估所表露出的权力支配性，法律多元主义者认为，在社会规范多元化的语境下，当前国际指标正逐步渗透进民族国家主权体系内的法律和政治权威结构，成为多种发挥实质性约束功能的国际规范中的一种。从这个意义上说，它虽然在形式上是非主权化、无强制性的规范手段，但仍能被视为一种准全球法，并逐步侵蚀着原有的以主权国家为中心的国际规范体系。〔50〕同前注〔18〕，David Restrepo Amariles 等文。

（二）国际法治评估中的单向政治意识形态输出

法治评估的技术中立假设认为指标是无价值性、非政治化的。但实际上，指标方法无法隔绝价值判断，指标化实际上绝不仅是对社会事实的机械反应，而是知识观念的生产。国际法治评估中不可避免地嵌入了政治意识形态，而意识形态构成了技术政治的观念工具。

多种法治指标的制订者展示出鲜明的政治意识形态立场。例如，美国保守派智库传统基金会（Heritage Foundation）明确自身的任务为“根据商业自由、有限政府、个人自由、美国传统价值观和强大国防原则，制订和推动保守主义的公共政策”，该组织制订的法治指标特别重视财产私有化和贸易金融自由化；美国非政府组织自由之家则坦言自己的使命是“反对民主的主要威胁……提倡更大的政治和公民自由，支持一线运动分子捍卫人权和促进民主变革”，该组织出台的法治指标则主要关注人权领域。以上组织均有大量经费源自美国政府机构，且被认为存在明显的右翼偏见；〔51〕See Mila Versteeg & Tom Ginsburg, Measuring the Rule of Law: A Comparison of Indicators, Law & Social Inquiry, Vol.42:1, p.100-137（2017）.大量此类接受西方政府资金资助，或者和其母国政治势力联系紧密的所谓非政府组织在全球各国政治运动中表现活跃，乃至经常成为各种“颜色革命”的幕后推手，后者还因为在香港修例风波中的恶劣表现被我国实施制裁。法治指标在其活动中扮演了重要的意识形态扩散工具的角色。另外，法治指标还体现了博温托·桑托斯所谓“新自由主义法律全球化”，此观念的背景是华盛顿共识的形成，这一观念特别重视私有财产权保护和合同执行，鼓吹私有化、贸易自由化、金融自由化、降低关税和政府放松监管。其特别体现在各种营商环境评估体系中，以世界银行的DB 项目为典型代表。该指标因为支持资本压制劳工权益，乃至违背了国际劳工组织公约的精神，而面临着广泛批评，被认为推动了新自由主义议程，或代表了西方的商业利益。〔52〕See Kevin E.Davis, Benedict Kingsbury & Sally Merry, Introduction: the Local-global Life of Indicators: Law, Power, and Resistance, in Sally E.Merry, Kevin E.Davis & Benedict Kingsbury, The Quiet Power of Indicators: Measuring Governance, Corruption and Rule of Law, Cambridge University Press （2015）.实际上近年多个发展中国家由于其自由化、去管制化路线导致经济失败乃至经济危机，而中国特色社会主义道路坚持以公有制为主体、宏观调控有力、市场监管有效、贸易金融政策稳健，取得了巨大的发展成就。西方在普遍不得不承认中国的经济成就的同时，却仍然坚持站在新自由主义立场上攻击其他类型的制度方案，也再次凸显出此类指标中新自由主义立场的意识形态本质。

对指标的意识形态性，学者有着清醒的认识。他们提出，指标化同时产生知识和权力，它将政治判断隐藏在技术标准中，以将其伪装为“客观领域”，而不是通过政治辩论塑造的领域。以西方民主理想为代表的新自由主义法律制度，被视为现代法律体系的技术必需品，关于法律理想的政治参与和国际竞争被压缩甚至被取消了。〔53〕同前注〔38〕，Tor Krever 文。而法治评估成为援助国、非政府组织、专家、社会活动家的平台，供他们争相向欠发达社会提供关于法律的理想模式。〔54〕See David Nelken, Contesting Global Indicators, in Sally E.Merry, Kevin E.Davis & Benedict Kingsbury, The Quiet Power of Indicators: Measuring Governance, Corruption and Rule of Law, Cambridge University Press （2015）.指标一方面通过将意识形态制度化和文本化来制造其中立性表象，另一方面又将基于特定政治立场的制度安排包装成具有某种道德优越性的必然选择，以形成强大的观念性约束力量，从而产生事实上的权力支配关系。

（三）国际法治评估中的不对等权力关系

技术中立假设特别强调法治评估进程的平等性和自愿性，这一假设显然有意无意地忽略了法治评估中权力支配行为和政治关系的存在。政治权力关系表现为单向的力量优势与支配性，其本质上是不对等的。这种不对等的权力关系形态是理解国际法治评估中技术政治格局的基本起点。

此种关系的一方是以美国为中心的西方发达国家，另一方则是广大的发展中国家。正如学者观察后指出的，当代全球治理所依赖的指标，通常是由那些北方的富国设计和制定的，尤其以美欧或其占主导地位的国际组织为主，而广大发展中国家在指标的制订中几乎没有任何发言权。〔55〕See Sally Engle Merry & John M.Conley, Measuring the world: Indicators, Human Rights, and Global Governance, Current Anthropology, Vol.52:3, p. 83-95（2011）.这一方面源自国际政治经济秩序下发达国家在国家实力上的优势地位，另一方面也源自西方传统上形成的强势意识形态及更为成熟的法治知识话语体系。在主权理论视野下，此种不对等权力关系实际上是西方政治权力对发展中国家主权的稀释，从而使得指标成为发达国家在跨主权国家地理尺度上规训国家行为的手段，从这个意义上说，指标的技术中立假设“不过是用技术—官僚主义话语掩盖地缘政治力量的实际差异”。〔56〕同前注〔52〕，Kevin E.Davis, Kingsbury Benedict & Merry Sally 文。。

有时西方通过法治指标间接为发展中国家提供政治变革的议程，甚至使之成为当地政治斗争中的强大角色，这种政治斗争使得指标中隐藏的观念与制度被“偷运”进当事国。此类情形在阿尔巴尼亚、肯尼亚和罗马尼亚等国家多次发生。例如，美国国际开发署赞助了一项针对阿尔巴尼亚的反腐败指数评估，而评估结果被美国驻阿尔巴尼亚大使用来批评该国一些政府成员，此言论在阿尔巴尼亚国内广泛传播之后，极大影响了该国领导人内部权力斗争的格局。当前由于大部分发展中国家照搬了西方竞争性选举民主体制，形成经常性的内部政治对抗，而国家实力的弱势地位使得其国内政治力量格局极易被外部力量干扰，国际指标正成为此种干扰的趁手工具。正如Smoki Musaraj 所发现的，援引全球指标，往往会使本地政客与一个可疑的跨国机构保持一致立场，而追求一套不同于本地需求的政治利益。〔57〕See Smoki Musaraj, Indicators, Global Expertise, and a Local Political Drama, in Sally E.Merry, Kevin E.Davis & Benedict Kingsbury, The Quiet Power of Indicators: Measuring Governance, Corruption and Rule of Law, Cambridge University Press （2015）.有时法治指标成为发达国家对发展中国家进行政治规训的直接手段。例如，在罗马尼亚申请加入欧盟期间，欧盟委员会发布了司法制度改革和反腐败工作半年度报告，该报告援引了透明国际、自由之家和世界银行的几种指标，严厉批评了该国领导层，并以此否决罗马尼亚的申请。而有欧盟法律专家明确指出，此类指标仅将法治视为一种后共产主义话语，将评估视为服务于一种政治转型安排，而完全否定了罗马尼亚本国的法治历史渊源，也忽视了其本土需求，例如，罗马尼亚本国专家更为关注的治理质量、公共行政政治化、政府与议会的沟通机制、法律的执行机制等问题被忽略了。这些专家因此认为，罗马尼亚的国家权力被稀释了，法治指标成为一种由跨国核查机制驱动的政治控制技术和纪律机制，它加强了发达国家的法治话语权力，并遮蔽了被评估国本土语境和自主话语权，间接支配了该国国内政治变革。〔58〕See Mihaela Serban, Rule of Law Indicators as a Technology of Power in Romania, in Sally E.Merry, Kevin E.Davis & Benedict Kingsbury, The Quiet Power of Indicators: Measuring Governance, Corruption and Rule of Law, Cambridge University Press （2015）.而指标中针对竞争性制度构建“去合法化”叙事，实际上成为相关国家强化自身制度话语权霸权、推动排他性国际制度体系形成的政治工具。〔59〕Matthew C.Gertken, The International Balance of Power in Swift’s Discourse of the Contests and Dissensions, The Explicator, Vol.73:4, p. 243-247（2015）.

五、国际法治评估的中国方案及立场

当前我国在国际法治评估场域基本处于不在场状态：其一体现为理论失声，即对西方主导的国际法治评估体系主要采取引介学习的态度，却无法对其展开审视、批判和理论对话；其二体现为实践缺位，即主要关注国内法治评估，将其视为推动我国法治建设的工具，甚至将其嵌入我国政府的科层化运作，〔60〕参见姜永伟：《法治评估的科层式运作及其检视——一个组织社会学的分析》，载《法学》2020 年第2 期，第129-141 页。却未能参与国际评估体系的构建。面对国际法治评估中的技术政治和权力规训，我国有必要提供国际法治评估的中国方案，表达我国鲜明的政治、理论和技术立场，以消解西方技术政治，并落实习近平总书记“提高我国在全球治理中的制度性话语权”的要求。〔61〕参见《习近平谈治国理政》第2 卷，外文出版社有限责任公司2017 年版，第244 页。

（一）国际法治评估中国方案的政治立场

首先，法治评估应充分阐发人类命运共同体理念。西方主导的法治评估隐藏着西方制度优越性的假设，秉持一种价值对抗的文明观对其他竞争性制度进行“去合法化”建构，其实质是将历史终结、文明冲突的政治意识形态嵌入了法治概念。我国在评估体系构建中应充分阐发人类命运共同体理念，强调人类社会作为有机联系整体的形态，谋求开放创新、包容互惠的发展前景；要着重阐述新型全球治理体系绝非政治权力的转移和经济利益的重新分配，而是全人类的均衡、绿色、可持续发展。在此立场下，法治评估的中国方案应将法治的概念化从价值对立、概念对抗中解放出来，坚决拒绝法治概念的意识形态化叙事，转而倡导一种基于人类命运共同体理念的沟通性权力叙事，更加注重以指标衡量在各国不同的发展水平和社会语境下，法治如何真实的服务于各国人民的充分发展，而非某种特定制度理想的实现。

其次，法治评估应遵循共商共建共享的全球治理观。西方主导的法治评估体现着单边主义和等级化（hierarchy）的权力关系，从而使西方通过话语霸权垄断了规则制定权和评价权，严重压制了发展中国家的治理话语权，使其在全球治理体系中边缘化、对象化。我国在评估体系构建中应遵循共商共建共享的全球治理观，倡导国际关系民主化，支持扩大发展中国家在国际法治事务中的代表性和发言权，以建立公正合理的国际秩序。因此要发挥联合国在全球治理中的核心作用，依托联合国法治机构和工作机制，与广大发展中国家积极协调，推动优化联合国法治评估体系，进一步扩大其全球影响。积极参与现有多边机制互动，在“一带一路”倡议、亚投行、RCEP 等机制中与发展中国家一同平等开展法治讨论和评估，探索服务于区域合作和区域发展的新型法治评估机制，为中国法治话语提供合法性和道义支撑，为广大发展中国家提供对西方主导的法治评估的替代性机制。

最后，法治评估应积极践行新型人权观。人权范畴的发展和丰富是人类政治观念史上的重要现象。国际上第一代人权强调公民政治权利，第二代人权强调社会平等和经济文化权利,第三代人权内容则强调自决权、发展权、环境权、通讯权、文化遗产权、代际公平等集体权利。西方主导的法治评估主要关注第一代人权，正如博温托·桑托斯指出的，这导致改善世界亚群体生活机会的进步工程的失败，其实质是用自由主义意识形态压制并琐碎化了集体权利，乃至引发了西方“现代性危机”。〔62〕参见［葡］博温托·桑托斯：《迈向新法律常识：法律、全球化和解放》，刘坤轮、叶传星译，中国人民大学出版社2009 年版，第579-580 页。实际上，第一代人权源自西方，特别是西欧历史上独特的社会结构和文化传统，其中含有大量的意识形态假设，而制度应当根植于社会共同体的文化精神和具体实践，在发展阶段不同的国家激进的移植西方第一代人权的制度设计很可能导致制度失效或失败。中国作为全球新型人权保障事业的倡导者、践行者和推动者，应当在法治评估中避免陷入第一代人权话语中的意识形态之争，转以社会公正和集体人权的实质性提升为核心标准，衡量法治发展的实际社会效果。

（二）国际法治评估中国方案的理论立场

在方法论层面，要纳入自下而上的社会学方法。专家发现，西方主导的评估体系多数采取自上而下的规范方法，即主要评估法律系统内部的制度结构是否符合特定理论理想型。在这一路径下，许多国家虽然评估结果良好，但由于国家能力的欠缺导致法治实际社会效能薄弱。这些学者因此提出，国家实际能力是法律实施效果的基本条件，评估应采取自下而上的社会学方法，关注公民实际接受的一般性约束及其具体社会效能。〔63〕See Marcelo Bergman, The Rule, the Law, and the Rule of Law: Improving Measurement and Content Validity, Justice System Journal, Vol.33:2, p. 174-193（2012）.中国的发展经验也证明，发展中国家尤其应重视国家组织、动员和治理能力，而非由意识形态推导出的特定法律体系和机构设置形式。中国的法治评估方案，也不应囿于法治的概念化和形式性要求，而应积极引入社会学方法，着重衡量在法律实施中所体现的国家治理能力和实际社会效果，使法治评估服务于世界人民的具体福祉而非某种虚无缥缈的政治观念。

在知识论层面，要积极挖掘法治的地方性知识。福柯的政治批判理论要求关注不连续的、从属性的、被去资格化的地方性知识，以消解权力规训的单一化、独断性、规范性理论。〔64〕参见［美］约瑟夫·劳斯：《知识与权力——走向科学的政治哲学》，盛晓明、邱慧、孟强译，北京大学出版社2004 年版，第112 页。面对西方主导法治评估中的技术政治之规训，中国方案应秉持“和而不同”的多元主义文明观和法律观，拒绝西方所谓的“法治普适论”“法律移植论”“法律全球主义”等观点，尊重各国的社会文化情境，充分考虑不同发展阶段国家的社会实际需求和价值序列差异，深入挖掘各国的法治地方性知识。在设计评估体系之前应当进行严谨的比较法和国别法研究，以理解各国法律体系生成的内在逻辑和本土情景，避免基于某种先在的抽象理论假设进行粗暴评价；评估中应注重评估指标和方法的区域化、国别化，灵活采用质性研究和社会调查方法，要谨慎进行指标的跨国适用和国别横向比较。

在理论目标上，要着力构建中国法治话语。习近平总书记提出，“要着力打造融通中外的新概念新范畴新表述，讲好中国故事，传播好中国声音，增强在国际上的话语权”。〔65〕《习近平关于社会主义文化建设论述摘编》，中央文献出版社2017 年版，第197-198 页。法治评估的中国方案，要积极构建关于中国法治发展道路的主体性叙事，推动形成对法治概念的中国化阐释与解读；在制度设计上，要以中国改革开放以来取得的巨大发展成就为基本论据，在广泛国际认可的基础上，将诸如央地格局、试点创新、统筹规划、分级施策、综合治理等中国特色法治概念纳入指标体系；在价值论证上，要进一步丰富中国特色社会主义理论体系，对中国优秀古典文化进行创造性诠释，构建基于中国自身文化传统及历史经验的价值元语言，为世界贡献西方基督教传统和新自由主义意识形态之外的人类社群间理性交流和凝聚共识的基本智识工具。经由制度和价值互相支撑的二元叙事，重新塑造中国国际法治话语权，为广大发展中国家提供替代性的治理经验。

（三）国际法治评估中国方案的技术立场

在评估流程设计上，应引入“应答—建构主义评估”模式（responsive constructivist evalution）。在评估学领域，前三代评估的导向分别是测量、描述、判断，“应答—建构主义评估”模式又称为“第四代评估”，其核心导向是参与和协商。本模式采用自然主义的评估方法，即评估者放弃对评估对象的单向控制，而采纳对象的视角和解释自然地进入评估场域，以对象的视角和解释为基础，结合质性访谈、观察和文献分析加以扩展和具体化，而其核心流程是由评估对象全程参与指标构建和估值解释。〔66〕参见［德］赖茵哈德·施托克曼、沃尔夫冈·梅耶：《评估学》，唐以志译，人民出版社2012 年版，第128-132 页。这一模式下的国际法治评估要求其全流程对评估对象国开放，将其参与解释视角纳入评估结果，从而避免评估国的单方向审视和价值独断。这一方法能有效地消解当前国际法治评估中的权力不对等和控制关系，并得以将评估深入到对象国的法治话语体系和社会情景，从而避免各类理论前见和政治偏见的影响。

在指标体系安排上，要从理论层面下沉到操作层面。（1）注意指标可测性问题，不应一味追求理论上的体系完备，对于过度理论化、价值化而导致无法避免主观判断的指标，应当谨慎使用；指标的选取应特别注意在被评估国社会条件下的易得性和可测性；（2）注意指标多重共线问题，清晰界断各法治概念边界，合理安排其权重比，避免一因多果、互为因果的指标共同进入体系，导致权重失衡和过度解释影响评价的公正性；（3）积极构建客观指标，细致论证法治效果与可观测客观数据的关联强度和模型；谨慎使用基于感受性的主观指标，并验证主观评价与实际法治绩效之间的非线性关系，在评估报告中予以说明；（4）注重效能性指标，即通过实证标准检验法治实际社会效果的指标；谨慎使用过程性指标，即通过文本审查体现法律制订实施特定程序性节点的指标，以保障指标衡量的是实际治理效果而非书本上的规则。

在结果运用上，要广泛开展对现有评估结果解释的检验性研究。当前国际政策学界开展的基于评估结果的定量实证研究，是将评估结果作为法治水平的可观察值，检验其与其他社会现象的相关性。此种研究的逻辑是将数据分为系统模型和随机残项，其中模型严格对应着理论假设，而理论不可解释部分则被纳入随机残项予以忽略，〔67〕参见彭玉生：《社会科学中的因果分析》，载《社会学研究》2011 年第3 期，第1-32 页。而由于理论解释经常隐藏着政治前见，此种研究自然可能存在自觉不自觉的政治立场；而被隐藏的随机残项则可能干扰原研究的因果关系判断，使得原理论假设不成立。对此，我国法学界应当积极引入实证方法，对此种隐藏了政治立场的相关性假设进行检验。一是进行国别个案研究，以个案直接证伪其假设；二是在随机残项中发现构建新的解释变量，通过相关性检验证成替代性解释；三是直接对原研究进行技术验证，揭示其方法上的错误从而论证其结果的不成立；四是直接运用同样的数据类型复现原研究，再次验证两个相同变量的相关性。实际上当前国际学界对原始研究的复现式研究、检验性研究是一个重要方向，我国学者应当积极回应这一知识需求，引入中国数据予以深化，以表达中国立场，发出中国声音。

六、结语

本文的讨论起于对国际法治评估中技术政治的揭示和反思，终于对中国方案和立场的阐明，但其隐含的脉络和根本归依，则是我国在国际治理中制度性话语权的提高。而国际法治评估的中国方案，在此语境下应主要视为一种制度性话语工具和权力机制予以考察。但在此视角下，尚有以下几个问题需加以注意和进一步的阐发：（1）国际制度性话语权构建需要深度的学科协同和政学协作。国际法治场域的话语权力格局，是由长期话语博弈后形成的场域规则、话语资本、话语习惯及国家间关系位置共同决定的；而由于学科边界所限，本文仅能从法学学科内部视角出发，对法治评估中涉及法学概念和知识的话语内容进行讨论，但构建国际制度性话语权是一个庞大的系统性工程，尚需在倡议动员、议程设置、话语平台，传播渠道、话语方式等领域进行全面提升，这有待于其他学科同仁共同深化研究；（2）要谨慎地处理法治知识一般性和特殊性的关系。本文在技术政治语境下，更加强调法治知识的特殊性，以要求摆脱西方知识权力范式的支配，在国际法治评估体系中展开中国法治的主体性建构。但这绝不意味着彻底否认法治知识的一般性要素，更坚决反对法治观念上的极端本土主义和保守主义。要遵循习近平总书记“立足中国、借鉴国外，挖掘历史、把握当代，关怀人类、面向未来”的中国特色哲学社会科学发展思路,平衡法治知识的一般性和特殊性要素，即要在国际法治评估体系构建中充分体现中国特色、中国风格、中国气派，也要在摒弃西方政治意识形态支配的前提下充分吸收人类社会发展历史上形成的一切优秀法律文明成果。（3）要对法学的自足性保持基本尊重。现代法学和法治观念的基本假设是形式主义法治下法学的自足性，即将法学视为一个逻辑相对严整的体系，并依赖于法学本身的概念和方法体系对法律问题予以解答应对。由此观念才能支撑司法独立、法律职业化和法学教育专业化等现代法治基石。本文所采取的政治批判方法，在法学理论谱系中实际上是一种对现代形式主义法治体系和法学自足性的冲击。需要明确，这一理论进路所采取的法学外部视角，仅用以关注西方主导的权力政治在各国法治系统外部的运行和作用机制，是一种“否定之否定”；当法治评估体系的构建进入具体法治制度规则领域时，仍要回归法学的内部视角，充分尊重法学的自足性，基于形式主义法治的基本理念构建评估体系。