洞见“科技评估”

2022-11-24方衍

军事运筹与系统工程 2022年1期

方衍

（国家科技评估中心，北京100038）

1 引言

笔者在科技评估领域工作了20 年，有些心得。恰逢《军事运筹与评估》杂志改刊约稿，借此总结思考一二，与读者分享讨论，还望不吝赐教。

无论是“科技评估”还是“军事评估”，本质上都意在“评估”，只不过是评估的对象有所不同，两者都有着很强的包容性。重要的是，这里所谈的“评估”都属于公共领域范畴，或者是公共部门开展的评估活动，主要是为公共部门的管理和决策提供服务，这与社会上开展的诸如资产价值评估还有很大区别。基于此，本文瞄准公共领域评估中的共性问题，淡化“科技”或“军事”作为评估对象的属性，特别是对近年来公共领域评估中的热点问题进行了梳理和思考。同时，冀盼科技评估中的一些理念、经验和教训能够为军事评估的发展提供借鉴。

2 政府管理需求是评估“热”的主要推手

改革开放以来，我国社会历史条件发生了重大变化。在科技领域，大科学时代带来了学科间的交叉融合；政府和产业界对R＆D（Research and Development，研究与开发）活动资助的持续性大幅度增加；政府各类科技计划转变了科技活动的组织管理方式；国家创新体系建设和不断演进的创新政策对科技、经济和社会的全面发展提出更高的要求。始于1993 年，以党的十四届三中全会《中共中央关于建立社会主义市场经济体制若干问题的决定》为标志，政府在经济、科技、财税、金融等方面采取了重大的改革措施。在改革和社会转型推动下，政府对决策科学化和民主化的认识提升到一个新高度。在此背景下，科技部（原国家科委）转变宏观管理方式，提出了用“第三只眼睛”看计划，通过评估方式为政府宏观决策提供服务。由此建立了“科技评估”的基本雏形。

科技活动的体制化格局加深了政府管理需求，科技评估作为一种新管理工具，为政府彰显绩效、发现问题和改进管理提供了重要支撑。政府大规模R＆D 活动占用了大量的社会资源。一方面，通过评估要向社会证明使用这些资源带来的绩效，以维持大规模投入的合法性；另一方面，这些资源竞争激烈，需要通过评估合理分配和使用好这些资源，带来更多的产出和绩效。由此，科技评估作为优化政府资源分配的重要手段，延伸到了科技管理的全过程，从技术预测—过程管理—产出绩效—社会影响。评估的对象包括了重大专项、科技计划、课题项目、创新人才、研发机构、创新政策等。评估主体越加广泛，形式更加多样，从中央、国务院对政策落实的督查，到各部委以及地方政府为落实自身工作开展的绩效评估，如双创、扶贫、援疆、人才、项目资助等，再加上高校、科研院所围绕学科建设、学术评价、人才激励开展的各类评估，可谓评估工作行政推动、无所不在、欲罢不能、蔚然成风。同时，评估的“过度”也带来了一定的负面效应。

随着社会转型和改革发展带来的复杂性，政府的角色发生变化，社会各种利益矛盾凸显；开展评估活动既要向上级交账，还要向下激励；既要检查知情，还要督查落实；既要控制成本，还要产出绩效。因而，一些部门通过评估加强干预的同时，不可避免地带来了“过度”倾向和“管理主义”陷阱。久之，把一个原本以学习、改进为导向的评估活动变成了邀功请赏、宣传业绩和回避责任的途径，把原本作为改进管理、支撑决策的工具变成了唯上不唯实、对下不对上、功利主义盛行的“指挥棒”。

3 评估需要在公共理性保障下的制度设计

本文讨论的是公共领域的评估问题，具有明显的公共理性。所谓公共理性，是指在评价一项改革措施或政策优劣时，必须超脱自身的、小集团的、部门的利益，站在公共的立场上独立表达意见而且无须考虑这些意见对自己利益的影响。俗话讲，“公道不公道，打个颠倒”，公共理性就是要学会换位思考，不能因为你是干部就不考虑农民的利益，也不能因为你在科技部就职，就只为科技部说话而不考虑其他部门诉求。话虽如此，做起来却难。政府各部门都是公共部门，但部门的利益化倾向始终存在，出于“守土有责”的考虑，评估就难以体现真正的客观公正。特别是当你的“帽子”和“票子”来自上级主管部门，而评估涉及上级部门利益时，评估者很难独善其身。所以，出路还在于制度设计。

政治学的一个基本原理是：谁给权利对谁负责（商业上同理：谁给钱替谁说话）。因此，当评估一项政策执行情况时，对政策效果的反馈不应给政策执行部门而最好直接提交给政策的决策者，即形成决策、执行、评估三者相对分开，互相监督的运行机制。这样既可以避免信息的丢失和截留，也保障了评估者能够更好地基于公共理性提供尽可能客观公正的评估判断。现实中经常出现的情况是，高层领导（决策者）更愿意通过评估听到真实的情况，而中层部门（执行者）则更喜欢报喜不报忧，不想因结果不好而影响前途。从心理学上讲，趋利避害是人之常情，如果评估反馈机制更加透明友好，如果奖惩措施更加科学包容，大家就更愿意讲真话、听实情，以学习、改进为导向的评估机制才更能得以实现。

在制度设计中体现公共理性并在制度执行中克服非公共理性，是制度设计的关键。目前出台的有关评估的制度文件很多，大多数是各部门针对自身工作制定的，也有几个部委联合发布的，很多都是“大而全”的、原则性的“决定”或“意见”，执行起来缺少可操作性。评估工作涉及管理各个层面，各有不同对象和目的。从性质上分，我国评估活动大多数还属于内部评估（系统内部为改进管理开展的评估），也有少量的评估属于外部评估（出于问责、交账等目的由系统外组织的评估，如财政支出公共绩效评估）。由于“第三方评估”的流行，一些内部评估也交给了社会评估机构。在制度设计上，政府对评估的管理是根据具体任务发布评估指南，交给社会专业评估机构执行。这样可以避免“既当运动员，又当裁判员”的弊端。至于执行机构到底是系统内部所属还是一定要外部的第三方，不能一概而论，关键要看执行机构与评估对象是否存在违背公共理性的利益关系。

4 “第三方评估”并非解决公正性的灵丹妙药

2011 年科技部党组1 号文提出“加强科技评估评价工作，完善国家科技计划评估评价体系和第三方独立评估制度”，目的在于充分发挥科技评价的导向和激励作用。引入“第三方评估”主要是为了解决评估中的公正性，出发点是好的。但在实践中，大家更多地把“第三方”片面理解为“第三方机构”，一些既对政府运行缺乏基本了解又不具备研究基础的机构，为争取政府资助，以“第三方”自居参与政府评估，看上去貌似“第三方”，实则并不具备“独立性”的基础，只不过是请一些专家按照政府意图完成评估工作。如果这种“第三方评估”的经费渠道、运行机制与过去没有本质上的差别，再加缺少必要的约束措施和受商业化利诱，其“独立性”也会大打折扣，更谈不上结果的公正性，失去了制度设计的本意。因此，从机构意义上，第三方也仅仅为“独立性”提供了可能的充分条件而非必要条件，真正实现独立性还需要其他环境条件和制度路径。在国外公共领域评估中，极少使用“第三方”说法，一般都使用了“独立评估”，称作“独立评估局”“独立评估委员会”“独立评估专家”等。这种独立性表现在，评估不受来自外界的任何控制和影响，始终可以自主地表达意见而且无须考虑这些意见对自己的利益的影响，保持评估观点、结论、判断和建议的客观公正。可见，“第三方”和“独立”在概念上有本质的区别，前者是手段，后者是根本。诚然，就大环境而言，实现评估的“独立性”还存在一定难度，但概念上的混淆和不准确，容易将公共领域评估的发展引入歧途。

有人认为系统内部机构不能算是第三方，因此评估工作应该交给系统外部，这个观点有些狭隘和偏颇。“第三方”也可以分为“同体第三方”和“异体第三方”，即指一个大系统内部／外部的与评估对象没有利益关系的机构。“同体第三方”通过制度设计，如增加外部专家、合理安排经费、完善回避制度、加强制度规范等，同样可以独立、客观、公正地表达评估意见。而“异体第三方”也可能会在商业化与行政化的博弈中，丧失独立性，从而影响评估的价值判断。有研究表明，由系统内部还是系统外部进行评估，各有利弊。系统内部经长期跟踪，积累信息多，进入情况快，与决策者沟通容易；系统外部虽相对容易保持独立，但需要花更多时间进入情况，成本也会大大增加。而任何评估都会在质量和实用性之间寻求平衡点。由此，如果把“第三方”仅仅看成机构层面，并无实际意义。但如果从“第三方立场”出发，即加强评估的独立性，则可以打破现有格局，通过制度设计和程序规范，真正解决评估的独立性，实现评估的公正性。

从实践看，“第三方评估”的提法还容易造成评估责任主体的缺失，使“管理者成为评估的局外人，对没有得到所期望的结果可以不负责。由于评估不当造成的失败，其责任不在管理者”。要解决评估独立性的问题，不仅仅是对执行评估的“第三方”而言，重要的是要解决好评估管理者（委托方）与评估者（执行方）的关系。过去的研究表明，这种关系“有失公平，评估者处于无权的地位”“所评价的问题、资料的收集与阐释、向何人公布结果等，最后决策权掌握在管理者手中”“造成利益相关人无法在评价中维护自己的利益，阐述自己的见解，按照评估建议采取有效的改进行动”［1］。因此，“第三方评估”并非灵丹妙药，其独立性也受各种条件的约束，仅仅靠单一的、概念化的制度还不能解决评估的公正性问题。

5 对科技评估的诟病及其背后看不见的手

近几年，社会上对科技评估的诟病不绝于耳。主要集中在：一是评价的导向只对下级、不对上级，重视形式、轻视结果，只说成绩、回避问题，成为管理的“指挥棒”。二是评价的方法简单排名、过度量化，重视数量、轻视质量，标准单一、按“一刀切”，大量垃圾论文充斥，带来科研的浮躁。三是评价的结果与利益挂钩多，带来了科研的短期效应、失去了成果的长远价值；污染了求真的学术精神、破坏了卓越的科学文化。科研人员对此早有改革的呼声，中国科学院和中国工程院的院士都曾大量调研并向中央建言献策，政府部门也不断出台各种文件试图解决，可效果并不显著，有些甚至愈演愈烈（比如对SCI 论文的追逐）。社会各界都不满意，把问题归结于科技评价体系本身不健全，但又始终跳不出这个怪圈。

如果从科技资源配置的角度观察，可发现这些问题背后的蛛丝马迹。美国普林斯顿大学唐纳德·斯托克斯提出的“科学研究的象限模型”，其中第三象限（巴斯德象限）代表了能够激发应用的基础研究，也是美国国防高技术研究项目局（DARPA）对科研项目遴选遵循的主要标准。依照这个象限模型观察我国政府资助科研经费的优先序，可以发现：①2008 年～2015 年，代表第一象限（玻尔象限）的国家自然科学基金经费占财政基础研究投入比重从24.3%急剧上升到40.4%（从53 亿元增长到222 亿元），教育部门和科研部门对以个人兴趣为导向的基础研究投入的比重更高。玻尔象限经费数量的急剧增长必然导致论文产出数量增加，强化了论文导向的科技评价。②2015 年在我国基础及应用研究活动中，大学和科研机构R＆D 人员全时当量占比约79%，R＆D 经费支出占比约为81%；在试验开发活动中，企业R＆D人员全时当量占比93.5%，R＆D 经费支出占比约89%。这种二元科技资源配置结构形成了大学和院所科学研究自循环、企业技术开发自循环，导致科技与经济两张皮。③中央级科研经费中的竞争性经费过高，比例一度接近80%。保障性经费不足，导致高校和院所科学家被迫投入大量时间和精力参加各种评价活动以竞争科研经费，评价指标也会向竞争性经费倾斜，带来论文导向。④我国科技评价中出现的问题，主要根源在于科技资源配置结构出现了问题。仅依靠科技评价方法和程序的修修补补，不可能从根本上解决评价导向的偏差问题，还需要从资源配置的制度层面上加以研究和解决。

人才工作和科技奖励是科技资源配置中的重要内容，也成为科研人员对科技评价诟病的焦点，过度引导带来科技评价主体过多、频次过高、要求过繁。近些年来，中央有关部门和各省市推出各种名目的人才计划，在吸引、培养创新人才方面发挥了积极作用。由于人才计划政出多门，定位重叠，所引发的负面效应日益凸显。五花八门的人才“帽子工程”，政府庞大的科技奖励系统，评价结果与资源分配的紧密挂钩，政府和社会对排名结果的过度关注，不仅把学术评价变成学术评比，把学科评估变成学校排行，还把人才评价变成科技奖励。各种评估评价评审频次过多、规模扩张，主体叠床架屋，对象循环嵌套，不仅耗费了大量的时间和经费，还助长了急功近利、目标短视和学术不端行为的发生，甚至对政府的公信力产生怀疑。这些现象，表面上看是科技评价体系不完善所致，其实无不与政府（包括行政色彩较重的高校和科研机构）在资源配置中的过度干预有直接关系。这种一手抓分配，一手抓评价，并以评价结果作为配置资源主要依据的管理主义做法，直接体现了政府和公共行政部门的意志和权力，也异化了科技评价的根本导向，已经远远超出了科技评价体系的自身建设问题，应在更高层次的制度安排上予以充分关注。

6 加强自身能力建设迎接科技评估新挑战

随着时代的变化，科技评估的理念内涵、目标内容、主体对象都已经远远超出了二十年前的范畴，评估者必须不断加强能力建设，紧跟时代发展。按照评估对象和评估目的分类，科技评估主要有四类：①学术评价出现最早，是学术共同体内部为了确定研究成果的优先权而形成的一套科研行为准则，对象是学术研究成果；②科技评估，提出的初衷是为了改进政府部门内部管理、优化资源分配而采用的一种工具，对象是计划、项目、机构、人才等；③政府绩效评估，是出于对政府公共服务问责的要求，对象是各级政府部门，评估其使用公共财政资金带来的绩效；④正在孕育和兴起的技术影响评估，目的是评估新兴技术对未来经济社会带来的影响，如转基因、人工智能等，主要是为政府的重大技术决策服务。经过二十年的演进发展，前三类评估受到了政府重视和大力推动，但在发展过程中又经常把针对不同目标、不同主体、不同对象的评估活动“一勺烩”，不能因事制宜，出现了概念混淆，带来标准上单一化，增加了对结果判断的难度。由此想说明，“评估”是一个内涵宽泛具有弹性的术语，具有功能多重、主体多元和目标多样的特点。当讨论不同目的、不同对象和不同主体的“评估”时，都应界定相应的语境，尽量避免“跨界”。重要的是，要阐述清楚评估是如何与政府部门的管理有效结合起来的。

随着政策的变化，“评估”的标准和功能也带来新的变化和挑战：①对R＆D 活动的评估，从早期关注立项中资源分配的公平性、管理效率等，到科技创新不仅要“产蛋”（科研成果），还要产出“金蛋”（成果达到产业化应用）。②评估的标准从事实标准（完成合同任务）延伸到实现社会价值（科技对社会发展贡献）。③评估的对象从具体任务（产品／项目／成果）向系统综合的政策评估（把握科技发展方向，实现可持续性）转变。④评估的功能从早期的决策支持、经费问责向战略转变和政策投入转变。这些，都为评估者带来了极大的挑战。这些挑战包括：①评估方法的挑战。当评估的目标转向更广泛的社会经济影响时，评估对效益和成本、外溢效应和反事实的描述，以及“软”制度和获取的经验教训都很难进行全面评价。②评估的质量控制。由于社会的开放，有了更多的利益方参与评估，各种利益诉求更加多元化，到底如何听取和采纳这些不同的经验和观点？哪些超出评估的范围？这些问题给评估的质量控制带来难题。③评估还有许多的不确定性。特别是对科研活动和创新政策的评估，要经过较长时间才能产生结果，可用的方法和路径还存在一定的局限性。④评估结果的利用仍不尽如人意。评估报告的公开性不够，只有少数关键人看到而得不到更大范围的扩散，如何吸取经验教训，发挥正确导向，形成持续改进，都还有待于完善制度细节。

面对新变化带来的评估新挑战，评估者应该有清醒的认识。一方面，要承认评估的局限性，探讨可用的评估方法，避免大包大揽和“毕其功于一役”的做法；另一方面，要谨慎地制定评估方案，特别要因事制宜、因地制宜，有针对性地制定切实可行的评估方案，避免照搬套用。同时，评估是一项涉及广泛、实践性很强的活动，必须要在实践中不断加强评估能力建设，并且通过能力建设来促进评估制度更好地完善。具体途径包括：①设计更好的业务流程应对挑战。一个好的业务流程往往胜过那些宏观性、原则性的管理文件。评估的业务流程要描述评估人员如何负责任地选择同行专家，如何管理评估的过程，并对专家的评估结果和利益相关方对结果的认可程度进行价值判断。②评估人员要不断地掌握新知识，了解被评估对象的基本情况和变化动态，起码做到“外行听来是内行，内行听来不外行”。对评估对象没有深入了解，就不可能挖掘有针对性的评估问题。③要向评估的委托方、客户传授相关的评估知识和对所评估问题的深刻理解，并尽可能地在评估设计、方法程序、最终结论、判断建议、报告表达中体现出来，以区别专业评估与总结宣传、调研报告、经费审计等的不同。④要向委托方提议如何用好评估结果，如公开办法、扩散方式、经验学习等，促进评估结果得到更广泛的使用。评估结果一旦被应用，评估的作用才会取得更广泛的共识。

7 通过不断反思深化对评估价值判断的认识

无论是商业领域的评估还是公共领域的评估，对价值的判断都存在一定的难度。特别是后者，如果把一项具体事物按照大一统的价值观（还包括政府意志甚或领导偏好）设计指标、发现问题和得出结论，则评估的价值判断难以真正体现。德国哲学家叔本华在《论教育》中讲，“判断力的运用需要依据成熟的经验，要通过大量的观察，否则不能发挥作用。很多人在儿童时期就会被灌输种种偏见，在还未自己观察世界之前就被掐断了观察世界的需求。没有成熟的观察力，也就不会有成熟的判断力。”而我们许多的评估活动，在还没有弄清评估对象的状况、评估的目的何在之前，就要按照管理者的要求设计一套评估指标，并按照这套指标（管理者价值观）形成评估的判断。特别是在大型的综合性评估活动中，预设指标可能会带来观察和认识上的误区。

很多评估之所以流于形式，采取简单的打分排序方式，是因为评估者自身的研究能力不足，只是让专家按照依上级意图设计的指标体系和设置的分值打分，加权平均得出评估的结论。这种做法管理方和评估机构都可以不负责任，美其名曰是专家结论。更有甚者，有些“一揽子”的评估活动，把不同领域、不同部门、不同事项、不同经费的活动硬要来个横向间的打分排序，可比性意义何在？因此，评估的价值判断首先要有针对性，不同目的、不同对象、不同主体都有个性化需求，需要通过前期研究制定可行的评估方案。再有，要承认评估存在着不确定性，要增加评估可信度，就需要打破封闭的知识体系，以多元化的视角和开放心态，加强评估者、评估对象、评估专家之间的相互学习和高度理解。特别要注重在评估的过程中取得共识和解决问题，而不是花大量的时间造出一个“完美”的报告向委托方交账。

在大多数的政策评估中，管理者总希望评估给出明确的因果关系，即政策的效果来自某项政策的使然。实际上政策评估常处于复杂条件下，如政策叠加效应、受益对象现实状态、反事实缺失等，因而很难获得确定的因果关系，即便通过方法的相关补充，加大评估的成本，也难得出十分可信的结果，只是增加了报告的“好看性”。西方理性主义认识论认为，每个行动都可被解释为发生于其前（或至少同时发生）的真实的原因所带来的结果（一定存在因果关系）。由于现实是单一的、有形的，所以评估者自身可以与被评对象之间保持中立，没有相互影响，因此可以分解成独立单元进行研究得到归因。而东方自然主义的认识论认为，一个行动要用多个相互作用、相互影响的因素、事件和过程解释。对现实只能从整体上加以研究，对多个现实的调查将导致更多分歧，反而增加了判断的难度。尤其把人作为评估对象时，这种相互作用的人为因素更为明显。所以，一个项目结果不完全是项目活动带来的，还可能来自其他因素，而这种因素很难被观察到或从结果中剥离出来，所以做不到真正的归因，即或去做，也是多层面的、有限的，并非绝对的。

在当今价值观多元化的社会体系中，所谓“事实”是在评估者所遵从的价值体系下确定的，不同价值观下构建的“事实”会有不同的解释。那么，多数人的价值观一定正确吗？历史经验告诉我们，既要防止多数人的暴政，并非多数非理性人的选择就符合多数人长远的利益，也要防止少数利益集团对多数人的绑架（被利益集团操纵的政策）。评估本身就是对价值观不断反思的过程，需要评估者有高度的理解力和同情心，承认评估价值判断存在模糊性和不确定性，学会从多角度反映均衡的观点，关注细节，理解变化，从反思和沟通中寻找新的感悟和洞察力。

8 结束语

科技发展到今天，我们看到的世界仅仅是整个世界的5%。这和一千年前人类不知道有空气，不知道有电场、磁场，不认识元素，以为天圆地方一样，人类未知的世界还多到难以想象。正如老子曰：“道可道，非常道；名可名，非常名”，意思是说，人们看到的事物或方法并不是前人见到的事物或方法，事物的变化加上每个人的经历和角度不一样，即使是同一时刻看到的事物也会类似盲人摸象，只见到其中的一面。两千多年之后科学发达的今天，这个道理依然。盲人摸象也是认识世界的一种方式，因为每个人摸到的都真实存在，研究客观真实的存在，就是科学。评估的价值判断在于运用更好的方法论和认识论反映事物的变化，判断事物的本质，而不仅是描述事物状态，解释因果关系，评判是非对错。对评估的研究，还有很长的路要走，诸如评估能够建立标准化体系吗？能够形成知识体系吗？大数据方法在什么条件下和多大程度上能解决评估的问题？这些问题都还有待于进一步讨论。美国管理领域前沿大师和思想家玛格丽特·惠特勒在《领导力和新科学》中论述：“在新科学里，潜在的趋势是向整体观发展，倾向于将事物作为一个系统来理解，将那些看似分离的各个部分之间存在的联系赋予价值。当我们从这种视角来看待系统时，我们进入了一个全新的世界，在这个全新的世界里，各个部分和层面都是相关联的，现象不能归纳为简单的原因和结果，而且过程也在持续地变化。”