公共卫生项目评价工作概述

2017-02-15亓晓么鸿雁王琦琦郑文静胡跃华孙谨芳

中国防痨杂志 2017年1期

关键词：结核病公共卫生效应

亓晓么鸿雁王琦琦郑文静胡跃华孙谨芳

·流行病学与统计学方法·

公共卫生项目评价工作概述

亓晓么鸿雁王琦琦郑文静胡跃华孙谨芳

确定评价的目的、设计类型及下评价结论是公共卫生项目评价工作的3个关键环节，也是评价的独特之处。作者结合项目评价理论，重点阐述了上述3个环节，以及指出了常见误区，希望对结核病控制工作者有所帮助。

公共卫生；评价研究；结核

评价，是公共卫生实践工作中不可缺少的一个环节。正是在科学评价的基础上，公共卫生实践者不断总结经验、发现问题并提出建议，从而促进公共卫生各个领域的发展。笔者列举结核病控制项目评价工作可以参考的评价方法专著及相关操作指南，并结合其内容，概述公共卫生项目评价中如何确定评价目的、评价设计类型及给出结论等这3个重要步骤。

一、评价的理论和方法依据

(一)公共卫生项目评价理论

系统的评价研究是现代社会的产物，于20世纪以后得到发展。而系统的社会项目评价最早出现在教育和公共健康领域。美国社会项目评价专家Rossi等[1]在《评估：方法与技术》一书中对项目、政策评价的方法和技术做出了详细的阐述。作者将常见的评价分为需求评价、执行和理论评价、过程评价、影响评价等几种类型。

关于卫生项目评价方面的著作，2009年复旦大学的吴擢春[2]主编出版了《卫生项目评价学》一书。作者综合了国内外项目评价及卫生项目评价实践经验，对项目评价目的、理论、设计和方法进行了详述，同时针对需要评价、监测、过程评价、结果评价分别进行了剖析。

关于专门针对公共卫生项目评价的指南类文献，1999年美国疾病预防控制中心发表了Frameworkforprogramevaluationinpublichealth一文，将公共卫生项目评价工作的步骤概括如下：召集利益相关者→描述项目→聚焦评价设计→收集可靠证据→结论考证→确保应用和分享经验[3]。该手册写明了每步应该如何实施及相应的注意事项，是公共卫生项目评价工作者值得借鉴的一本操作手册。

(二)结核病控制项目评价

具体到结核病控制项目的评价，2004年世界卫生组织等颁布了《监测与评估工作手册：艾滋病病毒感染/艾滋病、结核病与疟疾》(简称“《手册》”)[4]。《手册》中首先阐明了监测与评价的基本框架，然后列举了3种疾病常用的产出及结果评价指标。该《手册》主要是针对国家级评价的使用者编写，只包含定量评价指标，总的来说只是地区层面监测和评价结核病控制项目的一个粗略框架。2005年，为了促进DOTS策略在发展中国家的实施和扩大，世界卫生组织颁布了MonitorandevaluateTBcontrol手册，主要是从具体工作如何开展的角度，来指导如何监测和评价地区层面上的结核病控制计划执行情况及结果，其中列举了相应的监测和评价指标[5]。该手册比较适用于既定的以DOTS策略为主的结核病控制项目的监测和评价工作的开展，有些工作表格和指标可以借鉴。以上两者相对比，前者更像是一个地区级结核病项目的评价框架指南，后者则是一个地区级项目评价的工作操作指南。

与以上两者不同，2006年美国疾病预防控制中心出版了《结核病项目评价手册》[6]，该手册完全按照前述文献[3]中的步骤，结合结核病项目的特点，逐步详细阐述。其既适合评价大型结核病控制项目，也适用于局部地区的小型项目，对于评价工作者独立开展各种类型的结核病项目评价研究工作很有帮助。

关于国内结核病项目评价专著，2003年龚幼龙等[7]主编了《结核病控制经济与管理学评价》一书。本书将经济学评价、管理效果评价方法应用于结核病控制领域，比较系统地介绍在结核病控制领域开展社会经济学评价的调查设计和统计学分析方法，对于开展结核病控制经济学评价很有指导意义。此外，一些结核病的国际项目，比如全球基金项目、世界银行贷款项目等，均在项目初始就具备相应的评价方案，这些对于结核病控制评价工作，均有借鉴作用。

综上，结核病控制评价工作者，可以将结核病控制项目的评价分为需求评价、结构性评价、过程评价、结果评价和影响评价，具体的评价步骤可以按照确定评价目的、评价设计、搜集资料、得出评价结论、分享结果来开展评价。

二、评价的3个关键步骤及常见误区

评价，最具挑战性的一点就是没有“通用”的方法，需要根据不同项目和项目具体的评价需求来逐步确定。至于一些搜集资料和整理分析资料的具体方法，也都不是评价所独有的方法。因此，任何一个评价独有的也是必须首要解决的是评价目的、评价设计；其次，资料的综合分析、解释和下结论也体现了评价自身的价值。

(一)确定评价目的

评价的概念包含2个基本要素：事实挖掘和价值判断。评价的结论不是简单地取决于事实本身，还受到来自于持不同价值取向的利益相关者的深刻影响。评价目的的确定，正好呼应了评价的2个要素，即评价目的也是评价问题的确定，不仅要知道评价本身能够做什么，还要知道人们想利用评价干什么[2]。因此，评价目的的确定，要通过召集主要利益相关者和描述项目来完成。

1.召集利益相关者：利益相关者可以从项目资助方、监督管理方、实施部门、服务提供者、实施对象，以及评价者几个方面考虑。不同的利益相关者其价值取向不尽相同。项目资助单位最关心的是是否能实现项目计划所设定的目标；政府部门关心的是项目是否可推广、能否降低卫生费用；医疗机构关心项目的经济效益；患者关心的是服务质量及满意度。评价者正是要权衡各方关注点之后来最终决定评价问题。一般而言，项目效果是各方共同的关注点[2]。

2.描述项目：首先，要了解项目的类型。不同类型的项目其评价重点也不同。从研究到政策实施，一般会经历基础或应用类研究、试点项目、示范项目、项目推广，最后到政策制定和实施。每个阶段的项目，其关注的重点内容也不同。前面阶段我们更关注的是对某种理论假设的探索和验证；验证合理后，中间阶段关注的更多是如何实施及实施效果；到了推广及政策实施阶段，则更多关注项目的综合影响及效率问题。而许多成熟项目更多关注的不是项目背后的理论是否正确，而是执行中的经验与问题，以及影响及效率问题，大多数地区级结核病控制项目即属于此类。其次，要建立项目理论及确定项目目前进展，在此基础上才能断定评价能做什么。有人将建立项目理论理解为梳理项目制定及执行成功的各种假设前提，评价者可以从项目理论假设、行动假设及项目组织计划等3个方面来确定项目理论。在结合三者的基础上，可以采用逻辑模型框架图的方式来描述项目。以结核病为例，由于结核病控制的许多策略和措施已经比较成熟，所以其理论假设和行动假设有许多共同点，即干预手段、干预与效果的因果关系相似。图1是可供结核病控制项目评价者参考的以消除地区结核病为目标的Meta 评价逻辑模型(改编自文献[6])。具体应用时，要结合项目本身开展的工作重新修订。建立评价逻辑模型之后，再确定项目目前的进展阶段，从而判断在此阶段可以回答哪些评价问题，相应地搜集那些评价指标。结核病项目评价的指标可以参考前面提到的基本操作手册，当然，前提是必须紧紧围绕项目计划书进行。

图1 消除地区结核病的Meta评价逻辑模型

3.常见评价目的：需求评价是回答项目运作所需的社会条件及项目需求程度等问题；项目理论评价(或称结构性评价)是回答项目的概念和设计是否合理可行等问题；项目过程评价是回答项目的操作、实施及产出等；项目结果或影响评价是回答项目的短期、中长期的结果和影响等问题；效率评价回答项目成本-收益和成本-绩效等问题[1]。

4.常见误区：现实中的评价，首先在利益相关者方面考虑较少，大部分公共卫生项目评价文献仅从资助方或者管理方的角度来评价项目的效果。比如，许多全球基金结核病控制项目评价和地区结核病防治规划效果评价关注的是项目既定目标是否实现，而从医疗机构及患者角度开展的评价较少。其次，评价者对于项目描述不够，只关注要评价的定量指标的收集和分析，至于项目的目标、项目工作的逻辑关系、项目的进展均不详细阐述。通常，这样的评价其最终结论也只是笼统的，项目方或者读者从中获益较少。这种缺陷在许多结核病控制项目评价文献中均可看到。

(二)设计评价

评价设计的目的就是要找到好的参考标准，去除对评价结论产生影响的其他主要因素的干扰，从而得出科学的结论。笔者以下所介绍的内容仅涉及定量评价设计。

1.评价设计类型：比较，是评价设计的核心。严格的随机对照实验设计说服力最强，而无对照的干预后一次性案例研究说服力最弱。在公共卫生项目评价中，随机对照实验设计常常不容易实现或没有必要，故常采用准实验设计。公共卫生项目评价常见的设计类型包括：无对照的干预后一次性案例研究、干预前后测量对照设计(或叫自身前后对照设计)、干预后测量对照设计(设立对照组)、干预前后比较设计(自身前后对照的同时设立无干预的对照组)、无对照的时间序列设计、有对照的时间序列设计等类型，以及以上类型的变相组合[2]。是否为随机对照实验和准实验的区别在于是否设立对照组，以及研究对象在对照组与干预组的分配是否随机。但是，事实上，大部分公共卫生项目评价设计中，很难实现对照组与干预组的随机分配。此时，可以考虑配比。公式①中即表达了一个干预措施的净效应，除了对比干预组与对照组的效果之外，还应考虑两组的可比性，以及设计的其他偏倚及随机误差[2]。如果两组完全可比，即足够样本量中随机选取的干预与对照，则不用考虑两组之间的差异。

措施净效应=干预组的效果测量-对照组的效果测量±未控制的干预组和对照组的差异±设计偏倚及随机误差

①

除以上类型，还有一种设计类型是回归间断设计，也有人说这不是一种独立的设计类型，而是一种新的分析策略，应该叫回归间断分析，这种类型适合无法设立对照的情况。比如，很多政策、项目干预是针对一些经济状况差、健康状况差或处于某种特殊状态的人群，如贫困人群的特殊援助、肥胖人群的干预、给最差的学生的补习、给学习好的学生的奖学金奖励等。这些干预无法通过随机分配找到对照组。此时，可以根据干预的效果变量的分段点将人群分为干预和对照两组，这种分组方式显然是不随机、不可比的。比如奖学金激励项目，只给学习成绩达到一定标准以上的学生提供奖学金，而该标准以下的学生不提供奖学金，然后再观察奖学金制度对好学生的激励作用[2]。分组后，在干预前后分别测量其效果变量值，如果干预组没有效果，原则上两组仍然处在一条回归线上；如果有效，两组在干预后的效果测量值应该在两条不同的回归线上，两者中间出现一个截距，此截距即为干预效果。这种设计由于所有对象都是同一个时间随访和测量，有效地控制了许多影响内部效应的因素，如时间效应、测量效应等。其中，处于分段点附近两侧的干预与对照的对比分析则更具有说服力，因为这两侧的研究对象不仅去除了以上效应，同时还是效果变量在起点最相近的对照，从而排除了由此带来的偏倚，解决了外部有效性的问题。

随着公共卫生项目涉及的人群越来越大，干预措施越来越复杂，在评价时也只能施加越来越少的研究控制，这些导致项目评价越来越难下结论[8]。因此，近年来，除了以上所提及的实验、准实验设计，现在更多的生态学评价设计出现，即不是简单的设立对照，而是将所有的主要影响因素的信息都搜集到，汇总到一起分析，并通过定量得到这些因素对于产出或结果的影响究竟有多大。这种设计充分考虑了各种影响因素，适合复杂社会项目的评价，有助于全面了解项目，下出合理的结论，但对资料收集、整理和分析的要求也越来越高。

2.确定评价类型：在确定评价设计类型时，首先要考虑现实的实用性及可操作性，包括评价结果是给谁来看，各种资源是否具备、数据是否容易获得等。其次，在现实允许的前提下，尽量选择说服力强的设计。所谓说服力强，即让最终的评价结论看起来更像是由于干预措施所导致的，而不是其他原因。也即尽量消除影响内部和外部有效性的因素，亦或从流行病学因果推断的原则上看，更符合因果推断标准，比如时间顺序、关联强度、剂量-效应关系、研究的一致性等。

内部有效性回答的是在多大程度上研究结果的出现可以被解释为干预措施产生的效果，而不是别的合理解释。影响项目结果内部效度的因素经常包括：(1)时间效应：即研究结束时观察指标发生的改变完全有可能是由于发生在研究期间的某一特别事件所导致的，或者可以被笼统地称为时间因素或历史因素的影响。(2)成熟效应：即研究结果可能是由于研究对象自身在参与研究期间所发生的一些系统改变所致(精神或身体的)，最典型的例子如“久病成良医”。(3)测量效应：比如干预前测量时对研究对象产生影响，研究对象因此获取了知识，或者改变了态度、行为等，导致第二次测量时结果变量发生变化。(4)工具效应：也是由于引入了干预前测量所致，也即前后测量工具或方法等的不一致而导致的偏倚。(5)回归假象效应：即经过干预前测量后，后续的测量中受试者的某些变量趋向于平均水平，这尤其体现在一些知识、态度类的变量。(6)选择效应：即干预组与对照组之间不能完全可比导致的偏倚[2]。

外部效度回答的是研究结论可以被推广到哪些类似的情形中去。常见的影响因素包括：(1)选择-处理间的交互：即结果可能只是在本研究所选择的人群有效，不能被外推到其他人群中去[2]。(2)测量-处理间的交互：即只有当存在干预前测量时，相应的研究结果，或者说干预措施才是有效的[2]。(3)项目的扩散和污染：即项目期间，项目区干预措施的影响会扩散到非项目区，或者是其他地区的类似的干预项目会扩散到项目地区，或者同期项目区也存在其他类似的干预项目[8]。上述情况都会影响到评价。

不同的设计类型去除掉不同类型的效应或者叫控制了偏倚。比如，随机分配的干预前后测量对照设计，因为前后测量和设立对照，可以避免时间效应，而受试者的随机分配则有效控制了成熟效应、回归假象效应和选择效应。而只要保持所有测量尽量标准一致，则测量效应和工具效应也得到尽量控制。如果所进行的干预存在很大的测量-处理间效应，则可以去掉干预前测量，但同时也造成设计对随机分配的高度依赖，即要求随机分配能保证在研究开始时设立干预组和对照组是齐同的[2]。

3.常见误区：评价实践中，常见的问题包括设计时对可能存在的效应或偏倚分析不足，对无法控制的但对项目效果可能会产生重大影响的背景信息搜集和描述不够。比如国内对于结核病控制项目的评价，有的虽然设置了对照组，但没有描述清楚对照组如何选择的，这让读者不能真正了解该设计控制了哪些因素，也就无从判断评价结果的可信度。而对背景信息分析的不足，可使评价结果不易外推；作为科技文献，使得其他读者无法从中获取更多可供借鉴的经验。

(三)评价结论的得出

评价结论得出的过程，类似于流行病学中的因果推断过程。评价结论首先要围绕评价问题开展，在分析每一个问题时，除了关注结果变量的变化，还要关注前述公式①中考虑项目组和对照组之间的可比性，设计以及资料收集整理过程中的各种偏倚，以及随机误差。在综合所有因素后，才能判断该结果是否具有内部有效性，也即在多大程度上代表干预措施带来的效果。如果评价的目的中还包括外推到其他地区或人群中，则需要分析外部有效性，要分析可能影响外部有效性的因素，包括前述可能存在的各种效应，以及能对项目效果产生重大影响的地区背景信息，比如相关的政策、社会事件、其他类似项目等。现实评价的案例中，在以上分析方面存在明显不足，更多看到的只是结果的展示，然后是定性的笼统的干预措施和结果之间关系的解释，从中我们不能得到前述内部有效性和外部有效性的两个问题的明确答案，以及可供借鉴的具体经验。

以上存在的问题一方面可以通过评价设计来解决一部分，另外，可以在分析时将过程、产出、结果和影响一起联合分析，当然这取决于在设计时就考虑到这点，并搜集到应有的信息。具体分析时定量和定性方法均可。通常，对于大型公共卫生项目，因为干预的领域、层次太多，一时很难量化，在这方面，许多控烟项目评价在这方面做出了很多探索，比如美国为癌症预防开展的控烟干预研究项目(the American Stop Smoking Intervention Study for Cancer Prevention, ASSIST)的评价中，即采纳了这种定量的联合过程、产出、结果指标的分析方法[8]。

综上所述，所谓项目评价，首先有项目，然后才有评价。因此，所有评价都必须围绕项目进行，都必须对项目的假设、项目的执行方案和现在进展了解的基础上才谈得上评价。所谓评价，先有价值判断，才有事实搜集，最后再进行价值判断。因此，必须要清楚利益相关者的评价需求，结合项目本身，才能确定评价目的和问题。比较，或者说寻找参考标准，是评价设计的核心。设计无明确的好坏之分，只有适合与否，能够回答评价问题的设计都是适合的。评价资料的解释和结论的得出，其实就是因果推断、偏倚分析的过程，要做到归因分析才能得出科学的结论。

[1] Rossi PH, Lipsey MW, Freeman HE. 评估：方法与技术. 7版. 邱泽奇, 王旭辉, 刘月, 等译. 重庆: 重庆大学出版社, 2007.

[2] 吴擢春. 卫生项目评价学. 上海：复旦大学出版社, 2009.

[3] Framework for program evaluation in public health. MMWR Recomm Rep, 1999, 48(RR-11): 1-40.

[4] 世界卫生组织, 联合国艾滋病规划署, 防治艾滋病、结核病和疟疾全球基金, 等. 监测与评估工作手册：艾滋病病毒感染/艾滋病、结核病与疟疾.日内瓦：世界卫生组织, 2004.

[5] World Health Organization. Monitor and evaluate TB control. Geneva: World Health Organization, 2005.

[6] Centers for Disease Control and Prevention. TB program evaluation handbook: introduction to program evaluation [EB/OL]. [2016-10-30]. http://www.cdc.gov/tb/programs/evaluation/tbevaluationhandbook_tagged.pdf.

[7] 龚幼龙, 万利亚, 武桂英. 结核病控制经济与管理学评价. 上海: 第二军医大学出版社, 2003.

[8] European University Association, Department of Health and Human Services, National Institutes of Health, et al. Evaluating Assist: a blueprint for understanding state-level tobacco control. Bethesda: U.S. National Cancer Institute, 2006.

(本文编辑：李敬文)

Review of public health program evaluation

QIXiao,YAOHong-yan,WANGQi-qi,ZHENGWen-jing,HUYue-hua,SUNJin-fang.

OfficeofEpidemiology,ChineseCenterforDiseaseControlandPrevention,Beijing102206,ChinaCorrespondingauthor:YAOHong-yan,Email:yaohy@chinacdc.cn

Definiteness the purpose and design type of evaluation, as well as drawing the conclusion are the three key steps and characteristics of public health program evaluation. This review aimed to explain the above three steps and point out common errors in practice, hoping useful to tuberculosis control workers.

Public health; Evaluation studies; Tuberculosis

10.3969/j.issn.1000-6621.2017.01.009

102206 北京，中国疾病预防控制中心流行病学办公室

么鸿雁，Email：yaohy@chinacdc.cn

2016-11-07)