医学观察性研究设计讲座(连载一)
2020-05-14徐应军
徐应军
导读 观察(observation)性研究是医学研究中较为常用方法之一,是以观察法为主要研究手段,即研究者在研究前,不采取任何人为干预措施或施加任何干预因素,直接通过人体的感官或仪器设备观察某事物的自然现象。在医学研究中,观察性研究就是研究人类在自然条件下的生命表现、疾病特征,例如自然状态下的人体结构、生理功能、病理变化、临床表现、疾病自然史、分布规律、影响因素等。对生命和疾病自然现象的研究,是人类揭示生命奥秘、探索疾病流行特征和规律的基础,可以为深入研究健康促进、疾病防治以及制定卫生决策提供科学的依据。观察性研究多是在现场(例如社区、医院、社会团体等),以人群为对象,主要通过现场调查获取数据和资料。本讲座以现场研究为基础,重点介绍现况研究、病例对照研究和队列研究的基本原理、设计思路和关键技术。为了更好地提高讲座的效果, 本刊希冀读者能在以下方面积极思考:
1.抽样调查的优缺点及其常用的随机抽样方法有哪些?
2.样本的代表性和可比性的概念及意义?提高样本代表性和可比性的措施?
3.在病例对照研究中,为什么说对照的选择更重要?为什么说要尽量选用成组的设计?为什么说更容易出现偏倚?
4.现况研究、病例对照研究、队列研究、实验研究的设计思路及要点?
5.发病率、患病率、发病密度、OR、RR、AR、AR%的意义及其应用范围?
1研究设计
现场研究数据资料多数直接来自人群或人群中的个体,因此是关于疾病或健康问题的第一手资料,与动物实验相比,研究结果更具有说服力,可以直接用于指导健康促进和疾病防治实践。但在现场研究中,很多因素不易被有效控制,如环境因素、研究对象的行为、研究对象的主观意识等,使得研究结果容易出现偏倚,影响了研究结果的真实性。因此研究前的严格设计,是保障研究质量的一个重要环节。
1.1设计内容
研究设计(design)是依据客观允许程度而制定的尽可能严密的研究计划,是实施研究的行动纲领。尽管研究的题目来源有多种渠道,设计报告的格式各不相同,但具体的内容是一致的,主要包括立题依据、研究目的、研究内容、研究方法、预期结果、研究基础、研究进度、经费预算等几个方面。
1.1.1立题依据
设计报告中应该首先阐明开展本次研究的意义与价值,以充分的理由让评审人员或阅读者感觉到有必要开展本次研究。立题依据应包括研究问题的提出及重要性、国内外类似课题研究的进展及存在问题、本研究要解决的问题及拟采取技术方法、实现的预期目标及将产生的效益等几个方面。
立题依据的论述可以反映研究者对背景知识掌握的程度,以及科学研究的能力和水平,是做好研究研究的重要前提。立题依据要做到论之有据,言之有理,令人信服,就必须进行大量细致的先期工作,如文献综述、专家咨询、预调查等。
1.1.2研究目的
研究目的是本次研究工作具体要达到的目标和解决的问题。研究目的必须明确、具体,因为它决定了研究的内容和研究的方法。研究目的通常包括以下几个方面:
1.1.2.1描述自然现象 例如对新发疾病的调查,通过描述疾病的临床表现、分布特征,可以掌握疾病的自然史、流行规律,是临床诊治和预防控制的重要基础。
1.1.2.2了解目前状况 即对一个社区存在的健康问题进行调查研究,探索危害社区人群健康的主要疾病和卫生服务存在的问题,为卫生决策提供可靠的依据。
1.1.2.3篩选危险因素 疾病的发生发展过程受到许多因素的影响与作用,当某些因素存在时,疾病的发生概率有所变化,这些因素被称为危险因素,具有危险因素的人群,就是这种疾病的危险人群,是预防和保护的重点。针对某种疾病的影响因素进行研究,可以发现可疑的危险因素和危险人群,是疾病防治工作的重要内容。
1.1.2.4检验病因假设 如果有迹象表明某因子与某疾病的发生有关系,可以提出病因假设,但是假设是否成立,需要通过研究,收集和分析二者之间存在关联的证据,进行假设的检验。但观察性研究的证据力度有限,即使证明假设成立,也不能肯定为因果关系。
1.1.2.5评价防治效果 针对人群中自觉或不自觉采用过的有关健康促进和疾病防治的措施和策略的效果,可以通过研究进行评价,例如临床上通常使用利多卡因预防急性心肌梗死病人室性心率失常,效果比较肯定,但有研究显示,利多卡因虽然可以改善心率失常,并不能降低心肌梗死患者的病死率。
1.1.2.6开展疾病监测 定期地、连续地对一个人群的疾病发生情况进行研究,可以获得疾病动态变化资料。当疾病的发病率、患病率、死亡率有明显上升趋势,提示人群的致病因素增强,是疾病防治系统预警预报的基础。同样,根据疾病的动态变化特征可以预测该人群疾病发展趋势。
在一次研究设计中,可以围绕一个目的进行深入细致地研究,也可以几个目的同时进行,提高研究的效率,增加投入与产出比,但在有限的精力和能力前提下,目的不易过多,避免研究结果发散。
1.1.3研究内容
研究内容是实现研究目的所需要完成的具体的研究项目,例如我们的研究目的是评价吸烟对人群健康的影响,显然要实现这个目的,我们必须调查吸烟与不吸烟人群的基本特征、某些疾病的发病或患病情况、吸烟人群的吸烟习惯(开始吸烟年龄、每日吸烟量、吸烟类型、是否戒烟等)。研究内容的设计需要依据文献提供的线索、咨询专家获得的启发、先期工作的经验积累和预调查的重要发现等。研究内容设计与目的设计不同,需要周密、细致、详实和全面。在设计时,考虑的研究内容越多,对问题的解释越深入,研究的收获将越大。
1.1.4研究方案
每项研究内容需要具体的研究方法去实现,这就是研究方案,是研究设计的核心内容。研究方案设计必须具备可操作性,要求非设计人员,按照设计方案去实施,完全可以实现研究目的。研究方案一旦设计通过,必须严格执行,贯穿研究的全过程,除非在研究中发现方案存在严重问题,不得不修改,否则不得任意变更有关内容。如果研究工作是由多人或多地进行,实施前必须通过严格的培训,使每个执行者熟悉和掌握基本操作规范,统一标准、统一方法、统一形式。研究方案设计包括以下主要内容:
1.1.4.1确定研究方法 研究方法的确定取决于研究的目的和内容。常见的研究方法分类如下:
(1)按照研究数据的性质分类 此分类方法可分为定性研究(qualitative study)与定量研究(quantitative study)两大类。定性研究 获取的数据没有量的概念,主要通过采访和观察了解目标人群对某事物的态度、信念和行为等方面的问题,例如研究人们对被动吸烟的态度和感受等较深层次的反应信息。定量研究是按照一定尺度或量化标准收集数据,数据需要进行统计学分析。一次研究可以完全是定性的或定量的,也可以相互结合使用。
(2)按照研究对象的范围分类 此分类方法可分为普查(census)和抽样研究(sampling study)。普查(是对目标人群全部个体进行的研究,其结果最具有代表性,可以如实反映目标人群的实际情况。如果目标人群较大,或投入有限(人力、物力、时间等),不可能完成普查,可以选择抽样研究,即从目标人群中选取一个样本人群进行研究,最后以样本人群的研究结果推测或代表总体人群的情况。抽样研究的优点是工作面缩小,力量集中,研究工作容易做的细致,减少了系统误差。缺点是如果样本量小,抽样误差增大,或者选择样本的偏性较大,致使样本结果不能反映实际情况,研究失去意义。
(3)按照研究研究的目的分类 此分类方法可分为描述性研究(descriptive study)和分析性研究(analytic study)。描述性研究的目的是描述自然现象、了解事物实质、揭示自然规律,是科学研究中发现问题、形成假设的过程,是对一个问题研究的起步阶段。如果我们所关心的问题在目标人群中以前没有人研究过,或研究过但年代久远,现在状况不甚清楚时,就需要考虑选择描述性研究,如现况研究方法。分析性研究的目的是探求在自然条件下,事物间存在关系的证据,是科学研究中分析原因,检验假设的过程,通常是在描述性研究的基础上进一步的研究。如果我们所关心的问题在目标人群中已经描述的很清楚,并且形成了假设,就需要选择分析性研究,如病例对照研究和队列研究方法。
(4)按照研究中数据获取的方法分类 不同性质和来源的数据资料,需要使用不同的方法收集,在设计时要根据问卷资料的类型和类别,选择1种或几种方法完成研究。常用的研究方法有:
1)访谈式问卷调查 是调查者根据设计好的调查问卷逐项询问调查对象,获取研究所需要的资料的一种调查方法,是调查研究使用的最基本方法。访谈式问卷调查可采取个人访谈和小组访谈两种形式,个人访谈调查也称为面对面访谈式调查,这种方法应答率高,调查资料可靠,用于调查内容较多、内容复杂、要求严格的科学研究。小组访谈调查是调查员在现场对一组调查对象同时进行的问卷调查,通常是将调查对象集中起来,发放问卷,由调查员统一讲解后填写问卷。这种调查的效率高,而且调查对象没有拘谨感,回答问题差错少。但接受调查人员集中在一起,相互之间存在暗示、误导和现场情绪的影响,回答问题不够准确,不适合对敏感问题以及理解能力和文化水平较低人群的调查。
2)电话调查 与个人访谈调查方式相同,但是通过电话提问进行的调查,这种方法只适用于问题简单,数量较少,以及研究对象具有电话交流能力的调查。
3)信访调查 信访调查是通过信函邮寄问卷给调查对象,由调查对象根据填表说明填写后寄回的一种调查方法。信访不需要组织现场,不需要大量的调查人员,因此成本较低,容易操作,尤其适合调查对象比较分散和一些敏感問题的调查,以及专家咨询、文化程度较高的专业人群的调查。信访调查的前提是对象的通信地址清楚,而且对象具有阅读信函的能力。信访的缺点是回收率难以保证,另外回答问题完全受个人对问题的理解能力的影响。当回收率影响研究结果时,需要对无应答者实施访谈调查作为补救措施。
4)现场观察 通过对事物或调查对象行为的直接察看,来收集非语言类资料的一种研究方法。现场观察可以了解人的实际行为,例如患者的饮食量、服用药物量、体征等。进行现场观察时应明确几个问题:①观察单位:个体、集体;②观察持续时间;③每次观察时间(何时进行观察);④观察重复的频度。
5)查阅资料 通过查阅历史记录收集研究资料的一种研究方法,可供研究查阅的资料有医疗卫生工作记录(病历、体检记录等)、报告卡(出生报告、死亡报告、传染病报告等)、统计报表(医疗卫生、气象环境等)、保险资料、职业记录、人口资料等。历史资料既可以补充问卷调查的不足,也可以对问卷调查资料进行核实,确定问卷资料的可信程度。
6)检测与检验 需要借助仪器或实验室技术获得研究资料的研究方法,通常是问卷调查的辅助手段,如查体、病原学、血清学、生化分析等。检测、检验的数据具有客观、定量的优点,应当更多引入。需要检测、检验的研究,设计中需要注明使用的仪器设备、试剂、操作规范、评价标准等。
1.1.4.2确定研究对象 设计时要根据研究目的和研究内容的需要,选择恰当的研究对象,确定研究对象的步骤如下:
(1)确定目标人群 目标人群为研究结果和结论适用的人群范围,也可称为目标总体(target population)。目标人群可以很大,如一个国家、一个省或市;也可以是一个具体的人群,如一个社区、一个机构或团体。目标人群越大,研究的结果应用的范围越大,研究的相对意义就越大。但目标人群过大需要有足够的能力和投入,因此目标人群的确定要根据研究者的实际能力和拥有的资源,以及研究的目的来确定。
在设计中对目标人群要有明确的定义,包括时间、地域、人员特征等信息,如2019年北京市在校大学生,或2019年北京市某病患者等。
(2)确定研究人群 研究人群是用于进行研究的人群,如果采用普查的方法,目标人群就是研究人群;如果采用抽样研究,抽取的样本人群即为研究人群。抽样研究通常要求按照随机的方法抽取研究人群,以减少人为的选择偏倚,最大限度地提高样本代表性。除了随机样本,还可以采用典型抽样的方法确定研究人群,例如以某个医院的住院患者,或某个社区的居民为研究人群。这种方法选取的研究对象,可行性好,但代表性差,尤其是在一个医院选取研究对象,问题更为严重。
(3)确定样本大小 理论上研究样本越大,研究结果越稳定,越具有代表性,但样本过大需要耗费的人力、物力和时间增加,同时组织工作复杂,容易出现系统误差。因此,设计中需要明确研究需要多大样本量合适。样本大小的确定可以通过公式、计算机软件或直接查表获得。
(4)确定纳入和排除条件 按照设计被抽中的个体不一定都符合研究要求,需要根据目的制定具体的研究对象纳入和排除条件,例如对某项生理或生化指标的正常值研究,研究对象必须是“正常人”,但正常人是相对概念,只是不包含某些疾病或病理状态。研究对象应具备哪些条件,或不应该包含什么,需要在设计时明确下来,这就是纳入与排除条件,条件一旦确定必须严格执行。
1.1.4.3确定研究因素 研究因素是研究中需要获取和收集的具体数据资料,也是研究中进行分析的变量。每项研究内容都包含若干研究因素,例如人口学调查包含年龄、性别、民族、职业、文化等因素;生活习惯调查包含吸烟、饮酒、饮食、运动等因素。研究就是根据每个因素所提供的信息进行科学评价和推论,因此研究因素是研究的核心内容,关系到研究的成败和质量。研究因素的设计原则是①有用的一项不能少,一次研究中设计的因素越多,研究收获越大;②能量化的必须量化,量化的因素提供的信息量大,可以进行量效分析;③尽量选择客观性因素,主观感受性指标受个体差异影响大,结果不稳定。研究因素设计步骤如下:
(1)选择因素 设计中选择研究因素的依据是理论假设、文献报道、专家咨询,理论假设来自设计者前期观察与经验,以及对问题的了解和认识,是选择研究因素的重要基础,文献报道和专家咨询可以拓展思路,使问题考虑的更加全面和深入。
(2)因素分类 将确定需要研究的因素按性质分类,初步可分为4类即人口学因素(一般性资料)、直接作用因素(假设因素或自变量)、干扰作用因素(混杂因素或交互作用因素)、效应因素(目标因素或因变量)。分类的优点是便于集中思考,避免遗漏。例如一项研究的目的是观察吸烟对血糖水平的影响,那么自变量就是吸烟,有关吸烟的设计包括开始吸烟年龄、吸烟种类、吸烟方式、平均每日吸烟量、戒烟年龄等;干扰因素是年龄、体重指数、饮食习惯等,因变量是空腹血糖等。
(3)因素定义 每个入选的因素都必须有明确的定义,例如吸烟的定义为:每日至少吸烟1支,持续吸烟1年以上者。因素定义应该选择公认的,或多数文献使用的,便于相互比較和引用;定义要具有可操作性,而且是唯一的,不能在研究中任意改动。
(4)拟定调查表 将选定的因素按照一定关系排列成便于现场使用的表格,即调查表。
(5) 预调查 将完成的调查表在少量研究对象中进行预试验,观察每个因素的提问方式及对方的接受能力,修改存在缺陷的项目,完善问卷设计,统一调查的方式方法。
1.1.4.4调查员培训 如果现场调查工作需要多人共同完成,对调查员应进行适当培训,内容是调查的目的及意义、调查内容及说明、调查方式及方法,务必达到每个人对问卷各个因素理解的标准一致、调查的方法一致。
1.1.4.5现场调查组织与实施 大规模人群现场调查是一项复杂工作,会有许多意想不到的突发事件,需要周密设计。
(1)现场联系 现场是便于调查对象接受调查的场所,可以是家庭、居委会、学校、工厂、医院等。现场联系的目标是建立友好合作关系,最大程度获取信任与支持。设计内容包括调查现场选择、与现场管理者联系方式及联系的内容等,重点讲明工作方式、需要给予的配合、可能存在的问题及解决的办法等。
(2)现场调查 是调查工作具体实施阶段,设计时需要考虑的问题是现场的组织分工、每日工作量、问卷的回收管理、可能的突发事件处理等。
(3)资料审核 对已经完成回收的问卷,需要有专人负责审核,如有缺项、逻辑错项,或模糊不清的内容,尽快与调查员联系,争取在离开现场前补充完善。
(4)无应答(non-response)者的处理办法 设计时要制定针对无应答者的处理方案,例如调查无应答的原因、分析无应答者的构成,以及无应答者的补救调查方案等。
1.1.4.6资料整理与分析 资料收集完成后需要对问卷进行整理和数据的统计分析,设计内容如下:
(1)资料核对与整理 从专业和逻辑上对每份问卷进行核对,制定出数据剔除标准和极端值处理方法。
(2)数据录入 核对整理过的问卷,选择计算机数据管理软件,进行数据录入,建立数据文件。数据文件应做好备份,避免损坏或丢失。
(3)统计分析 定量研究的数据,设计时需要明确分析的指标,如均数、率等,以及进行统计学检验的方法,如果是常规方法只列出方法的名称,不用列出公式,如卡方检验、方差分析等,如果不是常用的方法需要列出分析的公式及其参数。
1.1.5预期结果
根据设计和预试验,推测本次研究可能得到的结果以及预期的产出。研究的产出多以论文和报告的形式。
1.1.6研究基础
研究需要有一定的基础条件,设计时应该充分分析现有的基础,是否能够完成本项研究任务及可行性。影响可行的因素包括研究人员的数量与能力、研究经历与成绩、研究方法与技术、可用资源与条件、研究经费与时间等。
1.1.7进度与经费预算
研究的过程大致可分为5个阶段,即选题、设计、实施、分析、论文,设计时要对各阶段需要的时间和经费进行适当安排和预算。
1.2抽样方法
抽样研究的目的是期望通过样本的结果推论总体,例如某高校2013年入学的新生有10000人,我们想了解新生入学时乙型肝炎表面抗原携带率,最好的方法是普查,所有的学生查完了,结果自然一目了然。如果我们没有足够的投入进行普查,只能对1/10的学生进行抽样研究。那么选取的样本结果能否反映出全部新生的实际情况,取决于所选样本的代表性,而样本的代表性与抽样的方法有关。
1.2.1随机抽样
按照随机化的原则抽取样本的方法为随机抽样(random sampling)。随机抽样是抽样研究中采用最多的方法,不仅样本的代表性好,而且可以计算抽样误差,用来推论总体。
随机化原则是指在抽样研究中总体中每个个体被抽中的机会(概率)均等,目的是避免在抽样过程中人的主观因素的干扰,减少样本的偏性。随机与随意、随便有本质上的区别,后两者不能保证“机会均等”。
随机抽样是一种具体可以操作的方法,在研究设计中要详细描述抽样过程及其操作步骤。常用的随机方法有以下几种:
1.2.1.1简单随机抽样(simple random sampling)通过抽签、查随机数字表、计数器或计算机产生随机数字等方法抽样为简单随机抽样,这种方法操作和计算抽样误差简单,而且随机化的程度很高,即在抽签的时候能够保证总体中每个个体被抽到的机会是相等的。但这种方法只适用于目标人群较小时的小样本研究。例如一个班级有40名同学,准备抽取10人为样本,分别以每个同学的姓名或学号做40个签,抽到谁,谁就是样本成员。如果总体很大,给每个个体做签是很困难的。
1.2.1.2系统随机抽样(systematic random sampling)在有序排列的群体中,如果设计的抽样比例为1/k,就制作k个签分别标记为1~k,从中抽取1个,如果抽中的数字为m,则编号为m,m+k,m+2k,……,m+nk的个体均为样本,这种抽样方法为系统随机抽样。例如学校学生有学号,企业职工有工号,医院患者有病历号或床位号等等。假如在学校进行一项研究,准备抽取1/10的学生为样本,即每10个学生抽取1个作为研究对象,这时可以先做好10个签,分别是1~10,从中抽取1个,如果抽取的数字为6,那么学号为6、16、26…….的学生都是样本成员。显然,系统随机抽样方法较简单随机方法简单了许多,适合相对较大人群的研究。但是如果研究對象的排列顺序是按照某种特征或规律,则容易出现系统误差,例如在医院进行医院感染的检测,如果按照床位号在每个病房里抽取1个病人观察,恰好这个床位的通风、光照条件都很好,或都很差,那么检测结果就会出现偏差。系统随机抽样的抽样误差可以借用简单随机抽样的公式计算。
1.2.1.3分层随机抽样(stratified random sampling)先将目标人群按照某些特征分成若干个层,然后在各个层间按随机的方法抽取观察对象的方法为分层随机抽样。例如可以将目标人群按性别分成两个层,然后分别在各性别层中按照随机的方法抽取等量的观察对象,组成研究样本。由于这个样本男女比例是一致的,因此研究结果可以反映一般人群的情况。分层抽样的优点是可以避免样本偏向于某个方面,提高了样本的代表性。
1.2.1.4整群随机抽样(cluster random sampling)当目标人群非常大,以个体为抽样单位难以实现时,可以将目标人群分成若干个亚群,以亚群为抽样单位进行随机抽样,以被抽取的亚群所有个体组成研究样本的抽样方法为整群随机抽样。例如在工厂可以车间,在市区可以居民委员会,在农村可以自然村、在学校可以班级为单位等。整群抽样操作简单,被抽中的人员集中,便于现场调查的组织,但抽样误差较大。
1.2.1.5多级随机抽样 在大范围人群内开展研究时可以采取分阶段抽样的方法,为多级抽样,例如研究某市肿瘤发病情况,准备抽取该市1/1000人口为样本,那么第一阶段是抽取县、区,第二阶段是抽取乡镇和居委会,第三阶段是抽取村和居民区,在每个阶段可以根据分层、整群、随机的方法抽取样本。
1.2.2非随机抽样
如果抽样调查的目的不是为推论总体,或者目标总体缺乏随机抽样的信息,如人员名册、基本信息登记表等,或者按照随机抽取的样本很难取得配合,如因为影响工作、学习抽样单位拒绝调查等,可以选择非随机抽样方法,但非随机的调查结果是有局限性的,研究结果仅仅适用于调查的样本。
1.2.2.1典型抽样(typical sampling)选择目标人群中具有某些特征的人群为样本的调查,如某个企业、某个职业人群的健康调查。典型研究往往是为了总结经验,或揭示特殊问题。
1.2.2.2便利抽样(convenience sampling)选择愿意配合调查的人群进行的调查,例如中学生健康状况的调查,许多学校不愿意接受,可以选择同意接受调查的学校为样本。便利抽样调查不能代表目标人群,只能作为初步的探讨,了解趋势与倾向,不能用在正规的研究,或揭示普遍规律的研究。
1.2.2.3碰巧抽样(accidental sampling)对学校、医院、商场等门口碰到的人为样本进行的调查,调查对象是偶然碰到的,方法简便易行,但代表性更差,一般用于定性调查,了解民情,或正规研究前的预试验。
(未完待续)