医学观察性研究设计讲座(连载三)
2020-09-26徐应军
徐应军
3.3 研究目的及优缺点
3.3.1 研究目的
3.3.1.1 检验病因假设
病例对照研究属于分析性研究,其主要作用是对描述性研究获得的病因假设进行检验。假设检验的基础是分析因素与疾病之间是否存在联系,当病例组与对照组某个或某些因素暴露程度不同,如果统计学证明不是偶然机会造成的,那么就认为假设成立,即暴露与疾病有联系,否则假设不成立,暴露与疾病无联系。病例对照研究中,当得到假设不成立的结论时具有肯定意义,即因素与疾病之间不存在因果关系;但当假设成立时没有肯定意义,只能说明二者因果关系在假设的基础上又进了一步,需要进行前瞻性研究的验证。
3.3.1.2 筛选危险因素 病例对照研究设计的一个特点是可以同时对多个因素进行分析,首先经过统计学检验将那些有统计学联系的因素筛选出来,再将那些因偏倚造成的虚假联系和非生物性效应的纯数字关系的因素排除,剩余的就是该病的危险因素。筛选危险因素是疾病预防与控制的重要环节。
3.3.1.3 快速发现问题
病例对照研究是从“果”(疾病)出发,探寻过去的“因”,只要有病例存在,收集数据就可分析出结果,甚至当天或当时就可解决问题,因此对于急需探明原因的突发公共卫生事件,病例对照研究是首选方法之一。例如集体性食物中毒时,那些病例食用过,而对照没有食用过的食物,最有可能是毒物的载体。
3.3.2 优缺点
病例对照研究的优缺点是相对现况研究和队列研究而言。
3.3.2.1 优点
1)出结果快:病例对照研究调查的事件是已经存在的,如疾病已经确诊,不需要等待,节省时间,是快速研究方法之一,在暴发调查、突发事件调查中常用。
2)可行性好:尤其是以医院为基础的病例对照研究更加容易组织实施,而且投入相对较少。
3)适用于罕见疾病的研究:病例对照研究是直接找病例作为研究的对象,不像现况研究和队列研究那样,从观察人群中产生,越是罕见的疾病,观察的人群越庞大,例如在队列研究中,如果某病的发病率为1/10万,那么仅仅调查10个病人就需要观察100万人,这是几乎不可能做到的。因此对于某些罕见疾病的研究,病例对照研究可能是唯一的方法。在Herbst经典研究范例中仅用了8个病例,就获得成功,是典型的案例。
4)探索性:因为病例对照研究可以同时探讨多个因素与一種疾病的关系,因此虽为分析性方法,同时可进行病因的探索性研究,即可进行假设检验,同时又是进一步假设的基础。
3.3.2.2 缺点
1)不能计算发病率、患病率、死亡率:病例对照研究的病例和对照是分别选来的,没有分子和分母的关系,因此不能计算类似发病率、患病率、死亡率等重要指标,不能评价疾病对人群健康的影响及其损害程度。
2)不能证明因果关系的时序性:因为先“果”后“因”的设计,所观察到的因素与疾病的关系,有可能是由于患病导致的某种暴露的出现,例如在煤矿工人叁期矽肺发病因素的研究中,发现结核病与叁期矽肺关系十分密切,几乎达到100%,而壹期、贰期矽肺患者较少。对于这个结果出现两种解释,一是结核感染会加速矽肺的晋期,由壹期、贰期迅速发展为叁期;另一种解释是叁期矽肺,肺组织严重破坏,更容易感染结核。孰为因果,病例对照研究不能给出答案。
3)出现偏倚的环节较多:由于病例与对照是单独选来,并非一个完整人群的两个部分,因此外部影响因素难以完全控制,出现混杂偏倚机会增大;由于获取信息是回顾过去,数据的准确性和可靠信性难以保障,信息偏倚比较严重。
4)不适合人群暴露率低的因素的研究:因素的暴露率低需要的样本量大。
3.4 研究设计与实施步骤
3.4.1 设计思路及技术要点
3.4.1.1 技术路线
病例对照研究过程的主要环节及流程图1。
3.4.1.2 技术要点
1)病例与对照选择:在病例对照研究中,虽然不刻意追求研究对象的代表性,但病例与对照的可比性是必须要保证的。
2)研究因素:病例对照研究的主要目的是筛查危险因素,因此确定研究因素,制定调查表问卷,是病例对照研究的一项重要任务,关系到研究的质量、水平和成败。
3)偏倚控制:病例对照研究与其他类型的研究方法比较更容易出现偏倚,因此,采取有效措施识别与控制偏倚,保证研究质量,是病例对照研究的关键技术。
3.4.2设计内容与实施步骤
3.4.2.1 选题
根据现况调查提出的假设,在查阅文献的基础上确定研究的选题。
3.4.2.2 病例选择
当研究的题目确定下来,病例选择是病例对照研究的第一步,病例选择步骤如下:
1)病例来源:以医院为基础的病例对照研究是在医院选择病例,这种方法选择病例方便,容易取得病例的配合,通过病历可以获得准确的临床信息,使研究的成本及难度大大降低,但这种病例的代表性差,容易出现选择偏倚;以人群为基础的病例对照研究是在社区选择病例,这种方法虽然选择病例的难度大,但可以明确源人群(source population)即产生病例的人群,研究样本有较好的代表性。
在设计时具体选择哪种方法,要根据研究者的能力和目的,如果不是为了把研究结果推论到一般人群,如果研究者没有足够的投入开展人群的研究,可以在医院选择病例,这时更多关注的不是代表性,而是病例组与对照组的可比性。
2)病例的定义:病例的定义应该包括疾病的名称、诊断的标准、时间、地点等信息。定义中使用的诊断标准尽量采用国际或国内通用的标准,便于被他人接受和进行相互比较。
3)纳入与排除条件:为了保证入选的病例具有相同的性质,排除特殊因素对病例的干扰作用,需要对病例的一些特征进行限定。另外病例对照研究不一定是对患病的全体进行研究,可以是自己感兴趣的某种类型或某个人群,因此也需要对某些因素进行限定,例如患病部位、病理类型、患病时间、并发症、治疗史等,或对非研究因素(外部因素)加以限定,如年龄、性别、民族等。在病因学研究时,病例最好为新发病人。
4)病例选择程序:即选择病例的具体方法,如怎样发现病例、如何核实诊断、由谁确定入选与排除、怎样确保无遗漏和降低无应答等的具体操作程序。
3.4.2.3 对照选择
在病例对照研究中,对照的意义十分重要,许多时候选择对照的难度大于选择病例。对照的代表性及可比性直接影响研究的结果,从某种意义上讲,对照选择是否合适关系研究的质量和水平。理想的对照应该是能够代表产生病例的源人群,对照组的危险因素暴露率应该能够代表源人群的该因素的暴露水平。对照选择的步骤如下:
(1)对照来源:不同来源的对照,研究的结论是不同的。对照的来源有:
1)医疗机构:以医院为基础的病例对照研究,可在产生病例的同一所医院中选择确诊为其他疾病的患者为对照,这种对照选择方便,容易实施,但选择偏倚较大,而且不能代表源人群。因此,在医院选择对照时更多关注的是与病例的可比性。
2)社区人群:利用随机抽样的方法在社区无该病或健康人群中选择对照组,这种对照代表性较好,但与病例组的可比性不易控制。
3)病例的邻居:在病例生活的邻居中选择未患该病的人为对照,这种对照可以排除生活环境的混杂影响。
4)病例的亲友:将病例的配偶、同胞、亲戚、同学、同事中无该病的人选为对照,可以观察来自环境与遗传方面的作用。
在实际研究中,对照多在医疗机构中选,而一些大规模的研究选择人群对照,邻居和亲友对照多用于匹配设计。
(2)对照定义:对照定义包括类别、诊断标准、时间、地点等信息,类别是指健康人或具体哪种疾病的患者,此时对照也必须有明确诊断标准。为了降低选择偏倚,在一次病例对照研究中可以设置多组对照,例如肺癌的研究,在医院可以选其他癌症患者为第一组对照,再选非癌症疾病患者为另一组对照,分别进行分析;也可以设计在医院选择一组对照,人群中选择一组对照。多组对照设计不仅可以对疾病的危险因素的认识更加深入和全面,而且可以判断对照有无选择偏倚。
(3)纳入与排除条件:为了保持与病例组的可比性,根据病例的某些要求限定对照组的一些外部特征,如年龄、性别等。另外对照中还应排除那些与所研究的疾病具有共同病因或共同发病机制的疾病,或身患多种疾病的人,或可能因与暴露因素有关的疾病入院的患者,例如肺癌研究,不能以慢性支气管炎患者为对照。
(4)匹配条件:如果选择匹配设计,需要制定匹配条件及匹配方式。
(5)对照选择程序:与病例选择一样,对照选择也需要按照严格设计的程序和方法进行,不能随意或盲目进行。
匹配设计的对照选择程序是每确定1例病例后,立即根据匹配条件和匹配的个体数,在规定的人群中选择适合的对照,与病例组成分析的对子。
成组设计的对照是独立完成的,但是选择的过程需要设计清楚,最好与病例选择同步进行。以人群为基础的病例对照研究,需要按照随机抽样的方法选择对照。如果涉及的人口比较广泛,可以根据病例的某些特征在限定范围内抽样选取,例如在产生病例的周围,年龄接近、性别相同的人群中抽取。以医院为基础的病例对照研究,如果是利用既往住院患者病历资料,则可以根据病例的数量计算抽样比例(病例数/总患者数),采取系统随机的方法选择对照;如果是利用新住院的病例,则可根据每周获得的病例数,确定每周选择对照的数量及方法。
3.4.2.4 样本量估计
当研究的显著性水平α和把握度1-β确定后,影响病例对照研究样本量的因素有①危险因素在人群中的暴露率,暴露率越低,所需要的样本量越大;②危险因素预期的相对危险度(OR),OR值越大,所需要的样本量越小。样本量可以通过公式计算,或查表获得。成组设计常用的计算公式如下:
式中n为病例组人数,对照组的人数可以等于或大于病例组,当α和β一定时zα、zβ是常数,可由标准正态分布界值表查得。P1是病例组某个因素的暴露率,P0是对照组该因素的暴露率,P0可以根据文献报道的人群暴露率,或预调查获得的对照人群的暴露率来估计,P1可根据公式计算。
式中OR(或RR)是某暴露因素的相对危险度(RR)的估计值,也需要根据文献或预调查获得。
例如,吸烟与心血管病关系的病例对照研究,预期吸烟者心血管病的OR=2.6,人群吸烟率P0=30%,当α=0.05,β=0.10时:
P1=(2.6×0.3)/(1+0.3×1.6)=0.527
n=2×0.414×0.586×(1.96+1.28)2/(0.527-0.3)2=99(人)
即每組需要调查99人。
3.4.2.5 研究因素选择
病例对照研究的目的之一是筛选危险因素,因此选择研究因素、拟定调查表是病例对照研究一个关键环节。选择研究因素的原则是①包括一切可疑的危险因素和可能的混杂因素;②尽可能的采用量化和客观的测量方法。
3.4.2.6 拟制调查表
将选定研究因素,按照问卷设计要求制定调查表,列入到问卷中的每个因素必须有明确的定义和测量的方法。
3.4.2.7调查与测量方法
调查表中大部分内容是通过调查员询问病例与对照获得,部分可通过查阅历史资料和临床检验、检测获得。在调查过程中,病例与对照必需采用同样的问卷和同样的方式方法调查,而且每个调查员完成的病例与对照的比例相同,确保调查的质量和数据的准确。如果需要检验和检测收集资料,设计时要确定使用的仪器设施、试剂、操作方法和评价标准;需要查阅历史资料的,需要明确资料的来源和记录方法。
3.5 资料的整理与分析
3.5.1 资料录入与整理
将经过核实和整理过的每份问卷的数据录入计算机,建立数据文件。
3.5.2 样本的描述性分析
3.5.2.1 基本特征描述
分别计算病例组与对照组在年龄、性别、职业等人口学特征方面的构成,以及两组各自疾病的类型、种类、病期等的构成。描述和分析究对象的特征,以便推测本次研究结果的适用范围。
3.5.2.2均衡性分析
在成组设计时,需要对一些研究因素以外的,而且可能对研究结果产生干扰作用的因素,如年龄、性别等,进行病例组与对照组之间构成的比较分析,如果统计学检验,两组间构成差异无统计学意义,则认为该因素组间均衡可比,该因素对研究结果的影响可以忽略;如果有统计学意义,则认为该因素组间不均衡,可能对研究结果产生一定影响,需要在分析时采取措施加以校正,如分层分析。匹配设计时,主要的因素已经被控制,可以不进行均衡性分析。
3.5.3 危险因素分析
3.5.3.1 拟制分析表格
将要分析的因素按照暴露的有无或暴露的程度分类制定分析表格,成组设计时最基本的分析表格形式见表1。
3.5.3.2 分析内容及指标
1)暴露与疾病是否有关联:回答暴露与疾病是否有联系的依据是 检验,如果病例组与对照组的暴露程度无统计学差别,则暴露与疾病之间无关联;如果有统计学意义,且病例组的暴露程度大于对照组,则认为有关联,暴露是危险的;相反,对照组的暴露程度大于病例组,也认为有关联,但暴露是有意的。对于四格表资料常用的检验公式为:
自由度为1,当 ≥3.84,P≤0.05,则差别具有统计学意义,此时暴露与疾病之间存在关联,否则不存在关联。
2)暴露与疾病联系的强度:如果 检验证实暴露与疾病存在关联,需要估计二者关联的密切程度,即关联的强度。表示因素间关联强度的指标是相对危险度(relative risk, RR),即暴露人群的发病率与非暴露人群的发病率的比值。但是病例对照研究不能计算发病率,因此不能直接计算RR值,这也是病例对照研究的局限性之一。根据数学推理,比值比(odds ratio, OR),即病例组和对照组暴露比值之比,可以替代RR,尤其是疾病的患病率或发病率较低时(小于5%),OR可以在病例对照研究中表示暴露与疾病的联系强度。
根据表3-7可知,病例组的暴露比值为:
对照组的暴露比值为:
比值比为:
OR的含义与RR值完全一致,表示暴露者的疾病危险性是非暴露者的多少倍,当OR=1时,病例与疾病无关联;当OR>1时,暴露增加疾病危险性,此时OR值越大,危险性越大,暴露与疾病的关联强度越大;当OR<1时,暴露减少疾病危险性,此时OR值越小,危险性越低,暴露与疾病的关联强度越大。当然,是否OR=1,取决于 检验,只有当 检验有统计学意义时,OR≠1,才能根据OR值的大小判断关联的强度。
3)暴露与疾病关联的范围:OR值是根据一个样本对暴露与疾病联系强度做出的点估计值,进一步可以根据抽样误差,进行区间估计,即总体OR值的范围,通常以95%的可信区间表示。区间估计可以采用Meittnen卡方值法,其公式为:
在此区间内如果包含1,例如0.8~1.2,则暴露与疾病无关联,否則为有关联,例如0.6~0.9或1.2~1.8,这个结果与 检验完全一致,不会出现矛盾现象。
3.5.3.3 示例
一项关于收缩压与心急梗死关系的病例对照研究资料见表2。
1)χ2检验确定是否有关联
χ2=(145×249-135×178)×707/(323×384×280×427)=6.95
因为χ2>6.63,P<0.01,具有统计学意义,表明收缩压与心肌梗死有关联。
2)计算OR值判断关联的强度
OR=(145×249)/(135×178)=1.50
表明收缩压高于140mmHg的人心肌梗死的危险性是低于140mmHg人的1.5倍,收缩压是心肌梗死的危险因素。
3)计算OR 95%可信区间
OR95%CI==1.11~2.03
区间不包含1,收缩压与心肌梗死有关联。
(未完待续)