核保医学研究中常见统计偏倚与混杂的控制

2016-02-06薛寒冰昆仑健康保险股份有限公司北京100000

中国卫生产业 2016年13期

关键词：流行病学人群医学

薛寒冰昆仑健康保险股份有限公司，北京　100000

核保医学研究中常见统计偏倚与混杂的控制

薛寒冰
昆仑健康保险股份有限公司，北京100000

统计偏倚和混杂是核保医学研究中非常重要的影响条件，如果将各类风险因素不加选择地罗列其中，就会不可避免地引入偏倚，特别是混杂偏倚的引入会影响研究因素与结局之间真正的联系，但这些问题并不能利用统计方法解决，需要在研究设计阶段进行充分考量。

核保医学；混杂；偏倚

［Abstract］The statistical bias and confounding are the most important influence conditions in the underwriting medical research，the bias can be inevitably introduced if various risk factors are indiscriminately listed in it，especially the introduction of confounding and bias can affect the real correlation between research factors and outcomes，but the statistical method fails to solve these problems，and they need to be fully considered in the research and design stage.

［Key words］Underwriting medicine；Confounding；Bias

核保医学研究主要分析各种风险因素对结局的影响，通过对与结局相关的因素进行统计分析来完成风险评估，以往探索和验证某一暴露因素与结局之间的因果关系时多采用横断面研究或随访研究，掌握可靠的预后因素则可以较为准确地预测结局，这对核保风险分析有着重要的意义，如评估冠心病作为独立风险因素对重大疾病发生率的影响。但是因不同风险因素在其流行特征和暴露特性方面具有相互交叉的特点，并且相互影响，这样就出现了影响研究结果真实性的混杂因素。但如果将各类因素进行简单的剥离势必导致一些交叉因素被忽视［1］。相反将所有这些因素不加选择地罗列于危险因素的研究中，同样会导致问题产生，例如某些弱相关性因素会被弱化，特别是由于外来混杂因素的混入，一些低危险性因素的危险性会出现错估，这会不可避免的导致偏倚的产生［2］。

1　核保医学中的偏倚

按照偏倚产生的原因可分为选择偏倚、信息偏倚和混杂偏倚，选择偏倚是由于样本入选不当导致出现系统误差，包括入院率偏倚、失访偏倚、检出偏倚等。信息偏倚是对纳入的各组间所采用的观察或测量方法不一致导致出现的系统误差，包括诊断偏倚、依从性偏倚、回忆偏倚、调查偏倚、测量偏倚等［3］。在核保医学研究领域，常见的偏倚包括以下几类。

1.1检出偏倚

是核保医学研究领域比较常见的问题，早期核保人员多认为良性乳腺疾病患者会倾向于乳癌发生。但近年的研究表明这一推论实际上与检出偏倚有关，即患良性乳腺疾病的人会比一般人接受检查的频率更高，也就更容易诊断出乳癌来。Sliber和Horwitz的研究结果证明，早期乳腺疾病与乳腺癌的粗OR值在统计上有显著差异，但如果考虑研究人群接受检查的不均衡性，这种关联就消失了［4］。

1.2诊断偏倚

指疾病报告系统对暴露者和非暴露者采用不同的诊断标准时造成的诊断上的偏倚，例如对糖尿病和糖调节受损（IFG和IGT）人群进行长期预后研究和风险分类，1980年世界卫生组织（WHO）糖尿病诊断标准，在1999年发布的新标准中发生左移，并且IFG下限诊断切点降低，结果导致糖尿病检出率上升，漏诊率下降，但如果研究设计不做规则限定，同一研究人群在不同时期的诊断标准变化会导致研究结论出现不一致。

1.3失访偏倚

研究对象在承保后的随访过程中发生影响风险评价的失访时，如合同中止、迁出、退保等，则可发生失访偏倚。失访偏倚对研究结果的影响取决于失访程度、失访者在所比较组的分布和失访原因与所研究结果的关联程度等。

1.4无应答偏倚

主要发生于现况调查，表现为调查对象不合作或不参与。这些无应答对象通常不能代表所研究人群，且无法判断其风险因素或疾病状况，因此当无应答率较高时，从应答人群中得出的有关研究因素与疾病的联系不能反映两者间的真实联系。

1.5报告偏倚

因为研究对象有意夸大或隐瞒某些信息导致了对疾病或风险因素暴露程度的错误分类。例如研究对象以故意隐瞒或者避重就轻的方式回应病史询问，导致核保研究人员获得的报告不能反映研究对象的真实健康状况。

1.6易感性偏倚

观察结局除与暴露因素有关外，还与观察对象的易感性有关。如:暴露于不良生活方式（饮酒行为）的学生的发病率比一般人群更低，是因为不良生活方式的学生，其初始的健康水平要比一般人群高，其易感性更低。

1.7混杂偏倚

包括正混杂性偏倚和负混杂性偏倚，正混杂性偏倚指由于混杂因素的作用使暴露因素与疾病之间的关联被人为地夸大。负混杂性偏倚指由于混杂因素的作用使暴露因素与疾病的关联被人为地减弱。主要是由于研究的设计阶段未做条件一致性控制而影响分析结果的真实性。例如，对高龄人群进行甲状腺乳头状癌的预后研究，会出现重大偏倚，这种不是因抽样误差造成的偏倚并不会随样本量增加而克服［5］。

2　混杂的识别和控制

在理论上可以将混杂理解为在研究过程中所遇到的逻辑现象，假设在静止条件下的某一观察性研究结局事件是发生或者没有发生，那么在这两种情况下除了某一种或几种现象以外，其他现象都相同，那么这就是事件发生的影响因素，而对其中的某一因素进行控制就会减小混杂偏倚［6］。在研究某因素与某疾病之间的关系的实施过程时，混杂偏倚会影响研究因素与结局之间真正的联系，这种偏倚以多种形式进入到研究中，干扰研究结果的真实性［7-8］。识别判断混杂是核保理论研究中的重要环节，忽视混杂会导致测量值与总体值的差异推断出现因果推断的偏倚。通常对暴露总体和非暴露总体的结果分布可以评价暴露总体中暴露对结果的因果作用，当暴露总体和非暴露总体不可比时，需要采用某些背景变量对总体分层，使暴露子总体与非暴露子总体是可比的。

混杂的判定原则大致分为“可压缩原则”和“可比较原则”。可压缩原则指某外部因素在各分层上的关联测度一致，如出现不一致则该外部因素可认为混杂因素。可比较原则指某独立危险因素在暴露总体与在非暴露总体中的分布不同，并且该因素不是病因链中的一环［4，9］。例如，肝硬化发病人群的年龄分布比肝硬化未发病人群的年龄分布偏大一些，那么即使肝硬化人群当初未发病，因年龄原因，他们的肝癌发病率也会更高。但是，在相同的年龄区间，肝硬化人群与肝硬化未发病人群也许是可比较的，那么可以认为年龄属于混杂因素，通过调整年龄可以消除由于年龄分布不同造成的混杂偏倚［10］。

核保医学研究中常见的混杂因素可以通过配对、随机分组等方式平衡和消除其影响，根据具体要求将因素条件相同或相近的研究对象配对，可以使各处理组中的实验对象条件均衡，使其具有良好的可比性，由于控制了非处理因素的影响，使处理因素的效应能得到比较符合实际的客观反映。队列研究也可以很好地控制混杂，通过观测疾病的发生、发展至结局的全过程，可直接计算研究人群出现某种预后结局的发生率，在疾病预后的探索方面是最佳设计，但存在周期长和失访问题，其局限性会影响结论外推；在病例对照研究中应用匹配方法容易引入系统性偏倚，因此分层分析是目前相对容易控制的方法。

3　小结

而随着流行病学研究更多的采用大样本量的队列研究，长期、广泛地收集数据，使得核保医学也得以将更多的流行病学研究成果加以应用，而研究所涉及的因素越多，越是不可避免的会引入混杂，对识别出的混杂进行处理时，很多人直接采取分层调整或多因素分析，实际上这会给分析造成更多的困难，而合理的方式应是首先考虑粗测量，其次是分层分析，然后才是多因素分析［11-12］，因为在多因素分析中，暴露因素的独立性、共线性等问题会带来更多的不确定性，可能导致假相关性的结果，这种假相关性应是偶然性的，但是潜在相关性越多，就越有可能导致这种偶然相关结果的出现［13］。

在统计分析阶段消除偏倚是非常困难的，即便采用可比较原则和可压缩原则也同样会产生局限性，可比较原则只能判断哪些变量不是混杂因素，而无法确定哪些变量一定是混杂因素，可压缩性准则须依赖于使用相关测度和背景因素的状况［14］。通过对统计模型调整可以减少偏倚，但需要设定更多假设，这会给统计分析带来更多的不确定性，实际上这些偏倚只是它们在统计分析时被发现而已，仅通过统计模型或在研究完成后再校正这些偏倚是不合理的，应在研究设计阶段就要将这些可能会导致偏倚的因素考虑进去，特别是对生物学资料不支持的结果，应敢于提出质疑，这样有利于研究结论的外推［15］。

［1］李立明，余灿清，吕筠.现代流行病学的发展与展望［J］.中华疾病控制杂志，2010，14（1）：1-4.

［2］Genevieve Matanoski.低危险因素的流行病学研究［J］.中华流行病学杂志，1997，18（6）：353-355.

［3］董卫.临床研究中常见的偏倚及其控制［J］.中国实用内科杂志，2007，27（24）：1985-1986.

［4］任涛，詹思延，沈霞，等.流行病学研究中的偏倚与混杂［J］.中华流行病学杂志，2004，25（9）：811-813.

［5］付浩.预后因素研究中常见的统计错误—偏倚［J］.中国肺癌杂志，2014，17（2）：137-141.

［6］薛寒冰，核保医学研究中关于混杂因素的探讨［J］.中国卫生产业，2015，2（5）：153-154.

［7］左群，何蓓，胡高潮，等.新型城市医疗卫生服务体系下流行病学研究中的偏倚控制［J］.现代预防医学，2011，38（23）：4884-4885.

［8］钱维，叶小飞，王超，等.药品不良反应信号检测中混杂因素的控制方法［J］.中国药物警戒，2010，7（3）：142-144.

［9］宋永霞，洪静芳，谢伦芳，等，临床癌症患者研究中存在的偏倚及控制［J］.中华护理杂志，2015，50（6）：750-753.

［10］Miettinen OS，Cook EF.Confounding：essence and detection［J］. Am Journal Epidemiology，1981，114（4）：593-603.

［11］吕慧，赖战峰，李海炜，等.血尿素氮、肌酐及尿酸在两种生化分析系统的比对和偏倚评估［J］.中华检验医学杂志，2012，35（6）：550-553.

［12］林增文，苏健，邹伟民，等.广东省临床化学检验项目质量评价与数据分析［J］.实用医学杂志，2009，25（15）：2574-2576.

［13］张路，王薇，王治国，等.允许总误差在西格玛度量用于评价临床化学检测项目分析质量上的应用研究［J］.检验医学，2015（9）：953-957.

［14］胡永华，耿直.关于混杂概念的讨论［J］.中华流行病学杂志，2001，22（6）：459-461.

［15］Maarit A.Laaksonen，Paul Knekt，Harri Rissanen.The relative importance of modifiable potential risk factors of type 2 diabetes：a meta-analysis of two cohorts［J］.European Journal of Epidemiology，2010，25（2）:115-124.

Control of Commom Statistical Bias and Confounding in Underwriting Medial Research

XUE Han-bing
Kunlun Health Insurance Co.，Ltd，Beijing，100000 China

R81

1672-5654（2016）05（a）-0032-03

薛寒冰（1975.5-），男，天津人，医学硕士，研究方向:核保医学。

2016-02-15）