基于多中心调查数据和空间统计模型的全国结核分枝杆菌潜伏感染率估算
2022-01-05高磊张慧胡茂桂徐成东夏愔愔李涛陈伟何翼君曹雪芳辛赫男张浩然赵雁林王劲峰成诗明金奇刘剑君
高磊 张慧 胡茂桂 徐成东 夏愔愔 李涛 陈伟 何翼君 曹雪芳 辛赫男 张浩然 赵雁林 王劲峰 成诗明 金奇 刘剑君
结核病目前仍是对人类健康威胁较大的重大传染病之一。最新的模型估计全球有近1/4的人感染结核分枝杆菌并长期处于结核分枝杆菌潜伏感染(latent tuberculosis infection,LTBI)状态[1]。在无预防性治疗的情况下,LTBI人群中大约有5%~10%会在一生中发生活动性结核病[2],因此,LTBI人群是一个庞大的潜在“患者库”。2015年世界卫生组织(World Health Organization, WHO)首次发布了LTBI管理指南,倡导在113个中高收入、结核病发病率低于100/10万的国家(包括中国在内)推广高危人群LTBI的检测及预防性治疗,以实现全球结核病发病率的快速下降[3]。2017年WHO召开全球部长级会议、2018年联合国召开首次结核病高级别会议,均号召对包括LTBI预防性治疗在内的全球战略目标做出政府承诺,包括到2022年对至少600万HIV感染者及400万5岁以下的密接儿童开展预防性治疗[4-5]。LTBI管理已经成为实现终止结核病流行(End TB)全球战略目标的重要手段。
作为结核病高负担国家,如何有效利用LTBI干预以实现结核病发病率的快速下降,值得探讨。其中,准确掌握我国的LTBI负担是评估策略可行性和科学性的前提。目前,LTBI的检测是在排除活动性结核病的基础上采用结核菌素皮肤试验(tuberculin skin test, TST)或γ-干扰素释放试验(interferon-gamma release assay,IGRA)等免疫学方法界定目标人群的感染状态。考虑到TST结果受卡介苗接种和环境非结核分枝杆菌感染等多种因素的影响,基于TST的流行病学调查结果可能会过高估计我国LTBI负担。自2000年第四次全国结核病流行病学抽样调查之后[6],我国未再就全国结核分枝杆菌潜伏感染率和感染人数开展过大规模调查。随着我国结核病防控工作不断进步,以IGRA为代表的特异性显著改善的新型检测技术得到普及,我国的LTBI负担亟需重新评估。
在当前缺乏全国范围的LTBI流行病学数据的背景下,本研究拟利用多中心的基于IGRA结果的流行病学调查数据[7]和纠偏空间统计推断模型(Biased Sample Hospital-based Area Disease Estimation,B-SHADE),综合全国多年肺结核报告发病率大数据,开展全国结核分枝杆菌潜伏感染率的估算。
材料和方法
一、估算统计模型
样本对总体的代表性是统计推断的重要依据。如果总体存在分层而一些层内缺少样本,则样本有偏于总体,此时对总体估算需要纠偏。基于空间抽样与统计推断三位一体理论框架,在多源大数据支持下,先采用地理探测器q统计量对总体分层特性进行探索分析,然后使用具有纠偏能力的B-SHADE统计方法对总体进行估计[8-10]。B-SHADE综合考虑样点-样点之间相关性、样点-总体之间相关性,及样本对总体代表性的总体估算方法,针对有偏样本推断总体的空间统计模型,具有最优线性无偏的性质[10-11]。该方法已在多个领域成功应用并在国际专业权威期刊发表[12-15]。样点与样点之间、样点与总体之间的相关性通过协方差度量;样本对总体代表性,通过比值关系度量,纠偏空间统计推断方法原理见图1[10-11,13]。
图1 纠偏空间统计推断(B-SHADE)模型原理
二、估算使用数据
1.基于人群、多中心的LTBI流行病学调查数据:数据来源于“十二五”国家传染病科技重大专项“结核分枝杆菌感染的流行病学调查和队列研究”课题2013年基线横断面调查结果。调查对象是研究现场登记的5周岁及以上农村常住人口,研究现场的选择综合考虑了结核病疫情和当地社会经济水平的代表性。采用方便抽样的方法,确定了江苏省丹阳市、河南省中牟县、湖南省湘潭县和甘肃省陇西县等4个农村现场(每个现场纳入2~3个村庄)各5500名,共计22 000名调查对象[7]。调查对象的结核分枝杆菌感染状态是在排除活动性结核病的基础上根据QuantiFERON-TB Gold In-Tube(QFT;一类IGRA上市产品)结果确定,各地结核分枝杆菌潜伏感染率与当地结核病疫情呈现明显相关性。
2.多源大数据:2013—2019年全国各县(区)肺结核报告发病数据作为模型估算结核分枝杆菌潜伏感染率的辅助变量。通过2013—2019年全国各县(区)分年龄、性别肺结核报告发病数及分年龄、性别人口数,计算各县(区)的肺结核报告发病率。肺结核报告发病率基于我国传染病网络报告系统(即网络直报系统),数据来源于全国所有医疗卫生机构的实时在线上报,具有全国性、快速数据统计及实时质量监测等特点。
3.数据代表性分析:通过绘制样本和总体的直方图,分析研究对象在县(区)水平分布的空间分异性及样点在高、中、低区域的分布情况,从总体上判断样本的代表性。样本对总体代表性无偏通常指样本的直方图与总体直方图一致。
三、估算结果的精度验证
1.验证数据来源:(1)在广东省英德市选择1个城镇点和1个乡村点,覆盖5岁及以上本地户籍人口或居住超过6个月的外来常住人口,开展基于IGRA的结核分枝杆菌潜伏感染率调查(抽样人群年龄结构与当地总常住人口保持一致)。共计检测1498名,IGRA阳性率为21.2%。(2)在“十三五”国家科技重大专项“肺结核患者社区人群潜伏感染干预研究”实施的重庆市南川区现场,选择1个城镇点和1个乡村点,覆盖5岁及以上本地户籍人口或居住超过6个月的外来常住人口开展基于IGRA的结核分枝杆菌潜伏感染率调查(抽样人群年龄结构与当地总常住人口保持一致)。共计调查1000名,IGRA阳性率为19.8%。
2.验证方法:(1)利用2013年4个现场点分别估计2019年2个现场点(广东省英德市、重庆市南川区);(2)从6个现场点中选择任意4个现场点估算剩余2个现场点,并计算估计结果的平均绝对误差。
结 果
一、数据代表性
以2013年全国各县(区)肺结核报告发病率为参照总体,可以发现不同地区的报告发病率有明显的空间分异性。已有现场调查点的报告发病率处于全国中间水平,对总体分布具有代表性(图2)。
注 横坐标表示县(区)尺度2013年5岁及以上人群的肺结核报告发病率分布范围,柱高表示报告发病率落入相应范围内的县(区)频数;红、蓝色线分别代表4个现场点和2020年新补充现场点的γ-干扰素释放试验(IGRA)阳性率图2 现场调查点对总体指标的代表性评估
二、模型基于的源数据结果
1.按照性别、年龄校正后的多中心源数据:以2010年第六次全国人口普查数据作为参考数据,对4个调查点获得的结核分枝杆菌潜伏感染率按照性别、年龄校正后,河南现场结核分枝杆菌潜伏感染率为15.50%(194 844 292/1 257 242 325)、江苏现场结核分枝杆菌潜伏感染率为13.53%(170 064 913/1 257 242 325)、甘肃现场结核分枝杆菌潜伏感染率为17.32%(217 804 993/1 257 242 325)、湖南现场结核分枝杆菌潜伏感染率为20.93%(263 194 868/1 257 242 325)。
2.2013年全国肺结核报告发病率的空间分布:以全国县(区)的肺结核报告发病率(2013年)为参照总体,可以发现不同地区的报告发病率有明显的空间分异性(q=0.91),见图3。
图3 2013年全国5岁及以上人群肺结核报告发病率空间分布图
三、结核分枝杆菌潜伏感染率估算结果
根据B-SHADE模型估算结果显示,2013年我国5岁及以上人群结核分枝杆菌潜伏感染率为18.08%(95%CI:13.73%~22.42%);15岁及以上人群结核分枝杆菌潜伏感染率为20.34%(95%CI:15.63%~25.06%),见表1。5~14岁人群的结核分枝杆菌潜伏感染率较低,15岁以后呈现随着年龄增长而升高的趋势,并且同年龄段男性的潜伏感染率高于女性。
表1 2013年全国5岁及以上人群结核分枝杆菌潜伏感染率估算[%(95%CI,%)]
B-SHADE模型对2个新增验证点(广东省英德市、重庆市南川区)估计结果的平均绝对误差为0.95%,利用6个现场点中的任意4个现场点估计剩余2个点的结核分枝杆菌潜伏感染率时,平均绝对误差为2.08%,见表2。
表2 应用纠偏空间统计推断模型对2013年各研究现场5岁及以上人群结核分枝杆菌潜伏感染率估计误差(%)
讨 论
结核分枝杆菌潜伏感染率是疾病负担的核心指标,直接反映结核病防控措施的实施效果。目前,我国通过传染病网络报告系统获得了全国肺结核报告发病率及利用全国死因监测系统获得了全国结核病死亡率。但是,自2000年第四次全国结核病流行病学抽样调查以后,近20年没有开展过全国范围的结核分枝杆菌潜伏感染率调查。2013年,国家传染病科技重大专项支持的多中心的流行病学调查样本的选择在一定程度上代表了我国不同结核病的流行区域,具备一定的结核病疫情空间分异性的代表性。因此,以2013—2019年全国各县(区)肺结核报告发病数据为参考,利用研究项目多中心的调查数据和B-SHADE模型获得全国分层结核分枝杆菌潜伏感染率无偏最优估算,填补了自2000年第四次全国结核病流行病学抽样调查以来我国全国性结核分枝杆菌潜伏感染率的数据空缺。利用数学模型进行流行趋势的评估和预测是传染病流行病学的重要研究手段,利用小样本空间统计模型进行LTBI负担的估算是结核病流行病学研究技术和方法上的探索和进步。
我国是结核病高负担国家,结核病防控策略的制定需要紧密结合我国国情包括公共卫生可供资源情况,可以借鉴但是不能照搬国外低流行区的经验。准确的掌握LTBI负担及其流行特征,有助于科学评价开展LTBI管理的可行性,制定适宜的潜伏感染干预技术指南,包括准确界定干预对象、开发本土化的预防性治疗方案、建立高效的预防干预管理体系等。随着直接监督服药管理策略的实施和防治技术的进步,全球结核分枝杆菌潜伏感染率估算从1999年的1/3下降到2014年的不到1/4,两次估算均是基于TST调查结果或根据Styblo法则获得结核分枝杆菌年感染率之后通过数学模型获得全球结核分枝杆菌潜伏感染率[1,16]。由于既往研究表明,相比较IGRA,TST结果受较多因素影响,包括卡介苗接种史、年龄、非结核分枝杆菌感染等[7,17]。而我国是卡介苗普遍接种的国家,因此,基于特异性较高的IGRA检测结果进行我国结核分枝杆菌潜伏感染率本底数据的估算不仅对于完善结核病防控策略提供数据支撑,对于制定预防性干预目标、评价预防干预策略的效果也具有重要意义。本研究基于的多中心IGRA调查数据及全国各县(区)肺结核报告发病数据是真实世界的数据,满足了使用空间统计模型进行结核分枝杆菌潜伏感染率估算的条件。结果显示,2013年我国5岁以上人群结核分枝杆菌潜伏感染率约为18.08%,明显低于2000年对于结核分枝杆菌潜伏感染率的估算[6]。该数据一方面体现了我国LTBI负担的明显下降及我国结核病防控工作取得了一定的成效,同时也体现了技术进步对于阐明流行病学本底数据的贡献。
另外,本研究结果显示,15岁以下人群结核分枝杆菌潜伏感染率较低,15岁及以上人群结核分枝杆菌潜伏感染率随年龄增长而升高,中老年人群是LTBI的重点人群。随着社会老龄化发展,糖尿病等慢性疾病对中老年人群的健康影响也明显增加了LTBI者的发病风险。因此,针对中老年LTBI重点人群开展适宜的预防性治疗技术和方案研究是我国LTBI管理面临的一个重要领域。但是,由于15岁以下的LTBI儿童多为新近感染,且机体免疫功能尚未发育成熟[18-19],因此,发病风险也会较高,尤其是在有密切接触史的儿童中开展LTBI检测和预防性治疗受到广泛重视。这也是我国高度重视学校结核病防控的价值所在[20-21]。因此,在获得全国结核分枝杆菌潜伏感染率且了解了我国LTBI负担的基础上,还需要进一步加强重点人群的流行病学调查,开展适宜不同人群的预防性干预技术研究。
尽管本研究所使用的源数据仅针对研究现场的农村常住人口进行了LTBI调查,没有覆盖城镇社区人群,且研究对象年龄覆盖5岁及以上人群,无法获得5岁以下儿童的基于IGRA结果的LTBI估算数据。但是,本研究融合全国性多年的结核病监测大数据,利用研究项目的调查数据和纠偏空间模型估算方法获得了全国分层结核分枝杆菌潜伏感染率无偏最优估算,从方法学上一定程度弥补了多中心的流行病学调查数据在人群代表性上的不足。同时,本研究采用2019年底在两个地区开展的LTBI的抽样调查数据进行了模型精度的验证,提示获得的两个验证现场数据具备一定的可靠性。
综上,本研究首次利用模型估算获得我国基于IGRA检测的LTBI负担,为准确评估和预测我国结核病疫情丰富了基础数据,对于LTBI预防干预策略的制定具有重要指导意义。我国幅员辽阔,不同地区的结核病疫情差别显著,表现为东部沿海经济发达地区疫情较低、西部经济欠发达地区疫情较高的特点。因此,在科学评估LTBI负担的基础上,需要根据各地疫情、可供卫生资源、不同人群对干预需求的迫切性,分地区、分人群逐步推进规范化的LTBI控制工作。
利益冲突所有作者均声明不存在利益冲突