APP下载

基于宿主基因表达谱的结核诊断组合标识的发现和同步检测技术研发

2021-09-15郭九标张惠华杨倩婷张明霞邓国防陈心春

赣南医学院学报 2021年8期
关键词:区分结核敏感性

郭九标,张惠华,蔡 毅,杨倩婷,陈 骑,杨 帆,张明霞,邓国防,陈心春

(1.广东省组织器官区域免疫与疾病重点实验室,深圳大学基础医学院病原生物学系,广东 深圳 518052;2.深圳市第三人民医院,广东 深圳 518112)

结核病(Tuberculosis,TB)是由单一病原菌结核分枝杆菌(Mycobacterium tuberculosis,Mtb)感染导致的传染性疾病,是全球十大死因之一[1-2]。作为一种古老的疾病,TB虽然不会像新型冠状病毒肺炎那样在短期内造成全球性的灾难大流行,但仍然是人类健康的一个威胁。世界卫生组织(World Health Organization,WHO)最新统计数据显示,2019年全球新增890~1 100万例TB患者,死亡约140万例[1]。结核的早期感染无明显临床症状,且卡介苗(bacille Calmette-Guérin,BCG)的保护效果欠佳,而短期内新疫苗/药物的研发也更难以实现突破。鉴于此,寻找和开发一种能够早期、快速、准确的诊断结核病的生物标记物或方法,对早期预防、控制、治疗具有重大意义。

目前,临床上结核病诊断技术主要分为三大类:病原学诊断、免疫学诊断及影像学诊断[3]。在病原学诊断方面,痰涂片和痰培养技术是传统的金标准,但该技术具有敏感性低和周期长等缺点,而且约50%的患者找不到结核病诊断的病原学依据。GeneXpert是近年来发展起来的基于分子生物学的技术,尽管能够实现对结核菌的快速分子诊断和耐药检测,但价格昂贵、需要专用设备和试剂以及不适用于大规模人群主动筛查等制约因素限制了其发展和应用[4]。在免疫学诊断方面,结核特异性γ干扰素释放试验(interferon-γrelease assay,IGRA)近年来有较快速的发展,具有良好的特异性和敏感性,但不能有效的区分活动性结核(active tuberculo⁃sis,ATB)和潜伏感染(latent tuberculosis infection,LTBI)[5]。在影像学诊断以及基于人工智能(artifi⁃cial intelligence,AI)的结核影像诊断技术方面,尽管该技术也获得了广泛的关注并且具有很好的发展前景,但尚需更多的临床验证和试验数据证明。而随着高通量测序技术的快速发展,其也越来越多地被应用到了结核病的快速诊断领域。SWEENEY TE及同事基于对14个数据库中的2 572个样品的荟萃分析并在临床样本中验证后发现,GBP5、DUSP3和KLF2的三基因组合能够很好地区分活动性结核(AUC为0.90)[6]。我们前期对健康对照(health con⁃trol,HC)、LTBI和ATB患者外周血单核细胞(periph⁃eral blood mononuclear cells,PBMC)中全基因转录组进行系统分析发现,TB患者有77个高表达和50个低表达的差异表达基因,其中有12个差异表达基因在经抗结核治疗后显著下调;并且进一步分析发现,其中有8个基因的组合能够很好地用于区分结核[7]。

本研究在前期研究的基础上,进一步在外周血样本中对比分析了其中有潜力的、能够用来区分结核的基因,并开发了单管同步检测3个基因的实时荧光PCR技术,用于临床上快速诊断结核患者。

1 材料与方法

1.1 样本来源回顾性研究2019年8月至11月于深圳市第三人民医院住院的TB患者250例、非结核样本(Non-TB)380例。样本分为三组数据集:第一组共247例,包括59例TB与188例Non-TB,用于SYBR Green检测20个基因表达情况;第二组共315例,包括158例TB与157例Non-TB,用于模型训练;第三组共68例,包括33例TB与35例Non-TB,用于模型独立测试。本研究所使用的病例经医院医学伦理委员会审核批准并取得所有患者知情同意并签署同意书。实验设计流程参考图1。

图1 本研究实验设计和样本统计

患者诊断根据中华医学会结核分会制定的《肺结核诊断和治疗指南》标准。入组标准:(1)TB:年龄在18~65周岁;初次诊断为肺结核病并且尚未接受抗结核治疗。(2)Non-TB:包括HC、肺炎患者(pneumonia,PN)和已治愈肺结核患者(cured TB,RxTB)。其中,HC:结核菌特异性γ干扰素ELISPOT检测阴性;无结核临床表现(胸部放射学检查无异常)。PN:结核菌涂片和培养均为阴性,细菌学检测证实有结核菌之外细菌或真菌,结合临床症状、影像学及治疗性诊断等不支持结核菌的诊断。RxTB:完成治疗时间>2年,并且没有复发。上述入组人群均排除合并其他传染病、慢性疾病及自身免疫疾病、妊娠等。

1.2 实验方法

1.2.1 样本采集及处理使用肝素抗凝剂管抽取研究对象清晨空腹静脉血5 mL。

1.2.2 分离提取PBMC与提取总RNA使用Ficoll淋巴分离液以1∶1∶1的比例(5 mL全血标本:5 mL 1×PBS:5 mL淋巴分离液)分离提取PBMC。并按照Trizol试剂盒(Invitrogen)说明书提取总RNA,具体操作流程为:加350μL TRK试剂重悬收集的PBMC,再加入350μL 70%的乙醇(DEPC水配制),充分混匀后转移至特定分离柱中,10 000×g离心1 min;离心后弃去下层液体,添加500μL洗液Ⅰ试剂,10 000×g离心1 min;弃废液再加500μL洗液Ⅱ试剂,10 000×g离心1 min,并重复2次,最高转速空转2 min,把分离柱转到新的无RNase的1.5 mL EP管中,最后用50μL DEPC处理过的蒸馏水洗脱,最高转数离心2 min。取1μL纯化的RNA测定OD260/OD280吸光值,比值在1.8~2.1之间则表明核酸提取质量较高,可以开展后续试验。

1.2.3 逆转录取8μL上述提取的总RNA,利用逆转录试剂盒(HiScripⅡReverse Transcriptase)把总RNA转录成cDNA。去基因组DNA:在RNasefree离心管中配制混合液:模版RNA 8μL,4×gDNA wiper Mix 8μL,RNase-free ddH2O 16μL;轻轻吹打混匀,42℃2 min;逆转录:加入5×HiScripⅡqRT SuperMixⅡ8μL,轻轻吹打混匀,50℃15 min,85℃15 sec。保存于-80℃冰箱备用。

1.2.4 探针法实时荧光定量PCR(RT-qPCR)引物及对应的探针序列参见表1。实验仪器为ABI7500荧光定量PCR仪。反应体系为20μL(2×qPCR probe master mix:10μL,特异性前、后向引物(10μM)各0.4μL,模版1μL,ROX Reference Dye 2试剂:0.4μL,probe 0.2μL,去离子水:7.6μL)。反应条件:95℃预变性5 min,95℃变性10 s,60℃延伸30 s,40个循环。每个样本设置3个复孔,以GAPDH基因作为内参基因。SYBR green荧光染料法RT-qPCR的方法同上,但反应体系中不添加探针,反应条件为:95℃预变性5 min,95℃变性15 s,55℃复性34 s,72℃延伸34 s,40个循环,溶解曲线为机器(ABI7500)默认(95℃15 s,60℃60 s,95℃15 s),最后72℃延伸10 min。

表1 本研究涉及到的4个基因(含内参基因)的引物和对应的探针序列

1.2.5 统计学分析特征筛选和诊断模型构建采用R语言的caret包和pROC包,评价参数包括准确度、敏感性和特异性。特征选择方法为支持向量机(support vector machine,SVM);诊断模型为NNET,模型构建过程中划分10-折交叉验证并重复5遍[8]。各组间比较采用单因素方差分析,并用Bonferroni进行校正,以校正P值(q value)<0.05为差异有统计学意义。

2 结果

2.1 筛选可区分结核和非结核的潜在差异基因组合我们前期的一项对9例治疗前TB患者、12例Non-TB样本(包括6例LTBI和6例HC)的全基因转录组学分析发现,TB患者中有77个高表达、50个低表达的差异表达基因[7]。为了进一步筛选出可以区分TB和Non-TB的差异基因,我们挑选了其中20个有明显差异表达的基因,并在59个TB和188个Non-TB样本(包括66个HC、61个RxTB和61个PN)中利用SYBR green RT-qPCR技术进行了检测。为了能用于Taqman单管同步检测,我们将特征选择数量限制在3个基因内。通过SVM我们筛选出来CD157、GSDMD和VAMP5的三基因组合效果最好。其准确度、灵敏度和特异性分别为0.84(95%CI:0.79,0.88)、0.85(95%CI:0.79,0.89)和0.81(95%CI:0.69,0.90)(图2)。

图2 利用SVM特征选择选取三基因组合的诊断效果统计

2.2 CD157、GSDMD和VAMP5在结核患者中呈差异表达趋势为了进一步评估CD157、GSDMD和VAMP5用于区分和诊断结核的效果,我们在上述人群中分别比较了这3个基因的表达差异性(图3)。结果发现,与HC相比,TB患者中的CD157、GSDMD和VAMP5基因都呈差异表达趋势(图3),其中CD157的表达具有显著性差异(图3A);另外,我们的数据还显示与RxTB和PN相比,TB患者中的CD157、GSDMD和VAMP5基因的表达都呈显著下降趋势。这些数据提示CD157、GSDMD和VAMP5三基因可能具有区分和诊断结核以及衡量评价结核治疗效果的潜力。

图3 CD157(A)、GSDMD(B)和VAMP5(C)在不同人群中的差异表达情况

2.3 CD157、GSDMD和VAMP5基因的表达具有很好的稳定性和重复性考虑到后期拟开发的探针法RT-qPCR技术,在后续研究中,我们采用了Taqman RT-qPCR技术。为了检验CD157、GSDMD和VAMP5基因表达的稳定性和重复性,我们随机选取了100份外周血PBMC,并将每一个样品平分为2份,1份冻存于-80℃冰箱1周作为冻存样品,1份作为新鲜样品,然后分别提取总RNA并进行RT-qPCR分析。结果发现,样品冻存与否对CD157、GSDMD和VAMP5基因的表达没有显著性差异(图4),并且这3个基因的CV值分别为0.05、0.01和0.02,显示出单管同步检测技术具有很好的稳定性和重复性。

图4 CD157(A)、GSDMD(B)和VAMP5(C)基因表达的稳定性和重复性分析Fresh,新鲜外周血PBMC;Frozen,冻存外周血PBMC。ns,没有统计学差异。

2.4基于CD157、GSDMD和VAMP5三基因组合的NNET模型用于区分和诊断结核为了测试和评估CD157、GSDMD和VAMP5基因组合用于区分和诊断结核的效果,我们重新收集了两批样本。第一批315样本(TB病例158例,Non-TB样本157例)作为训练集构建NNET模型;并以第二批独立样本(TB病例33例,Non-TB样本35例)作为测试集对模型进行测试,用于评估模型的区分效能。结果显示,训练集的AUC面积为0.85(95%CI:0.80,0.89)(图5A);其准确度、灵敏度与特异性分别为0.77(95%CI:0.72,0.82)、0.80(95%CI:0.72,0.86)和0.75(95%CI:0.68,0.82)(图5B)。测试集的AUC面积为0.84(95%CI:0.80,0.89)(图6A);其准确度、灵敏度与特异性分别为0.75(95%CI:0.63,0.85)、0.74(95%CI:0.57,0.88)和0.76(95%CI:0.58,0.89)(图6B)。

图5 NNET模型训练结果

图6 NNET模型测试结果

3 讨论

随着芯片技术与高通量测序技术的快速发展,更多的RNA表达谱被发现并广泛运用于解释其在人体内导致或对抗疾病的发展机制,以及探索用来作为疾病诊断的分子标识[9-10]。对结核而言,早期诊断是结核患者得到及时治疗以及预防传播的关键,但目前结核病诊断手段不足,迫切需要鉴定出更有效的诊断标识,为开发更加快速、简便的诊断方法提供基础。SWEENEY TE及同事基于对14个数据库中的2 572个样品的荟萃分析并在临床样本中验证后发现,GBP5、DUSP3和KLF2的三基因组合能够很好地区分ATB(AUC为0.90)。进一步的多数据库的诊断效果分析发现,该三基因组合在鉴别诊断TB患者和HC或LTBI的效果较好,AUC分别为0.9(敏感性85%,特异性93%)和0.88(敏感性80%,特异性86%);但在区分其他疾病时效果稍差,AUC只为0.84(敏感性81%,特异性74%)[6]。本研究中,我们也同步评估了GBP5、DUSP3和KLF2的三基因组合,但区分结核的诊断效果远达不到文献的水平(数据未展示)。我们认为主要原因是实验对象人群和实验分组不同:本项目的实验目的是模拟全真临床下,诊断标识在ATB诊断的效率。因此,诊断标识不仅能区分于HC与LTBI,更重要的是区分TB以及RxTB。另外,PANKHURSTLJ及同事在多中心对比了全基因组学和常规检测技术对检测Mtb标本的效果,发现全基因组测序(WGS)的Mtb预测准确率达93%,药物敏感性为93%,不过该基于WGS的结核检测却需要长达9天的时间,难以满足及时快捷的诊断要求[11]。

我们前期的一项基于芯片技术对受试者外周血进行全转录组表达谱分析研究中筛选出了127个差异表达基因,其中77个基因在TB患者高表达,50个基因在TB患者低表达;进一步在治疗前后TB患者中分析发现有12个基因经抗结核治疗后表达量显著下降(比如HBA1、HBA2和血红蛋白-α等)[7]。本研究是前期研究的延续,在本研究中我们首先利用特征选择(SVM)策略,筛选鉴定出了CD157、GSDMD和VAMP5的三基因组合能够用于诊断和区分TB患者与HC。进一步开发了单管同步检测实时荧光定量PCR(RT-qPCR)技术用于同步检测分析该3个基因;稳定性和重复性分析证明,该三基因的表达在新鲜和冻存外周血(PBMC)中的表达量没有显著性变化,具有很好的表达稳定性和重复性。进而利用建模策略,搭建了基于CD157、GSDMD和VAMP5的三基因NNET模型,该模型在独立的测试集上区分和诊断TB的准确率、敏感性与特异性分别为0.75(95%CI:0.63,0.85)、0.74(95%CI:0.57,0.88)和0.76(95%CI:0.58,0.89),AUC为0.84(95%CI:0.80,0.89)。在构建NNET的同时,我们也构建了SVM和随机森林(random forest,RF)模型,以比较三种不同模型间的分类效能。在准确率、敏感性和特异性上,NNET的效能最好(数据未展示)。但目前所用训练集数量还不足够多,且仍存在部分感染或非感染性疾病引起的炎症产生的非特异性影响。下一步,我们将收集更多的样本对模型进行优化,以提高模型的泛化能力和鲁棒性。

综上所述,本研究鉴定出了能够用于区分和诊断结核的三基因组合标识及单管同步检测技术,为结核病的诊断提供了新的策略。

猜你喜欢

区分结核敏感性
怎么区分天空中的“彩虹”
一度浪漫的结核
钇对Mg-Zn-Y-Zr合金热裂敏感性影响
教你区分功和功率
层次分析模型在结核疾病预防控制系统中的应用
怎祥区分天空中的“彩虹”(一)
AH70DB钢焊接热影响区组织及其冷裂敏感性
如何培养和提高新闻敏感性
中枢神经系统结核感染的中医辨治思路
罪数区分的实践判定