基于机器学习算法和生物信息学技术构建的肺癌与肺结核鉴别诊断模型及其初步评价
2023-03-03夏文俊于斐胡鹏远张晓旭张燕包亮亮毛宏凯玛依沙达肯曹明芹
夏文俊,于斐,胡鹏远,张晓旭,张燕,包亮亮,毛宏凯,玛依沙·达肯,曹明芹
新疆医科大学公共卫生学院,乌鲁木齐 830011
肺癌是世界范围内高发的恶性肿瘤,据统计,全球每年约有220万新发肺癌病例,179万人死于肺癌[1]。结核病是一种由结核分枝杆菌引起的以呼吸系统为主的慢性传染病,以肺部感染为主,常可累及多处器官及组织[2]。在临床中,肺癌患者早期症状不明显,易与肺结核等其他肺部疾病混淆,常导致许多肺癌患者确诊时已为中晚期,错过了最佳治疗时机[3-4]。因此,早期鉴别诊断肺癌与具有相似临床症状和放射学特征的肺结核患者,对于提高肺癌患者的生存率、结核病患者治愈率和降低整体疾病负担是十分必要的。2022年3月—10月,本研究通过生物信息信息学方法筛选肺癌与肺结核的差异表达基因(DEGs),并利用机器学习算法构建肺癌与肺结核的鉴别诊断模型,以期为早期肺癌与肺结核患者的诊断提供理论依据。
1 资料与方法
1.1 肺癌与肺结核DEGs筛选 以lung cancer、tuberculosis等关键词对GEO公共数据库(https://www.ncbi.nlm.nih.gov/geo/)进行检索,按照以下标准进行筛选:①数据集需具有肺癌和肺结核患者样本;②微阵列数据;③符合美国食品药品监督管理局(FDA)要求的权威机构检测。筛选获得GSE42834数据集,其中包含35例肺结核样本,16例肺癌样本,共20 912个基因。运用R软件limma包的经验贝叶斯联合线性模型筛选GSE42834数据集中肺癌与肺结核DEGs。为了避免可能因线性分析而造成的假阳性结果,使用Benjamin and Hochberg(BH)法将P值调整为错误发现率(FDR)。筛选条件为FDR<0.05且|log2FC|>1.5。
1.2 肺癌与肺结核DEGs的GO生物过程与KEGG作用通路分析 运用R软件clusterProfiler包对GSE42834数据集中肺癌与肺结核DEGs进行GO生物过程及KEGG作用通路富集分析,筛选排名前20的GO生物过程及KEGG作用通路富集结果,以P<0.05为差异有统计学意义。
1.3 肺癌与肺结核核心DEGs筛选 将获得的前100个肺癌与肺结核DEGs输入STRING工具(https://string-db.org),物种选择Human,置信度选择medium confidence(0.4),构建蛋白—蛋白相互作用网络(PPI)。运用Cytoscape软件进行PPI网络的图形化,使用CytoHubba插件筛选连接度前10的基因作为肺癌与肺结核核心DEGs。采用t检验分析核心DEGs在肺癌与肺结核患者的表达情况。
1.4 肺癌与肺结核鉴别诊断模型构建及评价 将筛选出的肺癌与肺结核核心DEGs输入R软件caret包,使用留一交叉验证法(LOOCV)结合8种机器学习算法构建肺癌与肺结核的鉴别诊断模型,包括支持向量机(SVM)、自适应提升算法(AdaBoost)、C5.0决策树(C5.0)、随机森林(RF)、朴素贝叶斯(NB)、神经网络(NN)、线性判别分析(LDA)及逻辑回归(LR)模型,筛选模型的最优参数。使用Bootstrap法对模型进行内部验证,采用准确率、Kappa值、敏感度及特异度来初步评价鉴别诊断模型的诊断准确度。
2 结果
2.1 肺癌与肺结核DEGs筛选结果 GSE42834数据集中共筛选出肺癌与肺结核DEGs 325个,包含205个上调基因和120个下调基因。见OSID码图1。
2.2 肺癌与肺结核DEGs的GO生物过程与KEGG作用通路分析结果 GO生物过程分析结果显示,肺癌与肺结核DEGs主要富集的生物过程为对病毒的反应、对病毒的防御反应、干扰素γ(HFN-Y)反应等;KEGG作用通路分析结果显示,肺癌与肺结核DEGs主要富集的作用通路为甲型流感、EB病毒感染、抗原处理和呈递等。见OSID码图2。
2.3 肺癌与肺结核核心DEGs筛选结果 PPI网络中显示200个节点,516个边缘(OSID码图3)。利用CytoHubba插件获得具有最高连通性的前10个核心DEGs,分别为STAT1、CXCL10、MX1、ISG15、IFIH1、OASL、IFIT3、GBP1、IFI44和 IFIT1(OSID 码图4)。经验证,10个关键基因在肺癌患者中的表达水平均低于肺结核患者(P均<0.05)。见OSID码图5。
2.4 肺癌与肺结核鉴别诊断模型构建及评价结果 将10个肺癌与肺结核核心DEGs纳入8种算法建立肺癌与肺结核鉴别诊断模型,模型的最优参数见表1。内部验证结果显示,所有鉴别诊断模型准确率、Kappa值、灵敏度及特异度均较高,其中Ada-Boost、RF、NN和LR准确率为1.000。见表2。
表1 肺癌与肺结核鉴别诊断模型的最优参数
表2 肺癌与肺结核鉴别诊断模型评价结果
3 讨论
肺癌与肺结核均属于呼吸系统常见疾病,且肺结核是肺癌发病的危险因素之一[5]。目前,临床中对肺癌与肺结核患者的鉴别诊断方法主要是穿刺活检和影像学检查。肺部穿刺活检属于侵入性检查,且需要检查者具有较高的操作水平才能保证结果的准确性[6];影像学检查常用于肺部空洞形成后,无法对肺癌与结核病进行早期的筛查与诊断。因此,探索有效且切实可行的诊断生物标志物及鉴别诊断模型对区分早期肺癌与肺结核患者具有重要意义。
本研究通过GSE42834数据集中肺癌与肺结核患者的转录特征来识别肺癌和肺结核的DEGs,共获得325个DEGs。GO生物过程和KEGG作用通路分析显示,这些DEGs主要富集于病毒反应、病毒防御反应、IFN-γ反应等生物学过程,涉及甲型流感、EB病毒感染、抗原处理和呈递等作用通路。通过构建PPI网络获得了肺癌与肺结核核心DEGs,分别为STAT1、CXCL10、MX1、ISG15、IFIH1、OASL、IFIT3、GBP1、IFI44和IFIT1。
STAT1是STAT蛋白家族的成员,具有激活IFN/STAT1通路和抗结核分枝杆菌的作用。IFN/STAT1通路是介导肿瘤细胞与宿主微环境成分之间的典型信号通路,通过激活IFN-γ发挥其抗肿瘤活性[7]。如果STAT1低表达可能抑制IFN-γ激活,从而促进肿瘤细胞的迁移和侵袭[8];YI等[9]研究发现,人体内高水平的磷酸化STAT1可以产生抗结核作用,提示STAT1可能是鉴别诊断肺癌与肺结核患者的重要标志物之一。CXCL10属于CXC趋化因子,与CXCR3受体结合后可以促进单核细胞和淋巴细胞聚集到病变部位,从而发挥细胞免疫作用。有研究发现,肺癌患者KDM4C基因的异常高表达会导致CXCL10启动子区域活化的组蛋白H3K36me3富集,从而抑制CXCL10的表达[10];FAN等[11]研究发现,活动性肺结核患者CXCL10水平显著增高,CXCL10是结核病的重要标志物之一。这提示CXCL10在肺癌与肺结核中均异常表达,可能在肺癌与肺结核的鉴别诊断中发挥重要作用。GBP1是GTP酶超家族的成员,在正常细胞中具有抗增殖作用,在炎症条件下可抑制早期血管生成。GBP1的表达具有高度背景依赖性,低表达时会促进肺癌细胞的增殖与转移[12];高表达时会抑制Caspase-3的激活,导致巨噬细胞凋亡减少,促进分枝杆菌在细胞内的生存和感染的建立[13]。因此,GBP1也可能是鉴别肺癌与肺结核患者的重要标志物。MX1、ISG15、IFIH1、OASL、IFIT3、IFI44、IFIT1均是IFN响应基因靶标,具有诱导IFN反应、产生免疫调节因子和炎症细胞因子的作用。该类基因高度表达可能意味着IFN先天反应的激活,因此具有区分肺结核与肺癌的潜力。
近年来,机器学习结合生物信息学方法凭借其较高的准确率,在疾病诊断研究中得到越来越多的应用。HAMMAD等[14]通过基因表达数据库建立结直肠癌诊断模型;NING等[15]通过10个miRNA使用SVM算法建立前列腺癌诊断模型。本研究基于10个肺癌与肺结核核心DEGs,应用多种机器学习算法构建肺癌与肺结核的鉴别诊断模型,内部验证结果发现均具有较高的准确性,所有诊断模型的准确率均大于0.900且Kappa值、灵敏度及特异度均较高,其中AdaBoost、RF、NN和LR的准确率为1.000,提示模型具备较好的诊断分类能力。
综上所述,本研究通过机器学习算法结合生物信息学方法建立了8个肺癌与肺结核早期鉴别诊断模型,其中AdaBoost、RF、NN和LR准确性较高,可为肺癌与肺结核的早期鉴别诊断提供参考。但如果将这些关键基因应用于临床实践中,还需要在更多的外部独立数据集进行验证。在下一步研究中,我们将引入新的肺癌与肺结核患者进行模型效果的外部评价,并对核心基因在肺癌与肺结核中的生物学功能与机制做进一步研究。