Logistic回归与ROC曲线在儿童巨细胞病毒性肺炎临床筛查中的应用
2013-09-14于长春曾昭成金鑫玲宋明媚孙志伟卜翠萍姜舒亚
于长春,曾昭成,金鑫玲,宋明媚,孙志伟,卜翠萍,王 静,姜舒亚,施 科
巨细胞病毒(CMV)感染是人类常见的病毒感染,且多在婴幼儿时期发病,引起多系统播散性疾病或单一器官损害,其中肺是最易受到感染的器官之一[1-3]。但由于婴幼儿CMV性肺炎表现与其他病原体导致的喘息性支气管(肺)炎相比无特异性,加之医务人员对其认识不足或重视程度不够,往往被误诊为普通的喘息性支气管(肺)炎,误诊率较高[4],从而导致抗生素和激素的滥用,对患儿的身体健康造成危害。快速、准确地将巨细胞病毒性肺炎疑似患者从众多的就诊患者中筛查出来对该病的治疗转归具有极其重要的意义。本研究运用Logistic回归与ROC曲线对所收集的病例数据进行分析,建立诊断预测模型,为医务人员有针对性的诊断CMV性肺炎提供有力的筛查手段。
1 资料与方法
1.1 一般资料 2011年9月—2012年4月某三级医院儿科收治确诊为CMV性肺炎和普通喘息性支气管炎患儿共111例。其中CMV性肺炎(CMV性肺炎组)65例,男44例,女21例;年龄(0.76±0.41)岁;诊断标准依据中华医学会儿科学分会感染学组最新公布的《儿童巨细胞病毒性疾病诊断和防治的建议》[5]。普通喘息性支气管炎(普通喘息性支气管炎组)46例,男 31例,女 15例;年龄(1.46±0.86)岁。
1.2 检测方法 人CMV(HCMV)-IgG、HCMV-IgM测定采用胶体金标免疫层析试验,使用中山大学达安基因股份有限公司TORCH-IgG、TORCH-IgM试剂盒,操作过程严格按照试剂盒说明书进行。
1.3 统计学方法 应用SPSS 13.0软件进行统计学处理。对定量指标(年龄、HCMV-IgG、HCMVIgM)采用成组t检验进行比较,对定性指标(性别、血常规)采用卡方(χ2)检验进行比较。将差异有统计学意义的指标运用多因素Logistic回归分析,以找出巨细胞病毒性肺炎的危险因素与保护因素,利用ROC曲线对定量指标的诊断价值进行分析,确定截断值,对样本进行预测,并与实际诊断结果进行对比,以评估预测的准确度。两曲线下面积的比较采用Z检验[6]。α=0.05为检验水准。
2 结果
2.1 两组一般资料、HCMV-IgG、HCMV-IgM、血常规比较 两组年龄、HCMV-IgG、HCMV-IgM、血红蛋白、白细胞计数、淋巴细胞计数、血小板计数差异有统计学意义(P<0.01),见表1。
表1 两组一般资料、HCMV-IgG、HCMV-IgM、血常规比较结果
2.2 危险因素分析 经多因素Logistic回归分析,共有3个定量指标进入最终的模型,具体结果见表2。
2.3 ROC曲线分析 以普通喘息性支气管炎组作为对照,对血红蛋白、淋巴细胞计数、血小板计数3个指标绘制ROC曲线并确定截断值,见表3、表4和图1。
表2 儿童巨细胞病毒性肺炎临床筛查多元Logistic回归分析结果
表3 3个检测指标的曲线下面积比较
表4 3个检测指标的灵敏度、特异度和诊断符合率比较(%)
图1 血红蛋白、淋巴细胞计数、血小板计数的ROC曲线
对3个指标曲线下的面积采用Z检验进行两两比较,结果显示差异均无统计学意义(P>0.05),利用3个指标组成的Logistic回归模型P=1/[1+e-(7.031-0.103血红蛋白 +0.298 淋巴细胞计数+0.011血小板计数)]对样本进行回代,若P≥0.5则判断为CMV性肺炎,若P<0.5则判断为普通喘息性支气管炎,得到的综合预测模型的灵敏度为83.08%,特异度为 76.09%,诊断符合率为80.18%。
3 讨论
HCMV感染呈世界性分布,在人群中广为传播,是引起先天性及围生期病毒感染最常见的病原之一。HCMV的细胞和组织嗜性非常广泛,任何器官都有可能受到HCMV感染,可累及多脏器、多系统,且患者年龄越小,发病率越高,临床后果越严重。在婴幼儿中CMV感染以肺炎较为常见,但由于患病婴幼儿的临床表现不具特异性,往往被误诊为普通的喘息性支气管炎、支原体肺炎、军团菌肺炎、肺结核[7]等。将HCMV肺炎疑似患者从众多的就诊患者中筛查出来,再进行CMV特异性指标检测加以确诊,这样不仅可以降低医务人员的工作负荷,而且可以有效降低就诊人群中CMV性肺炎的漏诊和误诊率。机器学习是近年来逐渐兴起的重要的数据挖掘工具,通过对大量数据的分析寻找出有价值的信息,为实践活动提供决策支持,在众多领域得到了广泛应用。在医学领域,利用收集的患者资料建立诊断预测系统是近年来兴起的一种崭新的研究手段,目前正得到越来越多的应用,如图像识别、疾病辅助诊断、疾病风险预测、生存期预测等[8-13],收到了较好的效果。通过中国知网期刊数据库检索1994—2012年发表的中文文献,未见有将机器学习用于儿童巨细胞病毒性肺炎筛查的相关报道,在PubMed上利用“机器学习(machine learnin)”、“巨细胞病毒(cytomegalovirus)”和“肺炎(pneumonia)”进行检索,结果显示有将机器学习用于分子生物学研究、肺结核的辅助诊断、指导老年人下呼吸道感染的抗生素治疗、预测肺炎患者经过治疗后的状态、预测患者肾移植术后发生CMV性疾病的风险等报道[14-20],但未见将机器学习用于CMV性肺炎筛查的有关研究。探讨机器学习用于CMV性肺炎的筛查和辅助诊断,对于提高医务人员的诊断水平、减少CMV性肺炎的漏诊和误诊具有十分积极的实际意义。
本研究采用多元Logistic回归进行因素筛选,得到血红蛋白、淋巴细胞计数、血小板计数3个对巨细胞病毒性肺炎发生影响有统计学意义的指标。三者的曲线下面积均在0.75以上,说明用于筛查CMV性肺炎的诊断准确性较高,从绘制出的ROC曲线可以看出,代表淋巴细胞计数和血小板计数的两条曲线位于对角线上方,而代表血红蛋白的曲线位于对角线下方,说明前两项指标和后一项指标对CMV性肺炎影响的作用方向是相反的,这与所建立的Logistic回归模型中变量系数的正负号相一致,临床观察到CMV性肺炎患儿血红蛋白降低、淋巴细胞计数和血小板计数升高的现象也印证了这一结果。从OR值的大小可以看出,淋巴细胞计数和血小板计数的OR值均>1,说明二者是CMV性肺炎的危险因素,血红蛋白的OR值<1,提示该指标是CMV性肺炎的保护因素。通过ROC曲线确定了各指标的截断值,分别为血红蛋白118.5 g/L、淋巴细胞计数4.61×109/L、血小板计数257×109/L,根据这3 个检测指标的数值大小可以独立对患者发生CMV性肺炎的风险进行评估,但诊断性能分析结果显示独立指标预测均存在特异度偏低即误诊率偏高的问题,三者组成的Logistic回归综合预测模型则较好地克服了这一问题,预测结果较为理想。对预测患病风险高的人群再通过CMV特异性指标检测进一步确诊,这样不仅降低了医务人员的工作量,同时缩小了需要确诊检测的人群比例,在不增加患者经济负担的情况下,提高了CMV性肺炎的人群检出率。
利用统计学方法建立的预测模型是根据患者相关指标大小对诊断结果进行概率推断,是近年来兴起的一种重要的辅助诊断工具,减少了主观经验判断的偏差,符合现代循证医学理念,且临床操作简便,有利于大规模推广。其计算原理是建立在概率论的基础上,因此其结论是概率性的,只能作为诊断疾病的佐证,并不能代替必要的确诊性检查,但是随着临床研究的不断深入,病例数量的逐渐增加,所建立的预测模型不断完善,预测结果的准确性将越来越高,对临床工作的指导意义将更大。
[1]刘丽,鲁继荣.婴幼儿巨细胞病毒性肺炎49例临床分析[J].临床儿科杂志,2007,25(7):544-546.
[2]Iizuka T,Sakai F,Suzuki N,et al.Neuronal hyperexcitability in stroke-like episodes of MELAS syndrome[J].Neurology,2002,59(6):816-824.
[3]de Lonlay Debeney P,von Kleist Retzow J C,Hertz-Pannier L,et al.Cerebral white matter disease in children may be caused by mitochondrial respiratory chain deficiency[J].J Pediatr,2000,136(2):209-214.
[4]严清华,蔺增榕,林世江.婴幼儿巨细胞病毒感染31例临床分析[J].中华全科医学,2008,6(12):1235-1236.
[5]中华医学会儿科学分会感染学组,全国儿科临床病毒感染协作组,《中华儿科杂志》编辑委员会.儿童巨细胞病毒性疾病诊断和治疗的建议[J].中华儿科杂志,2012,50(4):290-292.
[6]Hanley J A,McNeil B J.A method of comparing the areas under receiver operating characteristic curves derived from the same cases[J].Radiology,1983,148(3):839-843.
[7]高韦娟,陈雅兰,胡艳艳,等.婴幼儿巨细胞病毒肺炎临床分析[J].疑难病杂志,2009,8(9):561-562.
[8]谢华,夏顺仁,张赞超.医学图像识别中多分类器融合方法的研究进展[J].国际生物医学工程杂志,2006,29(3):152-157.
[9]Di Luca M,Grossi E,Borroni B,et al.Artificial neural networks allow the use of simultaneous measurements of Alzheimer Disease markers for early detection of the disease[J].J Transl Med,2005,3(30):1479-5876.
[10]Srinivasan V,Eswaran C,Sriraam N.Artificial neural network based epileptic detection using time-domain and frequency domain feature[J].J Med Syst,2005,29(6):647-660.
[11]徐继承,李磊,刘桂红,等.人工神经网络建立食管癌发病预测模型的比较研究[J].现代预防医学,2011,38(17):3408-3410.
[12]Acir N,Oztura I,Kuntalp M,et al.Automatic detection of epileptiform events in EEG by a three-stage procedure based on artificial neural networks[J].IEEE Trans Biomed Eng,2005,52(1):30-40.
[13]刘刚,柳红,刘艺萍,等.人工神经网络在大肠癌患者术后5年生存期预测中的应用[J].中国卫生统计,2010,27(3):240-242.
[14]Huang J C,Jojic N.Modeling major histocompatibility complex binding by nonparametric averaging of multiple predictors and sequence encodings[J].J Immunol Methods,2011,374(1-2):35-42.
[15]Ladanyi A,Sher A C,Herlitz A,et al.Automatic detection of immunofluorescently labeled cytomegalovirus-infected cells in isolated peripheral blood leukocytes using decision tree analysis[J].Cytometry A,2004,58(2):147-156.
[16]Er O,Temurtas F,Tanrikulu A C.Tuberculosis Disease Diagnosis Using Artificial Neural Networks[J].J Med Syst,2010,34(3):299-302.
[17]Gueli N,Martinez A,Verrusio W,et al.Empirical antibiotic therapy(ABT)of lower respiratory tract infections(LRTI)in the elderly:application of artificial neural network(ANN).Preliminary results[J].Archives of Gerontology and Geriatrics,2012,55(2):499-503.
[18]Papageorgiou E I,Froelich W.Application of evolutionary fuzzy cognitive maps for prediction of pulmonary infections[J].IEEE Trans Inf Technol Biomed,2012,16(1):143-149.
[19]Sheppard D,McPhee D,Darke C,et al.Predicting cytomegalovirus disease after renal transplantation:an artificial neural network approach[J].Int J Med Inform,1999,54(1):55-76.
[20]曾文彤,叶青,罗光华,等.动态检测血浆CMV DNA载量在预测肾移植术后并发巨细胞病毒肺炎中的意义[J].中华泌尿外科杂志,2005,26(8):525-528.