基于数据挖掘技术建立的BP神经网络模型鉴别儿童川崎病与发热性疾病的研究
2017-04-07贺向前
樊 楚 贺向前 于 跃 田 杰 张 胜 李 哲
·论著·
基于数据挖掘技术建立的BP神经网络模型鉴别儿童川崎病与发热性疾病的研究
樊 楚1贺向前1于 跃1田 杰2张 胜1李 哲1
目的 以临床表现和实验室指标建立诊断川崎病(KD)的BP神经网络模型并考察其诊断性能。方法 收集重庆医科大学附属儿童医院(我院)2007年1月至2016年1月电子病历系统中出院诊断为KD的连续病例和待鉴别发热疾病病例,使用R 3.2.3软件中的随机抽样函数分为训练集和测试集。截取病历中一般情况、临床表现和实验室指标的共51项信息,单因素分析后提取有统计学意义的变量,以此分别构建Logistic回归和BP神经网络模型,比较两种模型的诊断性能。结果 905例KD患儿和438例待鉴别发热疾病患儿进入数据模型分析,训练集1 042例,其中KD 700例,待鉴别发热类疾病342例;测试集301例,其中KD 205例,待鉴别发热类疾病96例。单因素分析结果显示差异有统计学意义37项信息。Logistic回归分类模型有16个变量纳入最佳回归方程。BP神经网络输入层、隐含层和输出层分别有37、24和1个节点。Logistic回归分类模型对训练集和测试集的分类正确率为84.1%和82.1%,ROC曲线下面积为0.91和0.89;BP神经网络模型对训练集和测试集的分类正确率为96.4%和86.0%,ROC曲线下面积为0.94和0.92;2个模型的敏感度均很好, BP神经网络模型的特异度优于Logistic回归分类模型。结论 本文建立的BP神经网络诊断模型对KD有较好的诊断辅助功能,有待进一步通过临床检验。
川崎病; 发热疾病; Logistic回归; BP神经网络; 诊断模型
川崎病(KD)是一种病因未明的急性、自限性的血管炎,高发人群为5岁以下的儿童,是获得性心脏病的主要病因之一。目前国内外对KD的鉴别诊断研究取得了很大进展,研究发现一些炎症指标、蛋白质标记物或基因标记物可作为KD的诊断指标[1~6]。但目前尚无任何一种生物标志物在独立诊断KD时具有满意的敏感度和特异度,需与临床检查相结合进行诊断。近年来有研究证明随机森林和线性判别等数据挖掘方法可提高KD的诊断率[7~9],但相关研究分析的样本量不大,且指标均由经验选取,有一定的局限性。本研究基于病历的相关信息,运用神经网络技术构建了诊断模型,以期提供简便、可靠的KD辅助诊断方法。
1 方法
1.1 研究设计 预试验采集归类儿童KD和待鉴别发热疾病的临床表现、实验室指标,确定建模所用数据。经数据清洗、数据转换和数据规约的处理,采用单因素分析进行特征提取有统计学意义的变量。使用R 3.2.3软件中的随机抽样函数将样本随机分为训练集和测试集。分别构建Logistic回归和BP神经网络模型对KD和待鉴别发热疾病进行分类,通过诊断参数对两模型进行评价和分类效果比较,确定最优模型。
1.2 KD的诊断标准 参照美国心脏病协会2004年修订的KD诊断标准[10]。①持续发热>5 d;②急性期手足硬肿和掌跖发红,第2~4周时指趾端出现膜状脱皮;③多形性红斑;④双侧结膜充血;⑤口腔及咽部黏膜弥漫充血,唇发红及干裂,并呈杨梅舌;⑥颈淋巴结的非化脓性肿胀,其直径>1.5 cm。除符合第①项之外,还需要满足② ~⑥中的4项,并且排除其他可以引起类似症状体征的疾病。
1.3 待鉴别发热疾病及其诊断 本文选择以下疾病,诊断符合重庆医科大学附属儿童医院(我院)疾病诊疗常规。麻疹、败血症、幼年特发性关节炎、多形性红斑、猩红热、EB病毒感染、支气管肺炎、支原体感染、上呼吸道感染、Stevens-Johnsons综合征、病毒性脑炎、颈淋巴结炎、蜂窝组织炎和手足口病。
1.4 KD和待鉴别发热疾病共同纳入标准 ①我院2007年1月至2016年1月电子病历系统中出院诊断为KD(连续病例,包括不完全KD)和1.3项所列疾病的病历(至少有KD临床诊断标准中的一项症状或体征);②同一患儿多次入院,取第一次入院信息.
1.5 KD和待鉴别发热疾病排除标准 ①本文采集的临床指标缺失值>20项的病历,②KD病例病史中记录患儿入我院前接受过丙种球蛋白治疗。
1.6 临床信息采集及判断 使用SQL Server 2008 数据库管理工具从病历中单人截取以下51项临床信息。
1.6.1 一般信息 性别、发病年龄。
1.6.2 临床表现 ①病历中有以下描述归纳为颈部淋巴结肿大:颈部淋巴结肿大、颈部淋巴结扪及肿大、颈部扪及包块、颈部淋巴结稍肿大、颈部淋巴结肿、颈部淋巴结数个肿大、颈部淋巴结约黄豆大、颈部淋巴结数个、颈部淋巴结数枚、颈部淋巴结0.5 cm×0.5 cm、颈部淋巴结豌豆大、颈部淋巴结花生米大、颈部淋巴结数个肿大约蚕豆大、颈部淋巴结可触及、颈部淋巴结炎肿大、颈部淋巴结增大、颈部淋巴结大、颈部超声见多个肿大淋巴结、颈部浅表淋巴结轻度肿大、颈部可闻及包块;②病历中有以下描述归纳为皮疹,皮疹、荨麻疹、丘疹、斑丘疹、玫瑰疹、充血性皮疹、红色皮疹、全身散在红色皮疹、淡红色皮疹、充血性皮疹;③病历中有以下描述归纳为眼结膜充血:眼结膜充血、球结膜充血、双眼睑结膜充血、结膜稍充血、结膜红、结膜弥漫性充血、结膜面紫红、结膜轻度发红、结膜面局部充血、结膜轻微充血;④病历中有以下描述归纳为口咽变化:咽红、咽充血、咽部黏膜慢性充血、咽稍充血、咽中红、咽微红、咽部出血、唇红、唇干燥发红、唇樱红、唇皲裂、唇周有溃疡、口唇糜烂、唇周发绀、唇周可见皮藓、唇周干裂、口唇破溃、唇周脱屑、口唇可见结痂、嘴唇脱皮、杨梅舌;⑤病历中有以下描述归纳为手足变化:趾指端脱屑、手指脱屑、指端脱屑、手指脱皮、手指发紫、手指红肿、脚掌红肿压痛、手足硬肿、指甲板凹凸不平、手指红肿脱皮、指/趾脱屑、手指末端肿胀、指脱屑。
1.6.3 实验室指标 CRP、WBC、ESR、淋巴细胞百分比、单核细胞百分比、中性粒细胞百分比、嗜酸细胞百分比、RBC、Hb、HCT、平均RBC体积(MCV)、平均血红蛋白量(MCH)、平均Hb浓度(MCHC)、RBC分布宽度(RDW)、RBC分布绝对值、PLT、PLT平均体积(MPV)、大PLT比率、PLT宽度(PDW)、PLT压积(PCT)、结合胆红素(CB)、总胆红素(TBIL)、白蛋白(ALB)、球蛋白(GLB)、谷氨酰转肽酶(GGT)、ALT、AST、AST/ALT(ASAL)、乳酸脱氢酶(LDH)、总蛋白(TP)、碱性磷酸酶(ALP)、SCr、血清K、血清Pi、血清Cl、血清Mg、血清Ca、血清Na、尿胆红素(BIL)、尿蛋白质、BUN、尿酸(UA)、尿亚硝酸盐(NIT)、酮体(KET)。
1.7 临床信息赋值 男编码为0,女编码为1;病历中未出现以上临床症状和实验室定性阴性,编码为0,否则编码为1。分类数据在正常参考值范围内编码为0,否则编码为1。
1.8 基于Logistic回归建立模型 本研究的观察结果为患KD或待鉴别发热疾病,为二元Logistic回归。将与KD相关的临床表现和实验室指标作为Logistic回归模型的自变量,诊断结果作为因变量,对训练集样本进行逐步向前Logistic回归,P<0.05为差异有统计学意义。
1.9 基于BP神经网络建立模型 网络的输入对应每个训练样本的输入变量,并将这些输入提供给输入层的单元,按照输出的弧的权重进行线性加权,再经过激活函数变换后提供给第一个隐含层,该隐含层的输出可以输入到另一个隐藏层,以此类推。最后一个隐藏层的权重输出作为构成输出层的单元的输入,输出层输出给定样本的网络预测值。BP神经网络采用误差反向传播学习算法,把每个样本实际值和预测值相比较进行学习。对于每一个训练样本,修改权重使得网络预测和实际目标值之间的均方误差最小。修改是“后向”进行的,即由输出层经由各个隐含层到第一个隐藏层。通过这种信息前向传播和误差逆向传播的反复交替的过程来训练网络,最终使网络趋于收敛。
1.10 统计分析 使用R3.2.3 软件进行统计分析和模型构建,计数资料采用χ2检验,用 %表示,计量资料采用t检验,用均数±标准差表示,P<0.05为差异有统计学意义。
2 结果
2.1 一般情况 本研究纳入KD患儿905例,男490例,女415例,年龄1~18(2.7±2.1)岁;待鉴别发热疾病患儿438例,男242例,女196例,年龄1~18(4.0±3.9)岁。待鉴别发热疾病包括麻疹19例,败血症22例,幼年特发性关节炎37例,多形性红斑4例,猩红热2例,药疹1例,EB病毒感染29例,支气管肺炎53例,支原体感染16例,上呼吸道感染157例,Stevens-Johnsons综合征2例,病毒性脑炎6例,颈淋巴结炎20例,蜂窝组织炎7例,手足口病13例。训练集1 042例,其中KD 700例,待鉴别发热类疾病342例;测试集301例,其中KD 205例,待鉴别发热类疾病96例。
2.2 单因素分析 表1显示,对纳入分析的1 343例KD和待鉴别发热疾病病例采集的51项信息进行单因素分析,差异有统计学意义为37项。
表1 51项临床信息的单因素分析[n(%)]
2.3 Logistic回归分类模型 采用逐步向前的回归方法,使用训练集数据对单因素分析结果中差异有统计学意义的37项建立Logistic回归分类模型,并通过测试集数据对模型的性能进行评估。表2显示,在回归分析的结果中,16个变量纳入最佳回归方程,对KD与待鉴别的发热性疾病有较好的预测价值。
表2 Logistic回归分析结果
2.4 BP神经网络分类模型 将单因素分析结果中有统计学意义的37项指标作为BP神经网络的输入参数,待分类的疾病类别为KD和待鉴别发热疾病,经过多次训练(图1),当隐含层节点数为24时,BP神经网络对训练集和测试集的拟合效果最好,故BP神经网络输入层有37个节点,隐含层有24个节点,输出层有1个节点。使用训练集数据训练BP神经网络模型,测试集数据评估模型的预测分类能力。
2.5 Logistic回归分类模型和BP神经网络模型的比较 表3显示2个模型的诊断参数。Logistic回归分类模型对训练集和测试集的分类正确率分别为84.1%和82.1%,ROC曲线下面积分别为0.91和0.89;BP神经网络模型对训练集和测试集的分类正确率分别为96.4%和86%,ROC曲线下的面积分别为0.94和0.92;2个模型的敏感度均很好, BP神经网络模型的特异度优于Logistic回归分类模型。
图1 在不同隐藏层节点数下的模型误判率
注 误判率=1-分类正确率,使用不同的隐含层节点数进行重复试验,当隐含层节点数为24时,模型对于训练集和测试集的误判率最低,故确定本研究BP神经网络模型的隐含层节点数为24,图中圆圈标记为最佳隐藏层节点数和其相应误判率。
表3 Logistic回归分类模型和BP神经网络模型诊断参数比较
3 讨论
KD分为完全和不完全KD。其主要临床表现为持续高热、杨梅舌、非渗出性双侧眼结膜充血、口腔黏膜弥漫充血、手足硬性红肿、皮疹和颈部淋巴结肿大等[10]。目前KD的诊断主要基于临床体征和非特异性的实验室指标,但由于许多发热性疾病和KD具有相似的临床表现,如猩红热、EB病毒感染、幼年特发性关节炎、麻疹和腺病毒感染等,此外,15%~36.2%的KD患儿不具备完全的KD临床表现,即不完全KD,这些都可能导致KD的误诊和延迟诊断[11]。未经及时治疗的KD患儿中20%~25%会发生冠状动脉损害[8],部分患儿会引发冠状动脉瘤,少数患儿会引起局部缺血性心脏病、心肌梗死或者猝死[12]。
KD尚无特异性的诊断方法,通常依赖于患儿的临床表现,对于经验不足的临床医生,有可能会造成KD的误诊,因此KD与许多发热性疾病的鉴别诊断在临床工作中十分重要。本研究基于BP神经网络方法实现的KD和待鉴别发热疾病的鉴别诊断模型,解决了KD早期各项临床体征和实验室指标与诊断结果之间的非线性关系,其诊断效果得到了较好的验证,且诊断准确率高于Logistic回归分类模型。BP神经网络模型敏感度和特异度较高,分类鉴别过程简单,克服了主观因素的影响,为基于经验的KD诊断提供了一种有价值的计算机辅助诊断方法。基于本文BP神经网络模型的建立进一步开发KD辅助诊断系统,将本研究筛选的有统计学意义的指标输入计算机,系统会给出诊断提示。对临床鉴别诊断KD与待鉴别发热疾病有一定的辅助作用,具有潜在的临床意义。
本研究的局限性:①尽管本研究全面采集了实验室指标和临床体征等信息,但由于部分指标仅有少数患儿进行了检查,故未纳入分析,其与KD的关系及预测性有待数据量扩大后进一步分析。②BP神经网络模型并不完全具备临床医生的诊疗思维,也缺乏对KD复杂性的灵活应变,仅对临床医生的诊疗决策起辅助作用。③本研究仅对KD和待鉴别发热疾病进行了分类鉴别,下一步重点研究的内容之一是分析不完全KD与待鉴别发热疾病的差异。
致谢:本研究在后期分析指标和鉴别发热性疾病的筛选中,得到了重庆医科大学附属儿童医院心内科张静教授的具体指导,谨致谢意!
[1] Song XY,Huang JY,Hong Q,et al.Platelet count and erythrocyte sedimentation rate are good predictors of Kawasaki disease:ROC analysis.J Clin Lab Anal,2010,24(6):385-388
[2] Dahdah N,Siles A,Fournier A,et al.Natriuretic peptide as an adjunctive diagnostic test in the acute phase of Kawasaki disease.Pediatr Cardiol,2009,30(6):810-817
[3] Kentsis A,Shulman A,Ahmed S,et al.Urine proteomics for discovery of improved diagnostic markers of Kawasaki disease.EMBO Mol Med,2013,5(2):210-220
[4] Huang MY,Gupta-Malhotra M,Huang JJ,et al.Acute-Phase Reactants and a Supplemental Diagnostic Aid for Kawasaki Disease.Pediatr Cardiol,2010,31(8):1209-1213
[5] Oh JH,Han JW,Lee SJ,et al.Polymorphisms of human leukocyte antigen genes in korean children with Kawasaki disease.Pediatr Cardiol,2008,29(2):402-408
[6] Chi H,Huang FY,Chen MR,et al.ITPKC gene SNP rs28493229 and Kawasaki disease in Taiwanese children.Hum Mol Genet,2010,19(6):1147-1151
[7] Tremoulet AH,Dutkowski J,Sato Y,et al.Novel data-mining approach identifies biomarkers for diagnosis of Kawasaki disease.Pediatr Res,2015,78(5):547-553
[8] Ling XB,Kanegaye JT,Ji J,et al.Point-of-care differentiation of Kawasaki disease from other febrile illnesses.J Pediatr,2012,162(1):183-188
[9] Hao S,Jin B,Tan Z,et al.A Classification Tool for Differentiation of Kawasaki Disease from Other Febrile Illnesses.J Pediatr,2016,176(8):114-120
[10] Newburger JW,Takahashi M,Gerber MA,et al.Diagnosis,treatment,and long-term management of Kawasaki disease:a statement for health professionals from the Committee on Rheumatic Fever,Endocarditis,and Kawasaki Disease,Council on Cardiovascular Disease in the Young,American Heart Association.Pediatrics,2004,114(6):1708-1733
[11] Yu JJ.Diagnosis of incomplete Kawasaki disease.Korean J Pediatr.,2012,55(3):83-87
[12] Kato H,Sugimura T,Akagi T,et al.Long-term consequences of Kawasaki disease.Circulation,1997,96(3):231-232
(本文编辑:张崇凡,孙晋枫)
BP neural network model for the differentiation of Kawasaki disease and febrile illnesses based on data mining
FANChu1,HEXiang-qian1,YUYue1,TIANJie2,ZHANGSheng1,LIZhe1
(1CollegeofMedicalInformatics,ChongqingMedicalUniversity,Chongqing400016,China;2DepartmentofCardiology,Children'sHospital,ChongqingMedicalUniversity,Chongqing400000,China)
HE Xiang-qian,E-mail:hexiangqian@cqmu.edu.cn
ObjectiveA BP neural network model for diagnosing Kawasaki disease(KD)based on laboratory tests and clinical symptoms was developed and evaluated.MethodsConsecutive cases of diagnosis for KD and other common febrile illnesses in electronic medical record system of Children's Hospital of Chongqing Medical University from January 2007 to January 2016 was collected as the study subject.Subjects were randomized into training cohort and test cohort using random sampling function in R 3.2.3.Totally 51 clinical information including demographic data,laboratory tests and clinical symptoms were collected and analyzed by univariate analysis to identify significant variables .The diagnostic model was established using Logistic regression analysis and BP neural network,respectively.And the diagnostic performance of the two methods was compared.ResultsA total of 905 patients with KD and 438 patients with other febrile illnesses were included:1 042 patients (700 patients with KD,342 patients with other febrile illnesses) as the training cohort and 301 patients (205 patients with KD,96 patients with other febrile illnesses ) as the testing cohort.Univariate analysis showed that 37 variables had significant difference between KD and other febrile illness.Logistic regression analysis showed that 16 variables were included in the optimal regression equation.This BP neural network had 37 input layer nodes,24 hidden layer nodes and 1 output layer nodes.Logistic regression analysis accurately diagnosed 84.1% of training cohort and 82.1% of testing cohort,the ROC analysis of Logistic regression revealed that AUC was 0.91 in training cohort and 0.89 in testing cohort.The accuracy of BP neural network was 96.4% and 86%,AUC was 0.94 and 0.92.These two models showed reasonably high sensitivity.The specificity of BP neural network model was significantly higher than that of Logistic regression model.ConclusionA BP neural network model was developed,which has important accessory diagnostic value for diagnosis of KD.But all these conclusions need further validation in clinic.
Kawasaki disease; Febrile illnesses; Logistic regression; BP neural network; Diagnostic model
重庆市自然科学基金:cstc2015shmszx0301
1重庆医科大学医学信息学院 重庆,400016; 2 重庆医科大学附属儿童医院心内科 重庆,400000
贺向前 ,E-mail:hexiangqian@cqmu.edu.cn
10.3969/j.issn.1673-5501.2017.01.005
2017-02-16
2017-02-21)