基于肿瘤标志群的人工神经网络模型对肺癌辅助诊断的价值*
2014-09-01李尊税魏小玲何其栋张红巧吴拥军
李尊税,魏小玲,何其栋,张红巧,吴拥军#
1)郑州大学公共卫生学院卫生毒理学教研室 郑州 450001 2)济南市儿童医院感染科 济南 250022 3)郑州大学第五附属医院肿瘤科 郑州 450052
基于肿瘤标志群的人工神经网络模型对肺癌辅助诊断的价值*
李尊税1),魏小玲2),何其栋1),张红巧3),吴拥军1)#
1)郑州大学公共卫生学院卫生毒理学教研室 郑州 450001 2)济南市儿童医院感染科 济南 250022 3)郑州大学第五附属医院肿瘤科 郑州 450052
#通讯作者,男,1968年1月生,博士,教授,研究方向:生物化学与分子毒理学,E-mail:wuyongjun@zzu.edu.cn
肺癌;肿瘤标志;人工神经网络;Fisher 判别分析;辅助诊断
目的:应用人工神经网络(ANN)技术联合肿瘤标志蛋白芯片建立人工智能辅助诊断模型,探讨其对肺癌诊断的价值。方法采用蛋白芯片(化学发光法)测定201例肺良性疾病患者、202例肺癌患者血清中9项血清肿瘤标志(CA199、Ferritin、AFP、CA153、CEA、NSE、CA242、CA125、HGH)的水平,logistic回归筛选,建立ANN和Fisher判别分析肺癌诊断模型。结果4项肿瘤标志(CEA、NSE、Ferritin、CA153)建立的ANN模型的ROC曲线下面积(0.850)高于4项Fisher、6项(CEA、NSE、Ferritin、CA153、AFP、CA125)Fisher和6项ANN的ROC曲线下面积(0.793、0.767和0.825)。结论基于4种肿瘤标志的ANN模型判别诊断肺癌的效果优于Fisher判别分析,优于6种肿瘤标志建立的ANN模型;ANN模型诊断效果优于Fisher判别分析。
肺癌严重威胁着人类健康,病死率较高,临床上迫切需要开发新的生物标志对肺癌进行诊断[1-2]。以往的数据处理方式对临床数据要求过高,而实际临床数据往往达不到要求。数据挖掘技术对临床数据要求并不十分严格,且该技术应用于肺癌判别诊断可以提高肺癌的检出率[3]。当使用多种肿瘤标志联合检测时,一些肿瘤标志假阳性率低,不仅不利于检测,而且还会带来大量的参数,增加诊断的成本。该研究应用蛋白芯片检测系统测定肺癌和肺良性疾病患者血清中CA242、CEA、CA125、CA199、NSE、Ferritin、AFP、HGH和CA153等9项肿瘤标志的血清水平[4],对原始数据进行对数处理,并对处理前后的数据利用logistic回归加以筛选,分别建立人工神经网络(artificial neural network,ANN)模型和判别分析模型,探讨ANN诊断模型对肺癌辅助诊断的意义。
1 对象与方法
1.1研究对象选择2010年6月至2011年12月郑州大学第五附属医院呼吸内科及肿瘤科收治的有肿瘤标志蛋白芯片检测记录的肺癌和肺良性疾病患者403例,其中肺癌患者202例,肺良性疾病患者201例。所有肺癌患者均得到病理学或细胞学确诊,肺良性疾病患者均未合并肺或其他器官肿瘤。血清标本和流行病学资料的收集均经研究对象知情同意后由专业调查员和医生收集。一般资料包括性别、年龄、吸烟等,其中吸烟的定义为1支/d且吸烟1 a以上[3]。
1.2血清肿瘤标志检测方法和主要试剂多肿瘤标志蛋白芯片检测(化学发光法)试剂盒由浙江湖州数康生物科技有限公司提供。检测工具为HD2001-A生物芯片阅读器。由专职人员严格按照试剂盒说明书进行操作。
1.3正常参考值范围以试剂盒提供的参考值作为阳性阈值:即CEA>5 μg/L,CA199>35 kU/L,NSE>13 μg/L,CA242>20 kU/L,CA153>35 kU/L,CA125>35 kU/L,AFP>20 μg/L,Ferritin男>322 μg/L、女>219 μg/L,HGH>7.5 μg/L为阳性。
1.4ANN模型的建立对9项肿瘤标志的血清水平和人口学特征先进行Kruskal-Wallis检验,再采用logistic逐步回归进行分析,以α=0.05作为变量进入标准,α=0.10作为变量剔除标准,进入变量作为输入变量,输出变量定义1为肺癌、0为肺良性疾病。随机选择样本中75%病例作为训练集(肺癌150例,肺良性疾病150例),将部分样本作为预测集(肺癌199例,肺良性疾病201例)来测试已建立模型的预测准确度。
1.5统计学处理采用SPSS 12.0进行统计学分析。采用SPSS 12.0建立判别分析、ANN模型,MedCalc V12.4.0绘制ROC曲线并比较4种模型的ROC曲线下面积(AUC);2组患者年龄、性别构成、吸烟情况的比较采用t检验或χ2检验,9种血清肿瘤标志水平的比较采用秩和检验。检验水准α=0.05。
2 结果
2.1研究对象的一般情况见表1。2组年龄、性别构成、吸烟情况比较,差异均有统计学意义。
表1 2组研究对象的一般特征
2.2血清肿瘤标志检测结果肺癌组9种肿瘤标志水平均高于肺良性疾病组,见表2。
表2 2组9种血清肿瘤标志检测结果
表中数据为M(P25~P75)。
2.3Logistic回归分析结果
2.3.1 4项肿瘤标志的筛选 吸烟状况赋值,0=不吸烟,1=吸烟;9种肿瘤标志以血清水平进行赋值。筛选结果见表3。
表3 4项肿瘤标志的logistic回归分析结果
2.3.2 6项肿瘤标志的筛选 对9种肿瘤标志的血清水平进行对数处理后,再利用logistic逐步回归进行分析,筛选出的6种生物标志分别是CEA、NSE、CA153、Ferritin、AFP、CA125,见表4。
表4 6项肿瘤标志的logistic回归分析结果
2.4肺癌-肺良性疾病的ANN和Fisher判别分析模型构建运用4项肿瘤标志群和6项肿瘤标志群建立ANN模型和Fisher判别分析模型预测集的分类结果见表5。
表5 各模型预测集的分类结果 例
2.5 4种模型的预测结果见图1和表6。
图1 4种模型对预测集分类的ROC曲线
1:4项ANN;2:6项ANN;3:4项Fisher分析;4:6项Fisher分析。
表6 4种模型对预测集的诊断结果
3 讨论
肿瘤标志蛋白芯片检测系统可以全面定量地检测肺癌患者和正常对照者血清中的蛋白质种类和数量变化[5],对于无明显症状的门诊患者的筛查或临床肿瘤的辅助诊断,特别是对高危人群的筛查有一定意义[6]。已有研究[7-8]证实,肺癌患者血清肿瘤标志Ferritin、CA153、CEA、NSE水平均明显高于肺良性疾病患者,将几种指标进行联合检测可以提高肺癌检出的特异度和灵敏度。
该研究对CA199、Ferritin、AFP、CA153、CEA、NSE、CA242、CA125、HGH等9项肿瘤标志的血清水平进行检测,并联合年龄和吸烟情况进行分析,发现肺癌组均高于肺良性疾病组,差异有统计学意义。Logistic回归分析时,CA199、AFP、CA242、CA125和HGH未进入方程,说明与其他4项肿瘤标志相比,它们对肺癌影响较小。这可能与CA199、AFP、CA242、CA125和HGH在肺癌患者血清阳性率较低和特异性差有关[9-10]。
ANN最早是在医学领域中辅助临床进行疾病诊断,实现对疾病客观的检测和分类,达到提高疾病监测和鉴别诊断有效率的目的[11]。在数据处理上ANN并不要求原始数据必须符合正态分布,这点优于传统方法;其次ANN具有良好的容错性,提高了样本利用率[12-13];在传统统计学中,联合检测的标志越多,阳性率和假阳性率同时升高,而ANN可以在提高阳性率的同时提高特异性[14]。该研究在logistic回归分析筛选出NSE、CEA、Ferritin、CA153等4种肿瘤标志的基础上联合年龄、吸烟情况建立诊断模型,筛选后的肿瘤标志群建立的ANN 诊断模型的AUC为0.850,优于4项的Fisher判别分析、6项的ANN和判别分析,说明该模型联合肿瘤标志检测能够较好地应用于肺癌的辅助诊断。总之,该研究优化了诊断指标,有利于医生的判断,可降低诊疗成本,对于开发新的肺癌特异性的检测试剂盒有一定的参考价值。
[1]Zhang Y,Yang D,Weng L,et al.Early lung cancer diagnosis by biosensors[J].Int J Mol Sci,2013,14(8):15479
[2]Brothers JF,Hijazi K,Mascaux C,et al.Bridging the clinical gaps:genetic,epigenetic and transcriptomic biomarkers for the early detection of lung cancer in the post-National Lung Screening Trial era[J].BMC Med,2013,11:168
[3]冯斐斐,吴拥军,聂广金,等.基于“优化肿瘤标志群”建立的人工神经网络模型对肺癌辅助诊断的作用[J].肿瘤防治研究,2011,38(6):709
[4]谭善娟,余春华,王威,等.基于人工神经网络的肿瘤标志蛋白芯片在肺癌辅助诊断中的应用[J].郑州大学学报:医学版,2012,47(6):762
[5]周建光,杨梅.多肿瘤标志物蛋白芯片检测在肿瘤诊断中的临床应用及研究进展[J].中国医学检验杂志,2010,11(3):165
[6]谢梅,李艳,陈高.多种肿瘤标志物蛋白芯片检测系统(C-12)对老年肺癌转移诊断的临床价值研究[J].现代肿瘤医学,2012,20(6):1189
[7]李海燕,刘红,王静,等.肿瘤标志物联合检测在肺癌诊断中的价值[J].中国老年学杂志,2012,32(1):46
[8]曾聪,全国莉,王春莲.联合检测6种血清肿瘤标志物在肺癌诊断中的意义[J].广东医学,2012,33(6):808
[9]王峰.血清肿瘤标志物CA125、CA199、CEA、NSE联合检测在肺癌诊断中的应用[J].中国临床实用医学,2010,4(6):17
[10]梁茱,王海枫,吴爱祝,等.多肿瘤标志物蛋白芯片检测系统在肺癌诊断中的临床意义[J].南方医科大学学报,2010,30(11):2516
[11]Vallejo M,Isaza CV,Lopez JD.Artificial Neural Networks as an alternative to traditional fall detection methods[J].Conf Proc IEEE Eng Med Biol Soc,2013,2013:1648
[12]陈杰,周勤.人工神经网络在疾病预后研究中的应用进展[J].中国胸心血管外科临床杂志,2013,20(1):95
[13]白雪峰,王平瑜,吴拥军.基于两种判别模式的肿瘤标志物联合检测对肝癌辅助诊断的价值[J].解放军医学杂志,2012,37(11):1019
[14]张红巧.基于数据挖掘技术的肿瘤标志蛋白芯片在肺癌辅助诊断中的应用[D].郑州:郑州大学,2012.
(2013-11-07收稿 责任编辑姜春霞)
Value of artificial neural network combined with optimal biomarkers in diagnosis of lung cancer
LIZunshui1),WEIXiaoling2),HEQidong1),ZHANGHongqiao3),WUYongjun1)
1)DepartmentofToxicology,CollegeofPublicHealth,ZhengzhouUniversity,Zhengzhou450001 2)DepartmentofInfectiousDisease,JinanChildren’sHospital,Jinan250022 3)DepartmentofOncology,theFifthAffiliatedHospital,ZhengzhouUniversity,Zhengzhou450052
lung cancer;tumor marker;artificial neural network;Fisher discriminant analysis;auxiliary diagnosis
Aim:To establish the model by artificial neural network(ANN) technology combined with tumor marker protein chip for the diagnosis of lung cancer,and to explore the diagnosis value of artificial intelligence model.Methods:Protein chips based on chemiluminescence were used to measure the levels of nine serum tumor markers (CA199,Ferritin,AFP,CA153,CEA,NSE,CA242,CA125,HGH) in 201 cases of benign lung diseases and 203 cases of lung cancer.Multivariate logistic regression was employed to optimize the tumor marker group.ANN and Fisher discriminant analysis was used to develop the two diagnostic model of lung cancer.Results:Based on the optimal four tumor markers(CEA,NSE,Ferritin,CA153),area under the ROC curve of ANN model (0.850) was higher than those of the Fisher discriminant analysis based on the optimal four and six tumor markers (CEA,NSE,Ferritin,CA153,AFP,CA125) as well as ANN model based on the optimal six tumor markers(0.793,0.767 and 0.825).Conclusion:Based on the four kinds of tumor markers in the diagnosis of lung cancer,ANN model is better than Fisher discriminant analysis.ANN model established by six tumor markers is superior to Fisher discriminant analysis.
10.13705/j.issn.1671-6825.2014.05.017
*国家自然科学基金资助项目 30972457,81001239;河南省重大科技攻关项目 112102310102;河南省医学科技攻关计划项目 2011020082
R734.2