基于人工神经网络的肿瘤标志蛋白芯片在肺癌辅助诊断中的应用*
2012-12-07谭善娟余春华吴拥军吴逸明
谭善娟,余春华,王 威,吴拥军#,吴逸明
1)郑州大学公共卫生学院卫生毒理学教研室郑州 450001 2)郑州大学第五附属医院呼吸内科郑州 450052
#通讯作者,男,1968年1月生,博士,教授,研究方向:肺癌的病因学、预防、早期诊断和综合治疗,E-mail:wuyongjun@zzu.edu.cn
基于人工神经网络的肿瘤标志蛋白芯片在肺癌辅助诊断中的应用*
谭善娟1),余春华2),王 威1),吴拥军1)#,吴逸明1)
1)郑州大学公共卫生学院卫生毒理学教研室郑州 450001 2)郑州大学第五附属医院呼吸内科郑州 450052
#通讯作者,男,1968年1月生,博士,教授,研究方向:肺癌的病因学、预防、早期诊断和综合治疗,E-mail:wuyongjun@zzu.edu.cn
肺癌;人工神经网络;肿瘤标志;蛋白芯片;诊断
目的:应用人工神经网络技术,联合肿瘤标志蛋白芯片对肺癌及肺良性疾病进行诊断,建立肿瘤标志蛋白芯片联合人工智能的辅助诊断模型。方法:收集有肿瘤标志蛋白芯片检测记录的肺癌和肺良性疾病患者共102例,其中肺癌50例,肺良性疾病52例。利用人工神经网络技术,对9项指标进行联合检测,建立基于人工神经网络的肿瘤标志蛋白芯片智能诊断模型。结果:人工神经网络模型、判别分析和蛋白芯片检测系统对肺良性疾病和肺癌识别的准确度分别为88.0%、64.0%和60.0%,人工神经网络模型的ROC曲线下面积0.878,准确度较好,而判别分析模型的ROC曲线下面积(0.635)和肿瘤标志联合检测的ROC曲线下面积(0.596)均<0.7,准确度较差。结论:人工神经网络联合多肿瘤标志蛋白芯片检测系统建立的模型可以很好地区分肺癌和肺良性疾病,对肺癌的诊断和鉴别诊断效果优于判别分析和蛋白芯片检测系统。
肺癌的起病比较隐匿,当出现典型症状时往往已到中晚期,预后极差。早期诊断和及时治疗是提高肺癌患者生存率的关键。多肿瘤标志蛋白芯片检测系统以高通量、高灵敏度、高特异性、低花费等优点被广泛用于临床辅助诊断[1]。但肿瘤标志的联合检测在提高诊断阳性率的同时也会带来大量的研究参数,一般的统计学方法很难对复杂的参数问题作出正确判断。人工神经网络(artificial neural net-work,ANN)是一种新型智能化信息处理系统,非常适用于医学中模式识别与分类。该研究通过收集有肿瘤标志蛋白芯片检测结果的肺癌和肺良性疾病患者的资料,联合建立ANN模型和判别分析模型,探讨这2种检测技术对肺癌的辅助诊断意义。
1 对象与方法
1.1 研究对象 收集郑州大学第五附属医院2010年5月至12月有肿瘤标志蛋白芯片检测记录的肺癌和肺良性疾病住院患者102例,肿瘤标志检测均经患者同意。其中肺癌患者50例,均经病理学或细胞学证实为原发性肺癌,小细胞肺癌(small cell lung cancer,SCLC)10例,腺癌17例,鳞状细胞癌17例,大细胞癌6例;Ⅰ期7例,Ⅱ期11例,Ⅲ期13例,Ⅳ期19例;年龄(65.9±12.6)岁;男38例,女12例。肺良性疾病患者52例,均未合并肺或其他器官肿瘤,年龄(63.9±16.1)岁;男35例,女17例;其中肺炎30例,慢性阻塞性肺疾病7例,支气管扩张4例,肺间质纤维化4例,结核3例,其他4例。
1.2 肿瘤标志蛋白芯片检测方法 空腹抽取2 mL肘静脉血,离心后分离血清,置冻存管内密封,-80℃保存备用,并在4 d内完成检测。所有研究对象的血清肿瘤标志检测操作由专职人员严格按照湖州数康生物科技有限公司的多肿瘤标志蛋白芯片检测试剂盒说明书进行操作。
1.3 检测项目的阳性判断标准 阳性临界值如下: CEA>5 μg/L,CA19-9>35 kU/L,NSE>13 μg/L,CA242>35 kU/L,CA153>35 kU/L,CA125>35 kU/ L,AFP>20 μg/L,铁蛋白(SF)>322 μg/L(男)及>219 μg/L(女),HGH>7.5 μg/L;1项或1项以上肿瘤标志的检测值高于正常值视为阳性。
1.4 训练和测试集选择 随机选择样本中75%病例作为训练集(肺癌38例,肺良性疾病39例),其余25%作为测试集(肺癌12例,肺良性疾病13例)用来测试已建立的模型的预测准确度。
1.5 ANN结构的设计 利用Matlab 7.1软件中的神经网络工具箱实现ANN算法。该研究采用三层神经网络的BP网络算法训练模型,输入层和输出层神经元个数分别为9(9项肿瘤标志)和1,隐含层神经元个数根据经验和尝试后确定为7。目标误差选0.04;动量因子mc为0.90;采用自适应学习速率法自动地对学习速率进行调整,避免不变的学习速率在训练后期对收敛速度可能的影响,学习速率为0.05,学习速率的递增乘因子为1.08,递减乘因子为0.6;最大迭代次数为5 000。肺良性疾病组的期望输出值为0.2;肺癌组的期望输出值为0.8,以0.5为界限,<0.5为肺良性疾病患者,≥0.5为肺癌患者。
1.6 统计学处理 采用SPSS 12.0进行统计学处理。CEA、CA19-9、NSE、CA242、CA153、CA125、AFP、SF和HGH作为定量资料分析时组间比较采用秩和检验,作为定性资料分析时CEA、CA125组间比较采用χ2检验,CA19-9、NSE、CA242、CA153、AFP和SF组间比较采用Fisher确切概率法;ROC曲线下面积(AUC)<0.5时无诊断意义,0.5~准确度较低,0.7~准确度较好,0.9~准确度最好。检验水准α=0.05。
2 结果
2.1 血清肿瘤标志的测定结果 9种血清肿瘤标志的阳性率比较见表1,测定结果见表2。
表19 种血清肿瘤标志的阳性率比较 %
表2 肺癌组和肺良性疾病组血清肿瘤标志的测定结果
2.2 肺癌-肺良性疾病的ANN模型构建 经过4 542次迭代后达到预期误差,结束训练。输出结果显示,训练集中肺癌患者中34例被正确分类,占89.5%,肺良性疾病患者中36例被正确分类,占92.3%,该模型对所有训练集的正确识别率为90.9%,模型可靠,可以用于肺癌的预测。
2.3 ANN、判别分析模型及多肿瘤标志蛋白芯片对预测集预测效果的比较 结果见表3。判别分析模型和多肿瘤标志蛋白芯片的AUC分别为0.635和0.596,准确度较低;ANN的AUC为0.878,准确度较好。
表3 ANN、判别分析模型及多肿瘤标志蛋白芯片对肺癌预测效果的比较
3 讨论
肿瘤标志蛋白芯片检测系统可全面、动态、定量地分析比较肺癌和肺良性疾病或正常对照者血清中的蛋白质种类和数量的变化[2]。该研究结果显示,肿瘤标志蛋白芯片检测系统检测的肺癌组血清AFP、CA125、CEA、NSE和SF水平高于肺良性疾病组,肺癌组CA125、CEA和SF阳性率高于肺良性疾病组,可用于肺癌的辅助诊断。其他肿瘤标志可用于和这些肿瘤标志联合检测,以提高诊断的准确率。
ANN作为一种模式识别工具,可识别与训练集不全相同的输入数据,并把它们判为与其最相似的训练输入类别。一般含有输入层、隐含层和输出层的三层BP网络就可以实现任意的n到m维映射。BP网络的输入和输出神经元数目与数据和希望把输入数据分类的种数有关。隐含层节点数的确定还没有一种有效的方法,大多时候都是凭经验而定。BP网络模型的训练效果与输入数据密切相关[3]。判别分析是多元统计分析中判别所研究的现象或事物归属类型的一种重要方法,其与ANN在解决问题的思路上是一致的。但ANN对变量没有任何的假设要求,可以通过模拟生物神经网络处理一些不确定的、非线性的、复杂的问题,对非线性问题的处理能力优于传统的统计学方法,也可以对多参数问题做出正确判断[4-6]。该研究结果表明,在ANN的辅助下,肿瘤标志蛋白芯片检测系统对肺癌辅助诊断的准确度明显增加,且优于判别分析模型。而该课题组前期选择肿瘤标志联合BP网络建立的肺癌辅助诊断模型的评价指标均达90%以上,这主要是因为ANN模型的诊断能力与所选取的诊断指标有关,该研究选取的肿瘤标志是临床广泛应用的肿瘤蛋白芯片所能检测的指标,而前期所选的指标大都是针对肺癌特异性较好的肿瘤标志进行联合检测[6-8]。
综上所述,ANN和多肿瘤标志蛋白芯片检测系统相结合可以优势互补[9-10],为肺癌的辅助诊断及鉴别诊断提供简便快捷而又可靠的依据,从而减少误诊、漏诊。
[1]Liang Z,Wang HF,Wu AZ,et al.Clinical value of multitumor markers protein biochip in the diagnosis of pulmonary carcinoma[J].Nan Fang Yi Ke Da Xue Xue Bao,2010,30(11):2516
[2]周建光,杨梅.多肿瘤标志物蛋白芯片检测在肿瘤诊断中的临床应用及研究进展[J].中国医学检验杂志,2010,11(3):165
[3]张矗,吴逸明,吴拥军,等.人工神经网络技术在纤维支气管镜诊断肺癌中的应用[J].郑州大学学报:医学版,2010,45(1):113
[4]Zhang Z,Yu YH,Xu FJ,et al.Combining multiple serum tumor markers improves detection of stageⅠepithelial ovarian cancer[J].Gynecol Oncol,2007,107(3):526
[5]Anderson B,Hardin JM,Alexander DD,et al.Comparison of the predictive qualities of three prognostic models of colorectal cancer[J].Front Biosci(Elite Ed),2010,2:849
[6]吴拥军,吴逸明,张振中,等.基于人工神经网络的“最优标志物群”在肺癌诊断中的应用研究[J].实用肿瘤杂志,2002,17(5):317
[7]周晓蕾,冯斐斐,张昭,等.人工神经网络模型在肺癌与胃癌或肠癌中的鉴别分析[J].实用医学杂志,2011,27 (18):3312
[8]冯斐斐,吴拥军,聂广金,等.基于“优化肿瘤标志群”建立的人工神经网络模型对肺癌辅助诊断的作用[J].肿瘤防治研究,2011,38(6):709
[9]刘春艳,贾鹏,刘文君.应用表面增强激光解吸电离飞行时间质谱筛选急性特发性血小板减少性紫癜患儿血清生物标志物[J].实用儿科临床杂志,2011,26(15): 1172
[10]张谦,单岩,王家祥,等.基于人工神经网络的血清蛋白质指纹图谱模型在先天性巨结肠患儿诊断中的应用[J].实用儿科临床杂志,2008,23(17):1382
Application of tumor marker protein biochip combined with artificial neural network in diagnosis of lung cancer
TAN Shanjuan1),YU Chunhua2),WANG Wei1),WU Yongjun1),WU Yiming1)1)Department of Health Toxicology,College of Public Health,Zhengzhou University,Zhengzhou 4500012)Department of Respiratory Medicine,the Fifth Affiliated Hospital,Zhengzhou University,Zhengzhou 450052
lung cancer;artificial neural network;tumor marker;protein biochip;diagnosis
Aim:To establish two classification models of artificial neural networks(ANN)and Fisher discrimination analysis,and to compare the differences among two models and the multiple tumor marker protein biochip detective system in the diagnosis of lung cancer.Methods:The clinical data and multiple tumor marker protein biochip detective system records of 102 lung disease patients(50 cases of lung cancer and 52 cases of benign pulmonary diseases)were retrospectively reviewed,and then the models of ANN and Fisher discrimination analysis were developed.Results:The accuracy of ANN,Fisher discrimination analysis and multiple tumor marker protein biochip detective system was 88.0%,64.0% and 60.0%.The area under ROC curve of ANN(0.878)was higher than that of Fisher discrimination analysis(0.635)and multiple tumor marker protein biochip detective system(0.596).Conclusion:The effects of ANN model established by multiple tumor marker protein biochip detective system are better than those of Fisher discrimination analysis and multiple tumor marker protein biochip detective system in discrimination of lung cancer.
R734
10.3969/j.issn.1671-6825.2012.06.005*国家自然科学基金资助项目 30972457;河南省医学科技攻关计划基金资助项目 2011020082
(2011-12-09收稿 责任编辑姜春霞)