APP下载

优化肿瘤标志物群建立的决策树模型对肝癌辅助诊断的价值*

2016-01-29李晓勇周百中崔卫东陈艳军杨战锋

郑州大学学报(医学版) 2015年6期
关键词:决策树肝癌

张 永,李晓勇#,宋 瑜,周百中,崔卫东,赵 甦,陈艳军,杨战锋,郜 宇,杨 华

1)郑州大学第五附属医院肝胆胰腺外科 郑州 450052 2)郑州大学第五附属医院妇产科 郑州 450052



优化肿瘤标志物群建立的决策树模型对肝癌辅助诊断的价值*

张永1),李晓勇1)#,宋瑜2),周百中1),崔卫东1),赵甦1),陈艳军1),杨战锋1),郜宇1),杨华1)

1)郑州大学第五附属医院肝胆胰腺外科 郑州 4500522)郑州大学第五附属医院妇产科 郑州 450052

关键词肝癌;血清肿瘤标志物;决策树;辅助诊断

摘要目的:探讨血清肿瘤标志物检测结合决策树模型在肝癌诊断中的价值。方法:运用肿瘤标志物定量检测试剂盒对119例肝部良性疾病及98例肝癌患者血清中9项肿瘤标志[甲胎蛋白(AFP)、癌胚抗原(CEA)、CA125、CA242、CA199、神经元特异性烯醇化酶(NSE)、铁蛋白(Ferritin)、人生长激素(HGH)和CA153]水平进行检测,应用logistic回归筛选肿瘤标志物,并于筛选前后建立决策树模型和Fisher判别分析模型。结果:肝癌组9项血清肿瘤标志物水平均高于肝良性疾病组(P<0.05)。筛选前基于9项肿瘤标志物、筛选后基于3项肿瘤标志物分别建立Fisher判别分析模型、决策树模型,其预测准确度分别为76.5%、91.2%、74.4%、90.8%。筛选前后决策树模型ROC曲线的AUC分别为0.912 和0.908,高于Fisher判别分析的0.745和0.727(Z=4.512 和4.589,P均<0.05);但决策树模型和Fisher判别分析筛选前后自身相比,差异均无统计学意义(Z=1.855和1.122,P均>0.05)。结论:基于3项血清肿瘤标志物建立的决策树模型诊断肝癌的效果优于 Fisher 判别分析。

AbstractAim: To establish decision tree model based on filtered biomarkers to achieve rapid diagnosis of liver cancer.Methods: The serum levels of 9 tumor markers(AFP,CEA,CA125,CA242,CA199,NSE,Ferritin,HGH and CA153) in 98 patients with liver cancer and 119 patients with benign liver lesion were measured by multiple tumor marker protein biochip, and the models of decision tree and Fisher discrimination analysis were developed based on the tumor markers before and after being filtered by logistic regression.Results: The serum levels of the 9 tumor markers in patients with liver cancer were significantly higher than those in patients with benign liver disease(P<0.05). The accuracies of Fisher discrimination analysis and dicision tree models based on 9 tumor markers and 3 tumor markers filtered by logistic regression were 76.5%, 91.2%, 74.4%, 90.8%, respectively. The area under receiver operating curve(AUC) of dicision tree model was higher than that of Fisher discrimination analysis in both of 9 tumor markers model and 3 tumor markers model(Z=4.512 and 4.589, P<0.05). However, there was no significant difference in AUC between before and after screening in both models(Z=1.855 and 1.122, P>0.05).Conclusion: Compared with the effect of Fisher discrimination analysis, the effect of the decision tree model is better in diagnosing liver cancer especially based on three tumor markers screened by logistic regression.

肝癌有着较高的发病率及病死率,其发病隐匿,易转移,预后较差,因此早期诊断成为降低其病死率的关键所在[1]。甲胎蛋白(alpha fetal protein,AFP)是肝细胞癌筛查、诊断的经典标记物[2],但是AFP对于肝癌的诊断有着很大的局限性,特别是在早期诊断中的价值不高,寻找新的肝癌诊断方法或新的肿瘤标记物或者肿瘤标志物的联合检测成为肝癌鉴别诊断的研究方向[3-6]。有研究[7]表明数据挖掘技术可进行肝癌的诊断,然而考虑到联合检测肿瘤标记物时,其中一部分标记物对肝癌诊断的贡献率并不明显,而且会有大量参数的引入,有时甚至对出现的结果难以做出合理的解释,不同统计方法的联合应用有望解决这一难题。该研究采用蛋白芯片检测系统测定肝脏良、恶性疾病患者血清中9种肿瘤标志物[AFP、癌胚抗原(carcinoembryonic antigen,CEA)、CA125、CA242、CA199、神经元特异性烯醇化酶(neuron specific enolase,NSE)、铁蛋白(Ferritin)、人生长激素(human growth hormone,HGH)和CA153]的水平,采用logistic回归分析筛选以上标志物,并分别建立筛选前后的判别分析模型和决策树模型,探讨其对肝癌辅助诊断的价值。

1对象与方法

1.1研究对象收集2005年1月至2013年12月于郑州大学第五附属医院肝胆胰腺外科及肿瘤科住院的临床背景清晰的肝脏良、恶性疾病患者的相关资料,共217例,其中肝癌98例,肝脏良性疾病119例。肝癌患者的诊断以病理切片为标准,肝脏良性疾病患者均无肿瘤疾病。血标本及流行病学资料由专业调查员和医生收集,患者均知情同意。该研究经郑州大学第五附属医院伦理委员会批准。

1.2血清肿瘤标志物检测方法严格按照多肿瘤标志蛋白芯片检测试剂盒说明书进行标志物的检测,操作由该院检验科医师完成。检测在短时间内完成,并设置相应质控。结果由生物芯片阅读仪显示。

1.3肿瘤标志物的筛选对原始数据取以10为底的对数后,将因变量设定为疾病(肝癌=1,肝良性疾病=0),将自变量设定为肿瘤标志物血清水平,采用logistic回归分析,入选和剔除标准α=0.10,逐步回归分析采用偏最大似然估计前进法。

1.4训练集和预测集随机选取70%的样本(肝癌68例,肝脏良性疾病89例)为训练集,其余样本(肝癌30例,肝脏良性疾病30例)为预测集,用于交互验证。

1.5决策树模型的建立对于输出变量,定义1为肝癌,0为肝脏良性疾病。以训练集建模,用预测集对模型进行交互验证;为实现影响肝癌发生的血清肿瘤标志物的充分挖掘,结合该研究样本量,设置父结点为20,子结点为10,最大生长深度3层。用筛选前后的肿瘤标志物分别建立决策树模型。

1.6统计学处理采用SPSS 21.0进行统计学分析及Fisher判别分析和决策树模型的建立,绘制ROC曲线并进行2种模型曲线下面积(AUC)的比较,筛选前后模型预测效果的评价采用筛检试验的评价指标和ROC曲线。9项肿瘤标志物的分布均为非正态分布,因此用中位数(M)和上、下四分位数(P25、P75)进行描述,用秩和检验的单样本K-S检验进行比较。检验水准α=0.05。

2结果

2.1研究对象的一般情况两组患者的年龄、饮酒情况差异均有统计学意义(P<0.05),而性别构成差异无统计学意义(P>0.05),见表1。

表1 两组研究对象的一般特征

2.29项血清肿瘤标志物检测结果见表2。

表2 9项血清肿瘤标志物检测结果

2.3肿瘤标志物筛选结果经logistic回归分析筛选CA199、AFP、CA125进入回归方程,见表 3。

表3 肿瘤标志物的多因素 logistic 回归分析

2.4决策树和Fisher判别分析模型的建立用logistic回归分析筛选前后的血清肿瘤标志群分别建立决策树模型和Fisher判别分析模型,训练集和预测集的分类结果见表4,与Fisher判别分析模型相比,筛选前后决策树模型的准确率均较高。

表4 各模型对训练集和预测集的分类结果

2.5筛选前后2种模型预测结果的比较结果见表5。筛选前后的决策树模型ROC曲线的AUC均高于Fisher判别分析(Z=4.512 和4.589,P均<0.05);但同一模型筛选前后比较,差异均无统计学意义(Z=1.855 和1.122,P>0.05)。

表5 筛选前后2 种模型对总体集的诊断结果

3讨论

肿瘤标志蛋白芯片检测系统可以全面定量地对肝癌患者和正常对照者血清中的蛋白质种类和数量变化进行检测[8],在对肿瘤进行辅助诊断或者门诊筛查,特别是对高危人群进行筛检中有一定价值。研究[2,6-7]表明,与正常人及肝脏良性疾病者相比,肝癌患者血清AFP、磷脂酰肌醇蛋白聚糖3(GPC3)、甲胎蛋白异质体3(AFP-L3)、异常凝血酶原(DCP)、转化生长因子β(TGF-β)、γ-谷氨酰转肽酶(GGT)、α-L-岩藻糖苷酶(AFU)、CA199、CA125、高尔基体膜蛋白73(GP73)水平均升高;但单项检测的灵敏度和特异度均不理想,肿瘤标志物的联合检测为灵敏度和特异度的提高提供了新的方向。

该研究检测了AFP、CA199、Ferritin、NSE、CEA、HGH、CA153、CA125和CA242共9项血清肿瘤标志物,结果显示肝癌组血清指标均高于肝脏良性疾病组。鉴于该研究样本量有限,多因素logistic回归分析放宽了入选和剔除标准,取α=0.10。未进入方程有CEA、NSE、HGH、CA242、CA153、Ferritin,这可能与此6项标志物在肝癌患者血清阳性率较低和特异性差有关[9-10]。

决策树分析以树型图的方式将其分析过程以及多水平变量间复杂的相互作用关系加以展现,建立人工智能最优的分类诊断模型,从而达到减少主观诊断的目的[11-13]。决策树是一种非参数研究方法,其最重要的一个特点是不要求预测变量的数据分布类型,即任意分布资料均可,其模型的分类结果灵敏度、特异度较高,对于临床诊断的实用性更高,该研究将决策树模型引入肝癌的血清学诊断中,并显示了较好的效果。而用Fisher判别分析确定判别函数时,其原则是依据类间方差最大和类内方差最小[14]。作为传统的统计分析方法,Fisher判别分析的应用很广泛,但该研究的结果显示其效果欠佳。该研究经logistic 回归分析共筛选出3项肿瘤标志物:AFP、CA125和CA199,其决策树模型的灵敏度、特异度、准确度均为90.8%,筛选后的决策树模型ROC曲线的AUC为0.908,与Fisher判别分析相比,各项评价指标均较高。该模型能够较好地应用于肝癌的辅助诊断;且该模型AUC与筛选前基于9项血清肿瘤标志物的决策树模型相比,差异无统计学意义。

总之,经过优化的基于3项肿瘤标志物建立的决策树模型能够有效诊断肝癌。

参考文献

[1]金世龙,黄中荣,陈华,等.CD13+CD133+和CD13-CD133-肝癌细胞的生物学差异及临床意义[J].解放军医学杂志,2013,38(8):661

[2]李冰.肝细胞癌患者血清肿瘤标志物组合的诊断价值及针对GPC3肿瘤抗原特异性T细胞反应的研究[D].北京:首都医科大学,2013.

[3]章琳,郝春香,陈蓓蓓,等.利用癌旁组织中基因表达的秩序关系识别肝癌的早期诊断特征[J].生物物理学报,2013,29(8):614

[4]熊洋,李云涛,郭嬿,等.结合多变量统计分析肝癌氧合血红蛋白表面增强拉曼光谱[J].光谱学与光谱分析,2012,32(9):2427

[5]孙永亮. 高尔基体蛋白73(GP73)在肝癌患者血清及组织中的表达及其意义[D].北京:协和医学院, 2011.

[6]张欣,张国梁.血清肿瘤标记物联合检测对原发性肝癌的诊断价值[J].中国实验诊断学,2012,16(5):848

[7]白雪峰,王平瑜,吴拥军.基于两种判别模式的肿瘤标志物联合检测对肝癌辅助诊断的价值[J].解放军医学杂志,2012,37(11):1019

[8]张军一,左强,廖旺军,等.多种肿瘤标记物蛋白芯片检测系统对原发性肝癌的诊断价值[J].肿瘤,2004,24(3):254

[9]Wang M,Mehta A,Block TM,et al.A comparison of statistical methods for the detection of hepatocellular carcinoma based on serum biomarkers and clinical variables[J].BMC Med Genomics,2013,6(Suppl 3):S9

[10]Zhu K,Dai Z,Zhou J.Biomarkers for hepatocellular carcinoma: progression in early diagnosis, prognosis, and personalized therapy[J].Biomark Res,2013,1(1):10

[11]Qin G,Luo L,Lv L,et al.Decision tree analysis of traditional risk factors of carotid atherosclerosis and a cutpoint-based prevention strategy[J].PLoS One,2014,9(11):e111769

[12]Verbakel JY,Lemiengre MB,De Burghgraeve T,et al.Diagnosing serious infections in acutely ill children in ambulatory care (Ernie 2 study protocol, part A): diagnostic accuracy of a clinical decision tree and added value of a point-of-care C-reactive protein test and oxygen saturation[J].BMC Pediatr,2014,14(3):207

[13]Chen G,Li X,Chen J,et al.Comparative study of biodegradability prediction of chemicals using decision trees, functional trees, and logistic regression[J].Environ Toxicol Chem,2014,33(12):2688

[14]Cao DS,Zeng MM,Yi LZ,et al.A novel kernel Fisher discriminant analysis: constructing informative kernel by decision tree ensemble for metabolomics data analysis[J].Anal Chim Acta,2011,706(1):97

*国家自然科学基金资助项目21402178

Application of decision tree combined with filtered biomarkers in the diagnosis of liver cancer

ZHANGYong1),LIXiaoyong1),SONGYu2),ZHOUBaizhong1),CUIWeidong1),ZHAOSu1),CHENYanjun1),YANGZhanfeng1),GAOYu1),YANGHua1)

1)DepartmentofHepatobiliaryPancreaticSurgery,theFifthAffiliatedHospital,ZhengzhouUniversity,Zhengzhou4500522)DepartmentofObstetricsandGynecology,theFifthAffiliatedHospital,ZhengzhouUniversity,Zhengzhou450052

Key wordsliver cancer; serum tumor marker; decision tree; auxiliary diagnosis

doi:10.13705/j.issn.1671-6825.2015.06.017

中图分类号R735.7

通信作者#,男,1964年2月生,硕士,教授,研究方向:肝胆胰腺外科,E-mail:lixy@zzu.edu.cn

猜你喜欢

决策树肝癌
基于决策树和神经网络的高血压病危险因素研究
XB130在肝癌组织中的表达及其对细胞侵袭、迁移的影响
原发性肝癌癌前病变中西医研究进展
隐源性肝癌与病毒性肝癌临床特征比较
LCMT1在肝癌中的表达和预后的意义
决策树和随机森林方法在管理决策中的应用
决策树多元分类模型预测森林植被覆盖
基于决策树的出租车乘客出行目的识别
microRNA在肝癌诊断、治疗和预后中的作用研究进展
决策树在施工项目管理中的应用