PCA-MPL-ANN 模型在卵巢肿瘤良恶性鉴别中的价值
2021-04-18秦明丽王定玉李武志
秦明丽,王定玉,王 旗,李武志,王 琴
(四川省妇科及乳腺疾病治疗中心/西南医科大学附属医院妇科,四川 泸州 646000)
卵巢癌(ovarian cancer)是女性生殖系统三大恶性肿瘤之一,其死亡率高居妇科恶性肿瘤之首[1]。据统计,2017 年全球新发卵巢癌病例22.4 万,其中14.1 万患者因该病死亡[2],而我国年新发卵巢癌5.2万,死亡病例高达2.3 万[3]。由于卵巢位于盆腔深处,部位隐蔽且患者临床症状不典型,故确诊时多为中晚期。研究表明,Ⅱ~Ⅳ期卵巢癌患者5 年生存率仅为15%~45%,而Ⅰ期患者5 年生存率高达90%[4],故早期、及时诊断对提高患者生存率至关重要。血清肿瘤标志物具有微创、多次采集、快速检测等诸多优点,其中癌胚抗原(CEA)、糖类抗原-125(CA125)和β 人绒毛膜促性腺素(β-HCG)已广泛用于卵巢的鉴别诊断、疗效判断和预后评估。本研究在参考血清CA125、CA153 和HCG 等用于鉴别诊断卵巢癌及卵巢良性疾病患者的基础上[5-7],从卵巢肿瘤既往 血 清CEA、甲 胎 蛋 白(AFP)、CA125、CA153、CA199,CA724 及β-HCG 等多项肿瘤标志物出发,集主成分分析(PCA)、多层感知器(MPL)及人工神经网络(ANN)等机器学习模型,试为卵巢肿瘤良恶性鉴别诊断提供便利的决策支持,现报道如下。
1 资料与方法
1.1 一般资料 回顾性分析西南医科大学附属医院2013 年1 月28 日~2014 年12 月30 日门诊及住院的132例卵巢癌患者及211例卵巢良性肿瘤患者纸质及电子病历信息,并对患者血清CEA、CA125、CA153、CA199、CA724 及β-HCG 等8 项肿瘤标志物测定结果进行分析。卵巢癌患者经病理或影像确诊,年龄21~77 岁,其中Ⅰ~Ⅱ期14例,Ⅲ~Ⅳ期60例,未分期58例;浆液性卵巢癌47例,粘液性卵巢癌32例,未分型53例。排除其他恶性肿瘤疾病(或转移性肿瘤)、肝、肾功能显著异常、心肺功能不全、盆腔炎,高血压及糖尿病等患者。参照《体外诊断试剂临床研究指导原则》中客观上不可能获得受试者知情同意或该临床研究对受试者几乎没有风险,可以不提交伦理委员会的审核意见及受试者的知情同意书进行。
1.2 仪器与检测方法 所有患者在诊断及放化疗前空腹采血3~5 ml 后,尽快离心分离血清检测。采用日本东曹AIA2000 化学发光仪及配套试剂在质控在控下按标化操作规程操作。各项血清参考区间分别为AFP:0~10.0 ng/ml,CEA:0~6.0 ng/ml,CA125:0~35.0 IU/ml,CA153:0.31~23.0 IU/ml,CA724:0.21~6.0IU/ml,SCCA:0.011~2.5 IU/ml,CA199:0~37.0 IU/ml,β-HCG:0~3.0 mIU/ml。
1.3 PCA 模型的建立 以卵巢癌及卵巢良性肿瘤患者间有统计学差异的肿瘤标志物建立PCA 模型,将上述血清肿瘤指标进行降维处理,利用Z 分标准化数据后通过正交变换把相关的高维指标综合成少数几个不具相关性的新变量,提取主成分(P),在保留原来指标的大部分信息后又简化了数据结构,便于在低维度下建立疾病诊断模型。PCA 模型采用协方差矩阵进行PCA 分析,基于特征值大小提取PCA 并建立基于各指标的前三个PCA(P1~P3)的线性方程。
1.4 PCA-MPL-ANN 模型的建立 以提取的前三个主成分(P1~P3)建立基于PCA-MPL-ANN 模型,以概率P>0.50 诊断为卵巢癌,反之为卵巢良性疾病。计算该模型的隐含层、训练时间,并随机选取70%个体为训练集,30%个体为测试集进行预测,计算诊断及预测正确率及PCA-MPL-ANN 模型的ROC 曲线下面积(AUC)。
1.5 统计学方法 采用SPSS 17.0 软件进行统计学分析,血清8 项肿瘤标志物水平均呈偏态分布,以中位数和四分位数间距表示[M(P25,P75)],两组比较采用独立样本的秩和检验,诊断价值采用受试者工作特征(ROC)曲线分析,P<0.05 表示差异有统计学意义。
2 结果
2.1 卵巢癌与卵巢良性肿瘤患者血清8 项指标比较卵巢癌患者血清AFP、CEA、CA125、CA153、CA724及β-HCG 水平均高于卵巢良性肿瘤患者,差异有统计学意义(P<0.05),见表1。
表1 卵巢癌与卵巢良性肿瘤患者血清8 项指标比较[M(P25,P75)]
2.2 卵巢癌与卵巢良性肿瘤患者血清8 项指标ROC曲线分析 两类患者的AFP、CEA、CA125、CA153、CA724 及β-HCG 的AUC 比较,差异有统计学意义(P<0.05),其中β-HCG 最高(AUC=0.748),其次为CA153(AUC=0.680)及CA125(AUC=0.613),见表2。
表2 血清肿瘤标志物诊断卵巢癌与卵巢良性肿瘤的效能
2.3 PCA 分析 共提取3 个主成分(P1~P3),表达式如下:P1=-0.103AFP-0.199CEA+0.723CA125+0.40CA153 +0.423CA724 +0.659β -HCG;P2=0.501AFP -0.092CEA -0.341CA125 -0.580CA153 +0.584CA724+0.402β-HCG;P3=0.452AFP+0.808CEA+0.007CA125+0.271CA153-0.15CA724+0.238β-HCG。其中P1主要反映CA125、CA153 和β-HCG 特征,可归纳为妇科肿瘤标志物及激素水平,P2主要反映CA724、AFP 特征,归纳为肿瘤的胃及肝脏转移,P3主要反映CEA 特征,即存在恶性肿瘤,见表3。
表3 前三个主成分对应的特征向量
2.4 PCA-MPL-ANN 模型分析 该模型的隐含层数为1,训练时间为0∶00∶00∶120,训练集为251 人,测试集为92 人。该模型对卵巢癌及卵巢良性疾病的诊断正确率分别为66.33%(67/101)和92.00%(138/150),预测正确率分别为67.74%(21/31)及83.61%(51/61),见图1。以建立的PCA-MPL-ANN 模型绘制ROC 曲线,该模型的诊断效能较高(0.838),AUC优于β -HCG、CA153 及CA125 (0.748 >0.680 >0.613),敏感性和特异性分别为72.60%和88.90%,见图2。
图1 PCA-MPL-ANN 模型及CA125、CA153及β-HCG 的ROC 曲线
3 讨论
卵巢癌是最致命的妇科肿瘤,腹痛、腹部增大、腹胀或恶心等症状通常是非特异性的,直到疾病发展晚期才出现,导致诊断延迟[8]。阴道超声和血清CA125 筛查是常用的卵巢癌筛查技术,但敏感性和特异性均不太理想[9]。临床上,联合多指标进行分析是卵巢癌常用的辅助手段,但传统的并联试验在提高诊断敏感性的同时,降低了特异性,而串联实验则在提升特异性的同时降低了敏感性,两者均不能较好地对未知患者进行预测分析。因此,寻找更多的肿瘤标志物联合检测新模式,成为提升诊断效能和进一步诊断和预测分析的突破口[10]。
近年来,人工智能和机器学习算法的蓬勃发展为分析复杂的生物数据集提供新的方法[11]。人工神经网络(ANN)作为机器学习领域最经典及最活跃的方法,通过模仿人脑神经元的拓扑结构建立的计算机学习网络系统,可以解决复杂的非线性映射问题而广受关注[12]。张桐硕等[9]研究发现,采用误差负反馈(BP)-ANN 模型综合肿瘤标志物、血细胞分析、性激素等6 类共计28 项实验室检测指标能很好地鉴别诊断卵巢癌、其他恶性妇科肿瘤、卵巢良性疾病及正常对照人群,其AUC、敏感性和特异性分别为0.948,91.9%和86.9%。本研究采用PCA 提取6 项卵巢癌及卵巢良性肿瘤患者间存在差异的肿瘤标志物,建立PCA 及PCA-MPL-ANN 模型,通过PCA 降维处理,将6 维空间的数据形象、直观地展现在三维空间,从妇科肿瘤标志物、激素水平、胃肠及肝脏转移等多方面揭示了数据规律。借助PCA-MPL-ANN模型能较好地鉴别诊断卵巢癌及卵巢良性疾病,该模型诊断的AUC、敏感性和特异性分别为0.838,72.60%和88.90%。由于本研究仅纳入6 项有统计学差异的肿瘤标志物,故诊断效能较张桐硕等[9]相关报道低。因此,本研究也提示仅采用现有肿瘤标志物建立机器学习模型诊断效能有限,需要探索和挖掘更多有价值的标志性建立诊断和预测模型,提高诊断效能。
图2 基于PCA-MPL-ANN 模型的卵巢癌及卵巢良性肿瘤的概率分布
大数据时代,由于海量的数据信息不断产生,基因组学、蛋白组学及代谢组学等大样本数据信息为机器学习模型精准鉴别诊断卵巢癌提供了极大的机遇,但需要昂贵的仪器设备及有经验技术人员且尚未形成像常规检验项目的流水线检测。因此,借助简便、易得的血清肿瘤标志物、血常规及生化指标建立机器学习诊断和预测模型值得探索研究。由于本研究中CA125 在卵巢癌患者中表达不明显,单项指标β-HCG、CA153 及CA125 的 诊 断 效 能 在0.613~0.748,故该模型也较好地弥补了CA125 对卵巢癌早期诊断能力的不足。尽管如此,本研究纳入人群及血清肿瘤标志物项目类型有限,尚需要大样本验证分析,使结论更严谨、可靠。
综上,PCA-MPL-ANN 模型可有效提升卵巢癌的诊断效能,取得了较好的效果,为卵巢癌的智能化辅助诊断提供了新思路。