机器学习方法对前列腺癌的诊断价值
2020-06-17王宏林
柏 冬,王 浩,李 璐,王宏林
1航天中心医院(北京大学航天临床医学院)放射科,北京 100049;232081部队,北京 100049;3盐城师范学院信息工程学院,江苏 盐城 224002
前列腺癌是男性常见的泌尿生殖系统肿瘤,研究通过调查近几年的前列腺癌流行病学发现发达国家前列腺癌发病率及死亡率逐渐降低或趋于稳定[1]。而中国前列腺癌近5年发病率为16.8/100 000,且每年以2.6%的速率在增长。目前其诊断主要是依靠血清前列腺特异抗原(PSA)、直肠指诊、经直肠超声、多参数MRI等进行评估,最终通过前列腺穿刺活检确诊。面对大量的临床数据,需要耗费更多的医疗资源去判断病变穿刺的可能性,并且过度穿刺会给患者带来出血、感染等风险。预测前列腺癌病患,提高前列腺癌的诊断效率是前列腺癌诊断研究的重点问题之一。
近年来,人工智能技术在医学领域得到广泛应用。机器学习方法从大量医学数据中提取知识信息,对病患预测具有重要的研究意义和实用价值。基于机器学习方法的预测模型可以较好的辅助精准诊断以及超早期预警,从而提高医生诊断效率,降低医疗成本,并减少穿刺活检风险。目前,国内外仅少数学者联合前列腺影像报告和数据系统第2版及PSA运用支持向量机、决策树和Logistic回归等机器学习模型对前列腺癌的诊断价值进行预测研究[2-4]。然而,以往研究主要基于前列腺影像报告与数据系统(PI-RADS)v2.0,分类模型种类不够丰富,且模型评估相对单一。本研究采用最新的PIRADSv2.1版本[5],并且运用5种机器学习方法,包括使用决策树、K近邻、朴素贝叶斯、随机森林、支持向量机等5种分类器对多个医学数据进行训练学习[6-7],利用灵敏度、特异度、查准率、召回率、F1值、ROC、AUC以及特征重要性等评价指标比较不同预测模型在前列腺癌诊断中的准确性,分析这5种模型用于诊断前列腺癌的特点。
1 资料与方法
1.1 数据来源
选取2017年6月~2020年1月在航天中心医院接受多参数3.0 T MRI检查的前列腺疾病患者242例,年龄35~93岁(73.7±10.7岁)。其中前列腺癌组104例,非前列腺癌组138例。纳入标准:所有患者均接受经直肠前列腺穿刺活检或前列腺切除病理证实,并且获得前列腺癌Gleason评分;检查前均未接受任何前列腺相关临床治疗;临床资料齐全;穿刺或术前接受MRI检查,并且MRI图像清晰。排除标准:临床资料不全,无病理结果;MRI检查前接受相关临床治疗;MRI图像质量不佳,不能用于评估。
1.2 仪器与方法
采用西门子公司Siemens Magnetom Skyra 3.0 T扫描仪,相控阵体线圈。扫描序列及参数包括:轴位T1WI、T2WI,层厚为3 mm,层间距为3.3 mm,DWI序列(b值取0、50和3 000 s/mm2),DCE-MRI(采用容积式插入法屏气检查序列团注对比剂)。扫描范围覆盖前列腺底部至前列腺尖部。
1.3 临床资料
通过查阅临床信息系统查阅相关临床资料,包括年龄、总PSA浓度(tPSA)、游离PSA浓度(fPSA)、游离前列腺抗原比值(fPSA/tPSA)、前列腺体积(V)、PSA密度(PSAD)、PI-RADS v2.1评分以及病理结果。其中,在T2WI上结合轴位、冠状位和矢状位图像测量前列腺前后径、左右径及上下径,根据公式计算V及PSAD:V=前后径×左右径×上下径×0.52,PSAD=tPSA/V。PIRADS v2.1评分由2名具有5年工作经验的影像学诊断医师利用双盲法评出。
1.4 建模与实验
1.4.1 分类预测模型 本文用决策树、K近邻、朴素贝叶斯、随机森林、支持向量机分类器分别对前列腺癌建立预测模型,输入变量包括7个评价因素(年龄、tPSA、fPSA、fPSA/tPSA、V、PI-RADS、PSAD),分析5种学习模型诊断前列腺癌的准确率。本文进行数据分类预测模型的流程(图1)。
本文给出的对前列腺癌的分类预测模型在收集数据、提取了测试样本后,使用患者的年龄、tPSA、fPSA、fPSA/tPSA、V及PSAD、PI-RADS v2.1评分作为特征变量,采用随机抽样的方式进行数据分割,然后在数据库中选择一种分类器对前列腺癌与非前列腺癌进行训练和分类建立预测模型,最后针对前列腺癌与非前列腺癌进行结果分析。
1.4.2 实验环境与数据集 实验选择Windows 10×64操作系统,Inter Core i7-4790@3.60 GHz处理器,16 GB内存的PC。开发工具为Python 3.6。数据集来源为航天中心医院临床脱敏前列腺疾病患者信息共242例,随机抽样选出80%(n=194)作为训练集,用于筛选变量和建立预测模型;20%(n=48)作为测试集,用于评价模型预测效果。
1.4.3 评价指标 本文对5种分类预测模型使用的评价标准是机器学习普遍使用的性能评价指标。包括了特异度、敏感度、ROC曲线和AUC、精确度、查准率、召回率、F1值,针对树类分类器(决策树和随机森林)对特征做重要性分析。为了综合考虑查准率和召回率,本文使用F1值作为模型对比的最终评价指标。
2 结果
2.1 特征相关性
本文对数据集的变量信息,通过特征热图分析相关性。特征热图可以直观反应与目标变量相关的特性。对年龄、tPSA、fPSA、fPSA/tPSA、V及PSAD、PI-RADS v2.1评分之间的交互关联作用(图2)。其中,方框中颜色的深浅代表了两指标的交互关联程度。颜色越浅则关联程度越高;反之,关联程度越低。例如,主对角线是相同变量则相关度最高;PI-RADS与fPSA/tPSA是两种不同的医学检查指标,关联程度低,则颜色最深。
2.2 模型评价
对5种机器学习模型经训练学习后诊断前列腺癌实验的评价指标结果显示,F1值最高的为随机森林模型,其次依序为朴素贝叶斯、决策树、K近邻,支持向量机模型最小(表1)。
这5种学习模型ROC曲线及其ROC曲线下面积(AUC)比较(图3)。AUC比较结果为:随机森林>朴素贝叶斯>决策树>K近邻>支持向量机,此结果与F1值一致。
通过随机森林和决策树模型计算各特征变量重要性,并按所占比例进行排序。结果显示,这两种模型中PI-RADS v2.1评分均占比例最大,其次为PSAD、V,另外检查指标fPSA、fPSA/tPSA也对分类起一定的作用。除此以外,在随机森林模型中,年龄对模型分类贡献最低,决策树模型性年龄贡献几乎为零(图4)。
表1 5种机器学习模型诊断前列腺癌的结果Tab.1 Results of 5 machine learning models in the diagnosis of prostate cancer
3 讨论
机器学习专门研究计算机怎样模拟人类的学习行为,以获取新的知识或技能,从而将已有的知识结构重组使之不断提升自我的性能,属于多领域交叉学科[8-10],已成为预测疾病的主流方法。目前,机器学习方法被广泛应用于图像处理,如图像分类、图像分割、图像识别和图像配准等[11-14]。近年来,机器学习在基于影像大数据的前列腺相关疾病的辅助诊断领域中起着举足轻重的作用。
本研究将PI-RADS v2.1评分及相关临床数据等指标作为变量,以数学方式近似表达各变量的内在规律。本文采用决策树、K近邻、朴素贝叶斯、随机森林、支持向量机分类器,建立前列癌分类预测模型,对其结果进行对比分析。结果表明,5种模型F1值、AUC的结果为随机森林>朴素贝叶斯>决策树>K近邻>支持向量机。有研究结合纹理分析、MR动态增强定量分析、PI-RADS评分和部分临床资料建立Logistic回归、逐步回归、经典决策树、条件推断树、随机森林和支持向量机模型中发现随机森林模型诊断临床显著癌优于其他模型,支持向量机模型次之[15]。PSAD和纹理分析相关参数诊断CSPC的重要性高于PI-RADS评分和动态增强MRI定量参数。曾小辉等[2]在建立基于前列腺影像报告和数据系统第2版的支持向量机、决策树和Logistic回归3种机器学习模型,发现这3种模型对高级别前列腺癌的诊断价值均较好,决策树模型可作为预测前列腺高级别癌的较优模型。Bermejo等[3]认为基于前列腺特异性抗原等单独生物指标不能很好地诊断前列腺癌,故联合年龄、PSA、直肠指检、多参数MR等指标建立决策树和Logistic回归模型,认为2种模型诊断前列腺癌的准确率均较好。上述结果与本研究结果一致,说明随机森林与决策树模型在预测前列腺癌的准确率均较好。有研究评价年龄、PSA以及经直肠前列腺超声影像特征构建的TAN贝叶斯网络模对前列腺癌预测的准确率为85.11%,预测效果较好,可作为临床筛查或诊断前列腺癌的一种方法[16]。本研究发现朴素贝叶斯ROC曲线下面积及F1值均较高,贝叶斯理论在数据集信息的基础上引入了先验信息[17],综合考察数据集和先验信息实现对总体做出推断。经典统计模型容易受到严格的假定条件限制[18],如Logistic回归要求因变量服从指数分布,因变量的逻辑转换后与预测变量之间服从线性假定;而且Logistic回归模型的预测往往基于有统计学意义的变量,贝叶斯模型充分利用所有变量信息,对结果的预测也更为全面。
本文应用决策树和随机森林模型对前列腺癌诊断模型中的变量进行特征重要性分类,发现PI-RADS v2.1评分对于前列腺癌评估影响最大,多参数MRI在前列腺癌的诊断中起着举足轻重的作用。针对大量的影像数据以及影像医师的诊断偏差,美国放射学会联手欧洲泌尿生殖放射学会制定了前列腺影像与数据报告系统,2019年PI-RADS指导委员会在扫描技术、移行区、中央区及前纤维基质区病变评分进一步细化,将PIRADS v2.0修订为PI-RADS v2.1[5]。有研究建立多参数MRI PI-RADS v1评分和临床数据相结合的Logistic模型,预测前列腺癌的AUC为0.88[4],对重要前列腺癌进行个体化风险评估,可以大大减少不必要的活检,并降低过度检测无关前列腺癌的风险。本研究使用的评分标准为PI-RADS v2.1,且细化了对前列腺疾病的影像诊断评估。
本实验结果表明,除了PI-RADS v2.1评分,前列腺特异性抗原密度在前列腺癌模型的比重也较大。PSA近年来被广泛应用于前列腺癌的筛查。然而,PSA水平的升高也可以代表良性前列腺增生和前列腺炎的发生,这对PSA预测前列腺癌的特异性提出了质疑。因而引入了前列腺特异性抗原密度PSAD[19],前列腺癌患者血清中PSA与前列腺体积不成比例地升高,使用PSAD来诊断前列腺癌较PSA更为准确。另外,由于基于树的模型需要做特征选择,选择具有更高价值特征就会影响分类结果,而其他如线性学习器不做特征选择。本文仅对决策树和随机森林进行特征重要性分析。朴素贝叶斯及K近邻为线性学习器,因而没有做特征重要性分析。
本研究的创新之处采用最新的前列腺影像报告与数据系统版本(PI-RADS v2.1),联合年龄、tPSA、fPSA、游离PSA百分比、前列腺体积及PSA密度多种指标,运用决策树、K近邻、朴素贝叶斯、随机森林、支持向量机这5种机器模型对多个医学指标进行预测学习,利用灵敏度、特异度、查准率、召回率、F1值、ROC、AUC以及特征重要性等多种评价指标比较不同预测模型在前列腺癌诊断中的准确性,分析这5种模型用于诊断前列腺癌的特点。结果发现随机森林、朴素贝叶斯、决策树分类模型用于预测诊断前列腺癌具有更好的效果。随机森林方法在5种机器学习模型中最优,且PI-RADS v2.1及PSAD变量的特征重要性表现更明显。
综上所述,本研究联合运用PI-RADS v2.1评分、PSAD等临床数据采用决策树、K近邻、朴素贝叶斯、随机森林、支持向量机分类器,建立前列癌分类预测模型。随机森林方法、决策树模型、贝叶斯模型机器学习模型F1值和AUC较高,实验表明预测前列腺癌的价值均较好,随机森林模型可作为预测前列腺癌的较优模型,同时PI-RADS v2.1及PSAD在前列腺癌诊断中特征重要性表现更明显。本文研究的局限性在于:本研究小样本量数据,且为回顾性分析,可能存在选择性偏倚,今后进一步扩大样本量分析;数据样本存在不平衡的问题,如检查与影像结果一致,而病理结果不一致,导致分类效果差;本研究为单中心数据,今后希望建立多中心、大数据的病例集。