基于腹腔镜超声的影像组学机器学习模型预测肾脏小肿块良、恶性的价值*
2021-03-02邓又斌
王 婷,管 维,李 凡,余 杨△,邓又斌
华中科技大学同济医学院附属同济医院 1超声影像科 2泌尿外科,武汉 430030
近年来,肾细胞癌的发病率一直在增加,同时,肾脏小肿块(最大直径≤4 cm的肾脏肿块)的发病率也在增加,现在占所有肾脏肿块的40%[1]。一项包括了2007年至2014年间18060名患者的队列研究结果表明,有30.9%术前诊断为恶性的肾脏肿块手术切除后诊断为良性[2]。目前,保留肾单位手术(nephron sparing surgery,NSS)是临床T1期肾细胞癌(renal cell carcinoma,RCC)患者的首选治疗方式[3]。为了保证手术切缘阴性,切除的肿块外层包裹了一层正常肾脏组织,但是切除正常肾实质可能会损害肾功能[4],术前的准确诊断是影响外科医生最终切除范围的关键因素。
最近,影像组学特征分析和机器学习算法在基于CT和磁共振成像的各种医学任务中表现良好[5-8],然而,鲜见文献评估这些技术从超声图像上鉴别肾脏肿块良、恶性的诊断性能。本研究尝试采用特征选择算法结合多种机器学习算法构建基于影像组学的预测模型,并对模型从腹腔镜二维超声图上鉴别肾脏肿块良、恶性的性能进行定量评估。
1 资料和方法
1.1 研究对象
回顾性收集2012年12月至2019年12月在华中科技大学同济医学院附属同济医院进行了腹腔镜NSS的肾脏肿块患者的临床、病理和腹腔镜超声检查资料。纳入标准:①手术前进行过腹腔镜超声检查,有病灶二维超声图像的存储资料;②有明确的组织病理学诊断结果;③无其他恶性肿瘤病史;④腹腔镜超声检查前未经射频消融等处理。排除标准:①肿瘤直径大于4 cm或者肿瘤不能在超声图像上完整显示;②因为伪像等原因,腹腔镜超声图像上病灶显示不清。本回顾性研究由我院医学伦理委员会批准(伦理号2020S140),不涉及患者重要隐私,批准豁免知情同意。
1.2 仪器与方法
患者麻醉成功后,外科医生在腹腔镜直视下完全暴露患侧肾脏。在肿块切除前,由一名具有5年以上泌尿系统疾病专科诊断经验的超声医师从一侧Troca置入腹腔镜超声对肾脏进行扫查,并调节图像灰度和深度至超声医师认为图像显示最清晰后存储肾脏肿块的影像资料。使用的仪器为ALOKA α10超声仪,探头型号为:UST5550线阵探头,频率为4~10 MHz,4段变频:5.0 MHz,6.0 MHz,7.5 MHz,10.0 MHz。
1.3 图像的处理
1.3.1 分割感兴趣区 由一名具有5年工作经验的超声医师使用开源软件(ITK-SNAP 3.8.0;http://www.itksnap.org),采取手工勾勒肾脏肿块边缘的方法分割感兴趣区(region of interest,ROI);另外一名具有8年泌尿系统肿瘤诊断经验的超声医师进行核对。ROI包括整个肾脏肿块,不包含肿块边缘的假包膜(图1)。
A:良性肿块患者;B:恶性肿块患者,均不包含病灶周边的假包膜图1 肾脏肿块区域勾画示意图Fig.1 Schematic drawing of the renal mass area
1.3.2 特征提取和筛选 采用开源软件Pyradiomics(http://pyradiomics.readthedocs.io/en/la-test/index.html)自动提取感兴趣区图像的影像组学特征[9],分别为:灰度共生矩阵(gray level co-occurrence matrix,GLCM)特征24个、灰度相关矩阵(gray level dependence matrix,GLDM)特征14个、灰度行程矩阵(gray level run length matrix,GLRLM)特征16个、灰度区域大小矩阵(gray level size zone matrix,GLSZM)特征16个、邻域灰度差分矩阵(neighbouring gray tone dependence matrix,NGTDM)特征5个、一阶灰度(first order)特征18个、形状(shape)特征14个,共107个。采用独立样本t检验或Mann-Whitney U检验对训练组中的107个影像组学特征进行筛选,得到10个具有代表性的特征,分别为一阶灰度特征中的强度范围(Range),GLCM中的归一化像素邻域变化(inverse difference normalized,IDN),GLSZM中的归一化灰度不均匀性(gray level non-uniformity,GLN)、大面积区域聚集程度(large area emphasis,LAE)和归一化区域非一致性(size zone non-uniformity normalized,SZNN),GLDM中的依赖方差(dependence variance,DV)、大依赖度低灰度值聚集程度(large dependence low gray level emphasis,LDLGLE)和小依赖度高灰度值聚集程度(small dependence high gray level emphasis,SDHGLE),NGTDM中的冗余度(Busyness)和强度(Strength)。
1.4 构建多种机器学习模型并进行验证
基于筛选的影像组学特征,应用以下5种机器学习算法:支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)、极限学习机(ELM)和K最近邻(KNN)来综合评估不同机器学习模型预测小肾脏肿块良、恶性的效能。采用随机分层抽样法,将142个样本按6∶4的比例分为训练组(n=84)和验证组(n=58)。在训练组中训练模型,并在验证组中进行验证,对不同的机器学习模型均采用5折交叉验证。使用预测模型的受试者操作特征(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)、特异度、敏感度和准确度评估模型效能。
1.5 统计学分析
本研究采用SPSS(20.0版本)和R软件(3.6.1版本,https://www.r-project.org)对数据进行统计分析。计量资料采用均数±标准差表示,并通过Kolmogorov-Smirnov检验和独立样本t检验分别评价正态分布性和组间均数差异。计数资料采用频数表示,采用χ2检验评价组间差异。采用R的e1071(1.7.3版本)、randomForest(4.6.14版本)、rms(7.3.15版本)、elmNNRcpp(1.0.2版本)和class(7.3.15版本)包用于执行SVM[10]、RF[11]、LR[12]、ELM[13]和KNN[14]。以P<0.05为差异具有统计学意义。
2 结果
2.1 患者临床资料
总共有142例肾脏肿块病灶纳入研究,根据组织病理学诊断结果分为良性组和恶性组,其中良性组62例(血管平滑肌脂肪瘤58例,嗜酸细胞瘤4例);恶性组80例(透明细胞型肾细胞癌64例,肾嫌色细胞癌11例,乳头状肾细胞癌5例)。良性组和恶性组患者男/女比例分别为11∶51和60∶20,恶性组中男性多。训练组和验证组患者男/女比例分别为43∶41和28∶30,训练组和验证组患者平均年龄分别为(50.57±12.01)岁和(49.41±11.91)岁,差异均无统计学意义(均P> 0.05)(表1)。
表1 训练组和验证组肾脏小肿块患者的一般临床资料比较Table 1 Comparisons of the general clinical data of training group and verification group of patients with small renal masses
2.2 不同机器学习模型的诊断效能
不同机器学习模型在训练组和验证组中预测肾脏肿块良、恶性的效能不同,训练组中各模型的AUC为0.747~0.862,验证组中各模型的预测效能见表2。比较AUC,验证组中随机森林模型的预测效能最好,AUC为0.881(95%可信区间为:0.793~0.969),其次是逻辑回归模型,AUC为0.866(95%可信区间为:0.760~0.972)。极限学习机模型预测效能在5个机器学习模型中最差,AUC为0.808(95%可信区间为:0.702~0.913),5种机器学习模型的ROC曲线见图2。
表2 5种机器学习模型在验证组中预测肾脏小肿块良、恶性的效能Table 2 Efficacy of five machine learning models in discriminating benign and malignant small renal masses in the validation group
3 讨论
对于行腹腔镜保留肾单位手术,肿块的良、恶性是外科医师确定手术切除范围的重要依据。如果术前预测是良性肿块,手术医师会尽可能多地为患者保留正常肾单位,可仅剜除肿瘤。而对于肾脏恶性肿瘤,手术医师为保证切缘阴性,会适当地切除肿块外围一部分正常肾实质[15-16]。在实际的临床工作中,由于体积小,大多数腹腔镜手术切除的肾脏小肿块呈内生性,外科医师无法从肾脏外观的改变来直接判断病灶的位置和边界,因此使用腹腔镜超声辅助定位,制定切除范围,而对肿块良、恶性的判断直接影响切除范围的制定[17-19]。因此,在肿块切除前最后一次预测肿块的良、恶性就显得尤为重要。此外,术中腹腔镜超声检查常常由外科医师完成,由于肾脏小肿块体积较小,肉眼可观察的区分肿块良、恶性的影像学特征有限,因此让外科医师通过腹腔镜超声图像进行良、恶性诊断是一项具有挑战性的工作。
基于随机森林(RF)算法的模型性能最优,ROC曲线下面积(AUC)为0.881(95% CI:0.793~0.969),其次分别为基于逻辑回归(LR)、K最近邻(KNN)、支持向量机(SVM)、极限学习机(ELM)算法的诊断模型,对应的AUC分别为0.866、0.831、0.816和0.808图2 验证组中评价5种不同影像组学机器学习模型鉴别肾脏小肿块良、恶性的受试者操作特征(ROC)曲线Fig.2 ROC analysis of the five machine learning models in discriminating benign and malignant small renal masses in the validation group
既往研究报告表明,基于CT和磁共振影像组学的机器学习模型术前预测肾脏肿块的良、恶性具有较高的准确性[8],但是目前鲜见基于超声成像预测肾脏肿块良、恶性的组学模型报道。这次研究旨在探索如何应用超声影像组学特征,分析肾脏肿块的内部信息,并研究基于影像组学的机器学习模型预测肿块的良、恶性,进而在一定程度上指导临床决策的可行性。
本次研究中,各种机器学习模型均在肾脏小肿块的良、恶性鉴别上表现出良好的诊断效能,其AUC分别为:ELM 0.808、SVM 0.816、KNN 0.831、LR 0.866、和RF 0.881。一项样本量为442例的双中心研究报道表明最大直径≤4 cm的肾脏小肿块穿刺活检的准确率为88.9%[20],我们的研究结果与术前活检鉴别肾脏肿块的良、恶性接近,这表明基于腹腔镜超声影像组学的机器学习模型对肾脏肿块的良、恶性预测具有较高的价值,是鉴别肾脏肿块良、恶性的有效诊断方法。
之前结合影像组学和机器学习鉴别肾脏肿块良恶性的研究主要是基于CT和磁共振,而且国内外发表的研究报道均较少,一项综述报道[8],2020年3月20日之前,共有3篇基于CT[5,21-22]和1篇基于磁共振[23]的影像组学结合机器学习模型鉴别肾脏肿块良恶性的英文研究报道发表。2020年4月发表的一项基于CT鉴别临床T1期肾癌和良性肾脏肿块的研究与本研究内容类似,该研究使用了18种不同的CT仪器,且不固定扫描厚度,该研究中诊断性能最好的随机森林模型的AUC为0.83,敏感度为0.88[22],本研究中诊断性能最好的模型随机森林模型的AUC为0.881,与之接近。虽然本研究与上述研究均为基于影像组学的机器学习鉴别良性肾脏肿块和临床T1期肾癌,研究结果也非常接近,但是这两项研究又有明显的不同,本研究作为一项回顾性研究,研究前未设计图像收集标准,且术中超声仪器为一台仪器,探头为单一探头。
本研究也存在一定的局限性:①研究采用的仪器单一,不利于推广;②人工勾画ROC,可能具有人为的误差;③仅选取进行腹腔镜超声检查的内生性肾脏肿瘤,可能存在选择偏倚,样本量较小,在后续的研究中,将考虑加入普通的腹部超声检查,扩大样本量,以提高模型的稳定性和可行性。
综上所述,基于腹腔镜超声影像组学的多种机器学习模型均可以很好地区分最大直径≤4 cm的肾脏肿块的良、恶性,这为后续基于超声的影像组学鉴别肾脏肿块良、恶性的相关研究提供了一定的基础。