机器学习鉴别IA期宫颈癌与高级别鳞状上皮内病变:基于MRI影像组学模型
2021-08-04樊知昌夏雨薇甄俊平周宇堃靳波边文瑾杨洁
樊知昌,夏雨薇,甄俊平,周宇堃,靳波,边文瑾,杨洁
宫颈癌是全球女性第四大常见癌症,同时也是导致女性癌症死亡的第四大原因,2018年全世界范围内共有51万宫颈癌患者与31.1 万死亡病例;而在发展中国家,宫颈癌的发生率与死亡率在女性群体中仅次于乳腺癌[1]。高级别鳞状上皮内病变(high-gr ade squamous intr aepit hel ial l esion,HSIL)被认为是宫颈癌的癌前病变,ⅠA期宫颈癌则是只有镜检才能确诊的早期宫颈癌[2-3]。两者的术式大相径庭,HSIL以宫颈锥切为主,ⅠA期宫颈癌原则上需行子宫全切术(ⅠA1期行筋膜外子宫全切术,ⅠA2期行改良广泛性子宫切除术及盆腔淋巴结清扫)[4-5]。因此,术前准确识别疾病所处阶段对手术方式及范围的选择有着重大的意义。然而,ⅠA期宫颈癌与HSIL在MRI图像上病灶范围往往较局限,肉眼常难以识别,导致常规的MRI图像对两者识别价值有限。近年来,随着影像组学研究的兴起,图像所反映的信息不再局限于形态的改变,其背后所蕴含的数据潜力被逐步挖掘并利用。影像组学技术作为医学图像分析最近的一次创新,可以高通量地从医学图像中提取定量特征,从而将视觉层面的图像转化为可供计算的数据[6-8]。将影像组学提取到的数据与机器学习相结合,分析肉眼难以识别的宫颈病变已经得到诸多实践[9]。本研究利用磁共振图像提取宫颈的组学特征,结合随机森林算法(r andom f or est,RF)建立机器学习模型,探讨影像组学技术在区分ⅠA期宫颈癌与HSIL中的作用。
1 材料与方法
1.1 一般资料
回顾性分析2019年1月至2020年11月于山西医科大学第二医院妇产科接受手术治疗的94例宫颈肿瘤患者,年龄23~82(49.9 ±12.1 )岁。51例HSIL患者,43例ⅠA期宫颈癌。纳入标准:①经术中或术后病理证实的HSIL或ⅠA期宫颈癌;②术前未接受过任何治疗;③术前于本院行MRI检查,图像质量良好,无明显伪影。排除标准:①存在宫颈纳囊;②存在宫颈肌瘤或低位子宫肌瘤累及宫颈肌层;③宫颈或阴道上部存在先天畸形。本研究经过本单位医学伦理委员会批准(批准文号:2021YXD024),免除受试者知情同意。
1.2 图像获取
图像由3.0 T MR设备(GE Discover y Sil ent 750W)使用体线圈扫描获得,OSag-T2WI(Propel l er序列,TR 4390 ms,TE 90 ms),层厚4 mm,层间距1 mm,视野260 mm×260 mm,矩阵320×320;OAx-T1WI(FSE序列,TR 810 ms,TE 9 ms)与OAx-T2FS(Pr opel l er序列,TR 4530 ms,TE 80 ms),层厚5 mm,层间距1 mm,视野260 mm×260 mm,矩阵384×384;图像数据以DICOM格式进行拷贝(抹除患者隐私)。
1.3 图像预处理与分割
使用Pyt hon(3.8 版本)中的Simpl e ITK软件包对拷贝的图像进行预处理。N4偏置场校正被用来消除局部磁场不均匀造成的灰度差异;重采样使用线性插值算法和最近邻插值算法,达到体素大小均一和各向同性。将预处理完成的图像上传至影像组学云平台(慧影医疗科技有限公司,北京)。影像组学处理流程图如图1,将整个宫颈区域作为ROI,由两名年资5年以上具有丰富盆腔阅片经验的医师在不知晓病理结果的情况下协商勾画,分别于矢状位、轴位沿宫颈边界逐层勾画,最终融合成VOI。在矢状位勾画时,从一侧宫颈出现的第二层勾画至对侧宫颈消失的前一层,并在宫颈外口处沿边界外2 mm区域勾画;在轴位勾画时,从上方宫颈出现的第二层勾画至宫颈消失的后一层。
图1 影像组学处理流程图Fig.1 Radiomicsprocessing flowchart.
1.4 特征提取
对VOI中包括一阶特征(f ir st or der)、形状特征(shape)、纹理特征以及高阶特征在内的1409个组学特征进行提取。其中,纹理特征包括灰度相关矩阵(gr ay l evel dependence mat r ix,GLDM)、灰度共生矩阵(gr ay l evel co-occurr ence mat r ix,GLCM)、灰度区域矩阵(gray l evel size zone matrix,GLSZM)、灰度游程矩阵(gr ay l evel run l engt h mat rix,GLRLM)以及相邻灰度差分矩阵(neighbour ing gr ay t one dif f er ence mat r ix,NGTDM);高阶特征则是对一阶特征、形状特征以及纹理特征进行对数(l ogar ithm)、指 数(index)、梯 度(gr adient)、平 方(squar e)、平方根(squar e r oot)以及小波变换(wavel et),其中,wavel et又包含LLL、LLH、LHL、HLL、LHH、HLH、HHL以及HHH 8种信号。
1.5 特征选择
依次采用方差阈值分析法(Variance Threshol d)、单变量特征选择法(Sel ect KBest)以及最小绝对值收缩和选择法(l east absol ut e shr i nkage and sel ect ion oper at or,LASSO)回归对数据进行降维、选择。其中,Variance Threshol d选择阈值>0.8 0的特征,Sel ect KBest选择P<0.0 5的特征,LASSO回归依据最佳al pha时的系数,选择最有价值的特征。
1.6 机器学习
使用RF模型,将各个序列经LASSO回归筛选后的特征值纳入计算。按照4∶1的比例设置训练集(ⅠA=34,HSIL=41)与测试集(ⅠA=9,HSIL=10)。基于OSag-T2WI、OAx-T1WI、OAx-T2FS以 及OSag-T2WI&OAx-T2FS提取到的特征值,建立4个RF模型,绘制测试集ROC曲线,检验模型诊断效能。选择最佳截断点(约登指数最大)处的特异度和敏感度。
2 结果
2.1 模型建立
影像组学特征筛选的具体结果见图2~5。基于OSag-T2WI共提取到8个组学特征,均为小波特征,其中7个纹理特征,1个一阶特征;基于OAx-T1WI共提取到10个组学特征,其中6个小波一阶特征,2个梯度一阶特征,2个小波纹理特征;基于OAx-T2FS提取到6个组学特征,包括3个小波纹理特征,2个原始形状特征,1个对数一阶特征;基于OSag-T2WI&OAx-T2FS提取到9个组学特征,4个来自于OSag-T2WI,5个来自OAx-T2FS。
图2 基于OSag-T2WI的组学特征 图3 基于OAx-T1WI的组学特征 图4 基于OAx-T2FS的组学特征 图5 基于OSag-T2WI&OAx-T2FS的组学特征图6随机森林测试集ROC曲线。A:OSag-T2WI;B:OAx-T1WI;C:OAx-T2FS;D:OSag-T2WI&OAx-T2FSFig.2 Radiomics features from Osag-T2WI.Fig.3 Radiomics features from OAx-T1WI.Fig.4 Radiomics features from OAx-T2FS.Fig.5 Radiomics featuresfrom Osag-T2WI&OAx-T2FS.Fig.6 ROCcurveof RFmodels.A:OSag-T2WI;B:OAx-T1WI;C:OAx-T2FS;D:OSag-T2WI&OAx-T2FS.
2.2 模型检验
4个随机森林模型诊断效能见表1,ROC曲线见图6,基于OSag-T2WI&OAx-T2FS的组学模型诊断效能在训练集与测试集中表现均最佳:训练集AUC为0.9 9,95%CI(0.9 3,1.0 0),准确率为0.9 25;测试集AUC为0.8 9,95%CI(0.7 4,1.0 0),准确率为0.8 35,而基于OAx-T1WI的组学模型诊断效能在训练集与测试集中表现均最差,训练集AUC为0.7 1,95%CI(0.5 1,0.9 1),准确率为0.7 1;测试集AUC为0.5 1,95%CI(0.2 3,0.7 8),准确率为0.5 6,不具有实际临床意义。
表1 不同序列随机森林模型诊断效能Tab.1 The diagnostic performance of RFmodels in different sequences
3 讨论
早期识别宫颈病变,意义重大,不仅可以挽救患者的生命,而且可以最大限度地保留患者的生殖功能。目前,针对ⅠA期宫颈癌与HSIL,仍采用宫颈细胞学检查与高危型人类乳头瘤病毒(human papil l omavir us,HPV)DNA检测、阴道镜检及宫颈活组织检查的“三阶梯”程序[10]。尚没有一种无创的检查方法可以将两者区分开来。传统的MRI对于超过ⅠA期的宫颈病变,可以评估病灶的浸润范围、淋巴结的受累情况以及远处转移情况,从而帮助分期[11-12]。但是,对于ⅠA期宫颈癌与HSIL,反映在图像上的改变往往是毫米级乃至亚毫米级,人眼的识别存在较大误差。影像组学与人工智能相结合,可以发现肉眼无法识别的微小差异,无创且方便,患者依从性较好,是具有实际研究意义的。
3.1 图像分割方式的合理性分析
ⅠA期宫颈癌是浸润深度小于5 mm的病变,HSIL的病变范围则更加局限,肉眼很难在MRI图像上观察到两者的存在。因此,将宫颈作为ROI进行勾画。为了防止提取到过多的非强特征干扰建模,在矢状位进行勾画时,勾画层面剔除了左右两侧宫颈开始出现的层面,因为这两层往往含有较多的宫旁组织,会产生容积效应,同理,在轴位进行勾画时,剔除了上方宫颈与子宫交界区的层面;与此同时,鉴于宫颈癌的好发部位为宫颈外口的黏膜转换区[3],为了最大限度地将病灶纳入ROI中,在矢状位勾画时,宫颈外口处将勾画至边界外2 mm区域(其余部分均沿宫颈边界勾画),而轴位则勾画至下方宫颈消失后一层面。这样分割,既可以在肉眼难以识别病灶所在的情况下尽可能地将其纳入ROI中,又可以减少因勾画区域过大产生的计算负担。最终生成的VOI作为三维图像,可以更加全面地反映组织的异质性,提高模型的诊断效能[13]。
3.2 组学特征值及模型诊断效能分析
小波变换是在继承短时傅里叶局部变化的思想基础上发展而来的一种变换分析方法,是对时间(空间)频率的局部化分析,可达到高频处时间细分,低频处频率细分,从而实现对信号细节的任意聚焦,有数学显微镜之称。近年来,小波变换被广泛应用于医学图像处理与信号分析,Liu等[14]在使用MRI组学模型预测直肠癌化疗效果时发现,超过90%的特征为小波特征,与本实验的结果相似,同时他们发现与前人的实验相比,高阶变换特征的加入使得分类模型的诊断效能有所提升,AUC达到了0.9 7,经小波变换后的纹理特征更能反映肿瘤的异质性。
在本研究中,基于OAx-T1WI特征值建立的随机森林模型的训练集、测试集的AUC值均不理想,测试集AUC仅有0.5 1,等同于随机猜测,不具有鉴别价值,笔者推测是成像序列和特征值类型导致了模型的欠拟合。Roy等[13]采集了乳腺癌患者三组不同分辨率下的T1WI与T2WI图像,并以此为基础生成了多组不同信噪比的MRI图像,经过比较发现,基于T1WI序列的组学特征值相比于T2WI更容易受到信噪比变化的影响。本实验中基于OAx-T1WI提取到的10个组学特征值中,80%均为一阶特征。一阶特征是简单统计特征,将VOI转换为单个直方图来描述体素强度的分布,并从中导出如能量(Ener gy)、熵(Ent r opy)、灰度值范围(Range)以及灰度值偏斜度(Skewness)等特征值。这些特征值简单且容易提取,但是可靠性不如纹理特征。Wu等[15]的实验也证实了这一点,在他们的实验中,虽然Ent r opy、标准摄取值峰度(st andar dized upt ake val ue peak,SUVpeak)等一阶特征在早、晚期宫颈癌中存在差异,但基于其建立的支持向量机(suppor t vect or machine,SVM)模型AUC值均低于纹理特征,SUVpeak的AUC(0.6 25)是所有特征值中最低的。综上所述,笔者认为基于OAx-T1WI序列提取到的一阶特征值可能并非强特征,会导致模型的欠拟合,因此未采用OAx-T1WI构建联合分析模型。
纹理特征是由不同的描述性矩阵提取而来,可以反映给定图像不同体素之间相关性并捕获相邻体素之间的空间关系,因而在研究组织异质性方面有着重要的价值[16]。在本实验中,纹理特征值主要来自以下3组:GLDM描述了以某个体素为中心,距其特定距离内灰度值相似的体素个数,是表示周围相关性的矩阵[17-18];GLRLM则定义了不同方向具有相同灰度值的连续体素的长度,反映了图像纹理的粗细及均匀程度[19-20];GLSZM是量化图像中灰度区域的特征,可以衡量图片中体素灰度分布的均一性,是医学影像研究中使用频率较高的一组纹理特征。在此之前,尚未有人利用组学模型对ⅠA期宫颈癌与HSIL进行预测,Wu等[15]按照FIGO分期将宫颈癌分为早期(ⅠB期与Ⅱ期)和晚期(Ⅲ期和Ⅳ期)两组,基于GLRLM的SVM模型AUC(0.8 8)最高,GLSZM(AUC=0.7 64)则稍次之,与之不同的是在本实验中最理想的模型(AUC=0.8 9)纹理特征主要来自GLSZM。目前为止,已经从经验上验证了灰度级量化的程度对于纹理分类性能有着重要的影响,因此GLSZM相较于GLDM与GLRLM,在表征纹理一致性、非周期性或斑点状纹理方面效果更显著,并且在对细胞核和PET影像纹理方面有更好的性能[21-22]。除了可以用来预测分期,GLRLM还被证明可以用来预测宫颈癌的术后复发[23],有趣的是有研究发现[24]GLRLM在宫颈癌的组学特征中可重复性较低,不具有可靠性,Roy等[13]的实验似乎也印证了这一点,他们认为GLRLM是对信噪比变化最为敏感的纹理特征,目前尚无统一定论。
本研究所筛选的特征值中还包括GLDM,但是尚未在既往的文献中发现其与宫颈癌分期相关,笔者推测与ROI的勾画方式有关。HSIL与ⅠA期宫颈癌的浸润性不同,前者局限于上皮层内,尚未突破基底膜,而后者则突破基底膜向间质层浸润,两者病灶边缘的过渡区存在根本差异,而GLDM正是表示中心体素与周围体素相关性的矩阵。郭冉等[25]发现GLDM是预测子宫内膜癌肌层浸润的重要特征,Yu等[26]也发现GLDM与乳腺癌肿瘤组织的Ki-67表达水平高度相关,而Ki-67与肿瘤的生长浸润以及淋巴结转移密切相关。既往的实验往往更关注病灶本身,而忽略了其与正常组织间的关系,本实验的ROI范围较广,可以全面反映病灶周边的纹理特征。
3.3 本研究的局限性
第一,由于病种的特殊性,本研究的ROI相对过大,可能会造成模型的欠拟合,下一步将寻找新的分割方法,进一步优化模型;第二,本研究的样本量尚不足,且由于临床中ⅠA期的宫颈癌患者少见,ⅠA期与HSIL两组数据不平衡,需要继续扩大样本容量、平衡两组数据进行多中心研究,以改进模型的诊断效能;第三,由于术前接受增强MRI扫描的患者有限,所以本研究只使用了平扫图像来提取特征,仍需继续收集增强图像,观察其影像组学特征在鉴别ⅠA期宫颈癌与HSIL中的作用。
综上所述,基于MRI的影像组学随机森林模型可以较好地在没有明确病灶的情况下区分ⅠA期宫颈癌与HSIL,对于术前减少侵入性检查与指导术式有着一定的意义。
作者利益冲突声明:全体作者均声明无利益冲突。