影像组学在前列腺癌中的应用进展
2018-03-03张洪涛俞鸿凯王海屹叶慧义
张洪涛 俞鸿凯 王海屹 叶慧义△
1中国人民解放军总医院放射科 100853 北京2中国人民解放军第307医院放射科3中国人民解放军总医院泌尿外科△审校者
前列腺癌(prostate cancer,PCa)是男性生殖系统常见的恶性肿瘤,近年来前列腺癌发病率呈上升趋势,已成为老年男性最常见的恶性肿瘤之一。中国的发病率和病死率明显上升, 正在逐步接近欧美国家,成为严重威胁老年男性健康的一大疾病。据统计近年来北京、上海、广州三城市居民男性泌尿生殖系肿瘤发病率第一位[1]。MRI在前列腺癌的发现、诊断、分期和疗效评估中发挥着重要作用。在临床工作中,随着影像设备所生成的图像数据量越来越大,而影像科医师主要依据个人经验对影像征象进行诊断,不可避免地会出现漏诊和误诊的情况。过去对图像数据的处理与使用难以充分挖掘图像的大数据信息,如何更有效地利用医学影像数据,从肿瘤表型中抽取更多有价值的信息,使临床诊断更科学、客观和准确,是亟待解决的技术问题[2]。因此影像组学应运而生,它将传统的影像图像转换为可挖掘的数据信息,并对之进行高通量(high throughput)定量分析[3, 4]。
1 影像组学的提出
2012年,Lambin等[5]首次提出了影像组学的概念,其定义是利用计算机软件将医学影像转化为可挖掘的数据,从中抽取海量的定量数据特征,用于临床信息的解析[6]。此前就有很多研究利用纹理分析方法挖掘蕴含于医学图像中的深层信息,用于疾病的定性、疗效预测和判断预后等。随着图像处理技术的发展[7],除了纹理特征外,还可以提取强度、形状、小波等高维特征,特征数量可达数百至数千以上。如何更有效地利用医学影像数据,从肿瘤表型中抽取更多有价值的信息,是现在面临的临床技术问题[8]。影像组学其基本流程包括数据收集、图像分割、特征提取、特征筛选和构建模型及临床信息解析。
2 影像组学的分析方法
运用影像组学开展临床问题研究的实施流程主要分为五个步骤。
2.1 影像数据采集
获取高质量、标准化的图像是整个流程的基础,解决影像特征数据采集与重建参数的标准化是关键[9]。由于医学影像的种类繁多,需要集中对不同模态影像数据进行整合挖掘,为临床指标提供精确预测,这对于影像数据的质量提出了严苛要求,因为劣质影像会影响数据分析的准确性。数据包含的样本应尽量多,为避免由于特征过多造成过拟合问题,集合应达到一定规模[10, 11]。
2.2 兴趣区分割
采用兴趣区(region of interest, ROI)把病变轮廓逐层勾画出来,通过三维容积重组生成三维兴趣容积(volume of interest, OI)[12]。图像的分割有手动、半自动、全自动三种方式。前两者是目前的主流方式,但随着计算机技术的进步及分割算法的完善,全自动将成为将来的主流手段[13, 14]。肿瘤分割算法主要可以分为基于区域的方法,如区域生长算法[15];基于边缘约束的方法,如主动轮廓模型和水平集分割算法;分类或聚类方法,包括支持向量机、深度神经网络、随机森林[16]等;当前也有一些混合方法,尝试利用各种附加信息来改进分割结果。当前已经有多款较成熟的影像分割工具可以在科研工作中使用,常用的工具包包括3D Slicer、ITK-SNAP、MITK以及中国科学院研发的3D Med和MITK等。
2.3 特征数据的提取
肿瘤ROI一旦被确定,影像特征便可以通过计算机进行提取。特征的选择和提取也是图像定量分析的重要一步,目的是降低图像特征描述子(descriptor)的数量进而降低计算量并提高计算效率[17]。目前常用的影像组学特征包括一阶统计特征、空间几何特征、纹理特征和小波特征4大类[18]。常用的纹理测度包括以下3类:①灰度共生矩阵,其不仅包含灰度统计信息,而且反映灰度分布的空间信息。包括角二阶矩(能量)、惯量、熵。②分形维,图像的几何形状(粗糙程度)也可用分形维描述。分形维作为分形的重要特征和度量,可以作为描述物体的一个稳定的特征量。③行程统计。由于纹理特征描述相似(不相似)体素间对比值的内在统计关系,因此通过纹理分析可以测量肿瘤内的异质性。
2.4 特征数据的降维
基于上述分析提取的影像特征非常庞大。因此,高维特征数据的降维是特征提取过程的重要一步。其中有效的降维方式有主成分分析、互信息、Fisher判别、带惩罚项回归分析和线性判别等机器学习方法,获得的参数具有高重复性、信息丰富和冗余度低的特点[19]。
2.5 模型建立
针对研究目标完成对模型的建立和训练。常用以下六种数学方法:①多层前馈型神经网络(back-propagation, BP)法,是目前临床科研应用最为广泛、亦最为成熟的神经网络模型。②偏最小二乘回归法(partial least squares regression, PLSR),一种新型的多元统计数据分析方法,它主要研究的是多因变量对多自变量的回归建模,特别当各变量内部高度线性相关时,用PLSR更有效。③随机森林法(Random Forest, RF),该算法下包含多个决策树,可以有数以千计的输入变量,同时可以按变量对分类结果的重要性进行排序。④支持向量机(support vector machine, SVM),其基础是统计学习理论,采用结构风险最小化准则,根据有限的样本信息在模型的复杂性和学习能为之间寻求最佳折衷,获得较好的推广能力。⑤Boost算法,其主要原理是,通过改变数据分布的模型,将用不同的训练集获得的弱分类器组合成一个强分类器。 其基本思路是,根据往的训练结果(包括总体分类的准确率),赋予每个变量相应的权值。该方法的优点是能够将重点放在那些较难分开的样本上,且不容易出现过拟合的现象。⑥Logistic回归判别分析(logistic discriminant analysis),相比较于一般的线性判别分析,是一种更为灵活的判别方法,可以处理连续型、 离散型与混合型等多种类型的数据,logistic比一般的线性判别有更广的应用范围。近年来一些更精密更复杂的分类方法,诸如支持向量机、 随机森林等不断迅速发展[20]。
3 影像组学在前列腺癌方面的临床应用
影像组学概念提出后,引起了众多国内外学者的重视,纷纷将影像组学方法用于各种肿瘤(如肺癌、结直肠癌、乳腺癌及胶质瘤)的研究中,应用范围包括肿瘤的定性、临床分级分期、疗效评价、预后分析和基因分析等。
3.1 肿瘤诊断及分期
影像组学对于鉴别良恶性病变与组织分化程度具有重要价值。Sidhu等[21]认为前列腺移行区的纹理分析能够鉴别出前列腺移行区显著癌。Wibmer等[22]通过对147例经活检证实的前列腺癌患者的MRI图像的研究发现,T2加权成像(T2-weighted imaging, T2WI)和表观扩散系数(apparent diffusion coefficient, ADC)图像的Haralick纹理特征有利于区分癌变组织与非癌变组织:ADC 图像中,癌变组织的熵和惯量值明显高于非癌变组织,而能量、相关性和均质性则明显低于非癌变组织;T2WI 图像中,癌变组织的惯量值明显高于非癌变组织,而相关性则明显低于非癌变组织,而两者能量、熵和均质性均的差异无统计学意义。Liang等[23]学者研究了基于CT图像的影像组学特征对结直肠分期的价值,该研究结果提示影像组学分析可作为结直肠术前分期的一个重要的辅助手段。将前列腺癌的诊断带入新的高度,提高诊断的敏感性与特异性,以及稳定性,大大降低依赖个人诊断水平的因素。
3.2 疗效评价与预后分析
影像组学分析可被用于评价前列腺癌的疗效与预后分析。Rosenkrantz 等[24]认为影像组学能够区分Gleason3+4与Gleason4+3的前列腺癌。Nie等[25]利用治疗前多参数核磁图像(DWI、T1/T2、DCE)的影像组学研究评价直肠癌新辅助放化疗效果,结果显示通过纹理参数建立的模型相较于传统的检查策略可以提高预测的准确性。Aerts等[26]分析了440个纹理特征,这些特征主要评价肿瘤图像的灰度、形状和纹理类参数,这些图像来自于1 019个肺部和头颈部肿瘤;分析显示纹理特征与潜在的基因表达相关,并与预后生存紧密相关。Gnep等[27]认为T2WI Haralick 影像组学特征与前列腺癌放射治疗后的生化复发密切相关。所以随着影像组学的发展,以及对它的认识越来越深刻,影像组学将越来越多地应用于高级别前列腺癌的确定和前列腺癌侵袭性的分析,以及前列腺癌内分泌治疗及放疗后的疗效评价。
3.3 基因预测
近年较多研究揭示了影像基因组学在肿瘤影像学取得一些鼓舞人心的成果。Mazurowski等[28]研究认为分子亚型为luminal B型的乳腺癌与肿瘤动态增强曲线特征之间有显著的相关性。Lee等[29]通过研究214例Ⅰ期非小细胞肺癌手术患者EGFR蛋白表达情况及其影像学特征之间的关系,认为EGFR过表达阳性组肿瘤直径显著大于阴性组;磨玻璃密度所占比例>50%者在 EGFR 蛋白表达阴性组较阳性组更多见(P=0.007)。Yamamoto等[30]研究172例非小细胞肺癌的基因突变与影像特征之间的关系,认为影像特征(肿瘤的中心性生长、胸膜尾征、胸腔积液)与ALK基因突变之间有明显相关性。而Rizzo等[31]研究认为伴胸膜凹陷征的周围型非小细胞癌的EGFR基因突变率为27.5%,高于不伴胸膜凹陷征。前列腺癌发生是一个多基因参与、多因素作用及经过多阶段演变才最终形成复杂的生物现象。自2005年Tomlins等[32]首次报导前列腺癌的跨膜丝氨酸蛋白酶编码基因TMPRSS2(transmembrane protease serine 2)与ETS转录因子家族成员ERG、ETVl等之间发生融合,认为融合基因与前列腺癌的发生、淋巴结转移有关。所以可以利用影像信息与基因组关联研究肿瘤分子基因及其亚型的临床发病机制、表型的相关性,用于指导临床治疗方案的制定。利用影像组学特征诠释疾病的分子基因表型特征,将影像学与遗传学的不同优势有机结合,通过定量化的技术,将更多的疾病特征更加有效地描述出来,弥补基因诊断技术在临床应用的局限性。
4 影像组学的困境与前景
影像组学的研究尚处于早期阶段,还存在许多问题。第一,影像数据的来源标准不一样,尤其是多中心核磁的数据,所用采集图像的参数没有统一标准,数据样本不平衡。不同中心、不同设备、不同参数采集的数据,采集过程中图像的噪声、伪影如何评价等,这些问题不是某个个体或组织能够解决的,需要相关标准化规范。获得优质的数据集仍是一个比较困难的问题,这些因素可能潜在地影响了分析结果[33]。第二,数据提取的软件多种多样,尚无适合各类医学图像进行影像组学分析的通用的、标准化的分析处理方法[34]。第三,影像组学分析处理过程中,由于其特征计算基于肿瘤的ROI,因此肿瘤分割是首先要面对的挑战。观察者自身和观察者之间的一致性也需引起重视,通过计算机辅助半自动或自动方法分割肿瘤区域或容积可能有助于减少变异来源。第四,特征稳定性及结果解释的问题,影像组学可以提供海量的特征,如何寻找辨识度高、独立性强、可重复的特征仍需要更多的工作。即使影像组学能够提供较好的应用结果,但也面临如何更好解决临床医学问题的困境。
影像组学的出现,得益于计算机软硬件技术的飞速发展,因此影像组学是一个典型的医工结合的交叉研究领域。近些年来,越来越多的研究表明了影像组学特征在很大程度上与肿瘤生物学行为相关,初步证实了影像组学在辅助判断肿瘤疗效、预后以及鉴别肿瘤组织等方面的临床应用的可行性[35]。精准医学要求量化肿瘤内空间和时间的异质性,影像组学能实现精准医学的目标。随着肿瘤精准治疗和临床大数据的逐渐推广应用,影像组学将具有广阔的临床应用前景[36]。