APP下载

人工智能在结直肠癌医学影像中的临床应用

2022-11-23马梦航刘振宇

肿瘤影像学 2022年2期
关键词:组学直肠癌人工智能

马梦航,魏 炜, ,刘振宇,田 捷,

1. 西安工程大学电子信息学院,陕西 西安 710048;

2. 中国科学院自动化研究所,中国科学院分子影像重点实验室,北京 100190;

3. 北京航空航天大学,北京市大数据精准医疗高精尖创新中心,北京 100191

英国伦敦大学癌症研究中心在2012年的The New England Journal of Medicine上发表相关研究[1]指出,目前癌症的5年生存率一直没有得到提高的一个重要原因是我们缺乏对肿瘤异质性进行全面评估的方法,急需寻找新技术定量评估异质性。为了评价肿瘤基因异质性,图像定量化分析技术在临床中逐渐得到应用和发展,依靠人工智能技术从影像中挖掘出深层特征,结合临床大数据分析肿瘤信息[2-3],使微观的基因或蛋白质模式改变在宏观影像中有所呈现,可以反映人体组织、细胞和基因水平的变化[4]。这一方法可定量分析肿瘤异质性,对癌症早期诊断和预后预测具有临床辅助作用,可以促进患者的后续临床管理[2]。人工智能提供了影像生物标志的构建方法,有助于组织分割、细胞结构检测、肿瘤检测、诊断、预后评估、治疗反应预测以及疾病状态监测等[3]。人工智能已经在肿瘤术前、术中、术后的各个诊疗环节对临床决策产生积极的影响,包括肿瘤的分子分型[5]、淋巴结转移[6]、远处转移[7]、疗效评估[8]、预后预测[9]、免疫治疗评估[10]等,为患者的个体化治疗提供强大而有效的工具。

结直肠癌是世界上四大致命癌症之一,2020年全球新发患者数超过190万,死亡患者数为94万人,发病率排名第三,死亡率排名第二[11]。随着发展中国家结直肠癌患者数不断上升,预计2035年全球结直肠癌的新发患者将增加到250万[12-13]。在中国,结直肠癌新发患者为55万人,死亡患者28万[14]。在美国癌症死亡中,结直肠癌虽排第二,但总体的发病率和死亡率却呈下降趋势[12-15],这意味着,在中国开展结直肠癌诊前、诊中以及诊后的研究至关重要。目前中国放射科普遍存在一些问题,例如,人工阅片模式无法应对医学影像数据的增长,不同医师之间的经验差异导致漏诊、误诊率高。人工智能技术的发展为解决这些问题提供了新的机遇和方法。本文现对人工智能在结直肠癌医学影像中的临床应用作一述评。

1 影像组学方法

目前,基于人工智能的影像分析方法主要为影像组学,可分为人工定义特征和深度学习两种。前者基于人工定义的公式挖掘特征值表征肿瘤,后者则通过深度神经网络来理解病灶。

1.1 基于人工定义特征的影像组学方法

2012年,影像组学这一概念正式提出后,便迅速应用于肿瘤学的各种成像模式,例如磁共振成像(magnetic resonance imaging,MRI)、计算机体层成像(computed tomography,CT)、正电子发射体层成像(positron emission tomography,PET)和超声(ultrasound,US)等。在2014年,Aerts等[16]的实验流程对影像组学研究的标准化奠定了基础,其流程包括数据收集、勾画感兴趣区(region of interest,ROI)、特征工程、建模分析。

在人工定义特征的影像组学方法中,特征工程共3个阶段,分别是特征提取、特征分析和特征选择。提取ROI与肿瘤类型及微环境相关的影像学信息,将这些信息转化为具有高分辨率的空间信息并进行分析,排除对算法没有任何帮助的无关特征和表达意义相同的冗余特征,选出与期望预测任务相关性大的特征构建机器学习算法,完成临床预测及决策。特征决定了模型泛化能力的上限,特征分析和特征选择是影像组学分析中极其重要的一步,常用的算法有相关系数法、最小绝对收缩与选择算子(least absolute shrinkage and selection operator,LASSO)回归、主成分分析(principal component analysis,PCA)等。

1.2 基于深度学习的影像组学方法

深度学习是利用深度神经网络更深层次表达特征,是深度神经网络的总称[17]。与提取人工定义特征的影像组学不同,深度学习是自动从医学影像中获得高通量信息。通过调节网络的结构使提取的特征更具有针对性,避免了特征计算所造成的额外误差,从而使提取的影像学信息更具有全局表达性。

卷积神经网络(convolutional neural network,CNN)[17]自深度学习这个概念正式提出后就成为了医学影像中常用的模型算法之一。CNN受生物学视觉组织的启发而来,根据分析任务确定不同的网络层,层被连接在不同的块中,而不是直接连接,这些块之间的信息传递类似于视觉皮质,合理地利用了像素之间的位置信息,实现了参数共享权重。近几年图像识别领域的重要突破均由CNN取得,比如Google-Net[18]、Res-Net[19]、Dense-Net[20]。

基于上述两种分析方法的众多研究成果,本文从结直肠癌的分期、分子分型预测、新辅助治疗效果评估、预后预测等方面展开讨论。

2 结直肠癌的分期

TNM分期系统可以描述癌症的发展程度,从而帮助医师作出准确的诊断,并为患者制订有针对性的治疗方案[21]。

目前,对于T分期的研究仍然是个挑战,根据一项meta分析显示,直肠MRI评估T分期的差异较大[22],但人工智能技术的发展给医学影像分析带来了新的方法。在一项回顾性研究中,Sun等[23]入组了97例直肠癌患者,并从每例患者的T2加权成像(T2-weighted imaging,T2WI)中提取了256个影像组学特征,通过聚类算法和LASSO回归预测患者T分期;最终预测模型AUC为0.852,灵敏度和特异度分别为0.79和0.82;这项研究使用了监督学习和非监督学习,结果表明从MRI中提取的影像组学特征识别T分期是有价值的。

N分期表示结直肠附近淋巴结的转移数量,准确识别淋巴结状态对结直肠癌患者治疗和预后至关重要[24]。由于不同患者之间淋巴结的位置和大小存在个体差异,人工识别扫描区域中的淋巴结效率低下。因此,Zhao等[25]开发和验证了多参数MRI深度学习模型,旨在全自动检测和分割淋巴结。他们的训练集入组了293例直肠癌患者共5 789个淋巴结,内部验证集31例患者包含935个淋巴结,外部验证集50例患者包含1 198个淋巴结,每例患者都接受过T2WI和弥散加权成像(diffusion-weighted imaging,DWI)扫描,该算法最终在验证集上取得了较好的性能。

在之前的研究[26]中,笔者实验室联合广东省人民医院刘再毅教授团队,利用影像组学方法预测术前淋巴结转移;该项研究训练集和测试集分别包含326例和200例结直肠癌患者,使用LASSO回归选中了24个与淋巴结状态相关的影像组学特征,最终使用影像组学和临床融合特征建立了多元logistic回归模型,该模型在验证集的一致性指数(concordance index,C-index)为0.778。Liu等[27]收集了68例直肠癌患者预测T分期和N分期,从表观弥散系数(apparent diffusion coefficient,ADC)图中提取特征,最终也取得了令人满意的结果。

上述研究可以说明人工智能技术与医学影像结合在预测结直肠癌分期方面具有很大的潜力。从淋巴结的分割到淋巴结转移预测,再到分期预测均有令人满意的效果,这在一定程度上可减轻放射科医师的压力。

3 结直肠癌的分子分型预测

结直肠癌是一种异质性疾病,不同癌变通路的结直肠癌具有不同的基因表达,分子分型可加深对其异质性的理解。因此,准确预测分子分型有助于为结直肠癌患者制订更精确的治疗策略。Gao等[28]分析了14个独立的结直肠癌数据集,共3 578个样本,构建深度学习模型预测结直肠癌共识分子亚型;该深度学习模型输入的为高通量基因表达数据,利用前馈人工神经网络进行特征学习,构建分类器进行癌症分类;该研究证实深度学习特征可代表不同癌症亚型的特征性生物学过程,可剖析分子异质性;该项研究是一个标准的多中心研究,可以规避不同中心的机器参数、扫描习惯等因素对模型泛化能力的影响。

在为患者提供治疗决策时,KRAS、NRAS、BRAF突变可能会导致西妥昔单抗和帕尼单抗疗效不理想[29-31],因此,确定这些突变状态有利于患者的个性化诊疗。针对此问题,Yang等[32]采用影像组学方法收集了117张术前CT影像,61张作为训练集,其余作为验证集。每张CT影像提取346个影像组学特征,采用ReliefF和支持向量机筛选关键特征,结果表明影像组学特征与KRAS、NRAS、BRAF突变显著相关,最终在验证集上AUC、灵敏度和特异度分别为0.829、0.686和0.857。

除了使用CT影像外,Cui等[33]利用影像组学方法和MRI影像数据预测直肠癌患者KRAS突变状态。该项研究在一个中心建模,在另一个中心检测模型,从第一个中心连续性收集了304张T2WI影像,213张影像作为训练集,91张作为内部验证集,接着又从第二个中心收集了86张影像作为外部验证集。从每张影像提取了960个影像组学特征,经统计学分析后保留7个影像组学特征建立支持向量机模型,在此模型上训练集AUC为0.722,内部测试集AUC为0.682,外部测试集AUC为0.714。

在影像组学这一概念提出后,大多数研究采用单中心样本,而单中心模型由于不同中心机器参数、扫描习惯、诊断规则的不同,在推广时具有局限性,因数据的保密性和差异性限制了研究的可重复性以及模型的泛化能力。多中心建模可以检测模型的鲁棒性和准确性,便于模型的推广,开展多中心研究是加快人工智能应用于临床的关键。

(二)为英语的学习奠定坚实的基础。与小学比起来,初中的英语所涉及的内容较多,所以其学习难度也较大。从很多学生的表现中就能够看出,有的学生在小学阶段其英语学习较好,但是到了初中以后就发现自己跟不上班级的队伍,英语的学习成绩欠佳。这是因为小学英语中所涉及的教学内容较少,并且十分有限,但是初中却不一样,初中英语知识内容多而杂,学生无法快速适应这种转变,那么随之而来的就是成绩的下降。想要解决这一问题最好的方法就是将英语学习的基础做好,不断积累英语学习过程中的词汇。只有英语词汇能够达到一定的量以后才能在实践应用的过程中做到信手拈来。

4 结直肠癌的新辅助治疗效果评估

NCCN指南建议先通过新辅助治疗来控制局部进展期结直肠癌,再进行手术治疗[34-35]。采用新辅助治疗后,约20%的患者出现病理学完全缓解(pathologic complete response,pCR)[36-37],先前的一些研究[38-39]证明,这类患者不接受手术而采用“等待观察”的治疗策略是一种有效的选择。然而,接受新辅助治疗后的患者术前是否达到pCR只有通过手术切除标本的组织病理学检查来确认[40],治疗反应的评价主要基于术后病理学检查结果,基于术前影像学检查预测治疗反应尚不能满足个体化治疗的需要。

为了使新辅助治疗后达到pCR的患者减少额外的手术痛苦和医疗资源的浪费,斯坦福大学李瑞江教授团队和中山大学附属第六医院吴小剑教授团队在知名期刊Nature Communications上发表研究论文[41],试图利用深度学习方法预测新辅助治疗后的pCR;该项研究共收集了622例患者,所有患者均进行了基于治疗前和治疗后的MRI扫描,扫描序列包括T1加权成像(T1-weighted imaging,T1WI)、T1增强扫描、T2WI和DWI;其中训练集入组了321例直肠癌患者,在同一家医院前瞻性收集了160例患者作为内部验证集,并从第二个中心收集了141例患者作为外部验证集,他们设计了两个多层连接的孪生(Siamese)子网络,治疗前和治疗后图像在网络层中深度卷积,用于多尺度特征集成和pCR预测;最终模型内部验证集和外部验证集AUC分别达到了0.95(95% CI 0.91~0.98)和0.92(95% CI 0.87~0.96)。这项研究虽然集中在多参数MRI的分析上,但为多模态影像预测pCR和许多其他临床应用提供了新颖的思路。同样,Zhang等[42]基于弥散峰度成像(diffusion kurtosis imaging,DKI)技术的DWI序列和T2WI序列影像开发和验证了深度学习模型,他们入组了383例患者建立CNN,训练集和测试集分别为290例和93例。最终模型测试集的AUC为0.99(95% CI 0.94~1.00),准确度为0.978(95% CI 0.954~1.000)。

除了使用深度学习技术外,利用影像组学技术预测局部进展期直肠癌患者pCR也已有多项研究。Liu等[40]入组了222例接受新辅助放化疗的局部进展期直肠癌患者,训练集和测试集分别含152例和70例患者,入组患者均包含T2WI和DWI多参数MRI影像。每例患者的多参数MRI影像均提取了2 252个影像组学特征,特征工程采用双样本t检验和LASSO回归,多元logistic回归模型包含30个影像组学特征和1个临床病理学特征;在验证集上,模型的AUC高达0.975 6。Zhou等[43]回顾性地招募了425例术前接受新辅助治疗的局部进展期直肠癌患者,训练集和验证集划分比例为3∶1;所有患者在接受新辅助治疗前均接受T1WI、T2WI、对比度增强T1加权成像(contrast-enhanced T1-weighted,CE-T1WI)和DWI扫描,从每例患者新辅助治疗前影像中提取了2 424个影像组学特征,特征选择采用威尔科克森秩和检验(Wilcoxon rank-sum test)、皮尔逊相关系数和LASSO回归;最终选取16个特征建立多元logistic回归,基于多参数MRI联合模型的AUC为0.822(95% CI 0.752~0.891)。

MRI多序列融合建模是目前研究的热点。在大数据的驱动下,多序列融合也逐渐走向多模态融合发展方向。多模态图像有助于从不同视图中提取特征并带来互补信息。但是,多模态融合技术构建端对端的模型仍处于理论方法研究阶段,距离实际临床应用尚待时日。

5 结直肠癌患者的预后预测

随着研究的不断深入,结直肠癌患者的生存率由于新的治疗技术和方法已见提升,但局部进展期结直肠癌患者的无病生存期(disease-free survival,DFS)并未得到延长[44-46]。另外,关于Ⅲ期结肠癌患者的最佳化疗时间仍存在争议[47-48],同时尚不清楚一些高危Ⅱ期结肠癌患者是否应该接受化疗,因此有效的疾病分期和风险分层是非常重要的[49]。

Meng等[51]对108例患者的术前MRI影像手工分割ROI后提取485个影像组学特征预测局部进展期直肠癌患者的无病生存期,他们先排除了组内相关系数(intraclass correlation coefficient,ICC)小于0.8的268个特征,接着将LASSO选中的影像组学特征和临床特征相结合构建Cox比例风险回归模型,最后模型预测患者无病生存能力的C-index为0.788(95% CI 0.72~0.86)。

准确预测直肠癌患者是否远处转移有助于治疗方案的选择和危险分层,Liu等[52]回顾性收集来自3家医院共235例接受新辅助放化疗的局部进展期直肠癌患者,两家医院共170例患者作为训练集,另一家医院的65例患者作为验证集,所有患者均接受T2WI和DWI扫描,ADC由b0序列和b1000序列产生;通过迁移ResNet-18构建了一种基于多参数MRI的深度学习模型,之后又将这些特征结合深部MRI信息和临床病理因素建立诺谟图;在验证集上,深度学习模型预测远处转移C-index为0.747(95% CI 0.665~0.830),诺谟图则为0.775(95% CI 0.695~0.856)。

在对癌症的分期、分子分型预测和新辅助治疗效果评估的研究中都有一个共性问题,均是利用人工智能技术预测已有的临床因素。而上述的研究证明人工智能技术能够更好地帮助医师预测患者的预后信息,为患者提供更加精准的医疗服务。

6 总结与展望

综上所述,人工智能技术正越来越多地应用于医疗领域,在医学上已产生众多具有临床意义的成果,形成了一套较为完整的理论体系和技术架构。从影像中挖掘高位信息全面表征肿瘤的异质性,到根据临床问题选择特征以及算法,这套体系已逐渐成熟。本文以发病率和死亡率较高的结直肠癌为例,分析了人工智能技术与医学影像结合的重要性,列举了人工智能在结直肠癌分期、分子分型、疗效评估和患者预后预测方面的研究成果,表明人工智能是一种有效的辅助临床决策工具。

目前人工智能在结直肠癌中的研究仍有局限性,首先是数据样本量有限,特别是对于深度学习方法来说,需要更多的数据训练和验证模型,更多的患者数量和临床因素结合有望发现更多有价值的信息。其次,数据样本不平衡会导致模型在实际预测中会对类别有侧重,导致样本多的类别训练结果好,样本少的类别结果差。目前前瞻性的研究较少,而前瞻性研究可以验证模型的鲁棒性。最后,目前的研究缺乏公开代码或者公开模型,在一定基础上限制了模型在其他中心数据的可重复性及其性能表现。

人工智能引入肿瘤学仍然是一个新提出并迅速发展的领域。它整合了放射学、肿瘤学和机器学习[46]。但大多数的研究基于私人数据集,并且没有使用共同的实验设置和评价标准。为了更好地理解人工智能机器学习方法在结直肠癌分析中的成功标准,并为新的研究人员提供更好的方法,需要确定通用的数据标准化和评估标准。随着人工智能技术不断的提高,对数据量的要求也在提高,因此应建立适当的大数据库和数据共享的方案。人工智能技术的发展有可能从根本上改变医学实践的方式,将会在很大程度上推动个性化医疗和精准医疗的发展[56-57]。

猜你喜欢

组学直肠癌人工智能
口腔代谢组学研究
2019:人工智能
人工智能与就业
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
腹腔镜下直肠癌前侧切除术治疗直肠癌的效果观察
数读人工智能
下一幕,人工智能!
直肠癌术前放疗的研究进展
COXⅠ和COX Ⅲ在结直肠癌组织中的表达及其临床意义
代谢组学在多囊卵巢综合征中的应用