机器学习在乳腺癌全程全方位管理中的研究进展
2021-12-04徐一云陈佳静秦悦农吴春宇孙霃平刘胜
徐一云,陈佳静,秦悦农,吴春宇,孙霃平,刘胜
(上海中医药大学附属龙华医院中西医结合乳腺科,上海 200032)
近年来随着筛查的普及和相关科技成果的转化,女性发病率最高的恶性肿瘤——乳腺癌的早期确诊率显著提高,同时患者的预后显著改善[1]。乳腺癌的全程全方位管理涵盖了以肿瘤规范化治疗为基础的“精准治疗”和早期乳腺癌治疗后“慢病化管理”两大模块,同时也带来了更多量级、多维度、高度复杂性、异质性的乳腺癌相关诊疗数据。然而,受限于医疗资源分配不均、人力资源的有限性以及不同临床评估标准体系的差异等因素,未来将乳腺癌的全程全方位治疗管理理念高效地应用于临床还面临诸多挑战。数字技术的快速革新以及人工智能医疗、“互联网+”医疗、物联网医疗等概念及产业的发展,极大地促进了医疗大数据的传输、存储、监测、应用与开发[2-3]。机器学习作为一种智能数据处理、分析、辅助制订决策、预测事件结局的技术,已广泛应用于医疗领域,在生命和医学科学研究中具有重要地位[4]。现就机器学习在乳腺癌全程全方位管理中的研究进展予以综述。
1 机器学习概述
机器学习是指计算机通过模拟人类行为实现智能学习和处理的技术。逻辑回归等基础算法是早期机器学习的主要算法,自20世纪80年代起,卷积神经网络(convolutional neural network,CNN)[5-6]、支持向量机(support-vector machine,SVM)[7]、随机森林[8]等相继诞生,但其数据和算力限制了机器学习的发展。进入21世纪,计算机算力的指数级增长推动了深度学习、生成对抗网络的应用与实践,实现了机器模仿人类写作、绘画等,著名的Alpha Go系列人工智能更是展现了机器学习领域中深度强化学习在围棋等拟人化复杂思维运算领域的成功[9-10]。目前,机器学习已应用于医疗领域,旨在协助临床医师为每例肿瘤患者提供个性化的诊疗方案。
机器学习的步骤主要包含数据采集、数据处理、数据分析、分析与总结。其中,数据分析即运用适当数学模型总结样本中的规律,同时在未知的情形下进行验证,以得出符合已知规律的结论,核心为机器学习的学习方法。而数据分析包括:①分类,通过使用标签和参数来预测离散的分类响应值;②聚类,将数据划分为子组;③回归,预测连续响应的数值以识别分布趋势。其中,分类和回归基于监督学习,而聚类涉及无监督学习。
2 机器学习与乳腺癌的综合诊疗及全程全方位管理
乳腺癌的诊疗方案涉及肿瘤筛查、诊断、治疗、预后、随访期间相关并发症等环节。机器学习算法在兼顾乳腺癌诊疗环节中的数据类型、研究目的、专业要求甚至产业结构差异性的同时,还具有良好的临床应用能力。
2.1提高乳腺癌筛查效率 乳腺癌的筛查依赖于乳腺彩色多普勒超声、钼靶和磁共振成像等影像检查以及专科医师的体格检查。各种筛查方法联合应用可以获得较高的诊断灵敏度和特异度,有助于乳腺癌患者的早期诊断与干预,从而改善患者预后、减轻其经济负担。然而,由于传统计算机辅助诊断系统多依赖专科医师的手工特征提取,同时乳腺影像的诊断速度与精准度又受限于人力、工作时间、专业性等因素,不能适应目前呈指数级增长的乳腺影像数据。随着机器学习和图像处理技术的发展,以深度神经网络模型为主的机器学习算法不仅可以解决图像分类任务,还为乳腺癌的筛查、诊断、评估提供了可能[11]。有研究者开发了多尺度全CNN模型,实现了对乳腺钼靶影像正常腺体以及乳腺良恶性肿瘤的自动分类,总体灵敏度达96%,受试者工作特征曲线下面积为0.99[12]。CNN等计算机算法被广泛应用于乳腺癌的影像判别。McKinney等[13]开发的钼靶筛查乳腺癌的人工智能系统受试者工作特征曲线下面积为0.889(英国)和0.8107(美国)。基于机器学习开发的人工智能系统对乳腺癌影像识别相关算法的不断优化,提高了乳腺癌的筛查效率,降低了误诊率和漏诊率。与乳腺彩色多普勒超声影像相比,相对客观且可公开获取的钼靶影像组学更受机器学习相关研究者的关注。
2.2优化乳腺癌病理诊断流程 整体切片成像系统的开发与应用实现了数字化辅助病理诊断。由于像素级的差异,与临床影像相比,病理组织影像携带了更多关于细胞种类、形态、空间排列等信息,更适合开展基于深度学习的对乳腺癌病理影像进行分类诊断的应用研究,替代传统病理诊断流程。在CAMELYON 16、ICIAR(International Conference on Image Analysis and Recognition)2018等机器学习算法辅助乳腺癌病理诊断的竞赛中,排名靠前的算法均运用了CNN架构[14-15]。CNN、多尺度CNN等均可实现对苏木精-伊红染色的乳腺病理图像中正常组织、乳房良性病变、原位癌、浸润性癌的自动分类。由于深度学习模型的泛化性与训练的样本量密切相关,在样本量受限时深度学习结合迁移学习可改善深度学习模型中过度拟合的问题[16]。
国外学者运用分类器模型实现了对91 505个母语为英语的乳腺病理报告的自动解析[17]。我国学者报道了一种以自然语言处理结合SVM算法判别乳腺中文病理检查报告的方法,该方法对于二进制数值结果识别的完全正确率达85%(346/405)[18]。将机器学习算法应用于病理报告的判读,可从繁冗的信息中高效提取乳腺癌分期、分子分型等关键信息,降低人为误判的可能性。但受地域、病理医师专业性的影响,病理表述内容及格式上存在差异,因此,未来更贴近母语使用习惯的算法将具有更广阔的应用前景。
2.3辅助乳腺癌西医综合治疗 计算机对图像及文本进行检测、分级等基础分析,目的是使工作流程自动化,且不改变乳腺癌临床工作流程和治疗建议。另一方面,机器学习可以揭示数据特征之间隐藏的关联性,如通过构建数学模型挖掘出术前医疗影像或文本中的特征与后续治疗方案之间的相关性,而此类数学模型的应用与推广可能对乳腺癌的临床治疗决策产生影响。研究已证实,≤2枚前哨淋巴结转移的早期乳腺癌患者,无需行腋窝淋巴结清扫术且不影响术后总生存期[19]。前哨淋巴结活检术作为一项创伤性操作,也可能导致上肢麻木、水肿等术后并发症。Yu等[20]通过回顾性预后研究构建了动态对比增强磁共振成像放射学特征模型并进行了模型验证,该模型可识别术前腋窝淋巴结转移状态,辅助医师为不同淋巴结转移状态的乳腺癌患者制订最优的手术方案,同时该模型也可预测早期乳腺癌患者的无病生存期。Zheng等[21]应用临床参数结合深度学习超声影像组学,预测早期乳腺癌患者术前腋窝淋巴结转移状态。以上研究借助机器学习实现以非侵入性方式预测早期乳腺癌腋窝淋巴结转移情况,为临床医师选择恰当的腋窝淋巴结手术治疗方案提供了参考。
乳房在解剖结构中与心、肺等重要脏器毗邻,精准选择感兴趣区域、保证其运动跟踪度均与减少乳腺癌患者放疗不良反应密切相关。有学者开发了基于CNN的方法,实现了自动选择放疗最优的表面感兴趣区域,且其定位的精准率显著高于医师手动选择的区域[22]。同时,机器学习还可实现光束与患者解剖匹配,从而通过面部表情预测患者进阶运动,提高放疗的稳定性[23-24]。还有研究以不同机器算法筛选最优模型,通过正电子发射计算机断层显像、磁共振成像等影像特征早期预测乳腺癌新辅助治疗后病理完全缓解等情况[25-27]。运用计算机建模评估人表皮生长因子受体2(human epidermal growth factor receptor 2,HER2)基因过表达乳腺癌患者经新辅助治疗后的HER2表达水平[28],可以帮助临床医师在乳腺癌新辅助治疗早期获取更为精准的信息,及时评估或调整治疗方案。
乳腺癌患者激素受体(hormone receptor,HR)的状态是内分泌治疗的指征,而乳腺癌患者HR的表达需要经免疫组织化学检测。Naik等[29]开发了一个基于大样本病理学习的深度神经网络算法,可通过苏木精-伊红染色的病理组织影像预测乳腺癌患者的HR状态,该算法可缩短乳腺癌患者获得内分泌治疗决策的时间。有学者以HR+/HER2-的晚期乳腺癌患者电子健康记录为数据集,运用机器学习和自然语言处理方法开发了预测HR+/HER2-早期和晚期乳腺癌进展的模型[30]。在晚期乳腺癌的诊治领域开展相关机器学习的研究可使更多具有高危复发风险的患者获得及时监测并及早进入一线治疗。值得注意的是,新技术和新药物的不断研发上市、乳腺癌诊疗指南内容的不断更新均会对目前机器学习模型的效能产生影响。
2.4辅助乳腺癌中医诊疗 乳腺癌的中医临床诊疗流程涉及下列模块:四诊及症状的收集→辨病(临床治疗分期)→辨证→治法→方药[31]。由于中医相关医疗文本中症状、辨证记录的模糊性、主观性,中医药临床研究的结果缺乏在更大数据集上验证的准确性及可重复性。因此,中医四诊及症状的客观化、标准化显得尤为重要。目前机器学习已渗入乳腺癌中医诊疗的各个方面。声音、图像的数字化存储及处理可促进机器学习在中医四诊客观化中的研究与应用,如运用SVM、反向传播神经网络等算法根据眼神特征将中医中抽象的概念望神客观化[32];运用SVM、随机森林、CNN等算法可实现舌象的客观分类[33-34];运用CNN可通过声学信号实现闻诊的虚实辨证[35];此外,还可通过梯度推进、随机森林结合K均值聚类算法增强高血压病脉冲波模型的稳定性,实现脉冲波对脉诊的客观分类[36]。
目前,聚类、分类、关联规则、逻辑回归等传统算法已广泛用于基于医疗文本数据的乳腺癌证型的识别和处方分析。高秀飞等[37]应用聚类分析184例乳腺癌伴抑郁症患者发现,肝郁气滞、肝郁脾虚、肝肾阴虚、心脾两虚为其主要证型,同时初步构建乳腺癌伴抑郁症患者的中医辨证模型。还有研究采用关联规则、聚类分析等研究中医古籍处方治疗乳腺癌的用药规律,以期根据临床肿瘤负荷的不同,提供不同的用药思路[38-39]。
通过机器学习可以使目前传统中医大数据具有标准规范定义,促进中医药现代化进程。人工神经网络通过模拟自然神经元的运作机制,构建输入与输出间的系统模型。Huang等[40]运用神经网将2 738例乳腺癌患者医疗文本中的中医关键术语进行标准化和集成,同时结合聚类分析完成乳腺癌证型及中医处方治疗目的的自动识别。由于患者的素体差异可能导致临床治疗分期相同的患者间出现“同病异治”的情况,将个体化治疗差异极大的中医诊疗思维转化为更具实际操作性的代码是目前机器学习的难点。在医疗智能化、数据共享化的时代背景下,以神经网络为基础架构的深度强化学习等算法可促进中医内在诊疗逻辑的具体应用,助推中医现代化的进程。
2.5监测乳腺癌相关身心疾病 积极监测乳腺癌相关并发症以及早期心理干预可以改善患者的生活质量。如早期监测乳腺癌患者术后上肢淋巴水肿有助于及时干预控制病情[41];运用人工神经网络结合极限学习算法可实现对乳腺癌术后抑郁症高危患者的早期识别[42]。近年来,随着医疗物联网相关产业的发展以及可穿戴式传感器的普及,实现了对乳腺癌相关医疗健康数据的远程获取与实时监测[43]。高效地从数据中提炼出具有临床意义的信息并进行早期干预,是目前“万物互联”时代大背景下机器学习算法面临的挑战。
2.6预测乳腺癌复发风险 传统乳腺癌风险预测工具的开发及应用多基于患者的年龄、病理报告中描述的肿块大小、腋窝淋巴结情况、免疫组织化学等指标。机器学习则试图在临床、病理影像等数据与基因表达之间构建相关算法模型,绕过人工阅片、撰写报告、临床判读等环节,直接预测乳腺癌复发风险。Tahmassebi等[44]应用8种机器学习算法通过多参数磁共振成像预测乳腺癌新辅助化疗患者的生存结果。基于基因层面的乳腺癌复发风险检测方法受限于高昂的检测成本及技术可及性,无法广泛开展。但有研究通过机器学习算法初步实现了通过苏木精-伊红染色的乳腺病理组织图像判别患者的雌激素受体状态、PAM50(prediction analysis of microarray 50)评分和复发评分风险[45-46]。由此可见,开发出更具泛化性的乳腺癌预后模型可使乳腺癌相关信息的获取由基础、简便向更高级、更复杂的层级跨越,以更低的成本完成对患者预后的精准预测,减少整个社会在基因层面检测治疗的支出,使更多患者获益。
3 小 结
鉴于医疗行业的精密要求,必须控制过失误差、系统误差在极小范围内。受限于乳腺癌精准治疗指南的更迭、中医个体化辨证施治、患者生物信息等相关伦理问题,目前的机器学习担负着辅助医师完成临床决策的重任。机器学习对数据的存储、共享、可重复性、预测性等功能已全面渗透于乳腺癌的筛查、诊断、治疗、监测、评估、随访等各环节。未来,机器学习处理数据的高效能将逐步改变乳腺癌临床诊疗中简单重复的工作流程。而随着5G通讯技术、物联网、机器学习的协同发展,数字化医疗将为乳腺癌等疾病的诊治及全方位管理带来全新的体验。