肿瘤数智诊疗研究的现状及前景
2023-10-07杨凯涵王旭亚综述冯晓彬黎成权苗启广审校
杨凯涵 王旭亚 综述 冯晓彬 黎成权 苗启广 审校
据国家癌症中心统计,中国2016 年新增癌症病例406.4 万例,新增癌症死亡病例241.4 万例[1]。根据世界卫生组织(WHO)国际癌症研究机构数据,2020年中国新发癌症病例457 万例,死亡病例300 万例[2]。中国恶性肿瘤新发病例和死亡例数均居全球第一,且持续上升。在过去的10 余年里,中国恶性肿瘤生存率呈现逐渐上升趋势。目前中国恶性肿瘤的5 年相对生存率约40.5%,与10 年前相比,总体提高约10%,但与发达国家相比仍存在差距。其中,在中国预后较好的肿瘤,如乳腺癌(82.0%)、甲状腺癌(84.3%)和前列腺癌(66.4%)的5 年生存率仍远低于美国等发达国家(90.9%、98%和99.5%)[1]。肿瘤的早期发现与精准诊疗对改善患者总体生存至关重要,扩大相关肿瘤的筛查及早诊早治覆盖面、肿瘤临床诊治规范化和同质化推广应用有助于降低肿瘤发病率与死亡率。
肿瘤患者因其高度的瘤间以及瘤内时空异质性,诊治十分复杂[3]。中国医疗卫生行业面临巨大的服务需求压力,对肿瘤等特殊病种的医疗资源更是局限在少数医疗机构。2017 年7 月,国务院印发的《新一代人工智能发展规划》中提到,推动人工智能在医疗健康领域的应用研究,建立快速精准的智能医疗体系,加快“数字健康”向“数智健康”转型。肿瘤数智诊疗即结合数字与智能技术辅助开展肿瘤诊疗,对肿瘤患者的基本信息、影像、病理、基因检测等数据进行整合,通过分析数据中的隐含关系,在疾病预防、辅助诊断、药物研发、治疗反应和预后评估等方面展开研究,提升总体肿瘤精准诊治能力,解决医疗资源紧缺[4]。本文将对数智技术在肿瘤辅助诊疗的发展方向和研究现状进行综述,并讨论在数智技术快速发展的背景下,肿瘤数智诊疗研究中存在的问题和建议。
1 肿瘤数智诊疗模型建立的简要过程
数智诊疗模型的建立基于两个元素:数据和算法。一些医学数据本身即为数据格式,如患者基本信息(年龄、性别、身高、体质量等)、临床检验数据;而另一些数据则需要进行二次统计表征,如患者主观感受或某些症状表现,病理数据、影像学数据以及多组学基因测序数据。构建数智诊疗模型的第一步便是处理数据信息,适当地清洗数据(异常值处理、数据标准化、特征选择等),再通过算法将特征与患者的临床表现、表型、预后、治疗反应等进行大样本训练[5-7]。
在算法选择方面,传统机器学习算法如随机森林[8]和支持向量机[9]仍被广泛应用,随机森林通过分别使用不同的特征训练多棵决策树模型,最后再结合所有的模型综合给出预测结果;支持向量机通过给定的特征通过数学方法尝试找到一个能够以最大间隔把两个类别分开的决策边界从而给出预测。深度学习算法如U-Net[10]、快速的基于区域的卷积神经网[11]、目标检测算法(YOLO)[12]等则广泛应用于医学图像的分割和病灶检测等任务。然而这些深度网络的训练通常需要大量的标注数据。为了减少对这些标注数据的依赖,研究者们开始尝试将这些网络与自监督学习方法结合,如自监督算法(BYOL)[13]和SimSiam[14],典型的自监督学习方法首先会对同一份数据进行不同的数据增强操作,如旋转、拉伸、遮挡或调节对比度,而这些增强数据会被输入到同一个网络结构的编码器中(如UNet 的编码器)。目标是让网络对经过不同增强的数据产生相似的表示或向量,确保网络的编码器能够提取数据的内在特征,进而根据不同的任务进一步进行微调。在微调中,将采用先前通过自监督方法预训练的编码器,并在其后附加特定的解码器(如U-Net 或YOLO 的解码器或者多层感知器等等)。这样组成的完整网络结构随后使用标注数据进行进一步的训练,以适应特定任务,如肿瘤分割或病灶检测,常见的神经网络模型结构有全连接神经网络、循环神经网络(常用于文本/时间系列任务)、卷积神经网络(常用于图像任务)等。这种结合自监督学习的策略,使得在标注数据受限的情境下,仍然能够训练出性能卓越的模型(图1)。
2 肿瘤数智诊疗模型的研究现状
肿瘤数智诊疗模型的应用主要分为以下几个方面:1)利用患者的基本信息、临床检验、影像检查等数据辅助进行临床诊断。2)通过患者的精准诊断信息,对患者的治疗方案提出建议,治疗反应进行预测。3)通过诊断、治疗以及个人基本信息等对患者的预后进行预测,以提示临床的预见反应。
2.1 数智技术辅助肿瘤诊断
肿瘤的精准诊断是精准治疗的基础。恶性肿瘤常呈高侵袭性,或伴有微卫星灶,在影像学上难以精准鉴别,更有部分恶性肿瘤早期在影像学或组织学上呈“良性表现”,却在短期内快速恶化。国内肿瘤的诊疗现已步入多学科协作诊疗(multidisciplinary team,MDT)时代,即由外科医生、影像、病理、药学、护理等多领域人员组成的MDT 团队协助诊疗,在多方专业意见下,肿瘤的诊疗水平得以提高[15]。然而组建高水平的MDT 团队,提高MDT 开展率并不容易,特别是在基层医院[16]。
图1 肿瘤数智诊疗模型建立的简要过程及常用的人工智能算法
数智辅助诊断可基于多学科数据进行大样本训练,并综合多重信息给予客观的诊断结果。肿瘤数智诊疗在辅助诊断方面的研究可分为主要的两个方向:1)利用人工智能技术对病理图像进行分割、识别与分析。如在乳腺癌中,利用深度学习算法从全视野数字切片中识别并分割出肿瘤区域,结果表明在限制时间的诊断模拟中,人工智能算法能媲美病理专家(AUC:0.994vs.0.810,P<0.001)[17]。2)通过对临床影像学数据进行特征分析,对患者分子病理特征进行预测。如Park 等[18]通过提取弥散和扩张MRI 成像的特征,对异柠檬酸脱氢酶(isocitrate dehydrogenase,IDH)野生型胶质瘤的受体酪氨酸激酶(receptor tyrosine kinases,RTKs)、P53、视网膜母细胞瘤肿瘤抑制通路(retinoblastoma,RB)表达情况进行训练,构建模型用于表征核心信号通路,对于RTK 通路预测的AUC 值为0.88,P53 通路为0.76,RB 通路为0.81,可指导IDH 野生型胶质母细胞瘤的靶向治疗。
2.2 数智技术辅助肿瘤治疗预测和选择
肿瘤的治疗包括手术治疗、靶向治疗、免疫治疗等[19]。人工智能辅助识别实体肿瘤边界,可以帮助外科医生在术中实现肿瘤全切,降低术后复发风险,如Cao 等[20]使用深度学习模型对早期肝细胞癌(肿瘤大小≤5 cm)患者进行微血管侵犯状态的术前预测,在训练集和验证集中的准确率达99.1%和97.2%,可为手术切除方案提供参考。肿瘤靶向治疗通过靶向关键恶性基因以清除肿瘤[21],而免疫治疗则通过逆转肿瘤微环境的免疫抑制状态,增加抗原提呈,激活杀伤性T细胞,靶向肿瘤抗原,而对肿瘤细胞进行自体清除[22]。患者的靶向或免疫治疗方案应基于患者肿瘤的分子病理信息,建立定制化的治疗方案。结合数智技术研究病理形态学与分子表型间的关系,在开发靶向治疗、免疫治疗标志物上具有明显优势。Denkert 等[23]通过量化乳腺癌活检病理中肿瘤浸润淋巴细胞与乳腺癌不同亚型对化疗敏感性的关系证实,不同亚型的免疫微环境中存在不同免疫学渗透,未来或有助于采取免疫调节治疗方法治疗乳腺癌。Shamai 等[24]通过深度学习算法,从3 376 例乳腺癌患者队列的苏木精-伊红染色图像中,准确预测了程序性死亡受体配体 1 表达,AUC 值为0.91~0.93,有望辅助应用于临床。另外,Jiang 等[25]综合了肿瘤内的多种免疫逃逸机制,设计了一个计算架构:肿瘤免疫功能障碍和排斥评分,该架构可很好地预测肿瘤患者对免疫治疗的反应,从而指导患者的临床治疗方案。由此可见,数智技术可更好地结合患者病理、分子分型的特点,对患者的治疗反应和治疗方案提供更精准指导。
2.3 数智技术辅助疾病预后预测
作为诊疗评估的重要一环,精准预测预后可实现治疗方案的动态调整,也可评估疗效。Jiang 等[26]利用术前计算机断层扫描影像训练多任务深度学习模型,可以准确预测胃癌患者的腹膜复发和生存,在训练集、内部验证队列和外部验证队列均具有较高准确率,AUC 值分别为0.857、0.856、0.843(图2)。Wang 等[27]通过从计算机断层扫描影像中挖掘全肺信息构建全肺人工智能模型,实现无创性预测EGFR 基因型和EGFR-TKI 治疗的预后,在6 个独立队列中实现了AUC 为0.748~0.813。术后并发症是影响肿瘤患者术后康复和预后的重要因素,不仅增加医疗费用,并且增加患者围手术期的死亡率,因此早期识别术后并发症高危患者并提前采取干预显得格外重要。Mazo 等[28]通过外部验证的术后肺部并发症风险预测模型,提出7 项与术后肺部并发症相关的独立危险因素。Bilimoria 等[29]利用来自393 家美国外科学院国家手术质量改进计划(ACS NSQIP)医院的标准化临床数据,开发了基于21 个术前因素的回归模型,以预测术后30 天内发生各种围手术期并发症的风险,该模型在死亡率和发病率方面具有出色的性能,c 指数为0.944和0.816,已被认可用于为患者提供相关并发症的咨询。但值得注意的是,Donadon 等[30]评估了该模型预测肝切除术后结果的能力,发现该模型计算器低估了肝切除术后并发症、死亡率和术后住院时间的风险。今后在肿瘤数智诊疗模型开发和优化中,需要基于肿瘤特异性的临床信息和数据,对肿瘤患者围手术期并发症、治疗反应等进行更精准地预测。
3 肿瘤数智诊疗模型的研究中存在的问题及策略研究
目前,肿瘤数智诊疗模型在多领域研究人员的参与下发展迅速,但肿瘤实际诊疗水平的进步远落后于肿瘤智能诊疗模型的更新速度。这种情况不利于明确数智诊疗模型的发展方向,甚至会浪费大量医疗和科研资源,也影响数智诊疗模型与诊疗水平的整体进步。
3.1 医疗信息化程度不统一的问题
人工智能技术以数据为基本元素,不同医疗机构之间缺乏统一的信息化病例结构或信息交换接口:1)直接影响数据的收集,样本的数量与质量均难以保障,以此为基础构建的模型质量也更加参差不齐。2)影响模型的应用与推广,研究者之间使用的数据来源未经统一质控、批次校准、标准化等,基于某一数据平台获取的高性能模型在不同平台的数据集中表现不一,造成现在的大量模型仍停留在研究阶段,成为“无用模型”。允许现有平台差异存在,建立统一的数智服务的大数据平台或是目前有效的解决方式。
3.2 医疗工作人员参与度问题
无论是构建针对特定疾病的辅助诊疗系统,还是诊疗模型的实际临床应用,都需要医务工作者参与指导并具体实施:1)医学专家可以提供权威的医学知识和丰富的临床经验,对构建规范统一的医学信息系统和内容准确完备的知识图谱具有指导作用,但中国人均优质医疗资源极度紧缺,经验丰富的医学专家往往忙于临床诊疗,难以投入大量精力参与到相关研究工作当中。2)医务工作者作为数智诊疗模型的实际应用者,从对研究模型的理解到合理应用也需要大量的时间成本,一些医生与专家虽期待人工智能能够为诊疗方式带来变革,但却仍难以提高参与度。因此,应当增强跨领域人才培养培训,加强医务工作者利用人工智能辅助医疗流程的思维方式与能力,改变传统的工作流程与习惯[31],提高医疗工作人员在数智领域的参与质量,既可产出更加规范统一的数智模型,也能增加数智模型的实际临床应用率,提高肿瘤的数智诊疗水平,推动该领域快速健康发展。
图2 数据驱动和知识引导相结合的肿瘤数智诊疗研究范式
3.3 伦理及法律问题
1)患者的数据共享涉及到患者的隐私和数据保护问题,在数智模型构建及应用过程中具有隐私泄露风险:2)人工智能在医疗领域应用的相关政策法规还不完善,即使是具有相关研究背景的医疗人员,也不敢轻易在医疗场景中引入人工智能技术。因此,应明确数智诊疗技术在肿瘤领域应用的定位,数智诊疗并非旨在替代医疗工作,而是充当辅助工具,而如何防控和规避人工智能技术带来的风险仍值得深思。
3.4 数据驱动为主的模型研究存在的问题
如前所述,目前普遍的数智诊疗模型,在其实现过程中主要为对医疗数据进行采集,通过数据产生模型来进行医疗决策,而在此过程中,用于构建模型的特征的作用往往仅具有数据上的可解释性,而难以得到生物学解释上的认可,因此难以直接用于指导临床决策,这是限制其发挥临床作用的重要原因。知识图谱作为一种应对互联网当中海量而零散信息的高效检索需求所设计的语义网络结构,对大规模数据及数据实体之间的关系具有较强的表达和管理能力[32]。利用知识引导建立的智能诊疗模型将具有更佳的可解释性。
知识引导的智能诊疗模型,即从数据中获取知识,对知识进行整合,再用知识引导数据分析。从基因组学时代对于成人弥漫性胶质瘤分类的研究显示,2007年WHO 对于胶质瘤的病理分类主要依赖于临床病理组织学、影像学表现[33],随着大量测序数据逐渐揭示IDH 基因突变与患者预后的关系[34-35],并对IDH 基因突变的功能进行了“可解释性”研究[36]。WHO 在2016 年的分类中将IDH 突变状态这一知识进行整合[37],之后无论是预后风险模型还是影像组学特征模型的构建中,均将IDH 突变状态作为重要特征之一。此后逐渐发现,基于2016 年的分类,在临床工作中也出现了许多难以预测的情况发生,如某些IDH 野生型患者,虽然组织学为WHO 分类2~3 级表现,但其进展却极为迅速,整体生存预后甚至相似于恶性程度最高的WHO 分类4 级的胶质母细胞瘤[38]。因此,中枢神经系统肿瘤分类分子信息及实践方法联盟-非WHO 官方组织(cIMPACT-NOW)针对这些临床中出现的问题进行了研究[39],通过对其基因数据分析发现新的胶质瘤患者预后影响特征,即EGFR 突变、7 号染色体扩增/10 号染色体的缺失等[40]。2021 年WHO发布了新的分类,除了进一步强调了IDH 突变状态在胶质瘤分类中的作用,更是整合了cIMPACT-NOW的研究成果,将新的特征也纳入了胶质瘤的诊疗体系[41]。
目前,国内外都在不断对各类肿瘤的诊疗指南进行整合更新,指南的不断推出既是肿瘤诊疗模型的推陈出新,也是肿瘤知识图谱的不断扩充。肿瘤数智诊疗模型的建立应当以这种不断整合知识,更新知识图谱的形式进行构建。
4 结语与展望
在肿瘤诊断、治疗预测和选择、预后评估等方面,数智诊疗模型均展现出良好应用前景,但模型构建仍以数据驱动为主,在来源广泛、质量不一的数据背景下难以得到广泛应用。医疗信息化程度不统一、测序平台不同、检查检测设备不统一等问题,使得电子病历数据格式不一、检验数据难以标准化、影像数据不完善等,从而产生了大量的“数据孤岛”。知识引导的数智模型构建可以将“孤岛”的有效信息连接起来。通过对数据模型进行理解和总结归纳,从数据中获取新的知识,通过贯通知识构建知识图谱,引导新的数据模型生成,从而可以有效地解决“数据孤岛”的问题,更好地应用于医疗决策。在今后的研究中需要注意的方面:1)应更加注重研究平台的统一,产生可用的高质量医疗数据。2)在研究过程中,应积极构建肿瘤的知识体系,通过肿瘤的危险因素、影像学、病理学特征等知识图谱的构建,不断地从丰富的临床数据中获取可解释的“新知识”,并用于引导新的模型构建。通过数据驱动与知识引导相结合的肿瘤数智诊疗研究范式,相信在不久的将来,临床肿瘤的MDT 团队中将出现AI 的身影,在基层医院中则也将出现人机结合,实现多病种的覆盖,降低误诊、漏诊率,提升肿瘤的整体诊疗水平。
本文无影响其科学性与可信度的经济利益冲突。