探讨人工智能在医学图像领域的现状和发展
2020-09-06宋飞飞徐建屠晨坤李萌萌
宋飞飞 徐建 屠晨坤 李萌萌
摘 要 随着“大数据”的快速增长,包括医学图像在内的各个领域开启了人工智能(AI)的新时代。本文从医学图像的特点出发,探讨了影响人工智能在医学图像发展的因素,主要包括源数据的可靠性、图像注释准确性、患者共享数据的有效性等,根据这些因素总结了解决方法,使得人工智能可以自动对复杂的医学图像进行定量评估,从而提高诊断准确率,增加患者的生存期。
关键词 人工智能;机器学习;数据共享;图像注释
人工智能(AI)关注的是一种方法的发展,当人类表现出同样的行为时,它能使计算机以智能的方式运行,人工智能是这一研究领域的通用术语。人工智能更准确的定义是机器学习,机器学习是算法根据反馈回来的数据不断学习以修正参数。
近几年,人工智能技术在分析非医学图像方面取得成功,使得深度学习方法在临床图像和其他医学数据分析中得到了快速的发展,计算机视觉系统可以在专家医师的水平上执行一些临床图像解释任务。虽然,一些专家声称,人工智能不太可能取代人类放射学专家。然而,从长远来看,基于人工智能的计算机工具,在某些特定的或重复性的任务上,部分取代人类的医疗专业知识,例如放射治疗中的计算目标、在图像中检测疾病指标或测量纵向疾病等工作[1]。
1机器学习
人工智能在医学成像领域研究的目的是创造工具来提高患者的治愈率。人工智能工具通常采用成像决策支持系统,为专业人员提供可操作的建议。人工智能在医学成像研究中有很多机会,从图像采集设备到人工智能的应用,有以下建议:
(1)新的图像重建和增强方法。从成像设备产生的源数据到生成可解释的图像,可以在使用更小剂量的静脉造影剂、更低的辐射剂量、更短的扫描和重建时间来生成高质量的图像。
(2)使用自动标记和注释方法。为了快速生成机器学习研究的训练数据,使用自动标记和注释方法,这些标记方法通常使用机器学习算法来处理图像报告或电子病历中的信息。
(3)开发新的机器学习方法。由于大多数的深度学习算法都是针对自然图像的照片和视频进行的,因此,需要针对临床成像数据的复杂性开发新的机器学习算法,这些算法通常是高分辨率、3D、4D、多模态和多通道的。
(4)聚合临床成像数据。由于临床数据涉及患者的隐私,因此需要使用方法来促进临床成像数据的聚合,以便训练机器学习算法。
1.1 数据需求
影响医学成像中机器学习的一个重要因素是缺少用于训练機器学习算法的标准和可访问的成像数据。AI的开发需要高质量、有标记和可公开的数据。虽然全世界的医疗保健组织控制着可用于训练机器学习算法的大量数据,但大多数成像数据无法用于研究。可访问的成像数据通常是不可用的,因为它们没有经过适当的注释,且与基本诊断关联较少,研究人员无有效的图像数据集可供使用。为了解决这些问题,需要更有效的方法来收集数据以识别和进行图像管理,以便使用可查找、可访问、可互操作和可重用的科学数据管理和管理原则[2]。
少数成像数据集已在多个成像领域公开。例如,有几个数据集可以用于神经影像学研究。然而,这些公共数据集太小,无法支持具有临床意义的机器学习实验,且这些数据主要由健康个体或精神病患者的功能性MRI数据组成。可用的这些数据和资料往往来自一个机构,并不反映现实环境中遇到的各种成像设备和临床情境。研究人员在寻找和获取有效的医学成像数据集方面面临很大的困难。
1.2 评定数据质量
复杂的成像设备(如CT、MRI、PET/SPECT、US和光学扫描仪)生成的临床图像是由传感器测量的“原始”或源数据重建的。测量的数据是间接的,与细胞和分子的数据存在一定误差,这些测量数据与基础结构之间的关系通常是非线性和复杂的,将传感器测量的数据有效的转换为便于临床医生使用的重建层析图像是一个新兴的广泛研究领域。深度学习方法可以非常有效地直接从源数据重建图像[3],例如,传感器测量的数据可以更好地实现MRI重建,使用部分剂量对应物的全对比剂剂量来预测图像增强,或低辐射剂量扫描得到的高质量图像。
2以病人为媒介的数据共享的方法和标准
在过去的十年中,我们已经克服了许多挑战,即基于云的临床图像共享和不同设施的护理团队之间的报告。但是,研究机构之间共享记录的后勤、运营和监管方面需要大量资源。以研究计划汇总数据的尝试仍然有限,且无法满足人工智能研究的需求:从异构来源获取的大型数据集,具有不同的患者的代表性,虽然国家迫切需要鼓励共享研究数据,但在组合来自多个来源的数据集时,数据访问和可用性仍存在挑战。
以患者为媒介的数据共享可能改变共享制度,可大幅增加机器学习可用数据的数量、类型和种类。病人更多地参与到护理中来,积极参与到先进的医学研究中以推进医学研究。RSNA图像共享网络展示了患者共享他们的成像检查所有权,并根据需要交换它们。首先使用由医疗保健企业开发的基于简单对象访问协议的标准,然后进行更新,以整合快速医疗保健互操作性资源[4]。
3图像标注和注释
大多数医疗保健组织维护图像存档和通信系统(PACS),可以存储数百万临床影像研究及其相关报告。但是存储在PACS中的成像研究数据不适于大多数机器学习研究,因为它们不包含机器学习的注释。因此,医学影像中人工智能研究的第二个必要课题是开发临床影像的快速标记和注释方法,这种形式的标记对执行分类任务的机器学习系统的开发有帮助,例如影像学研究是否显示结核病或肺结节的存在。我们将“注释”定义为提供关于图像特定部分的信息,例如:某个像素是否是肿瘤的一部分。注释是非常有用的训练,EMR可以为诊断图像提供标签。从EMR中提取标签的方法通常被称为“电子表型”,因为它们根据EMR的内容来识别具有特定疾病、临床状况或结果的患者[5]。
对于图像分割或检测任务,专家必须通过大量标记图像和标注感兴趣的结构来创建训练和验证数据。需要减少人类专家注释负担的新工具。例如,一些算法可以半自动跟踪图像上的结构,因此人工注释器只需要修改机器生成的轨迹,而不需要从头生成每个注释[6]。可以用最少注释的数据集以半监督的方式训练深度学习方法,以获得结构的合理近似,从而迭代地减少人工跟踪结构的工作量。
4结论结束语
机器学习算法将在未来十年改变医学成像实践。大多数成像研究实验室都在使用机器学习方法来解决计算机视觉问题,然而,机器学习研究仍处于早期阶段。本文概述几个关键的研究主题,并描述了加快医学成像的机器学习研究进展的路线图。这些临床数据需要快速创建带标签或带注释,需开发针对临床成像数据的新型预训练模型体系结构,以及减少机构间数据交换成本,以患者服务为目标,患者肯定会受益于即将产生的创新像技术。
参考文献
[1] Tibshirani R. Regression Shrinkage and Selection via the Lasso[J]. R Stat Soc Series B Stat Methodol,1996,58(1):267–288.
[2] Wilkinson MD,Dumontier M,Aalbersberg IJJ,et al. The FAIR guiding principles for scientific data management and stewardship[J]. Sci Data ,2016(3):160018.
[3] Wang G,Ye JC,Mueller K,et al. Image reconstruction is a new frontier of machine learning[J]. IEEE Trans Med Imaging ,2018,37(6):1289–1296.
[4] Mendelson DS,Erickson BJ,Choy G. Image sharing: evolving solutions in the age of interoperability[J]. Am Coll Radiol ,2014,11(12):1260–1269.
[5] Rasmussen LV,Thompson WK,Pacheco JA,et al. Design patterns for the development of electronic health record-driven phenotype extraction algorithms[J]. Biomed Inform ,2014(51):280–286.
[6] Hoogi A,Beaulieu CF,Cunha GM,et al. Adaptive local window for level set segmentation of CT and MRI liver lesions[J]. Med Image Anal ,2017(37):46–55.
[7] Weston AD,Korfiatis P,Kline TL,et al. Automated Abdominal Segmentation of CT Scans for Body Composition Analysis Using Deep Learning[J].Radiology ,2019,290(3):669–679.
作者簡介
宋飞飞(1986-),女;毕业院校:南京航空航天大学,职称:讲师,现就职单位:南京医科大学康达学院,研究方向:医学影像图像处理。