人工智能在医学影像领域的应用与挑战*
2019-01-16刘伶俐
季 冰,刘伶俐
(1 陆军军医大学西南医院放射科,重庆 400038,icerbox@126.com;2 陆军军医大学基础医学院,重庆 400038)
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它不仅是一门新兴的交叉学科,涵盖了计算机科学、统计学、脑神经学、社会科学等诸多领域,更是一种新型的智能机器,语言和图像识别、语言和图像处理、专家系统、机器人等都属于人工智能的范畴[1]。近些年来,随着深度学习、计算机视觉、大数据等关键技术的突破,“人工智能+医疗”的投资热度持续攀升,其应用研究更是涉及医学影像、辅助诊疗、药物研发、健康管理等多个领域,而医学影像与人工智能的结合被认为是最具发展前景的领域。
1 人工智能在医学影像领域的发展机遇
目前中国AI医疗企业主要集中在医疗影像相关领域,究其原因,主要缘于以下几大机遇:
1.1 影像数据量大
数据是人工智能发展的关键要素之一。医疗数据中超过90%的数据来自于医学影像,如X线、CT、MRI、超声、病理等。随着人口老龄化和民众健康需求的增长,近年来我国医疗卫生机构诊疗人数持续增加,从2010年的58.3亿人次攀升至2017年的81.8亿人次,年均涨幅超过5%[2-3]。作为疾病诊断与治疗的重要依据,影像数据总量也随之迅猛增长,年增长率高达30%~40%,单个大型医疗机构的年影像数据存储量已超过1PB[4-5]。庞大的医疗市场和充足的影像数据为AI医疗的发展提供了动力和基础。
1.2 临床需求迫切
目前,我国医疗影像数据的分析几乎全靠人工,医师主要凭经验进行判断。在影像数据飞速增长的同时,我国影像医师年增长率只有4%[4],为人工阅片带来了极大挑战。据国家卫健委统计显示,2013~2015年三年中,全国累计完成放射诊疗12.4亿人次[6]。而中国放射从业人员约15.8万人,其中放射医师只有约8万人,副主任医师以上职称的只有2万人。由此推算,平均每位影像医师每年需要处理5100多人次的报告,副高以上职称的影像医师由于有审核工作,诊疗人次将会更多[7]。影像医师严重缺乏,长期处于超负荷工作状态;而人工智能在医学影像中的应用,有望减轻影像医师的工作负担,提高诊断效率和准确度。这为医学影像AI的发展提供了临床需求。
1.3 AI技术日趋成熟
过去,由于软硬件条件不成熟,优质数据资源短缺,人工智能并未实现广泛应用。随着算法、算力等基础技术条件的日渐成熟,大数据在计算过程中积累了大量优质、脱敏数据,数据存储、分析和精准判断决策能力提高;特别是深度学习、图像识别、自然语言处理等技术的突破,驱动医学影像识别的精度和准确度大幅提升[8]。因此,目前中国大多数AI医疗企业都以辅助诊断为主要业务,且多偏重于基于图像识别技术的影像学、病理学和皮肤病学等领域[5]。
1.4 政府大力支持
2017年7月,国务院印发《新一代人工智能发展规划》,从国家战略层面对我国发展智能医疗作出了明确规划,包括推广应用人工智能治疗新模式、新手段,建立快速精准的智能医疗体系,开发人机协同的手术机器人、智能诊疗助手等[9]。紧随其后,科技部公布首批国家新一代人工智能开放创新平台名单,明确指定腾讯公司为医疗影像平台的建设者[10]。政府的大力支持,为医学影像人工智能的发展提供了坚强保障。
2 人工智能在医学影像领域的主要应用
人工智能在医学影像的应用,主要是通过图像识别和深度学习等技术,实现机器“看片”和“读片”的功能。具体应用包括计算机辅助诊断、影像组学、影像基因组学等。
2.1 计算机辅助诊断
计算机辅助诊断系统(Computer Aided Diagnosis,CAD),是影像学AI应用的重要内容,它是将图像处理、计算机视觉、医学图像分析等有效结合,通过系统处理后对异常征象进行标注,以帮助医生快速发现病灶,提高诊断的效率和准确率。CAD的研究,最早可追溯到20世纪60年代,但受技术水平的限制,研究进展较为缓慢。20世纪80~90年代,随着计算机技术、数学算法及统计学的发展,基于机器学习和图像处理技术的CAD在医学影像诊断领域获得了快速发展,针对不同疾病的CAD研究大量涌现[11]。2012年以后,由于深度卷积神经网络的兴起、大量数据的累积和基于图像处理器的计算能力大幅提升,深度学习在医疗图像上的研究空前高涨[12],从而使CAD的架构更为简化,诊断更为精确。
目前,CAD可应用于多种影像技术对疾病的检测和诊断,在肺结节和肺癌筛查、乳腺癌筛查和前列腺癌影像诊断中应用较广,且表现较为突出[6]。一些CAD系统的性能已经接近甚至超过放射科医生。如2016年Liang 等[13]在50台CT扫描设备上使用4种不同的CAD软件,可检出56%~70%易被放射科医生漏诊的结节。Patel等[14]利用自然语言处理软件算法,可准确获得乳腺癌患者乳腺X线摄影的关键特征,并与乳腺癌亚型进行关联,其诊断速度是普通医师的30倍,且准确率高达99%。但深度神经网络目前应用最好的是解决简单任务,比如分类、识别、切割等,对于综合性的诊断,仍需要具有领域知识的专家来参与[15]。
2.2 影像组学
影像组学(radiomics)源自于CAD,于2012年由荷兰学者Lambin等[16]首次提出。作为一种大数据图像分析方法,影像组学是从医学影像中高通量地提取海量数据,并对数据信息进行深层次的挖掘、分析和解读,以发现隐含在图像中的额外信息,最高效地利用影像学检查结果,实现临床辅助决策[17]。其基本分析流程包括五个环节: ①图像采集:主要通过CT、MRI、PET等影像扫描方式采集图像;②图像分割:将影像中的异常组织(如肿瘤)或特定解剖组织(如海马)等分割为1个或多个感兴趣区域;③特征提取:对感兴趣区域进行影像特征提取,主要包括强度、形状、纹理、位置等特征;④量化分析:对上述特征进行统计分析,常用的分析方法有重复测量信度分析、主成分分析、相关性分析和随机森林等;⑤模型构建:通过机器学习(深度学习)方法建立基于影像组学特征的预测和分类模型[17]。
影像组学突破了基于形态学及半定量分析的传统影像医学模式,可提供以往基因检测或病理检查才能提供的信息,对于临床医生从早期图像中获取诊断信息有着重要帮助。目前,国内外影像组学主要集中于肿瘤(如肺癌、乳腺癌、胶质母细胞瘤、肝癌等)的相关研究,包括肿瘤的定性诊断、分级分期、基因表型预测、治疗方法选择及疗效预后评估等[18]。
2.3 影像基因组学
20世纪90年代初的基因组革命,推动着医学研究从基因水平探究疾病的基础机制,以实现精准医疗。传统的基因分析手段依赖于有创的活检取材或术后病理组织来进行,具有一定的风险和潜在的并发症。相比之下,医学影像具有非侵入性、高分辨率、时空连续性等特点,在展现复杂疾病表型差异的过程中具有独特的优势。基于此,2000年以来陆续有学者将基因组数据和影像数据关联起来进行分析、挖掘,由此形成了新的研究方向,即影像基因组学(radiogen omics)[19-20]。影像基因组学与影像组学的细微区别在于,它不仅从影像数据(包括CT、MRI、PET等) 中提取能反应个体健康状态的定量影像表型特征,还要从生物组学数据( 包括基因组、转录组学和表观组学等) 中提取基因型特征,并通过人工智能技术完成基因型特征与定量表型特征的关联与融合分析,从而更好地实现对疾病的非侵入式诊断、预后预测和疗效评估,是目前生物医学最有前景的研究领域之一[20]。
近年来,影像基因组学在肿瘤和精神疾病等复杂疾病的研究领域不断发展,在脑肿瘤、肺癌、乳腺癌等方面均有所探索。当然,影像基因组学的数据分析和判断,仍需要有经验的放射科医师或专家才能完成,人的智力是主导成分,而计算机则帮助医师计算和分析,提供有价值的信息。随着研究的进一步深入,影像基因组学将在医学领域尤其是癌症研究工作中发挥更加积极的作用,并很有可能改变癌症患者的诊断、治疗和预后。
3 人工智能应用于医学影像领域面临的挑战
3.1 数据质量问题
影像数据的质量决定了人工智能模型学习的结果,标准的影像数据和规范的数据标注是医疗影像AI发展的关键。然而,尽管当前我国医疗机构积累了大量的影像数据,但由于缺乏统一的标准和规范,并未实现影像图像质量和格式的同质化。不同的医疗机构由于信息化建设水平不一,不同厂商、不同档次的影像设备存在图像质量、算法重建和参数设置的差异,即使同一台设备,造影剂剂量、扫描层厚、成像深度和增益等也会对图像产生影响,导致影像数据标准各异,图片质量参差不齐。同时,影像数据必须经过临床经验丰富的医生标注才能用于机器学习,但数据标注需要耗费大量时间和精力,高质量的、标注过的数据资源相对有限,加上医院之间的数据共享和互通程度较低,真正能够接触并利用到大规模优质医疗数据的开发者寥寥无几。相当一部分AI企业用于训练的数据只能来自有限的公开数据集或自备数据库,存在着数据量过小、影像质量较低、标注不规范甚至标注错误等问题,势必会影响机器学习的准确性和普适性。因此,发展医学影像AI,图像数据亟须规范化和标准化。
3.2 算法偏见问题
当前在医学影像中应用最多的深度学习算法,使用了大规模的神经网络,包含了更多的计算隐层,具备强大的自我学习和自我编程能力,其复杂性和不确定性使得人工智能存在难以捉摸的“黑盒子”,即使是开发者本人,也很难解释它的内部运作方式和某个具体行动背后的逻辑[21]。这种不透明性和不可解释性,使得某些算法偏见难以被觉察。同时,当前深度学习算法并未实现真正意义上的“智能”,它只不过是基于高速运算能力和规模数据的模型而已,必须依赖大量已有的数据样本,才能对新数据进行分析和预测。而医生的诊疗信息一般会带有自己的主观意愿,这些不易觉察的价值偏好,潜藏在数据中用于人工智能训练时,可能会在算法中被复制和放大,并通过特征提取、匹配用户偏好进行推送,从而使数据产生偏倚[22];另外,如前所述,用于机器学习训练的数据量过小、质量欠佳以及数据挖掘解读能力有限等,都有可能带来数据偏差,从而影响诊断的准确性。
3.3 机器性能问题
目前,AI医疗的研究和开发在我国还处于起步阶段。尽管不少研究或产品已在实验室取得了骄人的成绩,但由于大多数产品都是基于公开数据集训练而来,不能反映真实的、复杂的临床环境,一旦落地临床应用,难以保持测试数据的高准确率,错标、漏标、多标现象时有发生,需要临床医生花费大量时间精力进行标注和复查。同时,由于AI技术尚处于发展阶段,某些技术尚未完全成熟,导致机器性能还不够稳定,同一AI模型应用于不同地域的医院时,可能会出现数据差异,需要进行精细微调。另外,目前AI影像产品在单病种领域进展迅速,如在肺结节筛查、糖尿病、眼病、儿童骨龄检测等诸多细分领域取得了显著成绩,但在复杂的临床使用环境中依然面临较大挑战。例如,肺结节筛查只是胸部CT检查的一小部分需求,大量的肺炎、肺结核、慢阻肺等疾病所造成的“同病异影、异病同影”现象依然难以检出,使得AI的应用范围非常局限[5]。这些都在一定程度上影响了临床医师的应用积极性。
3.4 隐私泄露问题
人工智能在医学影像应用中,需要采集和挖掘患者的大量信息,包括患者的基本信息、健康状况、疾病状况、生物基因信息等,一旦泄露后果不堪设想。如保险公司在掌握个人病史的情况下,可能提高保险费用;用人单位可能把个人健康档案作为是否聘用的重要依据等[23]。患者隐私泄露的风险主要来自于两个方面:一是掌握数据的个人或机构主动泄露,如2016年,英国伦敦皇家自由医院将大约160万名患者的信息交给Deep Mind公司进行医学研究,因未能充分保护患者隐私和数据来源的正当性受到质疑,被英国信息委员会勒令整改[24]。二是被他人非法窃取。因人工智能条件下患者信息被保存于云端或存储器,任何人都有可能从中获取信息,即使有加密措施也不能完全阻止信息的调取,如果管理不善,存在被非法窃取的可能性。因此,AI医疗应用中的信息安全和患者隐私保护将面临巨大挑战,急需建立相应的法律法规和伦理规范,对信息采集、传递、保管和应用加以有效监管。
3.5 责任划分问题
人工智能参与医学影像诊断和治疗,事实上承担了部分医师的工作,使得原有的医患关系格局发生了变化,医与患之间多了医疗人工智能平台或系统,以及人工智能设计制造商,由此带来了一系列责任划分的问题。当出现误诊、漏诊或在诊疗中发生系统故障,给患者的疾病诊治和身体健康带来损害时,到底该由谁来负责?尤其是随着人工智能技术的发展,今后的人工智能将拥有越来越强大的智能,在医疗活动中将占据更加重要的角色,因此,有必要加强医疗人工智能背景下的风险责任规制,确保患者和公众的健康权益。一般认为,人工智能产品本身不具备承担责任的能力,如果是因其质量问题导致医疗损失,应由其设计制造商负责[25]。而在诊疗过程中,医师应始终担负起主导责任,依靠科学的思维和临床经验,起好审核和把关作用。
4 结束语
虽然医学影像AI目前仍处于弱人工智能阶段,只能代替医生从事一些简单的、重复的工作,但随着技术的不断进步,从弱人工智能过渡到强人工智能时代是值得期待的。同时,我们也应看到,医学影像AI在发展过程中,还将面临技术、伦理、法律等方面的诸多问题和挑战,需要各方高度重视,采取措施加以规避和制约。如:制定相应的法律法规和伦理规范,厘清责任权属,明确行为边界,使医疗AI的研发和应用有所遵循;建立质控管理系统和监管体系,规范影像数据的采集标准和格式,并对影像AI的算法设计、产品开发、数据保护和产品应用等进行全流程监管;加强理论攻关和技术研发力度,鼓励“医”“工”联合,使医学影像AI更契合临床需求,并在临床实践中推动人工智能技术不断走向成熟和完善。