APP下载

基于MRI的人工智能技术在阿尔茨海默病中的应用进展及审批现状

2022-08-30曾祥卫王思伦郭嘉杰王小良林卓立

中国医疗器械信息 2022年13期
关键词:阿尔茨海默医疗器械标志物

曾祥卫 王思伦 郭嘉杰* 王小良 林卓立

1 广东省药品监督管理局审评认证中心 (广东 广州 510080)

2 深圳市铱硙医疗科技有限公司 (广东 深圳 518057)

内容提要:阿尔茨海默病(Alzheimer’s Disease,AD)发病率随着社会人口老龄化加剧呈上升趋势,给社会带来沉重公共卫生资源负担,《阿尔茨海默病创新药物临床试验中国专家共识》强调AD应着力于早期发现和预防,而临床现状是AD的诊断率低且漏诊率高。临床中对AD诊断首选的影像学检查方法是磁共振成像(Magnetic Resonance Imaging,MRI),而人工智能应用于影像诊断近年来一直是全球医疗器械业界的热点。为此着重回顾AD各模态MRI影像学表现和基于MRI的人工智能在AD辅助诊断的应用研究,以及国内外相关人工智能软件审批现状,以期为我国AD辅助诊断软件监管的完善带来参考。

阿尔茨海默病(Alzheimer’s Disease,AD)是最常见的痴呆类型,其发病占此类疾病的60%~80%[1,2]。 淀粉样蛋白(Amyloid -Protein,A )在神经细胞外聚集沉淀形成老年斑,以及 蛋白过度磷酸化造成微管损伤和神经原纤维缠结是AD两个重要病理特征,此外还有沟回增宽、脑萎缩、神经元大量丢失和胶质增生、新皮质的神经元密度下降、颞叶的神经元丢失严重和炎症等[3]。药物临床试验共识定义AD是一个连续的临床生物学实体,包括从无症状及病理改变的正常状态到无症状有轻度病理改变的临床前期AD阶段,再到出现记忆力下降及中度AD病理改变及临床表现的痴呆阶段[3]。

《世界阿尔茨海默病报告2021》[2]指出,全世界有5500多万人患有AD及其他痴呆,而全球实际确诊的患者可能不到25%,预计到2030年AD及其他痴呆患者将达到7800万。宣武医院贾建平教授等[4]开展一项横断面研究显示,中国≥60岁老年人中,有1507万患有痴呆症,983万患有AD,392万患有血管性痴呆症,132万患有其他类型痴呆症。

贾建平教授等[5]联合调查结果显示,2015年我国痴呆患者人均费用19144.36美元,估计总花费为1677.4亿美元,其中间接费用占51.87%,非医疗直接花费占15.62%,直接医疗费用占32.51%。过去30年间,我国因AD导致死亡的顺位从1990年的第10位上升至2019年的第5位,已成为严重危害我国人群健康的重大疾病和社会问题[6]。

AD治疗策略从AD痴呆的治疗阶段前移至AD临床前期的预防已是专家共识。美国国立老化研究所和阿尔茨海默病协会(National Institute on Aging-Alzheimerʼs Association,NIA-AA)2011诊断指南提出对于AD病理生理标志物的筛查和干预将延缓其50%进程,把65岁人群患AD的风险从10.5%降到5.7%[7]。投资开发安全且有效的早期筛查、诊断、治疗和预防干预措施以减轻AD社会整体负担是合理的。

1.影像学检查是阿尔茨海默病诊断与鉴别的重要手段

1.1 阿尔茨海默病发病机制

时至今日,已经提出了许多关于AD病因的理论,包括遗传学因素学说、A 学说、中枢胆碱能损伤学说、兴奋性氨基酸毒性学说、炎症与免疫机制学说、自由基与氧化应激学说、钙稳态失调学说、胰岛素相关糖代谢异常学说、脂质代谢异常学说。亦有诸多学者认为AD是一种多因素疾病[3,8]。但是,近年来以A 为靶点的治疗策略的反复失败已经动摇了A 瀑布学说这一主流观点,也有观点认为试验失败原因是针对了错误的疾病阶段[9-11]。此外最新的研究已经确定了在AD过程早期发生的血脑屏障破坏的明确证据[12-14]。另一项最新研究,颠覆了“先有细胞外淀粉样斑块形成,后有神经细胞死亡”的传统印象,提出“先有神经细胞死亡,后有细胞外淀粉样斑块出现”,认为AD是由于细胞内的溶酶体功能障碍而发展起来的[15]。

现存已批准的药物对AD的治疗仍然以改善临床症状为主,随着研究的深入,尽管现有AD发病机制理论可能进一步受到挑战,神经影像、脑脊液、血液标志物将仍然在纳入无临床症状或症状轻微受试者的临床试验中发挥关键作用[16,17]。

1.2 阿尔茨海默病临床诊断标准中影像检查的重要性

1984年发布的AD诊断标准(NINCDS-ADRDA)[18]是第一个全球公认的AD诊断标准,其发布至今虽然已将近40年,但由于有大量关于此标准信度和效度的研究,它仍可用于日常诊疗活动及AD痴呆期的诊断[19-23]。NINCDS-ADRDA诊断中颅脑磁共振(Magnetic Resonance,MR)或计算机体层成像(Computed Tomography,CT)检查证实脑萎缩且随诊检查有进行性加重为支持标准,成像很大程度上帮助排除器质性脑病诸如脑梗死、占位性病变或潜在可治疗原因(如脑积水或硬膜下出血)等疾病。

为满足临床二级预防的需要,同时30余年间各项研究不断发现新的生物标志物,尤其是影像学标志物的发展,AD诊断标准不断更新。2007年IWG-1标准将生物学标志物纳入适用于AD全程的科研用诊断框架,打破了既往AD排除性诊断模式,也使得AD的临床生物学确定性诊断不需要再依赖于尸检和痴呆的诊断。IWG-1标准强调AD相关生物标记物,包括结构磁共振成像(Magnetic Resonance Imaging,MRI)显示内侧颞叶萎缩、FDG-PET测量的皮质代谢减退、脑脊液A 或 蛋白分析、家族遗传性基因异常。IWG-1特异度为93%~100%,但敏感度只有68%[24]。在2010年国际工作组织对IWG-1做了重要修改,进一步区分病理生理标志物和定位标志物,结构MRI所见的内侧颞叶萎缩或FDG-PET所见的颞顶叶糖代谢减少仍然对发现和量化疾病进展特别有价值。

2011年美国NIA-AA发布了AD诊断标准指南,NIA-AA 2011融合了IWG-1与NINCDS-ADRDA标准,支持将有A 积聚的生物标志物的无症状者诊断为AD,但IWG-1标准却认为这只是疾病的风险状态[25]。A 积聚的客观证据可从PET神经影像得来,FDG-PET或单光子发射计算机断层成像术(Single Photon Emission Computed Tomography,SPECT)上葡萄糖低代谢以及MRI海马或颞叶内侧萎缩依然是重要的支持性证据。

IWG-1和NIA-AA 2011诊断标准通过更准确地定义临床表型,允许在疾病前驱期即施以干预措施,有助于进行临床前期AD的二级预防研究。

田金洲等[26]在2012年中文版AD临床诊断标准中更明确神经影像学证据的阈值:海马体积缩小,如MRI显示左侧海马体积≤1.96cm3,右侧海马体积≤2.01cm3;或内侧颞叶萎缩,如MTA-scale 75岁以下者≥2分,75岁以上者≥3分。

国际工作组织于2014年重新修订了AD诊断标准(第2版),简称IWG-2,将AD生物标志物分为诊断标志物和进展标志物。IWG-2诊断标准强调分子影像学、基因检测和脑脊液生物学标志物的重要性和必要性[27]。

2018年美国NIA-AA提出AD生物学定义的研究框架NIA-AA 2018,但同时声明此研究框架并非诊断标准或指南,不适用于常规的临床实践。NIA-AA 2018框架把神经元损伤标志物和认知障碍定义为AD的非特异性改变,仅用于严重程度分期。但临床医生还是希望找到神经元损伤的部位与症状与疾病的特异性相关趋势,期待在此框架下的后续研究会提供更多的证据[28]。

2019年版适用于中国人群的AD诊断框架包括两个操作标准,BWG-1是由临床症状和内侧颞叶萎缩(MTA)构成的临床病理学模式操作标准;BWG-2是由临床症状、影像分子标志物和生物分子标志物构成的临床生物学模式操作标准。

《2018中国痴呆与认知障碍诊治指南(二):阿尔茨海默病诊治指南》[24]推荐:临床AD诊断可依据1984年NINCDSADRDA或2011版NIA-AA提出的AD诊断标准进行诊断。有条件进行AD分子影像检查和脑脊液检测时,可依据2011版NIA-AA或2014版IWG-2诊断标准进行AD诊断。《中国阿尔茨海默病痴呆诊疗指南(2020年版)》推荐意见,AD痴呆临床诊断的“核心标准”(NIA-AA)对于很可能和可能AD痴呆的临床诊断准确性高,具有广泛适用性(1A)。

全球范围,复杂的生物标志还不能作为广泛使用的AD诊断性筛查标准,以临床症状为主的诊断仍然是首选方法。在我国,留取脑脊液还很难普及,PET检查,特别是AD的分子影像学检查只有在为数不多的几个医疗单位常规开展;如何能够让潜在的患者在没有出现任何症状之前来做脑脊液穿刺检查或PET检查也是一大困难。因此在当前国情下,应大规模在神内、老年科等发展MR结构像检查和血液检查,指南明确血液检查和MR结构像检查有助于早期诊断[29]。专家共识指出MRI是进行痴呆诊断和鉴别诊断的常规检查;对痴呆疾病进行随访检查,MRI有助于判别疾病预后和药物疗效,为A级推荐[30]。

1.3 阿尔茨海默病的多模态成像

神经影像学是AD诊断和鉴别的重要手段,与受主观动机和外在因素(如文化背景、受教育程度、语言因素、情绪等)影响的综合认知功能测试结果和影像视觉评分相比,神经影像量化是对AD病理生理过程更客观和可靠的定量测量[17]。AD的多模态成像用法、特点见表1。

表1. AD的多模态成像

图1. T1加权序列MRI显示皮质萎缩状况(注:a.正常;b.轻度皮质萎缩;c.中度皮质萎缩;d.重度皮质萎缩)

图2. T1加权序列MRI进行MTA视觉评分(注:内侧颞叶萎缩分数0~4表示内侧颞叶体积损失。使用5分制评估内侧颞叶萎缩(MTA),并通过评估海马高度(C)、脉络裂(A)和颞角(B)的宽度来评估得分。对于75岁以下的个体,MTA评分为2或以上是异常的,而对于75岁以上的受试者,MTA得分为3或以上是异常的。)

图3. 使用FDG-PET扫描区别AD患者(注:左侧轴向[18F]FDGPET影像(A, C)表现出正常的示踪剂吸收;右侧影像(B, D)来自AD患者。箭头处指出可识别的影像差异)

图4. T1序列、FDG-PET扫描、Aβ-PET扫描比较(注:AD与正常人的轴向MRI(A,D)、[18F]FDG-PET (B,E)、18F-氟苯达彼PET(C,F);上排:顶叶,颞叶(未显示)和额叶(B)的[18F]FDG以及大脑皮层(C)中的[18F]Aβ的降低是AD的特征;下排:正常的示踪剂吸收(E,F))

2.基于MRI的人工智能在阿尔茨海默病中的应用

放射学的临床实践基于图像的视觉评估,视觉评估需要被转换为叙述解释,得以使患者受益。在MR结构像上对海马萎缩程度或PET像上颞顶叶低代谢程度的视觉评估较易实施并且可以广泛使用。然而,对于解剖或生理的微小变化检测,并非视觉评估的强项,例如准确和可重复的评估脑萎缩或葡萄糖低代谢[17]。

AD的早期筛查挑战在于,只有当可能的患者有明显的认知变化时才会进行专家咨询和辅助检查;也存在由于忽略了影像扫描中轻微的结构变化,且症状轻微不足以判断,致使诊断延迟的可能[51]。在当前全球临床现状的背景下,基于脑结构像的AD分类算法有望有效改善AD诊断率低和干预过晚的困境。

2.1 特征提取与分类方法

神经影像分类算法主要的特征提取方法有灰白质密度图(灰质、白质、脑脊液),皮层表面(顶点形态学特征)和基于AD相关脑区分割等。神经影像常用分类方法见图5,其中神经网络CNN自1998年确立一个真正意义上的CNN结构,到如今在医学图像处理中具有举足轻重的地位,从最开始的LeNet到目前性能很好的DenseNet,都有用于AD的分类研究。

图5. 神经影像常用分类方法

2.2 不同AD分类方法的结果比较

以下回顾了最近发表的数篇关于AD分类的文章,并对它们的性能进行了比较,它们使用了不同的特征提取方法。可以看出,特征提取在AD分类中起着重要作用。为了使性能比较更容易,本文通过对所有性能参数(即准确性、灵敏度、特异性、阳性预测值、阴性预测值和曲线下面积)的结果进行平均来综合分析分类性能。见表2。

表2. 不同AD分类方法的结果比较

3.全球阿尔茨海默病相关上市医疗器械软件

前用途包括AD诊断的30款全球已上市产品情况见表3,其中美国人工智能医疗器械的审批,在功能未发生改变的情况下,虽引入了人工智能算法,但仍能被视为与已上市的参照器械等同,通过510(k)途径获准上市,不需要开展大规模临床试验。

表3. 阿尔茨海默病诊断相关上市软件

注:资料来源为NMPA/FDA数据库及供应商

其中AI-Rad Companion Brain MR(Siemens)和Quantib同时获批MDR IIa和510K Ⅱ,而NeuroQuant在该领域深耕时间长,目前在美国市场占有绝大部分份额。

从表格中可以看出,这些上市软件的大部分选择脑部3D TI结构像作为输入,结构MRI也是指南推荐的应用广泛、使用便捷的检查方法。而其他标志物如脑脊液穿刺和PET成像进行A 或 蛋白定量来说,具有先天的劣势和风险,患者在缺乏有效的治疗手段的情况下,在心理上较难接受花费高昂、有创并且可能有并发症的检查。

4.监管考量及展望

4.1 分类界定

对于采用人工智能技术实现医疗用途的独立软件是否作为医疗器械管理,按第二类还是第三类管理,一直是业界关心的问题。2021年7月,国家药监局发布《人工智能医用软件产品分类界定指导原则》[68],明确软件处理对象为医疗器械数据的,作为医疗器械管理,以产品性能划分,明确了第二类、第三类监管的边界。

对于算法在医疗应用中成熟度低(指未上市或安全有效性尚未得到充分证实)的人工智能医用软件,若用于辅助决策,如提供病灶特征识别、病变性质判定、用药指导、治疗计划制定等临床诊疗建议,按照第三类医疗器械管理;若用于非辅助决策,如进行数据处理和测量等提供临床参考信息,按照第二类医疗器械管理。人工智能医用软件产品的分类见表4。

表4. 人工智能医用软件产品的分类

总的来说,管理类别原则上应结合产品的预期用途、功能、算法成熟度、处理对象等因素综合判定。例如,对脑部结构MRI影像进行分析计算,为临床医生对阿尔茨海默病的诊断提供辅助决策支持的医学影像软件,则应按第三类医疗器械管理。

4.2 技术审评

人工智能医疗器械的技术审评应结合产品特有的算法特征、临床需求,明确审评重点。以风险为导向,注册申报资料为佐证,综合权衡风险和受益,系统地评价产品的安全性和有效性。

人工智能医疗器械的主要风险包括:①从算法角度包括过拟合和欠拟合,其中过拟合是指算法对于训练数据过度学习而将非普遍规律作为重要特征,欠拟合是算法对于训练数据学习不充分而遗漏重要特征,均会降低算法泛化能力;②从用途角度,辅助决策主要包括假阴性和假阳性,其中假阴性即漏诊,可能导致后续诊疗活动延误,特别是要考虑快速进展疾病的诊疗活动延误风险,而假阳性即误诊,可能导致后续不必要的诊疗活动[69]。

因此,注册申请人在算法研究活动过程中,应形成算法风险管理资料,明确过拟合与欠拟合、假阴性与假阳性、数据污染与数据偏倚等风险的控制措施。对于辅助决策类产品,注册申报资料中人工智能算法的训练研究(训练集基本

信息、训练指标与结果)、算法性能评估(测试集基本信息、评估指标与结果)、临床评价(临床数据基本信息、评价指标与结果)、决策指标定义(或提供决策指标定义所依据的临床指南、专家共识等参考文献)等是技术审评的重点。

现阶段来讲,无论是已上市的或在研的人工智能医疗器械,其算法的鲁棒性、泛化性和可再现性上均存在不足。因此,技术审评会根据算法性能评估及临床评价的结果,对产品的适用范围、使用场景、核心功能进行必要的限制,要求注册申请人在说明书中明确产品使用限制和必要的警示提示信息。

4.3 算法更新的控制

人工智能技术具有快速迭代特性,尤其是数据驱动型的算法。算法更新对于人工智能医疗器械安全性和有效性的影响具有不确定性,可能会提升产品性能,也可能会降低产品性能,甚至导致产品召回。人工智能算法更新属于软件更新范畴,故遵循软件更新的基本原则及要求:人工智能算法更新若影响到人工智能医疗器械的安全性或有效性则属于重大软件更新,应申请变更注册,提交每个人工智能算法或算法组合的算法更新研究报告;反之,若未影响到人工智能医疗器械的安全性和有效性则属于轻微软件更新,通过质量管理体系进行控制,无需申请变更注册,待下次变更或延续注册时提交相应注册申报资料。

这里介绍一种特殊情形,具有持续学习/自适应学习能力算法的产品,部署后可通过持续学习用户数据而进行产品快速更新,此时,用户亦成为产品开发者。此种更新对于产品安全有效性的影响具有高度不确定性,特别是基于数据的无监督学习[70]。因此,在当前法律法规体系和技术水平条件下,持续学习/自适应学习应关闭自学习功能(即“算法锁定”),或者虽开放自学习功能但不得投入使用,即用户始终使用产品原有功能,自学习功能仅用于算法训练或医学科研。

4.4 现状与展望

4.4.1 完善算法变更的监管机制

人工智能医疗器械软件最大的优势是通过持续学习真实世界海量数据来完善功能、改进性能并增强适应性。但在我国现有软件变更的监管模式下,多数增强类更新可能都需要申请变更注册,这种繁复的审查将减弱人工智能技术为医疗器械带来的巨大优势。美国FDA正在制定“预定变更控制计划”用于监管人工智能独立软件的更新,其核心思想是取消原有“算法锁定”要求,制造商可在经美国FDA批准的软件预定更新计划下进行软件更新而无需重新申请注册。“预定变更控制计划”在我国存在法规冲突,且效果尚未可知,建议监管部门可以持续关注其进展,作为日后法规修订的参考,兼顾好保护公众健康与促进技术创新的关系。

4.4.2 加快建设各类标准数据库、测评数据库

高质量的标准数据集、测试集、验证集对在研及上市后的人工智能医疗器械软件的开发、验证、迭代乃至上市后监管至关重要,但当前AI医疗领域的金标准数据库仍在构建阶段,许多临床应用无法提供参照。可喜的是,人工智能医疗器械创新合作平台已发布《糖尿病视网膜病变常规眼底彩色照相AI标准数据库》及《肺炎CT影像AI标准数据库》,并计划每年动态更新不少于300例。平台在建标准数据库涵盖6个病种,将分别收集1000~3000例的试点训练数据集,期待上述数据库早日上线,投入应用。

5.讨论与总结

中共中央、国务院发布的《健康中国2030规划纲要》中提出,要加强老年常见病、慢性病的健康指导和综合干预,要加强老年认知症等疾病的有效干预。要做到有效干预,早期发现和预防是关键。现阶段,市场上已出现基于全年龄段中国人群全脑影像大样本数据库,利用云计算及人工智能深度学习算法,联合体素形态学分析算法精准评估全脑结构变化并对中枢神经系统疾病(轻度认知障碍、阿尔茨海默病、脑卒中、自闭症等)进行辅助诊断及早期筛查的产品,这将有效提高老年认知症的检出率以及降低漏诊率。但人工智能新技术层出不穷,算法可解释性差等特点,亦对准入和监管带来新挑战。监管部门需要结合人工智能医疗器械的新技术、新形态以及发展情况,动态调整监管范围、模式和方法,这样方能在保护公众用械安全的基础上,促进医疗领域人工智能化。

猜你喜欢

阿尔茨海默医疗器械标志物
阿尔茨海默病的预防(下)
炎性及心肌纤维化相关标志物在心力衰竭中的研究进展
阿尔茨海默病的预防(上)
医疗器械检验数据修约问题的探讨
外来医疗器械管理存在的问题与对策
医院医疗器械维修中存在的问题及维修管理策略
多项肿瘤标志物联合检测在健康体检中的应用价值
绿茶或能预防和延缓阿尔茨海默病
家用医疗器械监管现状与发展趋势
基于TCGA数据库分析、筛选并验证前列腺癌诊断或预后标志物