医疗器械中人工智能方法检验策略的研究
2017-01-18王浩孟祥峰刘艳珍任海萍
王浩,孟祥峰,刘艳珍,任海萍
中国食品药品检定研究院 光机电室,北京 100050
医疗器械中人工智能方法检验策略的研究
王浩,孟祥峰,刘艳珍,任海萍
中国食品药品检定研究院 光机电室,北京 100050
人工智能在医疗器械、康复辅具和一般健康产品领域发展迅速,对于实现医学诊疗与健康服务的自动化与智能化,提高服务效率和质量具有重大意义。人工智能算法自身的安全性和有效性,是影响该类医疗器械的安全性和有效性的重要因素,对于医疗器械的质控提出新的挑战。目前国内外缺少针对人工智能方法的标准和测试方法。本文对医疗器械相关的常见人工智能方法进行了分类讨论,分析了不同场景下该类医疗器械检验的策略,为进一步开发和完善测试方法提供了参考。
医疗器械;质量控制;人工智能;统计分类
随着数学、计算科学与信息技术的发展,人工智能算法在现代工业和医学中发挥着越来越大的作用,在医疗器械、康复辅具和一般健康产品方面的应用在不断取得突破。作为模式识别、机器学习、深度学习、信号处理、并行计算等理论的结晶,人工智能算法在医学影像、手术导航、神经电生理、脑机接口、智能康复、体外诊断、健康大数据等领域与医疗器械深度融合[1-5],在疾病诊断、治疗、康复,慢病管理、预防等方面显示了巨大的潜力。
目前,国内外医疗器械质控领域针对医疗器械中的人工智能算法的有效性和安全的评价方法和测试规范尚不完善,也没有相关标准。作为医疗器械评价人工智能方法的典型案例之一,美国食品药品监督管理局(FDA)在2012年针对放射类影像和数据的计算机辅助检测(Computerassisted Detection,CAD)装置发布了指导原则[6-7],覆盖上市前申请、售前通知和临床性能评价。这一类装置主要采用模式识别和数据分析的方法处理CT、MRI、PET、DR等放射类影像设备的数据,目的是辅助诊断,其评价主要依赖于临床试验,需要的时间、数据量和人力成本较高,缺乏直接的技术手段。
为研究直接评价医疗器械中的人工智能方法的可行性,提炼解决方案,本文对常见的人工智能方法、应用情景进行了分类讨论,对测试策略和需要的条件和资源进行了分析,为进一步开展深入研究和开发测试平台提供了参考。
1 医疗器械中人工智能方法的应用场景
1.1 概述
在医疗器械领域,人工智能方法的主要应用是使机器根据获取的健康信息实现统计分类,作为诊疗和决策的依据。医疗器械对统计分类功能的需求,包含了各层面的典型案例(图1)。在分子层面,不同致病基因、生物标记物的分析需要统计分类的支持;在细胞层面,病理分析、血液分析等需要借助统计分类自动测量细胞的种类、分布;在组织层面,医学影像和电生理等需要统计分类方法建立图像、电生理信号与组织和病灶的关联;在系统层面,循环系统、神经系统的功能评价和疾病诊疗需要用统计分类方法挖掘系统生理参数与疾病之间的联系;在行为层面,统计分类方法可用于将不同传感器或传感器网络采集的数据与人的体态进行关联,并指导康复训练和病人照护。
图1 医疗器械对统计分类功能在不同层面的需求
按照机器学习的理论,统计分类方法主要包括监督学习和非监督学习两大类,以及它们的结合,两者的主要区别在于是否需要训练集[8-9]。监督学习利用已知类别的样本集(训练集)调整分类器的参数,使其达到所要求性能。其工作流程包括:首先采集已知类别的原始数据,建立训练集,并对数据进行降噪和降冗余处理;构建映射关系对数据进行降维,将原高维空间中的数据点投影到低维度的空间中,以便将不同类别的数据点的差异最大化;开发分类器,在低维度空间上将映射后的点进行归类;最终使用分类器对测试集中的样本进行分类,分类结果与测试集的已知类别进行对比验证,评价特异度、敏感度等关键性能指标。
非监督学习不需要训练集,而是根据样本间的相似性寻找样本集的规律,对样本集进行分类(例如聚类),分类的依据是类内差距的最小化和类间差距的最大化。非监督学习不与事先规定的标签挂钩,从数据分布的规律性出发,除了统计分类之外,也可用于分析数据集的特点,用途广泛。上述两种方法在医疗器械中都有广泛应用。
1.2 一维数据集合相关人工智能方法
一维数据处理中的人工智能方法起步较早,也是二维和高维数据处理的基础。在体外诊断领域,化学计量学方法[10]常用于从近红外光谱、可见光吸收谱等光谱中分析不同化学物质的浓度或区分生物成分;在电生理领域,心电、脑电、脑机接口等研究方向需要对生理电信号进行归类,提取病理信息和生理活动信息,为诊断和治疗提供参考;超声成像过程中的RF信号可用于区分被测组织的机械特性;光学相干层析成像(Optical Coherence Tomography,OCT)中扫描线的特征可用于区分组织显微结构。
上述领域虽然数据来源和物理含义各不相同,但数据处理方式相似,常用的人工智能算法包括主成分分析(Principle Component Analysis,PCA)、独立成分分析(Independent Component Analysis,ICA)、偏最小二乘(Partial Least Squares,PLS)、线性判别分析(Linear Discriminant Analysis,LDA)、支持向量机(Support Vector Machine,SVM)、K-均值聚类(K-means clustering)、K最近邻(k-Nearest Neighbor,kNN)分类算法等[11-13]。
1.3 医学影像中的人工智能方法
二维和高维数据分析以医学影像为代表,图像分割、边缘提取、图像拼接与配准、三维图像重建等功能的实现都需要人工智能方法的支持,以提供病灶识别与标记、手术导航、预后评价、介入治疗定位、病理切片分析等服务。医学影像中的人工智能方法既包括了前面所述各种一维数据处理方法的高维扩展,也包括决策树、分类和回归树(Classif cation and Regression Trees,CART)算法、基于信息熵的决策树算法ID3、神经网络方法、模拟退火算法、贝叶斯学习等[14]。此外,医学影像还应用了集成学习算法,特点是使用一系列学习器进行学习,将各个学习结果按照一定规则进行整合,学习效果强于单个学习器,主要代表有Bagging和Boosting算法族[14]。
1.4 传感器网络中的人工智能方法
可穿戴设备、体域网的发展促使传感器网络在医疗健康中发挥积极作用,以帕金森患者的体态步态分析和跌倒预防为典型案例。一种思路是让患者四肢或关节佩戴加速度传感器、角传感器、陀螺仪等可穿戴传感器,这些传感器之间用蓝牙、ZigBee等无线通讯协议组成体域网,共同测量患者的体态步态信息[15]。步态分析需要建立训练集,由患者反复重复各种基本动作如站立、行走、上下楼梯、坐、卧等等,使用卡尔曼滤波器等算法挖掘不同传感器网络数据与动作的关联,建立分类器,从而在患者日常活动中预测运动趋势、预防跌倒和发生干预。另一种思路是在患者四肢或关节佩戴不同的标记物,由摄像头阵列(例如OptiTrack红外相机系统)记录标记物的运动轨迹[16]。这些标记物之间的关系类似于传感器网络,训练集和分类器的建立方法也与前者相通。
2 人工智能方法的性能评价策略
针对上述应用情景,医疗器械中的人工智能方法的性能评价策略(主要是统计分类的准确性的测试),见图2。性能评价以临床数据为最终的金标准,使用多种手段建立测试集,开展评价。
首先应了解被测设备的工作原理和机器学习的类型。如果统计分类算法属于非监督学习,那么应根据临床数据分布的实际特点,选择有代表性的测试点组成测试集。例如对病理切片或血液涂片的显微图像进行自动细胞分类和计数时,可根据聚类分析观察不同类型细胞的大小和形状的分布特点,然后根据这些特点选取靠近各聚类中心的数据点设计测试集或测试用切片,最后对算法进行测试。
图2 医疗器械中的人工智能算法评价策略流程图
下一步,对于监督学习,首先判断该类设备是否具有标准数据库,有数据库则直接从中抽取数据组成测试集。例如心电类设备可以采用麻省理工学院开发的MIT-BIH数据库中的心律失常波形来测试设备自身的心律失常检测算法;脑电领域也在建立针对癫痫的脑电波形数据库,如波士顿儿童医院和麻省理工学院联合开发的头皮脑电数据库,包含了各种癫痫发作时不同部位的脑电特征,可用于脑电类算法的测试。在具备一致性比对条件的应用领域,比如麻醉条件下的脑电测量,有必要加强标准数据库的建设。
在没有数据库依据的情况下,对于传感器网络而言,可研发多传感器协同测试工装。例如对于帕金森患者的步态分析,可根据人体力学和运动学特性搭建仿人体运动模拟工装,直接安装传感器网络并测量不同步态或姿态下的基础数据,即可用于测试。这种方式既保持了同临床数据的一致性,又便于实现测试的自动化和可比性,同时可以与医用机器人、康复机器人的测试相结合,前景广阔。
在没有数据库可依据的情况下,对于一般的采用监督学习方法的医疗器械而言,如果其测量结果可以分解为基本物理元素的叠加,那么可运用基本物理元素的组合设计标准物质、标准器或体模。例如生物医学光谱检测得到的结果可看做基本化学物质光谱的叠加,那么在测试光谱分析算法时,可以参考实验设计、均匀设计、正交设计等方法的思路,按照不同配比制备标准物质,通过试验评价算法结果与实际成分之间的误差,在保证分布均匀的同时将配比的种类最小化。类似,在医学影像领域,可根据空间频谱特性、对比度、轮廓、尺寸等信息提炼图像的基本元素,并按照实验设计的思想研发体模,用于测试成像系统及算法。
反之,如果测量结果不能直接分解为基本物理元素的组合,那么测试集的设计仍主要依据临床数据。例如脑机接口领域,中风患者的脑电信号容易受病情影响出现畸变,使得想象运动引发的脑电信号缺乏一致性,无法直接分解为基本脑电特征的组合。脑机接口算法的测试,因此需要通过在人为的训练过程中采集和筛选脑电信号来生成测试集,以便在同样的硬件设置下测试不同人工智能算法的性能。
3 讨论
本文从机器评价的角度出发,将医疗器械中的人工智能算法评价作为共性问题进行探讨,出发点是将质量控制前移,为下一步开发测试平台和测试规范做准备,缓解临床评价的压力,并不是直接取代临床评价。考虑到个体差异性和实际应用的复杂性,临床测试中出现的问题应及时反馈到机器评价端,形成协同发展。
值得注意的是,本文讨论的人工智能方法与医疗健康大数据中的人工智能方法存在明显的区别与联系。本文的人工智能方法主要面向统计分类,而医疗健康大数据中的人工智能方法不仅研究分类,还研究回归分析;本文的数据处理终端主要是医疗器械本身,而医疗健康大数据依托大型服务器和云存储空间;无论是诊断还是治疗,本文的人工智能方法应用预期结果相对固定,而医疗健康大数据主要是从海量数据中挖掘未知的关联和线索,对研究和应用提供新的视角;本文介绍的各种人工智能方法可以用于医疗健康大数据的处理过程之中,但后者的数据采集、数据格式整合、数据传输、共享、数据去噪和数据挖掘算法本身的难度与复杂度高得多,带有四V特征,即数量(Volume)、多样性(Variety)、速度(Velocity)和真实性(Veracity)。
4 结论
本文对医疗器械领域常见的人工智能方法的应用场景和实现方式进行了归纳和总结,从共性特征出发,对人工智能方法的测试策略进行了分组讨论,提出了多种测试方法,如引用或建立数据库、研发标准物质标准器体模、开发仿人体测试工装等等。这些方法有助于将人工智能算法的质控前移,节省测试的时间和成本。在根据本文的思路进一步设计研发具体质控平台的同时,需要结合大数据的思想深入挖掘临床测试的数据,提炼更多的基本元素,以便分解现有的复杂信号或图像,继续简化人工智能方法的性能评价。
[1] Amato F,Lopez AM,Penamendez EM,et al.Artificial neural networks in medical diagnosis[J].J Appl Biomed,2013,11(2):47-58.
[2] Cooper RA,Dicianno BE,Brewer BR,et al.A perspective onintelligent devices and environments in medical rehabilitation[J]. Med Eng Phys,2008,30(10):1387-1398.
[3] Dilsizian SE,Siegel EL.Artif cial intelligence in medicine and cardiac imaging: harnessing big data and advanced computing to provide personalized medical diagnosis and treatment[J]. Curr Cardiol Rep,2013,16(1):1-8.
[4] Carmena JM.Advances in neuroprosthetic learning and control[J].Plos Biol,2013,11(5):e1001561.
[5] Peng X,Lin P,Zhang T,et al.Extreme Learning Machine-based Classif cation of ADHD Using Brain Structural MRI Data[J]. PLoS One,2013,8(11):e79476.
[6] Food and Drug Administration.Guidance for Industry and Food and Drug Administration Staff: Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Notif cation,2012[S].
[7] Submissions. Food and Drug Administration.Guidance for Industry and FDA Staff: Clinical Performance Assessment: Considerations for Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data-Premarket Approval (PMA) and Premarket Notif cation,2012[S].
[8] Bishop CM,Nasrabadi NM.Pattern Recognition and Machine Learning[J].J Elect Imaging,2007,16(4):20-25.
[9] Hastie T,Tibshirani R,Friedman JH,et al.The elements of statistical learning: data mining, inference, and prediction[J]. Math Intell,2001,27(2): 83-85.
[10] Reich G.Near-infrared spectroscopy and imaging: Basic principles and pharmaceutical applications[J].Adv Drug Deliv Rev,2005,57 (8):1109-1143.
[11] Jolliffe IT.Principal component analysis[J].Technometrics,2005, 44(5):594-609.
[12] Hyvarinen A,Oja E.Independent component analysis: algorithms and applications[J].Neural Netw,2000,13(4):411-430.
[13] Roggo Y,Chalus P,Maurer L,et al.A review of near infrared spectroscopy and chemometrics in pharmaceutical technologies[J]. J Pharm Biomed Anal,2007,44(3):683-700.
[14] 王婷,张宁,后桂荣,等.几种机器学习方法在黑色素瘤计算机辅助诊断中的性能比较[J].计算机应用研究,2013,30(6):1731-1733.
[15] 邹亚,汪丰,高帅锋,等.基于可穿戴系统的PD病人运动功能评价系统[J].中国医疗设备, 2015,30(1):10-14.
[16] 文龙,钱晋武,沈林勇,等.帕金森病患者步态测量与定量分析[J].中国康复医学杂志,2014,29(7):637-641.
Study of the Testing Strategy of Artificial Intelligence Methods in Medical Devices
WANG Hao, MENG Xiang-feng, LIU Yan-zhen, REN Hai-ping
Division of Active Medical Device and Medical Optics, National Institutes for Food and Drug Control, Beijing 100050, China
Artificial intelligence (AI) in medical devices, rehabilitation devices and general wellness products is developing fast. It has great impact on the automation and intelligentization of medical diagnostics, treatment and health service, and signif cantly improves service quality and eff ciency. The safety and effectiveness of the AI algorithm is an important factor that affects the safety and effectiveness of medical devices, which poses a new challenge for the quality control of medical devices.Currently, no standard has been established to test AI methods in medical devices. In this paper, the testing of AI methods in common medical devices were divided and discussed separately, according to the application scenarios. The summary provides reference for further development of methodology and platforms to establish AI testing norms for medical devices.
medical device; quality control; artif cial intelligence; statistical classif cation
TP181;TH772;TH776
A
10.3969/j.issn.1674-1633.2016.10.020
1674-1633(2016)10-0067-04
2016-08-11
国家科技支撑计划项目“经皮肾镜手术系统及质控系统的研发”(2015BAI43H00);中国食品药品检定研究院中青年基金项目“可穿戴式光电医疗器械的有效性检验研究”(2015C02)。
任海萍,中国食品药品检定研究院医疗器械检定所光机电室主任,主要研究方向为医疗器械检定。
通讯作者邮箱:renhaiping@nifdc.org.cn