基于机器学习方法的超声M模式气胸图像的分类研究
2022-07-25张强魏高峰闫士举张涛汪俊豪
张强,魏高峰,闫士举△,张涛,汪俊豪
(1.上海理工大学健康科学与工程学院,上海 200093;2.海军军医大学海军医学系,上海 200433)
引言
气胸是一种急性肺部病症,是呼吸困难的发病因素之一,及时地鉴别、诊疗,可以明显降低其致死性,有助于维护病人的生命健康安全。临床检查常用CT、X光胸片等进行诊断。其中,CT作为气胸诊断的“金标准”[1],虽然提供的信息较为准确,但辐射高,风险大,且需要搬运患者,在可重复性使用中有较大的限制;而X光胸片提供的是胸部组织重叠的影像,无法提供心脏后面肺部的有效信息[2]。经验丰富的临床医生利用床旁超声可以快速诊断气胸,并且不需要胸部造影等。在Alrajhi K的分析中,床旁超声检测气胸的灵敏度和特异性分别为90.9%和98.2%[3]。然而,有效利用床旁胸部超声诊断气胸的最大障碍是要实施有效的培训计划,以确保操作人员的能力。研究中发现,操作人员的经验以及鉴别技能等与诊断的准确性高度相关[4]。
2012年,Fusco等[5]提出影像组学概念,对医学影像自动化提取高通量的特征,通过特征提取将医学图像变成特征数据,再对数据进行挖掘、分类和预测,建立肿瘤临床预测模型,帮助提高医生诊断的客观性和准确性。Kondo等[6]对超声肝癌图像利用支持向量机进行特征学习,分类结果显示,良性肝占位、肝癌、转移性肝癌的分类准确率分别达到84.4%、87.7%、85.7%。Kitamura等[7]在开源的X光气胸数据集上利用机器学习,获得训练模型的ROC曲线下的面积为0.9。
目前,在X光片下有过对气胸的诊断研究。杨召龙[8]在公开的胸部X光片数据集中使用了深度学习的方法,用ChestNet结合直方图均衡化取得了0.9906的曲线下面积(area under curve,AUC),基于超声图像气胸的诊断研究目前还较少,美国陆军医疗中心通过像素移动等分析条码图案来判断气胸,灵敏度达到79%,特异度达到87%[9]。本研究基于M模式超声图像,通过特征提取,结合机器学习应用于气胸诊断,并比较不同分类器模型及不同图像质量,判别对气胸的分类效果。
1 材料和方法
1.1 超声图像的获取及其预处理
在超声M模式下,中间亮线为胸膜线,胸膜线以上为壁层,胸膜线以下为脏层,正常人的胸部肺滑存在,脏层表现为“颗粒感”的沙滩征,见图1(a)—(b)。气胸患者肺滑消失,脏层表现为条码征,见图1(c)—(d)。肺点可作为判断超声模式下气胸的“金标准”,肺点图像表现为图1(e)—(f),条码征和沙滩征交错出现[10]。
图1 三种肺部图片的M超征象(a).肺滑动存在特征典型图像;(b).肺滑动存在特征不典型图像;(c).肺滑动消失特征典型图像;(d).肺滑动消失特征不典型图像;(e).肺点特征典型图像;(f).肺点特征不典型图像Fig.1 Ultrasound M-mode images in three types of lung pictures(a).typical images with characteristics of lung sliding;(b).atypical images with characteristics of lung sliding;(c).typical images with characteristics of non-slip lung;(d).atypical images with characteristics of non-slip lung;(e).typical image of lung point feature;(f).atypical images of lung point feature
收集2020年10月至2021年4月常州市第一人民医院人体胸部M模式超声图像2 813幅。本研究数据经常州市第一人民医院伦理委员会批准,所有患者均知晓手术目的及风险,并签署知情同意书。由专业医生通过临床检查,将图像标注为肺滑存在、肺滑消失、肺点3种类型。同时由于图像质量与操作标准差异,沙滩征与条码征未必会清晰地出现在每幅图像中,因此,经专业医生对图像质量进行判断与区分,将每种类型的图像再划分为特征典型图像及特征不典型图像两类。
将每幅图像统一裁剪大小为676×676像素,共获得肺部滑动存在特征典型图像171幅,特征不典型图像283幅;肺部滑动消失特征典型图像1 113幅,特征不典型图像111例;肺点特征典型图像850幅,特征不典型图像285幅,采用灰度化、归一化图像预处理。
表1 图像类型分布Table 1 The distribution of the image type
1.2 特征提取
图1是从采集的2 813肺部超声图像中挑选的三种不同特征图片。由上述图像所描述,在三种不同类型图像之间有较为明显的纹理不同的表现。Neogi等[11]提出了心理学上所对应视觉模型的6个纹理基元分别是粗细度、对比度、方向度、规则度、线性度和粗糙度。其中周期性、方向性、粗糙程度等特征也是人类视觉中感受强烈的几种特征[12]。国内外学者也在尝试利用各种纹理分析方法对多种医学图像(CT、MRI、超声、X光片等)进行分析[13],本研究中选取了灰度共生矩阵和灰度游程矩阵作为特征提取的种类。
1.2.1灰度共生矩阵 1973年,Haralick等[14]提出了利用灰度共生矩阵(gray level co-occurrence matrix,GLCM)描述纹理特征。GLCM反映的是图像像素灰度间的位置联合分布,体现图像整体色调的亮度变化、周期变换、纹理强弱,目前已大量用于超声图像,CT图像等的分类[15],性能较好。本研究中,如沙滩征所在视觉上体现就是点状的明暗交错,故使用灰度共生矩阵提取了各图像的能量、对比度、熵、同质性、自相关等9个特征值[16],将灰度共生矩阵4个方向上获得的特征进行融合,获得36维特征向量。
1.2.2灰度游程矩阵 灰度游程矩阵(gray-level run-length matrix,GLRLM)的含义是统计同一方向上相同灰度值所出现的频次,通过连续出现的像素值分布,获得相关的纹理特征[17]。可以通过灰度游程矩阵分析影像的排列规则,如灰度的方向,变化幅度等[18],且灰度游程矩阵在影像组学里对医学图像大量使用,性能较好[19]。本研究中,肺滑消失所出现的条码征,在视觉上便是局部灰度的连贯性,故使用灰度游程矩阵,提取图像的短游程优势、长游程优势等13个特征,将4个方向上获得的特征融合为52维特征向量[20]。
1.3 分类模型及模型评价
图像的纹理分类是一个重要研究领域,目前有着大量的分类算法。例如K-means[21],随机树、Boosting算法[22]、神经网络[23]、支持向量机、贝叶斯分类等。而在深度学习推出之前,SVM的使用率高,且效果较好[12]。本研究采用随机森林,朴素贝叶斯与支持向量机作为分类模型,使用混淆矩阵,对模型的分类性能做出评价。本研究选择准确率、灵敏度和特异性以及受试者工作特征曲线(receiver operating characteristic, ROC)下的面积AUC来评判各模型的分类性能。由于肺滑消失与肺点两种图像类型都代表阳性病例,故在评价分类模型的结果中,准确率对应的目标为三种图像类型;而在混淆矩阵中,将肺滑消失与肺点均看作阳性病例计算灵敏度、特异性等。因为数据量较小,故采用五折交叉验证法评估各模型的分类性能。
1.3.1随机森林算法 随机森林(random forest,RF)是Zhu等[24]提出的基于决策树的机器学习算法,决策树是随机森林的经典分类器。当样本数据作为决策树输入随机森林模型,随机森林中的每棵决策树均可以通过数学方法完成相应的分类结果,获得结果后采取投票制度,获得多票数支持的分类结果被判定为有效可用信息,完成模型的训练及预测[25]。分类原理:测试子集记为x,单个决策树用ni表示,Y表示目标变量即分类类别,A为指示性函数,B则为输入样本通过随机森林模型而产生的分类投票结果,决策树公式表达:
(1)
汇总组合全部决策树的分类结果,获支持票数最多的类别,即为分类最终结果。
本研究中,通过改变决策树的数量对模型参数进行调整与创建,分别对研究图像典型与否的情况对模型进行训练。
1.3.2朴素贝叶斯 贝叶斯分类[26]是以贝叶斯定理为核心的一类分类算法的总称,贝叶斯定理的公式为:
(2)
朴素贝叶斯是贝叶斯中最简单的一种算法,其基础原理为:求解待分类样本在给出的条件中,各个不同类别出现的概率。哪个最大,即认为此样本分类属于哪一类别。朴素贝叶斯的定义如下:
(1)假设x={a1,a2,…,am}为待分类数据,其中每个数据a为x的一个特征。
(2)同时有分类标签集合C={b1,b2,…,bn}。
(3)分别求得P(b1|x),P(b2|x),…,P(bn|x)。
(4)类别P(bk|x)=max{P(b1|x),…,P(bn|x)},则x∈bk。
本研究中,通过利用不同的朴素贝叶斯的核函数类型,分别对研究图像的典型与否的情况对模型进行训练。
1.3.3支持向量机 支持向量机[27](support vector machine, SVM)基本原理是在特征空间中,寻找最适合的分离超平面,使训练数据中不同类别的样本之间的间隔最大,能够在训练数据受限的情况下解决非线性和高维的分类识别问题。
本研究通过改变支持向量机的核函数以及核半径,对不同参数下训练模型进行训练。
2 模型优化及分类结果
2.1 分类模型优化
分别将典型图像(A组),典型与不典型混合图像(B组)以及不典型图像(C组)三种类别图像,经过预处理后提取的2类8方向共88维特征,使用随机森林、朴素贝叶斯和支持向量机三种分类算法进行分类。对数据样本采用五折交叉验证,轮流采用其中4份样本数据进行分类模型训练,剩下的1份数据进行模型性能测试。
随机森林中决策树棵数对性能的影响见图2。
图2 随机森林中决策树数量对分类准确率影响Fig.2 Effect of the decision trees quantity in random forests on classification accuraly
A组图像在40棵时分类准确率达到最高95.4%,B组在75棵时分类准确率最高达到92.4%,C组图像在25棵时分类准确率最高达到88.4%。
朴素贝叶斯核类型差异对分类性能影响见图3,三种情况的图像均在使用Triangle作为核类型时,准确率最高。A组的准确率达到85.9%,B组准确率达到80.6%,C组准确率达到78.5%。
图3 朴素贝叶斯模型中核函数不同对分类准确率的影响Fig.3 Effect of different kernel functions in the naive Bayes model on classification accuracy
支持向量机核类型对分类性能影响见图4,选择核尺度2.3,且使用三次核的支持向量机,准确率最高,A组准确率99.2%,B组准确率98.2%,C组准确率95.4%。
图4 支持向量机模型中核函数不同对分类准确率影响Fig.4 Effect of different kernel functions in the support vector machinemodel on classification accuracy
2.2 分类结果与分析
由表2可知在本研究中,各分类器模型参数最优时,使用三次多项式核的支持向量机,且训练对象是典型图像时,训练效果最好,其性能明显优于其他模型,准确率达到了99.2%,灵敏度为99.54%,特异性为97.08%,同时由图5—图7可知,SVM模型的AUC最高,达到了0.99。表明SVM模型对超声M模式下,肺滑动存在、肺滑动消失以及肺点图像的分类效果较好。
图5 最优性能随机树在不同图像质量下的 ROC曲线(a).典型图像;(b).典型与不典型混合图像;(c).不典型图像Fig.5 Roc curve of random forests in the different image quality under optimal performance(a).typical images;(b).mixed images of typical and atypical;(c).atypical images
图6 最优性能朴素贝叶斯在不同图像质量下的 ROC曲线(a).典型图像;(b).典型与不典型混合图像;(c).不典型图像Fig.6 Roc curve of naive Bayes in the different images quality under optimal performance(a).typical images;(b).mixed images of typical and atypical;(c).atypical images
图7 最优性能支持向量机在不同图像质量下的ROC曲线(a).典型图像;(b).典型与不典型混合图像;(c).不典型图像Fig.7 Roc curve of support vector machines in the different image quality under optimal performance(a).typical images;(b).mixed images of typical and atypical;(c).atypical images
表2 不同分类器在各自最优的分类性能下在不同图像质量的分类结果Table 2 Classification results of different classifiers in different image quality under their respective optimal classification performance
3 讨论
本研究利用不同的分类模型,对基于超声M模式下不同质量的气胸图片进行分类。为比较各分类器的性能,使用了3种分类器进行训练,同时,分别对3种不同质量的图像样本进行实验,比较不同的实验结果。结果可见,图像质量确实对分类结果有影响,尤其在随机森林模型中,非典型病例图片由于图片质量问题,在决策树数量达到25棵时,准确率达到最高,分类性能有所下降,但准确率仍保持在85%以上。
分类模型中,朴素贝叶斯的分类准确率最低,可能与其自身特性有关,由于本研究中数据量较少,且数据集之间交叉属性过多,例如纹理方面,肺点和肺滑存在两种类型图片均存在沙滩征,肺点与肺滑消失两种类型图片均存在平流层征,且胸膜线以上部分三种图片类型均是平流层征。故若将数据集的数量扩大,并且分类胸膜线以下的特征部分,贝叶斯分类器的分类效果可能会更好。随机树与支持向量机模型之间的分类效果较为相近,其中支持向量机使用了三次多项式核,对样本添加了多项式特征,对分类效果更好,取得了95%以上的准确率,AUC值也远远大于其他的分类模型,大于0.95。
在特征选择方面,由于三种类型的图片的特征在视觉观察较为明显,沙滩征为点状明亮交错的界面,为灰度的周期性、重复性、粗糙度等,平流层征是灰度的连续性、方向性、变化幅度等。而灰度共生矩阵与灰度游程矩阵正是分析图像的局部模式与排列规则的基础。所以这两种有针对性的纹理特征与分类模型结合,可以较好地完成三种图像类型的分类。
本研究采用灰度共生矩阵与灰度游程矩阵融合特征、支持向量机分类模型,对于总体图像所得灵敏度为98.6%,特异性为97.58%,明显优于Summers等[9]灵敏度为58%,特异性为93%的结果。但由于本研究所选取的样本较少,具有一定的局限性,无法代表全部病例。在实际过程中,可能存在数据不平衡,数据量较小,影响实验准确度。在后续研究中,将扩大M模式超声图像样本数量,同时结合局部特征区的特征提取,以获取更高的分类精度。
4 结论
本研究目的是估计算法的诊断准确性,提供概念证明,将机器学习算法用于M模式超声图像的分类,实现气胸诊断。通过对超声图像提取纹理特征(共88维),并选择三种分类算法进行分类实验,筛选出合适的分类模型,有效地完成了气胸患者与非气胸患者的分类。有助于临床医生在急诊场合下的诊断。
致谢
感谢常州市第一人民医院超声医学科对本文研究提供了超声医学图像,以及对图像的类别进行标注。