基于特权信息学习的淋巴结病变计算机辅助诊断
2019-12-20王文平
宋 爽,张 麒,韩 红,王文平
(1.上海先进通信与数据科学研究院(上海大学),上海 200444;2.上海大学智慧医疗与智能影像学技术(SMART)实验室,上海 200444;3.复旦大学附属中山医院超声科,上海 200032)
0 引言
淋巴结疾病是一种发病率增长快的疾病[1]。有效地区分淋巴结病变的良恶性、及早地确诊淋巴结病变,能减少淋巴结病变对人体的侵害、提升治愈率、降低术后风险。超声是淋巴结病变的常用诊断手段。在淋巴结病变的临床超声诊断中,通常只使用患者单一模态的B型超声图像[2]。有时会采集B型超声图像和弹性超声图像、B型超声图像和CEUS图像序列的双模态影响信息,而很少情况下会采集这三个模态的全部信息[3]。
特权信息学习作为一种新型的机器学习模式,与传统机器学习不同[4]。在模型训练阶段,特权信息学习利用一些只能在训练样本中获取而不能在测试样本中提供的特权信息来辅助机器学习模型的训练。所以,当临床诊断中只有一个模态的影像数据时,可以使用预先由特权信息学习训练好的模型来辅助诊断[5]。
本课题已经拥有可用于训练的双模态甚至三模态影像数据。为了应对临床实践中只有单一B型模态用于诊断的普遍情形,本文提出一种基于特权信息学习的淋巴结病变良恶性判别的计算机辅助诊断(computer-aided diagnosis,CAD)系统[6]。
1 材料和方法
1.1 图像采集与预处理
本文样本均来自复旦大学附属中山医院超声科,共获得来自94个病人的133个淋巴结病变病灶(42例良性,91例恶性)数据。这42例良性病灶中:13例有B型超声图像、超声弹性图像和超声造影(contrast-enhanced ultrasound,CEUS)图像序列三个超声模态的数据,另外29例有B型超声图像、CEUS图像序列两个模态的数据。91例恶性病灶中:49例有B型超声图像、超声弹性图像和CEUS图像序列三个超声模态的数据,另外42例有B型超声图像、CEUS图像序列两个模态的数据。采集的B型超声图像和超声弹性图像均以静态图片的形式保存,CEUS图像保存为音频视频交织(audio video interleaved,AVI)或者医学数字成像和通信标准(digital imaging and communication in medicine,DICOM)格式的视频序列文件,以供后续离线分析。
B型和超声弹性成像采用意大利百胜(Esaote)公司的Mylab 90彩色超声诊断仪,探头采用线性阵列探头L523,频率为4~13 MHz。在超声弹性图像中,弹性感兴趣区域由表示组织硬度的彩色RGB图像叠加在B型灰阶图像上构成[4]。从彩色弹性到软度转变图,如图1所示。
图1 从彩色弹性到软度转变图
图1中:颜色条表示组织弹性。颜色条每一行中的颜色均表示相同的弹性应变值,反映了对应组织的软硬程度。根据颜色条将色弹性图转化为范围从0(硬)到1(软)的弹性应变值信息的灰度图像。大多数淋巴结病灶临床CEUS图像序列使用百胜MyLabTwice系统采集,一部分病灶数据使用飞利浦iU22系统采集。
本文在B型超声图像上确定淋巴结位置,并使用实时压缩感知跟踪算法[7]定位病灶在视频中各帧的位移情况,再将其映射到CEUS图像序列上,从而得到CEUS病灶跟踪结果。
1.2 B型和超声弹性图像特征提取
利用计算机自动算法,分别从B型和超声弹性图像中的病灶区域提取量化特征。根据特征的物理意义,B型和超声弹性图像均含以下3类特征。一阶统计量特征[8]包括中值、均值、标准差、变异系数、亮度熵、偏度等。灰度共生矩阵(gray level co-occurrence matrix,GLCM)特征[9],包括对比度、能量、均一度和熵等。针对每幅图片分别计算0°、45°、90°和135°这4个方向的1~15像素偏移量的GLCM,然后对4个方向上的结果求均值,最终得到60个特征。二值图像特征[10]包括:面积比、1/3内部面积比、2/3外部面积比、内部面积与外部面积比的比值、中心偏离度、离散度、径向偏离度等。B型(B,左上)和弹性(E,左下)双模态超声图像特征提取如图2所示。
图2 B型(B,左上)和弹性(E,左下)双模态超声图像
此外,由于病灶的形态、尺寸对淋巴结病变的诊断非常有意义,本文还在B型超声图像上计算了病灶的形态学特征。形态学特征包括面积、凸面积、周长、等效直径、长轴和短轴长度等。
1.3 CEUS图像序列特征提取
运用影像组学,对运动补偿后的CEUS图像进行时空域特征提取,得到312维特征。
①时域特征。
计算每帧图像的平均灰度值,得到平均灰度随时间变化的曲线(time-intensity curve,TIC),如图3所示。从TIC提取峰值增强强度(peak enhancement,PE)、达峰时间(time to peak,TOP)、曲线下面积(area under the curve,AUC)等9个量化特征[11]。本文基于有无运动跟踪、有无低通滤波相互组合的4种情况,提取共9×4=36个时域特征。
图3 超声造影时间强度曲线图
②空域特征。
1.4 分类器设计
本文根据所提取的B型超声图像、弹性超声图像和CEUS图像序列3个模态的特征,用5折交叉验证[12]的方式把样本划分为训练集和测试集。同时,使用主成分分析法[13],对直接提取的特征进行降维后,选择特征值和大于95%特征值总和时对应的特征维数,再将这些降维后的特征输入到分类器进行分类。
本文将特权信息算法应用到传统支持向量机(support vector machine,SVM)[14]中,在训练阶段引入特权信息使用基于特权信息学习的SVM+分类器,实现对淋巴结变的良恶性判别。特权信息只出现在训练过程中,且测试过程不具有特权信息。SVM+原理如下[15]。
在SVM+的训练过程中:标准信息x∈X;特权信息x*∈X*;y为标签或回归值;w为最优超平面的法向量;b为系数;λ为样本x到分类间隔的距离。
学习的目的是利用包含特权信息的训练数据,实现对不包含特权信息的测试数据的分类。SVM+的最小化目标函数为:
(1)
式中:i=1,2,…,l。
由式(1)目标函数构建其拉格朗日函数:
(2)
式中:拉格朗日乘子α≥0,β≥0。
分类决策函数为:
(3)
纠错函数为:
(4)
分类函数中的K和纠错函数中的K*,分别是X空间和X*空间上的核。由此可得拉格朗日乘子α和β的解:
(5)
SVM+方法是将三元数据(x,x*,y)中变量x*映射到Z*空间上,变量x映射到Z空间上,定义决策分类函数。SVM+存在两个核函数。这两个核是在不同核空间用同样的相似性测度得到的。对决策空间和纠错空间进行相似度度量,可以得到系数α。
1.5 试验方案
本文在CAD模型训练阶段,使用B型作为标准信息、弹性超声和CEUS作为特权信息,通过三个模态信息构建基于特权信息的CAD模型;在测试阶段,只使用B型以实现对淋巴结病变的单模态超声诊断。同时,作为对比试验,本文还设计了B型作为标准信息、弹性超声或CEUS作为特权信息、B型和弹性超声作为标准信息,CEUS作为特权信息、B型和CEUS作为标准信息,弹性超声作为特权信息的方案。
2 结果与分析
将B型超声图像特征记为B、超声弹性图像特征记为E、CEUS图像序列特征记为C;特权信息用(*)表示;标准信息、特权信息和分类器的组合用(-)表示。分类指标为敏感性(Sen)、特异性(Spc)、精度(Pre)、准确率(Acc)和约登指数(YI)。标准信息只包含B、包含B和E或C的两种模态的分类结果如下。
2.1 单模态标准信息分类结果
①B作为标准信息,E*、C*和E*串联C*分别作为特权信息,特权学习结果如表1所示。良性∶恶性=13∶49。
表1 B-E*、B-C*和B-E*-C*特权信息学习结果
由表1可见,即使在B型超声单模态情况下,传统SVM模型也能得到一定的分类效果。但由于本文所用样本量较小,特异性较低。B-E*-SVM+的结果表明,增加了E*作为特权信息之后,分类的Spc、YI得到显著提升由0.69到0.92和0.49到0.64,分别提高了0.23和0.15。B-C*-SVM+的结果表明,增加了C*作为特权信息,使得在保持分类精确度的情况下敏感性和特异性更加均衡;相对单模态B型超声,由0.80和0.69改善为0.76和0.85。增加了E*和C*特权信息的B-E*-C*-SVM+,在本组试验中取得了最好的Acc和YI,分别为0.85和0.93。由此说明,特权信息的引入使得分类器的模型更加完善。
②B作为标准信息,C*作为特权信息,特权学习结果如表2所示。良性∶恶性=42∶91。
表2 B-C*特权信息学习结果
表2的情况同表1,但表2试验的样本量更大,良恶性样本的比例更加均衡。因此,表2的分类约登指数更高,整体分类效果更好。
2.2 双模态标准信息分类结果
①B串联E作为标准信息,C*作为特权信息,特权学习,结果如表3所示。良性∶恶性=13∶49。
表3 B-E-C*模态的特权信息学习结果
②B串联C作为标准信息,E*作为特权信息,特权学习,结果如表4所示。良性∶恶性=13∶49。
表4 4-C-E*特权信息学习结果
与前两组试验不同,表3和表4的试验中,标准信息包含两种模态的信息,特权信息分别为CEUS信息和弹性信息。表3中的B-E-C*-SVM+相较B-E-SVM的Acc、Pre、Sen、Spc、YI,分别提高了0.08、0.03、0.08、0.07、0.16;表4中的B-C-E*-SVM+相较B-C-SVM的Acc、Pre、Sen、Spc、YI,分别提高了0.04、0.04、0.02、0.15、0.17。这些结果同样表明,特权信息的加入使得分类效果更好。
试验结果表明,增加特权信息的学习算法SVM+能提高分类准确度,在临床诊断上具有一定的前景。
3 结束语
本文首先分别从淋巴结的B型超声图像、弹性超声图像和超声造影图像序列中提取量化特征,然后在模型训练阶段引入特权信息,最后使用基于特权信息学习的SVM+分类器实现对淋巴结病变的良恶性判别。试验结果表明,在淋巴结超声鉴别诊断中,特权信息的加入使得分类效果更好,有望用于淋巴结病变的临床诊断。
由于多模态医学超声图像信息的复杂性,本文研究仍存在一定的不足和缺陷,需要进一步拓展和完善。由于条件所限,本文使用的淋巴结样本数目有限,样本量少而定量特征多易造成过拟合问题。此外,由于样本量少,以及提取的大量特征间可能存在冗余、干扰,在不使用特权信息的双模态部分分类结果可能反而不如仅采用单模态的结果,需要在后续的研究中积累更多的病例,并研究更合适的特征降维方法,以进一步阐明特权信息的作用机制。样本数量增多一方面可以佐证当前提出系统的性能,另一方面能够为挖掘更具鉴别能力的特征提供试验数据基础。本文所使用的特权信息学习算法SVM+为有监督学习算法,接下来可以将半监督学习引入SVM+,以充分利用无标签数据。将特权信息学习引入到深度学习领域[16],提高模型训练阶段的特征表达能力和特权信息学习的分类效果。