基于超声射频时间序列分析的乳腺病灶良恶性分类*
2018-10-18林春漪邹波周建华
林春漪,邹波,周建华
(1.华南理工大学 电子与信息学院,广州 510640;2.中山大学 附属肿瘤医院,广州 510080)
1 引 言
乳腺癌是中国女性最常见的癌症,中国新增和死亡病例分别占全球的12.2%和9.6%[1]。乳腺癌若能得到及时诊断和治疗,其生存率将大大提高。然而良性和恶性病灶在B超图上不易区分,目前穿刺活检是良恶性诊断的“金标准”,但有创且不可重复,同时缺乏经验的医生需要有效的辅助诊断信息,因此,研究高精度且无创的乳腺病灶良恶性分类方法具有重要的临床意义。
超声组织定征以其无创、无损、简易、可重复的优点在乳腺病灶良恶性分类及乳腺癌分级等问题上受到了广泛关注。用于乳腺病灶研究的超声组织定征方法主要有三种。一种是基于B超图的方法,主要提取病灶的形态和纹理特征[2-3]。此外有回波包络线法,Shankar[4]假定回波包络服从Nakagami分布,利用分布参数α和m对乳腺病灶进行良恶性分类,AUC分别为0.828和0.79。此方法仅利用了回波幅度信息,而重要的频谱、相位、软组织与超声波相互作用等信息丢失[5]。因此,Lizzi[6]提出基于单帧背散射RF信号方法,该方法利用组织对超声波的衰减特性。Tadayyon[7]提取RF信号的频谱及频谱纹理特征来对乳腺癌进行Ⅰ级与Ⅱ、Ⅲ级分类,取得86%的分类准确率。此方法虽利用了频谱和相位等信息,但提取的特征由于受超声传播路径影响而个体差异大,对噪声敏感,需深度衰减补偿,从而影响定征精度的可靠性。为此,Moradi[8-9]近年来提出基于超声RF时间序列分析的方法,已成功应用于前列腺癌及不同动物组织类型的识别,这些研究结果表明RF时间序列蕴含组织定征信息,Daoud[10]认为原因在于超声辐射引起组织温度升高,使得声速改变,导致RF信号相位偏移,且温度变化的大小取决于组织生物力学和热物理性质。Uniyal[11-12]提取RF时间序列频谱和形态学特征,Uniyal[12]在SVM和随机森林下对22个乳腺病灶样本进行良恶性分类,得到SVM和随机森林的AUC分别为0.86和0.81,并与前两种定征方法进行了对比,结果表明,基于超声RF时间序列的方法不仅可以有效地分辨乳腺病灶的良恶性,而且分类精度三者中最高。
虽然Uniyal证明了基于超声RF时间序列分析方法对乳腺病灶良恶性分类是有效的,然而Uniyal[11-12]中样本数量过少,对RF时间序列的分析仅局限于频域,精度有待提高。时间序列的分析方法不仅有基于频域的方法,还有基于时域的方法,目前已有研究将时域特征(峰度、峰值、模糊熵、过零点、过零点标准差)应用于脑电识别,取得了很好的效果[13-15]。本研究在乳腺病灶样本数量增加的同时提取RF时间序列的时域特征,结合频域特征和分形维数(fractal dimension,FD),通过以多维度特征,进一步改善分类精度,并开发了具备用户交互功能的乳腺病灶良恶性分类系统(benign and malignant breast lesions classification system,BMBLCS)。
2 方法
2.1 乳腺病灶良恶性分类系统设计
BMBLCS的系统流程见图1,BMBLCS基于Microsoft Visual Studio2013开发,可实现RF信号的解析、显示RF时间序列与乳腺B超图、计算特征值、基于SVM和随机森林的乳腺病灶良恶性分类与结果显示、分类器参数设置等功能,利用ROC和分类准确率来评价分类效果。
图1 乳腺病灶良恶性分类系统流程图
BMBLCS界面之一见图2。左为乳腺B超图,红色矩形为感兴趣区(region of interest,ROI),绿色轮廓为病灶边界,所有乳腺病灶样本的边界和位置均在医生的指导下确定,以确保ROI选取在病灶区域内,右为RF时间序列的FD、频域和时域特征值。
2.2 数据采集
本研究采用加拿大Ultrasonix公司的Sonix Touch 超声诊断仪,14L5 常规超声线阵探头,超声仪器参数设置如下:动态范围76 dB,机械指数0.25,帧频33 Hz,深度3 cm,焦点位于乳腺病灶中央,中心频率10 MHz。
本研究所有女性乳腺病灶样本来自中山大学肿瘤防治中心,样本均经穿刺活检确认良恶性,样本共275例(良性125例,恶性150例),病灶直径5~72 mm。超声回波RF信号共采集10 s,仅采用前256帧,即RF时间序列的长度为256。
2.3 超声RF时间序列产生
读取一帧RF信号,解调并显示B超图,然后在B超图上选取ROI(大小为20×70),对ROI内每一点取其256帧RF信号,形成一个RF时间序列,从而得到1 400个长度为256的RF时间序列,见图3。
图2乳腺病灶良恶性分类系统界面
Fig2Interfaceofbenignandmalignantbreastlesionsclassificationsystem
图3 超声RF时间序列形成示意图
2.4 特征提取
本研究提取了RF时间序列的FD、频域特征和时域特征。
2.4.1FD FD是定量表征信号的复杂度和不规则度等特征的重要参数。本研究采用Higuchi法计算FD,步骤如下:
(1)设长度为N的RF时间序列为{x(n):1≤n≤N}。
(1)
(2)
(3)
(6)对ROI内1400个RF时间序列的FD求取均值即为特征FD。
2.4.2频域特征 首先将RF时间序列做快速傅里叶变换(FFT),得频谱并归一化,将频段四等分,计算每个频段频谱幅值之和即得S1、S2、S3和S4;然后对归一化频谱进行直线拟合即得slope和Intercept,具体见图4。
频域特征的具体计算步骤如下:
(1)设ROI内每个长度为N的RF时间序列为{x(l):1≤l≤N}。
(2)对{x(l)}做傅里叶变换求频谱X(w)
(3)对ROI内相同频率下的频谱X(w)求均值Xave(w)
图4 频域特征示意图
(4)
(5)
2.4.3时域特征 (1)峰度
峰度(Kurtosis)描述时间序列对于极端值的敏感性,时间序列变化越大,峰度的值越大。峰度计算公式如下:
(6)
(2)峰值
峰值(Peak)描述时间序列的最大波动范围。峰值定义为RF时间序列前L个较大幅度绝对值的均值,峰值计算公式如下:
(7)
本研究L取10,其中{x(i):1≤i≤L}表示RF时间序列前L个最大值。
(3)模糊熵
模糊熵(FuzzyEnropy)作为时间序列规律性的度量[13],对噪声具有良好的鲁棒性,已经成功用于基于脑电信号对人的左右手动作的识别[14]。模糊熵计算步骤如下:
(a)按照RF时间序列{x(i):1≤i≤N}原来顺序重新生成一组m维的向量:
(8)
(9)
式中i,j=1,2,L,N-m,j≠1
(10)
(d)定义函数φm(n,r):
(11)
(e)重复a~d生成一组m+1维的新向量并计算φm+1(n,r)
(f)计算模糊熵(m,n,r,N):
FuzzyEnropy(m,n,r,N)=lnφm(n,r)-lnφm+1(n,r)
(12)
本研究中,m=n=2,r=0.3SD,SD为RF时间序列的标准差,计算公式如下:
(13)
(4)过零点和过零点标准差
过零点分析方法对干扰不敏感,可以量化时间序列波形结构上的细节,相比传统的频域分析会有更准确的结果[15],过零点(mZCl)反映时间序列的复杂性,过零点标准差(nsZCl)反映时间序列震动的复杂性。mZCl和nsZCl计算步骤如下:
(b)查找{y(l)}中过零点数,计算两个相邻过零点之间点数,记为d1,d2,L,dz;
(14)
(15)
依次对ROI内的每个RF时间序列计算Kurtosis、Peak、FuzzyEnropy、mZCI和nsZCI,然后计算ROI内1400个RF时间序列特征值的均值即得病灶区时域特征。
3 结果与讨论
本研究分类器参数设置:训练和测试样本为7:3,SVM采用基于C语言的LibSVM-3.14库,核函数选择高斯径向基核函数,通过十折交叉验证来寻找最好的惩罚系数C,随机森林采用OpenCV机器学习库,决策树数量为300,深度为6。
SVM和随机森林的ROC见图5,分类结果见表1,采用与Uniyal[12]相同的评价指标将本研究的分类结果与Uniyal[12]进行比较,具体见表1。
图5 SVM和随机森林ROC
Table 1 Result of this paper and Uniyal[12]
由图可知,本研究SVM和随机森林的AUC比Uniyal[12]分别提高了0.054(约6.3%)和0.127(约15.7%),表明本研究从时域、频域、形态学三个维度提取的特征能有效地提高乳腺病灶良恶性的分类精度,达到了提高分类精度的目的。
本研究随机森林AUC大于SVM的AUC,而Uniyal[12]中随机森林AUC小于SVM的AUC,造成这种差异的原因在于Uniyal[12]样本数量很少,良恶性样本数量差异大,由于良恶性样本数量不平衡的问题导致其随机森林分类效果下降,随机森林适合于高维特征的分类,SVM适合于小样本的分类,因此Uniyal[12]中SVM的分类效果比随机森林好。本研究样本数量多达275例,良恶性样本数量较为均衡,并从时域、频域、形态学三个维度进行特征提取,提高了样本的特征维数,从而使本研究随机森林的分类效果好于SVM。
为了减小患者呼吸和医生手持探头可能的抖动对RF信号采集的影响,在检查过程中嘱咐患者尽量屏气以减少检查切面移动,选择操作熟练的医生,使探头固定于同一切面,尽量减小外部因素对研究结果的影响。本研究中的Peak特征,在不同的超声采集系统中会有所差异,在后续的研究中会考虑消除这种系统的依赖性。
4 结论
本研究采用基于超声RF时间序列分析方法,通过在时域、频域和形态学三个维度对RF时间序列进行特征提取,以SVM和随机森林为分类器对乳腺病灶进行良恶性分类,所取得的高分类精度表明,基于本研究方法研发的BMBLCS可以为缺乏诊断经验的医生提供有效的辅助诊断信息,提取的特征分布信息可以为临床的实验研究提供新的分析手段,BMBLCS已试用于中山大学肿瘤防治中心的临床乳腺病灶的实验研究。