基于集成VPRS-RUGGA支持向量机的多模态肺部肿瘤计算机辅助诊断模型*
2019-04-20张飞飞周涛陆惠玲梁蒙蒙杨健
张飞飞,周涛,陆惠玲,梁蒙蒙,杨健
(1.宁夏医科大学 公共卫生与管理学院,银川 750000;2.宁夏医科大学 理学院,银川 750000; 3.宁夏智能信息与大数据处理重点实验室,银川 750021)
1 引 言
肺癌是许多国家癌症相关死亡的首要原因[1],传统诊断方法有X射线、活检、核磁共振等。PET/CT用于肿瘤的诊断越来越普及[2],虽然给肿瘤的诊疗带来曙光,但大量图像也给医生带来沉重的负担,因此,计算机辅助诊断(computer aided diagnosis,CAD)的发展将成为一种必然。Sachdeva[3]等提出了一种脑肿瘤CAD系统,联合GA-SVM和GA-ANN两种模型,在不同数据集上最高正确率分别达到91.7%和94.9%;Rendon-Gonzalez[4]等使用支持向量机(support vector machine,SVM)在肺癌CAD系统中进行特征分类,正确率为78.08%;Wang[5]等结合ANN、遗传算法(genetic algorithm, GA)和粗糙集(rough set,RS)构建乳腺癌CAD模型,精度达到98.1%;尚丹[6]利用SVM进行肺癌的早期诊断,使用GA和PSO优化参数,精确度分别为90.91%和93.18%。
特征级融合在保留重要信息的基础上,实现信息量的压缩,处理速度快,但特征之间的冗余性和相关性使得“维数灾难”成为难题,属性约简是解决其行之有效的措施。而RS的属性约简和GA的寻优能力在约简过程中扮演着不可或缺的角色。在CAD诊断阶段,SVM是常用分类器,但单个SVM不能精确判别对象所属关系,降低了稳定性和泛化能力,故常将SVM作为成员分类器,进行SVM集成以提高泛化能力[7]。
本研究提出基于变精度粗糙集(variable precision rough set,VPRS)、GA和SVM的肺部肿瘤CAD模型。首先构造适应度函数,采用无回放余数随机选择法、均匀交叉和高斯变异算子进行遗传操作;然后在不同的样本空间中分别提取特征构造特征空间,运用VPRS-RUGGA-SVM模型进行约简和分类识别;最后采用集成的方式提高模型的稳定性和分类性能。
2 相关研究
2.1 变精度粗糙集
为缓解Pawlak RS只能处理精确分类问题的局限,Ziarko提出了VPRS的概念,引入分类错误率β(0≤β<0.5),将下近似由完全包含扩展为部分包含,定义如下:
定义1[8],条件属性P关于决策属性Q的β约简是P的一个子集red(P,Q,β),且满足:
(1)γ(P,Q,β)=γ(red(P,Q,β),Q,β)
(2)从red(P,Q,β)中去掉任何一个属性,都将使表达式(1)不成立。
定义2[9],决策属性集Q对条件属性集P的β依赖度定义为:
2.2 遗传算法
GA算法通过选择、交叉、变异等操作,实现个体适应性的提高。虽然目前GA在各个领域得到广泛的应用,但是仍然存在过快收敛和局部最小的问题。不同的遗传算子对结果影响较大,下面简要介绍遗传算子和本研究选用的参数组合。
2.2.1选择算子 无放回余数随机选择操作方法可以确保适应度比平均适应度大的个体一定能够被遗传到下一代,误差较小,其具体操作过程如下:
(1)计算群体中每个个体在下一代群体中的生存期望数目Ni:
2.2.2交叉和变异算子 本研究选择均匀交叉和高斯变异算子,其中均匀交叉指配对个体的每一个基因座上的基因,都以相同的交叉概率进行交换,形成两个新的个体。高斯变异[10]是改进遗传算法对重点搜索区域局部搜索性能的一种变异操作方法,是指在进行变异操作时,用符合均值为μ、方差为σ的正态分布随机数替换原有的基因值。
2.3 集成学习
SVM集成综合了单个SVM的优良性能,可提高泛化能力。成员分类器的设计须降低单个分类器的误差并增加分类器之间的差异[11]。本研究在CT、PET、PET/CT样本空间中,分别提取特征,构造单一个体分类器,SVM集成结论的生成,采用相对多数投票法。
3 集成VPRS-RUGGA-SVM模型
3.1 模型描述
模型主要有三个特点:一是适应度函数综合考虑了属性依赖度、约简长度和惩罚函数;二是采用无放回余数随机选择、均匀交叉和高斯变异算子进行遗传操作;三是在不同的样本空间中构造个体分类器,采用集成的方式提高模型的稳定性和泛化能力。流程见图1。
图1 CAD模型流程图
3.2 算法步骤
3.2.1数据收集与预处理 从宁夏某三甲医院收集肺部肿瘤CT、PET和PET/CT图像9 000幅,各模态3 000幅,良恶性各1500幅。对原始图像进行预处理,并从三个模态截取有较强区分能力的子图作为ROI区域;最后将ROI归一化为50×50的实验图像。ROI获取及预处理过程见图2。
3.2.2ROI分割 分割是图像预处理的重要步骤,常用的方法包括阈值法、边界检测法、区域法等[12]。Otsu分割法是最常见的方法,核心思想是将图像划分为两类,计算每个灰度级到两类的灰度方差和,当类间方差达到最大时,该灰度级为最佳阈值[13]。本研究采用Otsu对ROI区域分割,见图3,以CT图像ROI分割为例给出分割前后的实例。
图2 ROI区域的获取及预处理
图3 分割前后的CT图像ROI区域实例
Fig3ExampleofROIregionbeforeandaftersegmentationofCTimage
3.2.3特征提取 提取肿瘤ROI区域的特征,见表1,利用模糊C均值聚类算法对特征结构进行简化。
表1 肺部肿瘤ROI区域不同类型特征
PET图像恶性肿瘤ROI是黑色亮斑,良性是灰色区域,难以提取6维几何特征,故CT和PET/CT的特征共104维,PET 98维。
3.2.4特征约简 输入:决策信息表S=(U,A,V,f),染色度为0,1组成的序列,β=0.4,交叉概率Pc=0.8,变异概率Pm=0.2,迭代次数K=150,初始种群M=20;
输出:red(P,Q,β)
BEGIN
generate(M)
for i=1:K
Set nvars; //染色体长度
Set options;
F(x)=-ω1×target1-ω2×target2+ω3×target3;
P=Select(M, 2, Pc); //选择
Q=Crossover(P, 2, Pc); //交叉
Q’=Mutation(Q, Pm); //变异
END
3.2.5集成SVM 通过三个单一SVM构建集成SVM模型。
3.2.6决策识别 利用SVM对肺部肿瘤进行诊断识别。
3.3 指标体系
约简模型评价指标包括约简长度、依赖度、时间,分类模型评价指标包括准确率、敏感性、特异性、F值和时间,公式如下:
其中,TP表示被正确分类的恶性肿瘤数;FP表示被错分的恶性肿瘤数;TN表示被正确分类的良性肿瘤数;FN表示被错分的良性肿瘤数。
4 实验数据分析
采用VPRS-RUGGA对不同模态特征集合进行约简,每个参数组合约简5次,分别得到约简长度、适应度值、依赖度和时间,求五组约简对应结果的均值作为该模态结果。对于每次约简结果采用五折交叉分类识别,得到五组识别结果,求各指标均值作为此约简结果,最后求五次约简结果的平均值作为该组结果。
4.1 验证实验
在CT、PET和PET/CT样本空间构造个体分类器,使用VPRS-RUGGA进行属性约简,约简子集采用SVM分类识别,实验结果见表2、表3。
表2 不同模态模型约简结果的比较Table 2 Comparison of the reduction results from different modals
由表2可知,基于CT的CAD模型约简长度为6.8维,依赖度较高,时间为303.6945 s;基于PET的CAD模型约简长度为6.6维,依赖度和运行效率最高;基于PET/CT的CAD模型约简长度为8.6维,依赖度和时间介于CT和PET之间,且三模态约简过程均无早熟现象。
表3不同模型分类结果的比较
Table3Comparisonoftheclassificationresultsfromdifferentmodels
模型精确度(%)敏感性(%)特异性(%)F值(%)时间(s)CT-SVM92.2391.4792.9992.1817.8284PET-SVM99.0698.29100.0099.045.9659PET/CT-SVM98.4097.6999.1198.367.7584集成98.9598.4399.4698.6731.7889
由表3可知,CT各指标均高于90%,但相对最低,分类效果不理想;PET分类性能相比CT提高很快,运行效率较高。PET显示功能代谢信息,恶性肿瘤ROI为黑色斑块,而良性为灰色,易于区分[13],故在PET空间构造分类器效果很好;PET/CT各评价指标介于CT和PET之间,PET/CT能全面描述病灶区域的解剖和功能结构,在PET/CT特征空间构造分类器效果较好;集成模型的精确度相比CT和PET/CT提高6.72%和0.55%,灵敏性高于单模态,特异性高于CT。
实验表明,不同模态图像在肺癌诊断中扮演着不同的角色,在不同的样本空间构造个体分类器精确度不同,排除PET图像易于区分的特性,集成可提高泛化能力和稳定性。
4.2 对比实验
验证实验表明VPRS-RUGGA-SVM模型在不同模态的适用性,且集成模型的优越性更加显著。为验证模型在属性约简和分类识别阶段的优势,选用效果较好的PET/CT图像做对比实验。
参数设置:SGA表示经典GA,轮盘赌选择、交叉和变异概率分别为0.8,0.2;VPRS的分类错误率β=0.4。实验结果见表4、表5和图4、图5。
表4 不同模型约简结果对比Table 4 Comparison of reduction results from different models
图4RS-SGA-SVM某次约简过程中适应度函数变化情况
Fig4ThechangeoffitnessfunctioninareductionprocessofRS-SGA-SVM
图5 VPRS-SGA-SVM某次约简过程适应度函数变化情况
Fig5ThechangeoffitnessfunctioninareductionprocessofVPRS-SGA-SVM
由表4可知,RS-SGA-SVM和VPRS-SGA- SVM相比验证实验中前三组,约简长度增加,依赖度降低,时间是本研究模型的2倍左右,运行效率降低,且每次约简都出现了类似图4、图5的早熟现象。RUGGA-SVM模型的适应度函数只包括约简长度和惩罚函数,运行效率较高;RS-RUGGA-SVM模型引入RS后,依赖度最高,约简长度和时间相比,本研究模型较长,但有效改善了早熟问题。因此,引入无回放余数随机选择法、均匀交叉和高斯变异算子组合以后,改善了早熟问题,且提高了运行效率。
因RS-SGA-SVM和VPRS-SGA-SVM模型在属性约简阶段存在不同程度的早熟现象,就不再进行SVM的分类比较。
从表5可见,RUGGA-SVM模型在不引入属性依赖度时,虽约简长度和时间都优于其他模型,但是分类阶段各指标严重降低,运行效率低下;RS-RUGGA-SVM模型相比RUGGA-SVM模型引入属性依赖度,精确度提高3.41%、时间减少,但是相比本研究模型,精确度、敏感性和特异性分别降低1.04%,1.12%,0.96%。
表5 不同模型分类结果的比较Table 5 Comparison of classification results from different models
通过对比实验可知,VPRS-RUGGA-SVM 模型有效改善了GA算法的早熟收敛问题,且通过引入VPRS提高了模型的识别性能。
5 结语
针对CAD易出现稳定性差和早熟问题,提出一种集成模型。为验证模型的可行性和有效性,提取三个模态肺部肿瘤ROI区域的特征构建原始特征空间,在此基础上做了两组实验,验证实验运用VPRS-RUGGA-SVM模型在CT、PET和PET/CT三个模态进行实验,取得较好的效果,且集成以后精确度相比单一CT和PET/CT提高6.72%和0.55%,提高了稳定性和泛化能力;对比实验说明VPRS-RUGGA-SVM模型在引入无回放余数随机选择法、均匀交叉和高斯变异算子组合后,改善了GA算法的早熟问题,且通过引入VPRS,提高了模型的识别性能。因此本研究模型能较好的解决CAD优化过程中稳定性差和早熟问题,但是参数的选择在实际应用时应具体问题具体分析。