APP下载

基于贝叶斯粗糙集的肺部肿瘤CT图像高维特征选择算法*

2019-01-23张飞飞周涛陆惠玲梁蒙蒙杨健

生物医学工程研究 2018年4期
关键词:高维约简粗糙集

张飞飞,周涛,,3△,陆惠玲,梁蒙蒙,杨健

(1.宁夏医科大学公共卫生与管理学院,银川 750000;2.宁夏医科大学理学院,银川 750000;3.宁夏智能信息与大数据处理重点实验室,银川 750021)

1 引 言

粗糙集(rough set,RS)是一种刻画不完整性和不确定性的数学工具,能有效分析各种不完备的信息,通过对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律[1]。RS在医学图像处理领域的应用主要包括图像的增强[2]、分类[3]、特征选择[4]和分割[1]等。但大多数决策信息数据存在模糊性、不完整性及噪声[5],此时RS已经不能满足数据处理的要求。为了克服RS只能处理完全确定数据的局限性,提出了其扩展模型-变精度粗糙集(variable precision rough set,VPRS),通过引入分类错误率β([0,0.5])将RS的下近似由“完全包含”放松为“部分包含”,反映了数据集中存在的误分类数据的鲁棒性和噪声数据。近年来,对β选取问题的研究主要有以下几个方面:一是不考虑β选取的细节,提出可扩展的VPRS模型,如:变精度模糊粗糙集[6]、广义变精度粗糙集[7]、变精度软粗糙集等;二是通过不同的方式计算β的取值,如文献[5]中将平均包含度作为选取上下近似的阈值;三是研究RS的概率泛化模型如:VPRS、博弈粗糙集、决策粗糙集[8]、贝叶斯粗糙集(bayesian rough set,BRS)[9]、0.5概率粗糙集等,这些方法彼此相关,不同的是概率近似公式和参数设计方式不同。其中BRS是VPRS的一种无参数化推广,利用先验概率来计算VPRS中阈值β,但是目前很多研究还处于理论阶段,缺乏成熟的应用模型。

本研究结合BRS、遗传算法(genetic algorithm,GA)和支持向量机(support vector machine,SVM),提出一种基于BRS的肺部肿瘤CT图像高维特征选择算法。首先提取3 000幅肺部肿瘤CT图像ROI区域104维特征构造决策信息表;其次从全局相对增益函数的角度分析属性重要度,结合属性约简长度和基因编码权值函数三者的加权和构造适应度函数框架;最后利用支持向量机分类识别。

2 基础知识

2.1 遗传算法

GA算法借用了生物遗传学的观点,通过自然选择、交叉、变异等操作,实现个体适应性的提高。它是模拟自然界遗传机制和生物进化理论而形成的一种过程搜索最优解的算法。相比传统优化算法,遗传算法具有其独特的特点:理论基础扎实、鲁棒性强、适用于并行处理[10],已广泛应用于计算机科学、图形图像处理、数据挖掘等领域,也被广泛应用于特征选择,并取得了较好的结果[11]。

2.2 贝叶斯粗糙集

分类错误率β的选取制约着VPRS发展,目前尚无系统的阈值选取体系。为了进一步扩展概率粗糙集的应用,Slezak[12]等在贝叶斯理论的基础上,提出了一种修正的VPRS模型,用事件发生的先验概率代替VPRS中分类错误率β,无需任何参数来控制模型派生,既克服了经典RS对下近似的完全精确划分,又避免了变精度粗糙集中参数β对上下近似的影响。基本概念如下:

(1)

(2)

(3)

定义3:设X与E为等价关系,a∈E,如果RE-{a}(X)=RE(X),称a为E中X不必要的,否则a为E中X必要的。E中所有X必要的集合称为E的X核。

定义4:信息系统S中,对于∀X⊆U,子集B⊆C,则B为X的R约简,且满足:

(1)RB(X)=RC(X);

(2)去掉B中任一属性均使得式(1)不成立。

3 算法介绍

3.1 算法思想

基于BRS的肺部肿瘤CT图像高维特征选择算法流程见图1。

3.2 算法步骤

3.2.1实验获取及预处理 本研究选用宁夏某三甲医院带有医嘱的3 000例肺部肿瘤CT图像。从原始图像中获取对肺部肿瘤有较强区分能力的子图作为ROI区域,并将ROI图像归一化为50×50像素。

图1 基于BRS的肺部肿瘤CT图像高维特征选择算法流程图

Fig1FlowchartofalgorithmforhighdimensionfeatureselectionoflungtumorCTimagebasedonBRS

3.2.2图像分割 为准确测量肿瘤的形状、纹理和灰度等特征,选用OTSU算法分割预处理的ROI区域。OTSU是阈值自动选取最有效、最稳定的方法之一,在一定条件下不受图像对比度与亮度影响[13]。图2给出本研究分割前后的5组实例。

图2 OTSU算法分割前后的实例

Fig2ExamplesofROIregionbeforeandaftersegmentationbasedonOTSUalgorithm

3.2.3特征提取 对分割后的ROI区域提取104维特征,包括形状特征、纹理特征和灰度特征,具体特征见表1。提取特征后构建决策信息表:每个样本包括104维条件属性和1维决策属性。

3.2.4离散化 为了提高算法的运行效率,简化数据结构,采用模糊C均值聚类算法简化构建决策信息表。

表1 肺部肿瘤CT图像特征集合

3.2.5基于BRS的属性约简 本研究结合BRS和GA算法进行属性约简,降低分类器时间和空间复杂度,提高分类性能。步骤如下:

(1)参数设定:染色体为0,1组成的序列,其长度等于条件属性数目N,交叉概率Pc,变异概率Pm,最大迭代次数K=150,初始种群M=20,适应度函数为F(x);

(2)编码:采用二进制编码方式,长度等于条件属性的个数,二进制中0,1分别表示特征未选中和选中;

(3)初始种群:随机产生M个染色体串构成初始种群;

(4)遗传算子:根据前期研究,遗传算子组合为无回放随机余数选择、均匀交叉和高斯变异;

(5)适应度函数:适应度函数的有效性决定GA算法的搜索方向和进化结果,其值是判断个体性能的主要指标。本研究从全局相对增益函数、属性约简长度和基因编码权值函数三个方面考虑,通过加权和构造适应度函数,进行遗传算法寻优,找到最具区分能力的特征子集。适应度目标函数为:

因此本研究构造适应度函数为:

F(x)=-ω1×target1-ω2×target2+ω3×target3

3.2.6基于SVM的分类识别 首先采用网格寻优算法优化SVM的惩罚参数和核函数参数,得到最佳参数的SVM分类模型,将约简子集作为输入,采用五折交叉训练和预测。

4 实验结果及分析

4.1 分类器评价标准

本研究约简模型评价指标包括长度,属性重要度,算法耗时,分类模型评价指标包括:准确率(Accuracy)、敏感性(Sensitivity)、特异性(Specificity)、F值、马修斯相关性系数(matthews correlation coefficient, MCC)、平衡F分数(balanced F score,F1Score)、约登指数(youden index,YI)和算法耗时(Time),计算公式如下:

(4)

(5)

(6)

(7)

(8)

(9)

YI=Sensitivity+Specificity-1

(10)

其中,TP表示被正确分类的恶性肿瘤数;FP表示被分错的良性肿瘤数;TN表示被正确分类的良性肿瘤数;FN表示被分错的恶性肿瘤数。

4.2 实验思路

为了验证本研究算法的性能,分割原始ROI区域并提取特征构造决策信息表,采用模糊C均值聚类算法对属性值进行离散化;然后使用提出的算法求取属性约简集合,每个参数组合约简5次,求这五次约简结果的平均值作为该组实验的结果。对于约简后的特征子集采用LIBSVM五折交叉分类识别,得到五组识别结果,通过各指标的平均值作为此次分类结果。

4.3 实验结果分析

将本研究基于BRS的高维特征选择算法和基于VPRS(β分别为0.1、0.2、0.3和0.4)的高维特征选择算法进行属性约简和分类识别的比较,约简和分类结果见表2、图3—图7、表3。

表2 不同算法约简结果比较Table 2 Comparison of different algorithms reduction results

图3BRS某次约简结果

Fig3AreductionresultofBRSalgorithm

图4 VPRS( β=0.1)情况下某次约简结果Fig 4 A reduction result in the case of VPRS (β=0.1)

从表2可见,基于BRS的肺部肿瘤CT图像高维特征选择算法在参数β无需人工设置时,约简长度为7.8维,相比β=0.1的VPRS模型约简长度降低显著。属性重要度略低于β=0.4的VPRS模型,高于其他参数值。约简时间高于β=0.2的VPRS模型,低于其他参数值,其中相比β=0.1,时间缩短2.7倍。

图5 VPRS( β=0.2) 情况下某次约简结果Fig 5 A reduction result in the case of VPRS (β=0.2)

从图3至图7可见,基于BRS的CT图像高维特征选择算法相比不同β值情况下VPRS算法,约简过程没有出现早熟现象,收敛速度较快。从约简结果可见,BRS模型在不需要人工设置参数的情况下仍能取得较为理想的效果。

由表3可见,基于BRS的肺部肿瘤CT图像高维特征选择算法相比参数β=0.1的VPRS算法精确度、特异性、MCC、F1Score、YI分别降低0.07%、0.43%、0.0015、0.0006和0.0013,但敏感性提高0.3%,分类时间β=0.1的VPRS算法是BRS算法的3.4倍。虽然BRS算法在可以接受的范围之内降低了精确度,但在很大程度上减少了时间消耗,综合考虑,BRS算法整体性能优于β=0.1的VPRS算法;BRS算法相比参数β=0.2、0.3和0.4的VPRS算法时间降低,其余各项指标均有提高,相比β=0.2的VPRS算法各指标提高显著。从分类结果可见,BRS的模型与VPRS模型相比,既摆脱了参数的束缚,也提高了模型的分类性能。

图6 VPRS( β=0.3) 情况下某次约简结果Fig 6 A reduction result in the case of VPRS (β=0.3)

图7 VPRS( β=0.4)情况下某次约简结果Fig 7 A reduction result in the case of VPRS (β=0.4) 表3 不同算法SVM分类结果比较 Table 3 Comparison the classification results of different algorithms based on SVM

算法参数β精确度%敏感性%特异性%F值MCCF1ScoreYI时间(s)BRS与参数β无关94.2893.1995.370.94210.88610.94280.885616.3293VPRSβ=0.194.3592.8995.800.94000.88760.94340.886955.9115β=0.291.9691.0492.880.91900.84010.91960.839218.1967β=0.394.2193.0795.350.94150.88480.94200.884116.9991β=0.492.2391.4792.990.92180.84560.92220.844517.7542

5 结语

本研究提出一种基于BRS的高维特征选择算法,该算法针对VPRS在特征选择过程中对分类错误率β的过分依赖问题,结合贝叶斯理论,使用先验概率代替分类错误率β。首先利用GA算法对初始特征空间进行寻优,降低特征矢量的维数,在适应度函数构造过程中考虑全局相对增益函数的属性重要度、约简长度和基因编码权值函数,使用SVM分类识别,最后以3 000幅肺部肿瘤CT图像为原始数据进行辅助诊断。实验结果表明,BRS算法在约简过程中各指标介于不同β值情况下VPRS算法,未出现早熟现象。在分类阶段,BRS算法的精确度高于多数参数情况下的VPRS算法,时间复杂度最低。因此,BRS的算法相对VPRS放松了对参数的要求,并在很大程度上提高模型的性能,对肺部肿瘤的CAD具有应用价值。

猜你喜欢

高维约简粗糙集
有向图上高维时间序列模型及其在交通网络中的应用
基于Pawlak粗糙集模型的集合运算关系
基于二进制链表的粗糙集属性约简
基于粗糙集的不完备信息系统增量式属性约简
一种改进的GP-CLIQUE自适应高维子空间聚类算法
实值多变量维数约简:综述
基于模糊贴近度的属性约简
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
高维Kramers系统离出点的分布问题