基于邻域粗糙集的莆田地区肺癌特征选择

2021-09-10沈林陈金清胡建雄蔡荣贵

廊坊师范学院学报(自然科学版) 2021年2期

沈林　陈金清　胡建雄　蔡荣贵

0 引言

肺癌是我国发病率和死亡率最高的恶性肿瘤之一，临床上在发现肺部结节病灶后将其切除是预防其发展为恶性肿瘤的常见治疗手段。医院积累了大量的临床数据，通过对这些临床数据的分析，可以更好地帮助医生判断哪些病人需要手术。但临床数据规模庞大、维度高、不完备，如果直接处理，必然陷入“维度灾难”。所以，先对临床数据进行特征选择是必要的。本文提出一种基于变精度邻域粗糙集的特征选择算法，并对从医院采集的病例进行特征选择，然后用多种机器学习的方法验证特征选择的有效性。

1 邻域粗糙集和变精度邻域粗糙集

粗糙集理论（Rough Sets，RS）是Z.Pawlak[1]在上世纪90年代初提出的理论，通过上、下近似集，将知识分为模糊的知识和精确的知识，这使得RS理论具备从不确定、不一致、不完备的知识中，找出潜藏知识的能力。随后，为了解决经典粗糙集抗干扰能力差的问题，W.Ziarko[2]提出了变精度粗糙集（VPRS）;为了解决经典粗糙集无法直接处理连续数据的问题，HU等[3]提出了邻域粗糙集（NBRS），用邻域关系代替等价关系处理连续型数据，并对变精度邻域粗糙集进行了研究。

定义1 一个决策系统可以描述为[DS=（U，C?D）]，其中[U]是非空样本集[{x1，x2，…，xn}]，[C]是特征集合，[D]是决策类。则样本[xi]的邻域关系表示为[δA（xi）={xjΔA（xi，xj）≤δ，xj∈U，A?C}]，其中[δ]是邻域半径，[ΔA（xi，xj）]表示样本[xi]和[xj]的距离，最常用的是欧式距离。对于给定的集合[X?U]，邻域粗糙集的上下近似集定义为：

[RA（X）={xiδA（xi）?X≠φ，xi∈U}RA（X）={xiδA（xi）?X，xi∈U}] （1）

若[δA（xi）?Dj]，则认为[xi∈Dj]。由于定义1对邻域关系的定义过于严格，易受干扰，所以在使用时可以引入错误率[β（0<β<0.5）]，若[δA（xi）]中不属于[Dj]的样本比例小于[β]，就认为[xi∈Dj]，这就得到了变精度邻域粗糙集。

定义2 变精度邻域粗糙集的上下近似集定义为：

[RβA（X）={xi1-（δA（xi）?X）/δA（xi）≤1-β，xi∈U}RβA（X）={xi1-（δA（xi）?X）/δA（xi）≤β，xi∈U}] （2）

定义3 决策类[D]的下近似集又被称为邻域粗糙集的正域，表示为：

[POSA=Xi∈UDRA（Xi）] （3）

粗糙集的正域的意义是特征集[A]下决策系统[DS]包含的所有精确的知识。

定义4 决策系统[DS]在特征集[A]下的依赖度定义为：

[r（DS）=POSAU] （4）

定义5 对于任意的特征集[A?C]，若是有[POSA=POSC]，则称特征集[A]是[C]的一个约简。

定义6 决策系统[DS]的变精度邻域下近似分布的定义为：

[DP（DS，β）={RβC（Y1），RβC（Y2），…，RβC（Yn）}] （5）

2 基于辨识矩阵的变精度邻域粗糙集特征选择

2.1 辨识矩阵

在用粗糙集理论处理特征选择问题时，主要有基于依赖度和基于辨识矩阵两种方法：基于依赖度的特征选择需要反复计算邻域关系和依赖度，时间复杂度较高;基于辩识矩阵则是通过构建一个矩阵，记录每个样本对在各个特征下的领域关系，来寻找最小约简，时间复杂度大幅降低，但空间复杂度较高。由于传统的辨识矩阵针对的是邻域粗糙集，无法应用于变精度邻域粗糙集，本文采用了改进的辨识矩阵，定义如下[4]：

[Mi，j=2xj∈δa（xi）∧Dxi≠Dxj1xj∈δa（xi）∧Dxi=Dxj0其他] （6）

公式（6）所列矩阵，每一行为一个样本对[xi，xj]，每一列对应一个特征，整个矩阵有[m×（m-1）/2]行、[C]列，其中[m]为样本个数，[C]为条件特征。“2”表示样本[xi]和[xj]是邻域关系但决策类不一致，“1”表示是邻域关系且决策类一致;“0”表示非邻域关系。很明显，对于任意一行的样本对[xi，xj]，只可能由["0"，"1"]或者["0"，"2"]组成，不会同时出现“1”和“2”。若要计算样本对[xi，xj]在特征集[a1，a2]下是否为邻域关系，仅需计算[M（i，j）a1&M（i，j）a2]是否为0即可。

2.2 算法步骤[4]

输入：决策系统[DS=（U，C?D）]，错误率[β]。

输出：约简后的特征集。

（1）计算各个特征的邻域半径;

（2）根据邻域半径，按照公式（6）计算[DS]的辨识矩阵;

（3）根据定义6计算[DS]在[C]下的下近似分布;

（4）建立一特征隊列，将所有属性依次和特征队列组合，找出组合后错误率最小的特征，并将该特征放入特征队列;

（5）检查当前特征队列的下近似分布是否和（3）一致，如果是则输出特征队列并结束算法，如果不是则重复步骤（4），直到满足条件。

步骤（4）由于要反复执行，耗时最多，时间复杂度为[Om2*n*l]，[m]为[U]中样本个数，[n]为输入时条件特征个数，[l]为输出时特征队列中的特征个数。

3 实验分析

3.1 数据说明

本文采用的数据来自莆田学院附属医院2019年8月至2020年4月采集的272位患者。采集的数据集共包含61个条件特征和1个决策属性[5-7]。由于以下原因，在和医生探讨后删除了部分记录：①部分特征有大量空缺，难以用常见的不完备数据处理方法进行处理;②部分特征下所有患者数据一致，无法区分决策属性;③部分患者的部分特征大量缺失，影响结果。

最后剩余202位患者、37个条件特征和1个决策属性（良性/恶性），37个条件特征如表1所示。

在202名病患中，男性病患107人，女性病患95人，年龄分布如表2所示。

3.2 邻域半径的选择

采集到的数据既有离散型数据，如性别、是否胸痛等，也有连续型数据，如年龄、CEA等，且不同数据的取值范围不同。为了避免取值范围不同带来的影响，每个特征都采用离散归一法将该特征的所有数据归一到[0，1]的区间内，公式如下：

[f（xi）=xi-xminxmax-xmin] （7）

由于不同的特征具有不同的分布特性，所以要为不同特征设置不同的邻域半径，本文采用标准差[σ]作为邻域半径的基准，0.5倍标准差就记作0.5[σ]。采用标准差，可以避免靠经验划分半径带来的问题。

3.3 算法运行结果

表3列出了在错误率0.5下，本文算法在不同邻域半径下选择出的候选特征组。

图1和图2列出了表3的5个特征集在3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法下的Accuracy和Precision，采用十折交叉验证。

表4列出了表3的候选特征组在3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法下Accuracy、Precision、ROC、Kappa statistic的平均值，并列出了全特征（ALL）的情况对比。

從表4可以看出，序号FS2特征集在Precision.avg、ROC.avg、Kappa statistic.avg上优于其他特征集，在Accuracy.avg同其他特征集大致相当，所以特征集FS2（年龄、咳嗽咳痰、最大大小、累及部位数、NSE、性别、边缘是否光滑、长宽比）是更合理的选择。并同时发现，本文算法在不同邻域半径下找出的不同特征，除了FS1外，大多数效果都比全特征（ALL）时的效果好。

为了更好地检验本文算法的效果，表5列出了本文算法同经典邻域粗糙集NBRS的对比，测试方法同表4。从中可以发现，在相同邻域半径下，除0.7[σ]半径外，本文算法在Accuracy.avg和Precision.avg上均好于NBRS。同时发现，除0.4[σ]半径外，本文算法在ROC.avg和Kappa statistic.avg上均差于NBRS。分析发现，相对于NBRS，本文算法更倾向于将良性患者判定为恶性患者，这可能是因为采集到的数据来自于医生认为恶性风险高的病患。考虑到恶性患者被错放的风险，可以认为本文算法相对于NBRS，更适合应用于对恶性患者的判定。

同时，本文算法在0.4[σ]半径下的表现，和NBRS在0.7[σ]半径下的表现大致相当，但特征个数少2个，说明本文算法可以排除更多的冗余特征，选出更关键的特征组合，并且更适合细粒度的知识场景。

4 总结

本文提出了一种在高维的肺部结节灶临床数据中找出和肺癌相关的关键特征组合的算法，并用于分析莆田学院附属医院采集的临床数据，利用3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法对选出的特征组合进行验证，证明了本方法的有效性。

[参考文献]

[1]Pawlak Z. Rough—Sets： Theoretical Aspects of Reasoning About Data[M]. Dordrecht： Kluwer Academic Publisher，1991.

[2] Ziarko W.Variable precision rough set model[J]. Journal of Computer System Science， 1993，46（1）： 39-59.

[3]Hu Qinghua，Yu Daren，XIE Zongxia.Numerical Attribute Reduction Based on Neighborhood Granulation and Rough Approximation[J].Journal of Software，2008，19 （3）：640-649.

[4] 沈林.基于随机抽样的变精度邻域粗糙集特征选择[J].廊坊师范学院学报（自然科学版），2019，19（2）：14-17.

[5] 王月，赵茂先.基于最大最小爬山算法的肺癌预后模型[J].山东科技大学学报（自然科学版），2020，39（2）：105-110.

[6] 张绍宇.肺腺癌磨玻璃结节和实性结节临床特点及预后相关因素分析[D].苏州：苏州大学，2017.

[7] 杨宏薇.肺结节特征提取和特征选择的研究及系统实现[D].重庆：重庆大学，2010.

【摘要】判断肺部结节是否是肺癌，是具有重大意义的工作，通过分析肺癌临床数据，可以找出和肺癌最相关的特征。首先，从医院采集肺部结节切除术的数据，使用一种改进的变精度邻域粗糙集对其进行特征选择;其次，在实验中使用多种算法验证特征选择的有效性。

【关键词】肺癌;特征选择;邻域粗糙集

Feature Selection of Lung Cancer in Putian Based

on Neighborhood Rough Sets

Shen Lin1， Chen Jinqing2， Hu Jianxiong2， Cai Ronggui1

（1.Putian University， Putian 351100， China;

2.The Affiliated Hospital Of Putian University， Putian 351100， China）

【Abstract】 It is of great significance to determine whether lung nodules are lung cancer. This paper， by analyzing the clinical data of lung cancer， finds out the most relevant features of lung cancer. First， the data of lung nodule resection were collected from the hospital. Then， an improved variable precision neighborhood rough sets is used for feature selection. Finally， several algorithms are used to verify the effectiveness of feature selection.

【Key words】 lung cancer; feature selection; neighborhood rough sets