基于改进邻域粗糙集的肿瘤特征基因选择算法的研究
2017-06-19刘翠翠
刘翠翠
(长沙医学院,湖南 长沙 410219)
基于改进邻域粗糙集的肿瘤特征基因选择算法的研究
刘翠翠
(长沙医学院,湖南 长沙 410219)
针对当前肿瘤特征基因选择算法准确率不高及工作效率较低的问题,文章对邻域粗糙集进行改进来解决此类问题。文章首先对领域粗糙集的相关理论进行了分析;其次分析了粒子群算法,设计出改进的邻域粗糙集肿瘤特征选择算法;最后给出了改进算法的实现和仿真实验,希望对于算法研究人员和医务人员具有一定的积极意义。
邻域粗糙集;算法;肿瘤特征
随着科技的进步,在生物技术和生命科学的研究中,海量的模糊数据及大量的不确定性问题给研究工作带来了指数级增长的复杂数据处理困难。当前,对人类健康和寿命的影响最大的疾病是肿瘤,如何尽早地对肿瘤进行分类和区别恶性肿瘤及良性肿瘤,可以对疾病的及早治疗提供科学的依据,提高病人的存活率。在肿瘤基因的表达谱数据上具有低样本、连续型、高维度和不完备的特征,当前的很多数据挖掘算法无法对基因数据进行准备的分类和预测,本文通过改进邻域粗糙集来提高和简化特征选择过程,提高工作效率。
1 领域粗糙集相关理论
1.1 粗糙集
1982年,波兰数学家Paw lak提出了粗糙集理论,其主要思想是将知识按照某种等价关系,按照上下近似的概念将知识划分到不同的区域中。该理论是一种可以处理分析不确定知识和模糊数据的数学工具,可以从一些不一致的、不完整的、不精确的数据中找到隐含的规律和知识。
在粗糙集理论方面,需要掌握几个基本的概念:
(1)等价类。假设一个信息系统K=(U,A,V,f),其中U为知识,即论域;A是属性的非空有限集;V是信息函数,表示具体对象上的信息值,对于属性子集P属于A,则在论域中存在一个对象x,等价类满足条件为:
(2)不可辨关系。假设S是U上的一个等价关系,P属于S且不为空,则P中所有等价关系的交集为P上的不可辨关系,公式如下所示:
(3)知识约简。知识约简指的是在信息系统中,在知识库中对其中不重要的及不相关的知识进行删除,但知识库的分类能力不变。
1.2 邻域粗糙集
粗糙集只能够对离散型的数据进行分析,但是在现实的知识体系里,数据基本上都是数据值型的,这使得数据必须进行离散化后才能够进行处理分析,严重影响了算法的运行效率且可能造成数据的失真。在此基础上,提出了领域粗糙集,数据无需进行离散化即可处理,大大提高了效率。
在粗糙集理论上,提出了邻域近似空间、上下近似、邻域不确定性、联合邻域熵等概念,有效地完善了邻域粗糙集理论。
1.3 基因特征选择
基因特征选择的目的是在正常样本和疾病样本中,每个样本中都存在大量的基因,而部分基因只存在少量的样本中,在小样本和大基因问题上找出差异的基因,对诊断肿瘤和分类是非常重要的。
基因特征的选择首先是基因表达数据获取,对数据进行预处理分析,其次选择提取特征基因,建立分类模型,最后对分类的结果进行预测和评估。整个基因特征选择的流程如图1所示。
图1 基因特征选择流程
2 改进的邻域粗糙集肿瘤特征选择算法
2.1 粒子群算法
1995年,Kennedy和Eberhart提出了基于迭代的粒子群优化算法,该算法的最大优点是具有全局优化能力且便于实现。
粒子群算法的思想是:对一个d维的搜索空间中里有大量的以特定速度飞行粒子存在,每个粒子可以看作是没有体积、没有质量的点,每个粒子根据其他粒子的飞行经验来调整个体的飞行轨迹,并不断地向最优点靠拢。
在粒子群算法中,粒子是不断向最优点靠拢的,其粒子对于飞行的位置和速度调整主要通过以下公式来实现:
其中locij表示粒子i在第j维空间中的位置,vij表示粒子i在第j维空间中飞行的速度,w表示惯性权值,c1和c2是加速因子,其值为正常数,r1和r2在[0,1]中的随机数。
2.2 改进的邻域粗糙集肿瘤特征选择算法
邻域粗糙集的思想是对属性集中的每一个属性都赋个值,即权重,对聚类相关性较强的属性不断增加其权重的值,去掉权值较小的属性后,再次对余下的属性进行权重分配,去掉较小值,这样周而复始,使得在空间中噪声的影响不断减小,这样分类的最终结果不断接近最优。但是这种方法存在着一个问题,就是对样本之间的特征没有进行充分的考虑,使得分类的精度受到影响。
针对邻域粗糙集算法的不足,本文结合粒子群算法对其进行改进,改进的邻域粗糙集肿瘤特征选择算法流程描述如下:
(1)给基因集中的每个元素赋予一个权重值w。
(2)对空间中样本进行探索,找到N个最近命中样本和N个最近命失样本。
(3)计算任意的基因的权重,通过相同类别的最近邻居,通过适应度函数Fit(g,xi,xj)找到不同基因之间的差异。
(4)找到属性中权重最小值中的属性的位置。
(5)从属性集合中删除最小值属性。
(6)得到新的基因组集,查看得到的结果是否满足条件,假如不满足并转到第(1)步,满足则直接结束。
在改进的算法中,属性是非常重要的,可以有效影响决策;另外,适应度函数可以有效评价粒子质量,适应度函数可以有效地让质量好的粒子留下,进行排除差的粒子。
3 仿真实验
为了更好地评价改进的邻域粗糙集肿瘤特征选择算法的优劣,本文对白血病、肺癌、结肠癌及前列腺癌4种常见的基因表达谱数据集进行分析,本文采用的样本数据集描述如表1所示。
表1 实验数据集
实验所用的电脑采用联想电脑(i5,3.2 GHz,8 GB内存),仿真软件采用matlab2010,实验结果如图2所示。
图2 实验结果比较
通过实验可以看出,改进的邻域粗糙集在进行肿瘤特征基因上,其分类正确率高于传统的粒子群算法,一定程度上改进了肿瘤特征基因分类的性能,提高了准确率。
4 结语
本文对粒子群算法和邻域特征集进行了分析,并在其基础上对两种算法的优点进行了总结,设计出改进的邻域特征集,在对肿瘤特征基因选择上具有较好的准确性,提高了工作的效率。由于本文的篇幅所限,在算法的具体实现和实验数据方面没有给出全面的资料,不足之处,尽请见谅。
[1]张丽君,李舟军.微阵列数据癌症分类问题中的基因选择[J].计算机研究与发展,2009(5):794-802.
[2]杨明.一种基于一致性准则的属性约简算法[J].计算机学报,2010(2):231-239.
[3]王明怡,吴平,王德林.基于相关性分析的基因选择算法[J].浙江大学学报(工学版),2004(10):1289-1292.
[4]徐菲菲,苗夺谦,魏莱.基于模糊粗糙集的肿瘤分类特征基因选取[J].计算机科学,2009(3):196-200.
Study on the genetic selection algorithm of tumor characteristics based on improved neighborhood rough sets
Liu Cuicui
(Changsha Medical University, Changsha 410219, China)
Aim ing at the problem of high accuracy and low efficiency of the current tumor feature gene selection algorithm, this paper improves the neighborhood rough set to solve the problem. Firstly, the paper analyzes the relative theory of the field rough set, then analyzes the particle swarm optim ization algorithm, and designs the improved feature selection algorithm of the neighborhood rough set tumor. Finally, it gives out the implementation of the improved algorithm and the simulation experiment, hoping to have some positive significance for the arithmetic researcher and the medical staff.
neighborhood rough set; algorithm; tumor characteristics
刘翠翠(1983— ),女,湖南岳阳,硕士,讲师;研究方向:生物信息学,计算机应用。