基因表达谱中特征基因选择的几种方法比较研究

2012-01-27何兰范继红滕辉潘洪明

中国科技信息 2012年14期

何兰范继红滕辉潘洪明

1.齐齐哈尔医学院基础医学院数学教研室，齐齐哈尔，161006 2.齐齐哈尔医学院现代教育技术中心计算机教研室，齐齐哈尔，161006 3.齐齐哈尔医学院医学技术学院生化教研室，齐齐哈尔，161006

何兰1范继红2滕辉1潘洪明3

基因表达谱芯片技术的产生，为复杂疾病致病机理的研究提供了一个全方位的视角。从大量的基因表达谱芯片数据中挖掘有用的信息，特征选择技术起到了关键的作用。对当前基因芯片数据的特征选择方法和各种学习器效能进行了综述，并通过说明各种特征选择方法的具体情况来比较它们的优劣性，最终得出从特征自身特点出发的特征选择法可获得较好的分类效能和生物医学的应用。

基因表达谱；特征选择；聚类分析；t检验；决策树；支持向量机

引言

随着人类基因组计划的逐步实施以及分子生物学等学科的迅猛发展，越来越多的基因组序列得以测定，人类对基因组研究的重心也进入了后基因组时代，即从基因序列的研究转向到基因组功能的研究。基因芯片技术就是顺应这一发展要求的高科技产物。基因芯片是根据碱基互补的原理，通过检测杂交信号的强度及分布来进行分析的。基因芯片技术经过近二十年的发展，已成为一个非常稳定和可信度极高的实验技术[1-2]。基因芯片技术的产生是功能基因组研究的一个重大突破，运用基因芯片技术可以进行正常和异常细胞中基因的表达检测，基因突变检测，分析复杂疾病的致病机理，为疾病的个性化诊断和治疗提供指导，同时在药物筛选和开发、环境保护、司法鉴定等方面也有重要的应用。

面对人类约3万个基因的30亿个碱基对序列，近年来，通过基因芯片技术进行生物研究时也产生了浩如烟海的表达谱数据，研究如此海量的基因在生命过程中所担负的功能就成了新的课题。基因表达谱是一组表达数据，通常用矩阵表示，行代表基因，列代表样本，矩阵中的元素代表基因在特定样本中的表达水平和丰度信息。据研究表明，并不是所有基因对疾病遗传、诊断、治疗或医学研究都有决定性作用[3]。因此，为了从大量的表达数据中挖掘有重要应用价值和研究意义的基因，发现对疾病诊断、预测具有很强鉴别力的基因组，如何有效地提取与疾病有关的特征基因，降低特征基因的维数是基因表达谱数据分析的核心问题，也对样本分类起到关键性的作用[4-6]。

目前，很多科技工作者在研究中提出了特征基因提取的方法和理论，较早获得的有聚类分析法、人工神经网络等特征基因选择法，近年来又有集成数据选择法[7]、非线性降维选择法[8],应用t检验、决策树、支持向量机等特征基因选取方法。本文针对几种特征基因选择方法进行介绍，并用不同的分类器比较评价其效能。

1 特征基因选择法

1.1 聚类分析法

最常用的是层次聚类法，这种方法是通过计算各数据点间的距离，然后把最近距离聚为一组，再计算各组之间的距离，然后把它们合并成一个更大的组，不断重复该过程直到最后聚成一组以树状结构的数据。这种做法的结果非常直观，而且还可以根据树状结构分支的长短来评价基因的相似性。

在用K-means聚类法进行分析时，因为缺乏先验知识，所以事先不能确定k值。把k作为一个变量处理，从2开始递增，对每个k值都根据模式质量对特征基因进行评估，然后遴选出最优的基因集作为特征基因集。不断重复这一过程，k值递增，直到找出一个模式质量最大的k值为止。

1.2 t检验法

数据采用美国Affymetrix（昂飞）公司的结肠癌基因表达实验数据(www.sph.uth. tmc.edu/hgc)，原实验点有65000个寡聚核苷酸探针组的基因芯片，样本包括40例结肠癌组织和22例正常结肠组织。我们仅采用U.ALON等筛选出的2000个基因表达谱数据进行分析[9]。

这种方法主要是运用统计学上的两组独立样本t检验，此方法的零假设H0是两总体的均值相等，备择假设H1为均值不等。应用检验结果可以寻找两组数据间表达有差异的基因，又由于在实验中进行了多次假设检验，从而涉及多重检验问题，第一类错误会上升，所以可根据具体情况对每个基因的值进行相应调整，确定检验的显著性水平为0.05。通过统计软件SAS对两总体做t检验，计算每一个基因的t值，并降序排列，分别筛选t值最大的前5至10个基因。最后引入n重交叉验证法[10]，来验证所选特征基因的样本识别率。

1.3 决策树

决策树是以实例为基础的归纳学习方法。它通常是利用已知类别的样本信息，采用自上而下的方式来生成的。决策树的内部节点表示在一个属性上的测试，通过比较不同节点的属性值来判断下一个节点的分支，直到找到的节点中包含的样本满足某个条件为止。这样，当一个决策树生成时，它的每一个内部节点的分割都对应着一个特征属性。

如选定一个p维样本，将样本集分为训练集和试验集。为寻求一个最能改善分类正确率的特征属性，从所有训练集的根节点开始，为了选择一个最好的特征，在特征空间做一次穷尽搜索，寻找一个特征属性和相应的阀值，使得最大程度地减少类别节点的杂质度。重复以上分支递归过程，可得到决策树上的一套特征子集[11]。试验证明，决策树特征基因选择法对支持向量机具有良好的有效性。

1.4 支持向量机

支持向量机分类方法是建立在统计学习理论基础上的，在有限的样本信息和学习能力之间寻求最佳，使复杂度和结构风险达到最小，以期获得最好的推广能力[12]。在有监督分析获取特征基因的过程中，不仅要使分类器的VC维低，同时也要使经验风险最小。支持向量机可以这样表述，首先将已知向量映射到一个高维空间里，使得向量在高维空间里可分，并且线性函数只需在高维空间进行内积运算，这样就避开了高维变换计算问题。然后再寻找一个最佳超平面，让这个超平面把数据分开在两边，并且使每一类别数据之间的分类间隔最大，这样可以降低结构风险。通过大量试验证明，支持向量机在解决小样本、非线性问题中表现出特有的优势，且分类精度高，抗噪能力强。同时支持向量机对高维模式识别具有很强的泛化能力[13]。

2 特征基因的分类效能评价

根据特征选择技术和特征集成技术找出的特征基因分类效能如何，可用下面四种分类器进行评价[14]。

2.1 Fisher线性判别分类器

这种方法把p维空间的样本投影到一条直线上，形成一维空间，即把维数压缩为一维。通过寻找最佳的投影方向，使样本在一维空间达到较好的分离效果。

2.2 Logit非线性分类器

这种方法主要是运用Logistic回归模型，计算疾病发生的概率p及疾病不发生的概率q，通过比较p和q的大小来判别样本所属类型。

2.3 基于最小距离的分类器

该方法是把均值作为各类的代表点，用距离作为判别函数进行分类，即通过比较检验样本与代表点的距离来判别样本所属类别的一种方法。

2.4 K 最近邻法分类器

该方法对于每个检验样本都找出与之距离最近的K个邻居，以这K个邻居中占主导的类别作为检验样本的类别。而对于基因表达谱数据，较合理的衡量基因之间距离的方法是Pearson相关系数。邻居数K可用交叉证实的方法确定。

3 结语

基因芯片数据对疾病进行分类诊断是生物医学中重要的应用领域，但是基因芯片的特征选择面临的是海量的检测数据，从成千上万的数据中寻找特征基因的方法和效能检验就显得尤为重要。

对于不同的基因芯片数据集，不同的特征选择算法的性能优势也不尽相同。有的算法分类正确率高，但是所需基因数较多；有的算法需要较少的基因，但是复杂度高；有的所需基因较少，分类正确率也不低，但是结果却和疾病的机理相关性小。因此，考虑到一个好的基因芯片数据的特征选择法应具有的条件，把上述多种算法有效地相结合[15]，综合每种方法的优势，可得到分类、性能各方面都令人满意的结果，即从特征自身特点出发的特征选择法可获得较好的分类效能和生物医学的应用。

[1]李霞.生物信息学[M].北京：人民卫生出版社，2010:110～128.

[2]孙继勇.基因表达谱的数据分析[J].国际病理科学与临床杂志，2005，25（5），386～389.

[3]余伟峰，王广伦，钱夕元.基于GA/SVM的微阵列数据特征的选择和分类[J].计算机工程，2007，33（19），204～206.

[4]张玉春，郝平波，王明宇，等.确定肿瘤基因表达谱特征基因方法的研究[J].沈阳理工大学学报，2011，30（1），34～38.

[5]A Buness, M. Ruschhaupt, and R. Kuner,Classification across gene expression microarray studies[J]. BMC Bioinformatics, 2009,(10):453.

[6]吕飒丽，汪强虎，李霞，等.基于决策森林特征基因的两种识别方法[J].生物信息学，2004，（3）：19～22.

[7]王海鹏，杨昆.集成数据选择特征基因[J]杭州电子科技大学学报，2010,30（6），17-20.

[8]杨广源，付旭平，黄燕等.一种非线性降维和Procrustes分析的基因选取方法[J].复旦学报（自然科学版），2009,48（3），338～347.

[9]Alon U,Barka I , Notterman D,et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon cancer tissues probed by oligonucleotide arrays[J]. Cell Biology, 1999,(96)∶6745～6750.

[10]赵肖肖，朱宁，黄云腾.Logistic回归和T检验在基因特征提取中的应用[J].桂林电子科技大学学报，2012,32(1),69～71,81.

[11]李霞，饶绍奇，张田文，等.应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法[J].中国科学 C辑生命科学，2004，34（2）：195～202.

[12]. 李霞,张田文,李丽，等.决策树特征基因选择方法对SVM有效性的研究[J].中国生物医学工程学报,2004,23(1),66～23.

[13]. 杨俊丽,刘田福,李祥生.样本类型无关的多类特征基因选择方法[J].计算机工程与应用（优先出版），2012,1～5.

[14]王海芸，李霞，郭政，等.四种模式分类方法应用于基因表达谱分析的比研究[J].生物医学工程杂志，2005,22（3），505～509.

[15]周!，何洁月.生物信息学中基因芯片的特征选择技术综述[J].计算机科学，2007,34（12），143～150.

R311；R319

10.3969/j.issn.1001-8972.2012.14.064

齐齐哈尔市科学技术局科学技术计划项目资助

何兰（1970-），女，硕士，副教授，研究方向：生物信息学

范继红（1968-），女，硕士，副教授，研究方向：生物信息学

滕辉（1977-），女，硕士，讲师，研究方向：生物信息学