基于T检验与支持向量机的蛋白质质谱数据分析
2011-01-15邹修明孙怀江
邹修明,罗 楠,孙怀江
(1.南京理工大学 计算机科学与技术学院,江苏 南京 210094;2.淮阴师范学院 物理与电子电气工程学院,江苏 淮安 223300)
1 引言
癌症已经成为人类健康最大的敌人之一.癌症早期是治疗的黄金时间,此期的癌症患者比晚期患者有着肿瘤规模较小,更高的治愈几率以及更小的并发症及发病率等诸多优势,所以癌症早期检测是医学界研究的热点.癌症的检测方法有很多[1],比如在成像方面的用于检测乳腺癌的X射线照相术,在化学方面有前列腺癌的PSA测试等.当癌症肿瘤直径小于1cm的时候,上述方法就会因肿瘤太小检查不到而失效[2],而癌症早期肿瘤的尺寸一般不会大于1cm.因此人们需要另外的方法来对早期癌症进行检测.
近年来表面增强激光解吸离子化时间飞行质谱(SELDI-TOF-MS)是用于蛋白质组学质谱复合生物标记物发现、鉴定,以及癌症的诊断、预测和预后的重要技术.结合各种生物信息学处理方法,对一些重大疾病发现的生物标记物模式,都达到了较高的灵敏度和特异度,己经被认为是在肿瘤诊断中非常有前景的技术方法[3].一组图谱中样本量只有几十或几百个,但每个样本中却含有成千上万个特征,对于癌症和正常样本分类问题,数个特征就足够了,过多的特征不但会降低分类器的速度,还会降低识别率.因此质谱数据分析就是利用生物信息学分析方法来分析高维小样本的数据,通过特征选择来检测出健康体和癌症体之间表达差异,从而达到癌症样本的分类或搜索生物标记物的目的.
本文在对原始数据进行了预处理,提出用T检验方法选取特征,以支持向量机为分类器,针对蛋白质质谱数据进行分析研究.在SELDI-TOF-MS的卵巢质谱数据集上进行了分类实验.
2 数据预处理
通过SELDI-TOF-MS技术所获取的数据,其中含有与分类无关的冗余信息、导致分类决策失误的噪声以及由于实验环境等因素造成的数据偏差等,所以需要通过某些预处理方法来弥补一些可能掩盖感兴趣的生物学信息.对蛋白质组学质谱数据采用哪些预处理方法没有一个统一标准.本文对原始数据集做了基线校正与标准化以及数据降维等预处理工作.
2.1 基线校正
反映检测器噪音随时间变化的曲线称为基线.对于SELDI-TOF-MS质谱数据来说基线就是质谱数据的基本强度值.由于化学噪音或者离子过载,质谱数据通常会表现出一个变化的曲线,并且主要位于低质荷比区域,可视为显著峰与噪声间的边界.由于谱的偏移程度不同,通常将每个谱的基线调整到水平线上.本文对样本数据基线校正效果如图1所示.
图1 样本数据基线校正效果
2.2 数据的标准化
对蛋白质组学质谱数据进行标准化处理,有利于对不同谱图特征进行比较.如可防止较大初始值的数据与较小初始值的数据相比权重过大.另外,如果数据集中的各属性的量纲和单位不同,在计算对象间的距离之前,也必须把不同的度量单位统一成相同的度量单位.常用的方法是把属性的值域映射为一个相同的区间,这个过程称为属性的标准化.目前常用的一些标准化技术有正则标准化、反转标准化、对数标准化、直接标准化等.本文采用直接标准化,即最小-最大方法[4],对特征提取后的数据(包括训练数据和测试数据)进行标准化,标准化后的第j个强度Ij-norm值的计算公式如下:
Ij-norm=(Ij-Imin)/(Imax-Imin)
(1)
式中,Ij-norm为标准化后的信号强度;Ij为原质谱信号强度,Imin、Imax分别为原质谱信号强度的最小值、最大值.
2.3 数据降维
在数据降维预处理中,分箱法是一种峰点检测和对齐的方法.其基本思想是用滑动窗扫描原始谱[5],将滑动窗名内相邻数据归入数据箱.设滑动窗窗宽为N,则数据箱的宽度为N,即箱中可放入N个用滑动窗扫描原始谱得到质荷比和对应的强度值,形式为[(m/z1,I1),(m/z2,I2),…,(m/zN,IN)],要将它们合并成一个数据对,形式为(m/z,I),从而达到减少数据维数的目的.数据箱的强度可用所有N个原始强度值函数来计算,m/z值可由N个原始m/z值的中值、平均值、最大强度对应的m/z值或其他类似的值来确定.每箱选出一个对值来代表整个箱的质荷比和对应的强度值.通过滑动窗扫描谱时,滑动窗的窗宽N需要人为估计,如果太大,会使谱过分平滑,降维后的数据不能表达整个区间的情况;如果太小,达不到降维的目的.本文设置每个箱子的宽度为10,直接选择箱内的强度最大的值为该数据箱的峰值,这样将15154维的数据降低到了1516维,这个步骤不但降低了维数,使得数据更加容易处理,还去掉了很多影响实验效果的噪声,突出了蛋白质质谱数据中蛋白质表达的信息.
3 特征选择
特征选择的目的是从原始特征集中选择一个特征子集.这个子集对于一个评价函数来说是最优的,因此特征选择是个最优化过程.近年来,研究人员已经提出了大量的蛋白质质谱数据特征选择方法,主要可以分为以下三类:筛选器法、封装器法以及嵌入法.筛选器的速度更快,而封装器法和嵌入法的分类效果更好,考虑到时间复杂度与计算量等问题,本文采用筛选器法中的T检验来进行特征选择.该方法算法简单,效果也比较好,因此在许多研究工作中采用了T检验方法[6-9].
(2)
式(2)为最终求得第i维特征的T统计量,并且用该统计量作为两类样本间差异性的度量,即尽量选择T统计量大的特征组成用于分类的特征向量.通过特征选择将特征向量的维数降低到几十的数量级,这样就能解决蛋白质质谱数据样本维数高的问题.
4 支持向量机
图2 质谱数据分析流程
支持向量机(Support Vector Machine,SVM)[10,11]通过预先选定的一些非线性映射将输入空间映射到高维特征空间,再在高维特征空间内建立最优超平面.由于在映射的高维特征空间内计算非线性映射十分复杂,SVM通过定义核函数来解决这一问题,即将分类中涉及到空间的内积用一核函数来代替,无需知道映射的具体形式,从而简化了计算量,避免发维数灾难.内积核函数一般有多项式核函数、径向基核函数和Sigmoid核函数等.
5 实验结果和分析
采用的卵巢数据集(OvarianDataset8-7-02)来源于美国食品和药物管理局(FDA)及国家肿瘤研究所(NCI)的临床蛋白组学工程数据库.卵巢数据集共含253个样本,其中含91个无病征对照组样本与162个卵巢癌患者样本数据.数据集中每一个文件存储一个样本的数据,每一个样本数据的第一列有15154个m/z值,第二列是其对应的强度值.质谱数据分析流程如图2所示.
通过分箱法提取峰值后向量维数变为了1516维,经过T检验后得到一个特征向量相关性从高到低的排序,实验中我们分别取前1~N个向量,N分别为1~25、30、50、100、200个向量,并对所选向量做了10次交叉检验.
根据医学诊断标准,设癌症为阳性,正常为阴性,令TP、TN 、FP、FN分别代表真阳性样本数、真阴性样本数、假阳性样本数、假阴性样本数,则灵敏性(SEN即癌症样本的识别率)为TP/(TP+FN),特异性(SPE即正常样本的识别率)为TN/(TN+FP),阳性预测值(PPV)为TP/(TP+FP),阴性预测值(NPV)为TN/(TN+FN),综合识别率(GEN)为(TP+TN)/(TP+TN+FP+FN),均衡识别率(EQU)为(SEN+SPE)/2,针对卵巢质谱数据集进行了实验,罗列了10种特征选择数的实验结果,见表1.
表1 T检验在卵巢质谱数据集上选择前1~N个特征时利用SVM分类结果(10次交叉验证)
由于实验侧重于选取不同的特征向量数对SVM分类识别率的影响,因此没有对SVM的参数和核函数进行特别设计,本实验内积核函数采用了高斯核函数.由表1可以看出,在特征数选择范围小于等于10时,随着选择特征数的增加分类器的综合识别率、特异性、阳性预测值、均衡识别率也随之增加,而灵敏性、阴性预测值处于上下浮动状态,并在特征数为10时达到最大,此时灵敏度达到100%,特异度达到96.67%,综合识别率达98.80%.当选择的特征数大于10时,癌症样本的识别率保持为1,特异性和阳性预测值,以及综合和均衡识别率都开始了明显的下降,说明未出现假阴性样本,即癌症患者全部判断正确.当选择的特征数大于等于50时,出现了假阳性样本,而且将正常样本全部错判为癌症样本.说明选择过多的特征反而造成分类性能的下降,甚至是完全的错分,而选择特征数太少也会导致识别率不高,因此当特征选择为一个合适的值(本文为10)时实验效果最好.我们所建立的分类判别模型在识别率和鲁棒性上近似或优于其他模型[11-12].
运用T检验方法进行特征选择通常比较快、容易理解. 但也存在一些问题:如特征选择基于适宜的准则而不是依赖于所选分类器的性能;可能存在一些冗余特征;选择了有较强鉴别力的特征,而忽略了弱小的个体等.
6 结束语
蛋白质质谱数据有很多信息尚未被人们发现,很多更加有效的数据处理和分析方法也在探索中.在以后的实验中可以考虑对SVM参数和核函数的改进,以及在不同的数据集上研究特征选择的最佳子集.研究各种处理高通量数据的算法,使其能够胜任蛋白质质谱数据的特征选择、样本分类等问题,还可以研究和解释通过这类算法得到结果所具有的生物学意义等.
参考文献:
[1]Smith R,Cokkinides V,Eyre H. American cancer society guidelines for the early detection of cancer[J]. CA Cancer J Clin,2003,53(1),:27-43.
[2]Swenson S,Jett J,Sloan J,et al. Screening for lung cancer with low-dose spiral computed tomography[J]. Am J Respir Crit Care Med,2002,165(4):508-513.
[3]陈主初. 疾病蛋白质组学[M]. 北京: 化学工业出版社,2006:106.
[4]Yu J S,Chen X W. Bayesian neural network approaches to ovarian cancer identification from high-resolution mass spectrometry data[J]. Bioinformatics,2005,21(1):487-494.
[5]孟辉,洪文学.蛋白质组学质谱数据预处理技术综述[J].中国生物医学工程学报,2009,28(3):469-475.
[6]Wu B,Abbott D,Fishman W,et al. Comparison of statistical methods for classification of ovarian cancer using mass spectrometry data[J]. Bioinformatics,2003,19(13):1636-1643.
[7]Dudoit J S,Fridlyand J,Speed T P. Comparison of discrimination methods for the classification of tumors using gene expression data[J]. Journal of the American Statistical Association,2002,97(457):77-87.
[8]Tusher VG,Tibshirani R,Chu G. Significance analysis of microarrays applied to the ionizing radiation response[J]. PNAS,2001,98(9):5116-5121.
[9]Cui X,Churchill G A. Statistical tests for differential expression in cDNA microarray experiments[J]. Genome Biology,2003,44 (4):210-218.
[10]潘义,郑波,向杰,等.遗传算法-偏最小二乘法用于卵巢癌血清蛋白质组数据的特征挑选[J].四川大学学报,2007,44(4):867-872.
[11]孟范静,刘毅慧,等.SVM在基因微阵列癌症数据分类中的应用[J]. 计算机工程与应用,2007,43(34):246-248
[12]Yu J S,Onagello S,Fiedler R,et al. Ovarian cancer identification based on dimensionality reduction for high-throughput mass spectrometry data[J].Bioinfor-matics,2005,21(10):2200-2208.