质谱分析的生物信息学方法及其对比分析
2012-03-24梁冰苑昂清王卫东
梁冰苑,昂清,王卫东
1 解放军总医院医学工程保障中心生物医学工程研究室,北京市,100853
2 北京理工大学信息与电子学院,北京市,100081
质谱分析的生物信息学方法及其对比分析
【作者】梁冰苑1,2,昂清1,2,王卫东1
1 解放军总医院医学工程保障中心生物医学工程研究室,北京市,100853
2 北京理工大学信息与电子学院,北京市,100081
蛋白质谱具有复杂、数据量大等特点,采用一般的统计学方法难以得到满意的疾病预测或分类结果。文从生物信息学的角度出发,综述了质谱数据挖掘的决策树模型、偏最小二乘法、神经网络模型和支持向量机几种主要方法,并对不同的方法给出了疾病诊断的实例说明,体现了质谱分析方法对疾病判别和预测的重要作用。
生物信息学;数据预处理;决策树模型;偏最小二乘法;人工神经网络;支持向量机。
0 引言
生命科学的迅猛发展使人们从基因组学、蛋白质组学等研究领域中获得了大量的数据[1]。但数据并不等同于信息和知识,而是信息和知识的源泉。如何收集、存储和分析这些数据,尤其是如何从不连贯的数据中获取有用的生物学信息,仅仅依靠传统的数理统计手段是难以解决这些问题的。
伴随着蛋白质组学和基因组学研究的发展,生物信息学(bioinformatics)应运而生[2]。生物信息学以数学理论和计算机技术为主要手段,应用软件和计算机网络为主要工具,通过对海量的原始数据进行收集、存储、管理、分析、注释、加工和处理,从而获得新的知识。通过将数据挖掘和信息处理技术应用于临床医学数据,生物信息学在医学基础研究和临床实践领域都发挥了巨大的辅助和推动作用。将生物信息学的方法应用到质谱数据的挖掘,可以很大程度上提高疾病预测的准确度,并提高分类效率。
本文在查阅大量文献的基础上,综述了质谱分析的生物信息学方法,并分析、对比了几种代表性研究方法的优劣。
1 质谱分析的主要方法
数据挖掘[3]是从大量、不完整、有噪声、模糊、随机的数据中,提取隐含在其中人们事先不知道的、但又是潜在有用的信息和知识的过程。而质谱分析的目的在于从原始质谱数据中提取有用信息,为临床疾病诊断和个体化治疗方案的确定提供决策性建议。从信息学角度讲,属于数据挖掘范畴。
质谱分析的方法有很多,每种方法都有自己的优点和不足之处,到目前为止还没有一种普适的方法。比选择分类方法更重要的是熟悉选定的方法,以保证其正确和合理使用。通常需要根据主观标准来进行选择,如研究人员的经验和科学背景等。
目前,质谱分析主要有决策树模型(Decision Tree Analysis, DTA)[5]、偏最小二乘法(Partial Least Squares, PLS)、人工神经网络(Artificial Neural Networks, ANN)[6]和支持向量机(Support Vector Machines, SVM)[7]等几种方法。根据是否具有记忆和学习功能,可分为非智能算法(DTA、PLS)与智能算法(ANN、SVM)两类。
在进行质谱数据分析前,首先需要对数据进行预处理,为高质量的挖掘结果打好基础。
1.1 质谱数据的预处理
“预处理”一词给人的印象是处理一系列主要分析的次要前期阶段。然而,预处理阶段有其特殊的重要性,因为它影响到数据处理后期阶段的特定编码格式的选择。选择正确的编码格式,可以大大降低后续处理的计算量,提高分析的能力和效率。
迄今,还没有一种通用、公认的方法读出谱线。目前常用的读出谱峰的方法有:幅值法、一阶导数法和二阶导数法。信噪比大的明显的谱峰,由平均质量和强度最高值检测和表征(图1A)[4]。这里所说的“质量”,实际上是“质荷比”[8]。
图1 质谱数据预处理Fig.1 Mass spectrometry data preprocessing
如果不同谱线的峰值对应相近的质量,谱线的峰值就会互相配合并集群,这就是所谓的谱峰聚类(图1B)。峰值完全依靠谱结构分组。每个高峰聚类对应于一个质量区间,由一个特征性的质量来描述,如某一集群中众多谱峰的平均位置所对应的质量。按照谱峰的最大强度值读出所有的谱线。
峰值的自动检测和聚类往往同步进行。在峰值检测的第一步,峰值都是独立地由单一质谱决定的。谱峰聚类后,单一质谱依据较严格的标准被再次分析,从而最初遗漏的信噪比较小的峰值将被发现,也就是说一个峰值如果存在于许多谱中,那么它也很有可能存在于一个谱中。在图1中,右侧标记“×”的极大值被其他谱证明,而左边极大值的则得不到证明。峰值检测和聚类通常分两个步骤进行:第一,峰值自动检测和集群;第二,根据检查结果,由有经验的工作人员手动调整。
1.2 决策树模型
1.2.1 模型原理
决策树模型是一种阶梯式划分数据(图2)的算法。从给定的样本数目基本一致的两个数据集开始(图2A,顶部)(例如两组分别来自健康人和病人的血清质谱的峰丛强度),通过从不同类别中将病例分离,检查所有可能的特征截断值的用途。两个数据点之间的每个特定功能的截断,对应于两个分类器:一个分类器将数值小(大)于截断值的样本分配到“白(黑)”类中,另一个功能相反的分类器将数值低(高)于截断值的样本分配到“黑(白)”类中(图2A,中)。判断截断是否有效的依据是正确归类病例的数目。用所有测得的功能检查所有不同的截断后,选择最有用的截断/特征对。在图2A(下)中,最有用的切断标记为“*”, 该截断生成的分类器只有3个错误分类的病例。从而,可获得优化的同质类中的子数据集,例如图2B中的子数据集I和II。数据分区的过程反复进行,直到获得的同质类(Class homogenous)的子数据集的大小可以接受。图2B显示了一个连续应用两个截断的例子,最后产生三个子数据集,记为“终端节点”I-III。
图2 决策树生成Fig.2 Decision Tree
决策树生成中的核心问题是“过拟合”现象。决策树过于拟合实际数据集,因而对于未曾发现的数据很可能是不适合的。
研究只对非过度拟合的决策树感兴趣。非过拟合决策树的分类标准并不代表实际数据集的特性,而是潜在患者群的典型特征。如图3 A,在单一的决策树中使用许多分裂标准,生成树所使用的数据集的错误分类的数量可以减少到零。然而,只有最初的几个准则可以推广到无形的数据。
可以通过停止准则防止过度拟合。停止准则,即决策树生成过程中当遇到某一标准时,则停止生成,例如,当所有终端节点少于5例病人时。交叉验证是估计最佳分裂标准数量的一种很好的方式(图3 B)。通过选择各自的测试集上整体分类错误最少的树的结构,可以获得决策树的最佳截断个数。
图3 过拟合Fig.3 Over-fitting
1.2.2 模型举例
(1) 研究[15]表明,发明蛋白质芯片飞行时间质谱系统,根据各蛋白质峰的质荷比(m/z),采用决策树算法,建立一个决策树的蛋白质指纹图谱模型;将检测人血清中相应的蛋白质的质荷比与本发明的模型进行分析,就可以初步用于肺癌诊断,其预测准确率为71%。
(2) 研究[16]表明,分类决策树模型的交叉验证(测试组)总准确率为81.8%,ALN有转移的乳腺癌患者检出率为83.3%,ALN无转移的检出率为80%,构建的分类决策树模型能达到区分ALN是否有转移的最佳效果。
1.3 偏最小二乘法(PLS)
偏最小二乘法(Partial Least Squares,PLS)是一种适合处理变量数很大的建模方法,具有较强的提供信息能力,在分析化学中得到了广泛的应用[11-12]。PLS变量筛选法是在PLS回归法基础上作变量筛选的[9]。
1.3.1 PLS回归法原理
PLS法是一种研究两个数据块或矩阵和相关关系的方法。在该方法中对数据矩阵实施序列的正交变换:
其中h为隐变量的个数。在变换过程中,使得到的矢量ti与对数据矩阵变换得到的矢量ui=Yqi的协方差为最大值。具体PLS正交变换算法见文献[10]
式(1)可写为矩阵的形式:
PLS回归模型为:
将(2)带入(3),可得:
因此,PLS回归法的模型系数由(4)得:
其中,隐变量的个数或矩阵中变量的个数小于矩阵中变量的个数。
2.3.2 PLS变量筛选法原理
PLS变量筛选法是在PLS方法技术上发展起来的一种变量筛选法,能提取成分复杂的图谱信息,且可以避免谱图数据共线的问题。预测能力强且模型相对简单。
在PLS变量筛选法中,首先用PLS法对含有全部变量的数据处理,建立一个预报稳定性较高的模型。在此基础上,利用其中回归系数等有关信息进行变量筛选。主要采用以下判据删除影响不大的变量:
△Ei表示当删除第个变量时,PLS回归模型的拟合误差增加值;T为PLS法得到的正交矩阵,矩阵(TTT)-1为对角矩阵,较容易计算;R是PLS正交分解得到的矩阵,而矢量1i为第1i个分量为1、其余分量为0的一种特殊矢量;bi为第i个变量对应的回归系数。在PLS变量筛选法中,主要是删除那些△Ei值很小对应的变量。
1.3.3 模型举例
⑴ 研究[17]中,Goncalves等应用SELDI-TOF-MS研究了81例早期乳腺癌患者的血清蛋白质组图谱,其中40个蛋白质在有转移组和无转移组中有显著性差异表达。采用偏最小二乘法,最终得到了一个由40个蛋白组成的蛋白质组预后预测图谱,其预测的敏感度和特异度分别是87%和76%。血清蛋白质组学在乳腺癌预后预测中得到应用。
⑵ 研究[9]表明:肝癌病人和健康人的血清蛋白质指纹图谱数据,经过数据预处理、PLS变量筛选法建立分类模型,模型CR值达到0.9611,100个样本完全判断正确。
1.4 人工神经网络模型
人工神经网络(Artificial Neural Networks,ANN)模型的研究目标,是通过研究人脑的组成机理和思维方式,探索人类智能的奥秘,进而通过模拟人脑的结构和工作模式,使机器具有类似人类的智能。应用到医学数据处理上,就是通过建立模型,找出血清蛋白质谱中表征健康或疾病的信息。
感知器(perceptron)模型是一种最基础的神经网络模型。在感知器模型的基础上,发展出了反向传播(Back Propagation,BP)神经网络、自组织映射(Self-Organized Mapping,SOM)神经网络等模型[12]。
BP神经网络可以处理共线性效应和变量间交互作用,善于处理非线性的、模糊的、含有噪声的数据情况,且理论基础牢固,物理概念清晰,通用性好。SOM神经网络是无监督竞争式学习网络,通过学习能够提取待处理数据中的某种内在规律,并按离散时间方式进行分类,大大减弱了一致性准则中的人为因素。神经网络的局限性在于,建立在渐进理论的基础上,需要无穷多的样本才能较真实的模拟样本的分布函数,而实际上所得的样本都是有限的。
1.4.1 反向传播模型原理
反向传播模型也称B-P模型,是一种用于前向多层的反向传播学习算法。所以将其称作反向学习算法,是因为在修改各人工神经元的连接权值时,所依据的是该网络的实际输出与其期望的输出之差,将这一差值反向一层一层的向回传播,来决定连接权值的修改(图4)。
图4 BP神经网络结构Fig.4 BP neural network
B-P算法的学习过程如下:
(1) 选择一组训练样例,每一个样例由输入信息和期望的输出结果两部分组成;
(2) 从训练样例集中取一样例,把输入信息输入到网络中;
(3) 分别计算经神经元处理后的各层节点的输出;
(4) 计算网络的实际输出和期望输出的误差;
(5) 从输出层反向计算到第一个隐层,并按照某种能使误差向减小方向发展的原则,调整网络中各神经元的连接权值;
(6) 对训练样例集中的每一个样例重复(3)~(5)的步骤,直到对整个训练样例集的误差达到要求时为止。1.4.2 自组织映射模型原理
自组织映射神经网络是聚类分析中广泛使用的一种高维可视化的无监督学习算法,是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。SOM网络由输入层和竞争层(输出层)组成,且两层之间是全连接的(图5)。目前,SOM算法已被广泛应用于众多信息处理领域,在血清蛋白质谱分析中也发挥着很大作用[13]。
图5 SOM网络结构Fig.5 SOM neural network
SOM算法的学习过程如下:
将网络中各输入神经元与竞争层神经元的连接情况抽出,设网络输入模式为:
竞争层神经元矢量为:
其中式(7)的Pk为连续值,式(8)的Aj为数字量。竞争层神经元j与输入层神经元之间的连接权矢量为
1.4.3 模型举例
⑴ 研究[18]采用BP-ANN算法,建立并存储诊断模型、预后模型。诊断模型对大肠癌的诊断灵敏度和特异度分别为82.22%和80.45%,阴性预测值94.74%,阳性预测值51.39%,准确度为80.80%。预后模型通过回验,证明该模型的检验符合率为62.96%。
⑵ 在研究[14]中,对所有质谱数据用SOM-ANN进行特征选择(网络为6*6,迭代次数为1 000次),按权值大小挑出权值大的那些特征,对权值相同的特征挑出其中一个。在卵巢癌质谱数据的实验结果中,当特征维数选择为5左右时,SOM的识别率达到了87.2%,是一种有效的特征选择方法。
1.5 支持向量机
支持向量机(Support vector machine,SVM)是一种新型模式识别方法,它能根据有限的样本信息,在研究对象模型的复杂性与分类器的学习能力之间寻求最佳的折中方案。理论上,支持向量机算法得到的是全局最优点,解决了局部极值问题。该算法将实际问题通过非线性变换转换到高维的特征空间,巧妙地解决了维数问题,使算法复杂度与样本维数无关。但是支持向量机算法的核函数选择困难,且算法的复杂性导致训练速度较慢,不宜解决大规模的分类问题。
支持向量机刚主要用于解决数据分类问题,分类问题中最常见的是线性可分问题(图6左)、大约线性可分(图6右)、线性不可分情况(图7)[14]。
图6 线性可分(左),大约线性可分(右)。Fig.6 Linearly separable sample (left) Approximately linearly separable sample (right).)
图7 线性不可分Fig.7 linearly inseparable sample
图8 二维两类可分样本。Fig.8 Two types of two-dimensional separable sample
1.5.1 模型原理
SVM的基本思想是根据结构风险最小原理,寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即构造一个分类函数,将两类样本尽可能地区分开来,使得分类平面两侧的余裕(margin)尽可能最大(图8)。
图8中十字和圆圈分别代表两类训练样本点,分类线H能把两类正确的分开,H1、H2平行于H,且分别通过两类样本中离分类线H最近的点。H1、H2之间的距离叫两类的分类空隙或分类间隔。
1.5.2 模型举例
⑴ 本研究[19]中应用非线性的SVM分类器(nonlinear SVM classifier),在此基础上分别应用1 000次5倍交叉验证和“留一法”交叉验证两种方法,并建立评价模型。经过计算筛选出最佳组合是:3 932 m/z+5635 m/z,即由这两个蛋白质峰构建的模型可达到对乳腺癌患者的最佳检测效果。
⑵ 研究[14]表明,脑良性肿瘤样本较少,用SVM模型可以使这样的小样本具有较好的推广性。在研究生物信息学方面,选择了“留一法”SMV分类器简历评价模型,可以筛选出在胶质瘤和脑良性肿瘤及健康对照中表达有差异的新的潜在生物标记,并且可以建立检测胶质瘤敏感性和特异性都很高的判别模型,为胶质瘤的诊断提供了新的方法。
2 质谱分析的发展趋势及前景展望
高通量检测技术的进步,使原始蛋白质表达谱的采集得以实现,但随之而来的是后续分析、处理技术和方法的新挑战。使用得当的话,质谱分析的结果可应用于疾病预警或者检测,为个体化治疗方案的制定提供支持。
本文综述了质谱分析的几种主要方法:决策树模型、偏最小二乘法、神经网络模型和支持向量机。对分析方法的基本原理、适用范围、优势和不足之处做了具体论述,并分别给出疾病诊断的实例加以说明,展现了质谱分析方法对疾病判别和预测的重要作用。
综上所述,通过对临床血清蛋白质谱数据库的原始数据开展分析,可以发现与疾病诊断或健康状况预警相关联的特征信息,提示或协助临床诊断和个体化治疗方案的确定,对人群健康分析和疾病预警的实现具有重要的指导意义。研究人员将在改进现存方法的基础上,创新质谱处理方法,寻找生物信息学和临床诊断间的契合点。
[1] C. Nicole White, Daniel W. Chan, and Zhen Zhang. Bioinformatics strategies for proteomic profiling[J].ELSEVIER, Clinical Biochemistry, 2004, 37: 636-641.
[2] 郝柏林, 张淑誉. 生物信息学手册(第二版)[M]. 上海: 上海科学技术出版社, 2002
[3] Daniel T. Larose. Data mining methods and models[M]. 北京: 高等教育出版社, 2011
[4] Jan. C Wiemer, Alexander Prokudin. Bioinformatics in proteomics: application, terminology, and pitfalls[J]. ELSEVIER, Pathology-Research and Practice, 2004, (200): 173-178.
[5] L. Breiman, J. Friedman, R. Olhsen,et al. Classification and Regression Trees[M]. Wadsworth International, Belmont, California, 1984.
[6] C.M. Bishop. Neural Networks for Pattern Recognition[M]. Oxford University Press, New York, 1995.
[7] B.Sch.olkopf, A.J.Smola. Learning with Kernels[M]. MIT Press, Cambridge, Massachusetts, 2002
[8] 孟凡臣, 张艳贞, 胡英考, 等. 生物质谱及其在蛋白质组学研究中的应用[J]. 生物技术通讯, 2006, 17(3): 468-470.
[9] 徐琨, 朱尔一, 杨芃原, 等. 由质谱分析数据建立肝癌病人与健康人血清的分类模型[J]. 质谱学报, 2008, 29(5):268-273.
[10] 朱尔一, 杨芃原. 化学计量学技术及应用[M]. 北京: 科学出版社, 2001 [11] 王翼飞, 史定华. 生物信息学——智能化算法及其应用[M]. 北京: 化学工业出版社, 2006
[12] 杨行峻, 郑君里. 人工神经网络与盲信号处理[M]. 北京: 清华大学出版社, 2002
[13] 刘丽平, 李昂, 连森阳, 等. 自组织神经网络在生物信息学中的应用[J]. 中国家禽, 2011, 33(6):47-50.
[14] 时冲. 蛋白质质谱数据挖掘方法研究[M]. 南京: 南京理工大学, 2011
[15] 曾华宗. 一种用于肺癌早期诊断的蛋白质指纹质谱模型[P]. 中国专利: CN102200537A. 2011-09-28.
[16] 庞达. 杨艳梅. 张国强, 等. 血清SELDI蛋白质指纹图谱在乳腺癌腋淋巴结转移中的应用研究[J]. 中国肿瘤临床. 2008. 35(17): 1010-1014.
[17] 陈剑, 王小芸. SELDI-TOF-MS技术在乳腺癌中的应用[J]. 医学综述, 2009, 15(11): 1642-1644.
[18] 王专, 李小琼, 王开正, 等. 血清蛋白指纹图与大肠癌预后诊断[J]. 世界华人消化杂志, 2010, 18(35): 3745-3751.
[19] 胡跃. 蛋白质质问图谱和生物信息学在乳腺癌中的研究[M]. 浙江: 浙江大学, 2005
Bioinformatics Methods and Their
Comparative Analysis of Mass Spectrometry
【Writers 】Liang Bingyuan1,2, Ang Qing1,2, Wang Weidong1
1 Biomedical Engineering Laboratory, Medical Engineering Support Center, Chinese PLA(People's Liberation Army)General Hospital, Beijing, 100853 2 School of Information and Electronics, Beijing Institute of Technology, 100081
bioinformatics, data preprocessing, decision tree analysis, partial least squares, artificial neural networks, support vector machines.
R318.5
A
10.3969/j.issn.1671-7104.2012.05.013
1671-7104(2012)05-0357-05
2012-04-13
国家自然科学基金(60971044)、国家科技支撑计划
(2009BAI86B02)
王卫东,主任、研究员、教授,E-mail: wangwd301@126.com
【 Abstract 】The protein spectrometry holds such characteristics of complex and large volumes of data that the general statistical methods can’t satisfy the demand of disease prediction or classification. Several kinds of main methods of mass spectrometry data mining,such as decision tree analysis, partial least squares, artificial neural networks and support vector machines is overviewed in bioinformatics perspective. And examples of different methods used to diagnose disease are illustrated . These show an important role of mass spectrometry in identification and prediction of disease.