纳升液相色谱质谱分析方法的重现性对尿液多肽组分析结果的影响
2017-11-20王勇吴利徐金玲李水明刘宁姜亮
王勇+吴利+徐金玲+李水明 刘宁 姜亮
摘 要 多肽组学是蛋白质组学技术的延伸和扩展,在医学和生物学研究中的应用日益广泛,但是,多肽组鉴定方法的重现性对实验结果的影响目前尚不清楚。本研究利用纳升液相色谱高分辨质谱对健康人的尿液多肽组进行了7次平行分析,考察图谱数目、图谱利用率、鉴定的肽段数目、蛋白质数目、样品总离子强度和肽段保留时间等指标的变化,以揭示重复实验之间分析结果的可变性和稳定性。7次测定的肽段数目平均值为208,标准偏差为38; 7次结果合并后,得到了归属于114个蛋白质的426个肽段,肽段和蛋白质数目均显著增加; 而35个蛋白质的109个肽段在所有7次实验中均被检出,表明多肽组的单次分析结果既具有一定的随机性,又具有相对的稳定性。增加平行实验次数会扩大多肽组数据集,但测定3次以上后增加幅度减小。相比于肽段,多肽组的结果在蛋白质水平上更为稳定,提示利用蛋白质为多肽组的生物标志物更为稳健。
1 引 言
多肽组学的概念提出于20世纪初期,多肽组是指体液、组织和细胞等生物体内全部内源性多肽,蛋白质的异常降解产物与多种生理病理过程相关,因此多肽组是生物标记物的重要来源[1~3],血液,尿液,唾液、脑脊液、汗液、眼泪和胸腔积液等体液的多肽组均已有报道[4~12]。此外,还出现了神经活性多肽[13,14]、细胞[15,16]、组织[17,18]、植物汁液[19]和各種标记或非标记的定量多肽组学研究[20~22]。
多肽组学是蛋白质组学延伸和扩展,将肽段分离后不经过特异性酶切直接进行质谱分析。早期的多肽组研究通常采用基质辅助激光解吸离子化飞行时间质谱(MALDITOF)方法[23],该方法只能给出分子量信息并且由于电离抑制效应导致检出的肽段数目较少,与液相色谱(LC)MALDI联用和使用串联飞行时间质谱(TOF/TOF)可获得更多的肽段数目和序列信息[24,25],但改善并不显著。近年来高分辨质谱技术愈发成熟,扫描速度也不断增加,与液相色谱联用显著地提高了分离分析能力,因此,纳升液相色谱电喷雾串联质谱成为多肽组分析的重要方法,不仅可以准确鉴定肽段序列,还能发现阶梯序列肽段以及氧化和磷酸化修饰的肽段。此外,各种蛋白质组学中的定量标记方法也开始应用于多肽组学分析。在蛋白质组学研究中, 考察质谱分析的重现性时发现, 肽段水平的可变性高于蛋白质,高分辨质谱的重现性优于低分辨质谱; 此外,分析结果的重现性还与样本复杂程度相关,技术性重复的最高重现性也只有80%,而最低仅为35%[26],但分析方法的重现性对多肽组分析结果的影响尚未见文献报道。本研究通过将同一样品连续分析7次,考察数据依赖的扫描方式下方法的重现性对实验结果的影响,实验发现,分析方法的重现性对多肽组的鉴定结果,尤其是对低丰度肽段和蛋白仍有一定影响。
2 实验部分
2.1 仪器与试剂
EksigentnanoLCUltraTM 2D 系统、TripleTOF 5600 plus高分辨质谱仪、Protein Pilot 4.5软件(美国AB SCIE公司); 真空冷冻干燥机(美国Thermo Savant公司); C18反相色谱捕集柱(100 μm × 3 cm,3 μm,15 nm, 美国Eksigent公司); C18反相色谱分析柱(75 μm × 15 cm, 3 μm, 12 nm,美国Eksigent公司)。纳升液相色谱流动相 A为0.1% 甲酸2% 乙腈,流动相 B为0.1% 甲酸98% 乙腈; 所用试剂为质谱纯或优级纯,均购自美国Thermo Fisher公司; 氧化石墨烯磷酸镧纳米磁性复合材料为自行合成[1]。
2.2 反相色谱Triple TOF质谱分析
多肽的分离和富集如文献[1]所述, 以上步骤7份样品同时操作, 收集上清合并后冷冻干燥。将分离冻干的多肽样品溶解于NanoRPLC流动相 A中, NanoRPLC液相色谱为EksigentnanoLCUltraTM 2D系统(美国AB SCIEX), 溶解后的样品以2 μL/min的流速上样到C18预柱上(100 μm×3 cm, 3 μm, 15 nm), 然后保持流速冲洗脱盐10 min。分析柱是C18反相色谱柱(75 μm×15 cm, 3 μm, 12 nm), 梯度洗脱条件: 0~42 min, 5%~25% B; 42~56 min, 25%~40% B; 56~64 min, 80% B; 64~70 min, 5% B。质谱采用TripleTOF 5600+ 系统(美国AB SCIEX公司)。, 纳升喷雾III离子源, 喷雾电压为2.4 kV, 气帘气压为207 kPa, 雾化气压为34.5 kPa, 加热温度为150℃, 质谱扫描方式为数据依赖的采集工作模式(Information dependent analysis, IDA)。一个质谱循环3 s, 1张全谱加30张串联质谱, 选取前top20并且CPS>300的前体离子进行串联质谱分析, 每张串联谱的采集时间为80 ms。
2.3 数据分析
质谱采集到的原始wiff图谱文件, 采用Protein Pilot Software v. 4.5(AB SCIEX, USA)软件进行数据加工处理和检索分析, 数据库为uniprot库中的Homo sapiens人种专一数据库(包含20210条蛋白质序列, 2015年1月2日下载), 检索参数设置为非酶切、磷酸化强调和生物学修饰, 假阳性率控制为1% FDR。
3 结果与讨论
3.1 多肽组鉴定结果的重现性分析
如图1所示, 7次分析的总离子流图相近, 说明分析结果具有重现性, 但是, 经数据库检索后, 发现图谱总数、图谱利用率、特异性肽段数目、所有肽段所归属的蛋白质数目和总离子强度等指标有较大变化(表1)。其中, 不同次测量中数值幅度变化最小的为图谱数目, 最高值为最低值的1.29倍;endprint
而变化幅度最大的为总离子流强度, 最高值为最低值的3.96倍; 特异性肽段数目的变化倍数为1.72倍, 但蛋白质检出差异相对较小, 为1.43倍; 肽段数目、蛋白质数目和总离子强度的相对标准偏差(RSD)分别为18%、11%和52%。以上结果说明, 多肽组的单次分析结果具有一定的随机性。此外, 虽然总体上图谱数目与检出的肽段、蛋白质数目和总离子强度具有正相关性, 但并不具有严格的对应关系。值得注意的是, 将7次结果合并后, 得到了归属于114个蛋白质的426个肽段, 肽段和蛋白质数目均比单次测定的最高值增加50%以上, 该尿液样品所鉴定得肽段数目少于本研究组前期报道的790条肽段的结果[1], 可能是由于样品差异所致, 但两次实验都检测到了血红蛋白和尿调节素等蛋白质[1], 同时观察到了高丰度蛋白质的阶梯序列特征。 Hart等人[27]利用碰撞诱导解离(CID)方式鉴定到了归属于40个蛋白质的74个肽段, 肽段数目不到蛋白质数目的2倍, 应该无明显的阶梯序列存在。进一步比较7次分析中的共有肽段和蛋白发现, 归属于35个蛋白质的109个肽段在所有7次测量中均被检出, 但其中60个肽段归属于血红蛋白α亚基和β亚基, 尿调节素、凝聚素和血浆丝氨酸蛋白酶抑制剂5种蛋白质, 这也进一步验证了之前所提出的多肽组中肽段分布具有不均一性的结论[1]。
3.2 共有肽段实验重复性的分析
液相色谱保留时间和信号强度是衡量结果重现性的两个重要指标, 为说明重复实验中这两种指标的变化幅度, 在109条共有肽段中随机选取了归属于血红蛋白α链和尿调节素的各5条肽段考察保留时间的变化幅度(表2), 发现虽然肽段SGSVIDQSRVLNLGPITRK出峰时间最多相差了1 min以上, 但大多数肽段的保留时间较为恒定, 在不同分析轮次中的变化幅度小于0.5 min, 最小相差0.004 min, 10条肽段的相对标准偏差(RSD)为0.031%~1.500%, 以上结果达到了目前纳升液相色谱仪器的性能指标, 提示不同次分析中肽段和蛋白质数目的差别不是由于实验错误导致。从表2还可知, 肽段序列仅变化1个氨基酸就可能对液相色谱的保留时间造成较大改变。
在多肽组学的生物标记物研究中, 通常利用同一肽段在不同样本的离子强度作为非标记定量的指标, 本研究比较上述10条肽段在7次平行实验中的变化(表3), 发现变化幅度很大, RSD为6.7%~59.4%, 平均值为32.9%, 只有3条肽段的RSD<15%, 有3条肽段的最低离子强度和最高离子强相差约10倍, 但多数肽段的强度接近平均值。以上现象的原因可能是由于采用目前分析常用的数据依赖性的采集模式, 每个色谱峰的采集点数有限, 液相色谱保留时间的微小变化就可能对信号强度造成较大影响, 但也不排除电喷雾过程具有一定的随机性。以上结果提示, 在利用同一肽段在不同样本中的离子强度作为生物标志物筛选依据时, 需要考虑方法重现性的影响。
3.3 测量次数对肽段和蛋白质鉴定数目的影响
在MALDITOF质谱分析的过程中, 激光激发次数一般在上千次以上, 得到的图谱实际上是多张图谱的叠加, 因此, MALDITOF质谱具有较好的重现性, 但对于多肽组和蛋白质组这样的复杂体系, 得到的信息量不够。液相色谱串联质谱可以给出更丰富的信息, 但如上所述, 一次分析的结果不能代表尿液多肽组的全部情况, 由于在实际分析过程中受样本量和分析成本等的限制, 较难进行过多的重复性实验, 并且实验次数过多也会造成边际效应递减, 因此, 本研究考察了重复次数对分析结果的影响。
如将7次分析合并后的归属于114个蛋白质的426个肽段近似视为尿液多肽组的“全集”。将任意两次分析结果排列组合后产生了21种組合, 结果表明, 两种组合的肽段及其归属蛋白的数目都与全集相差较大(图2)。比较3~6种组合情况下所得到的肽段和蛋白质数目(图3), 发现3次分析次数以上肽段和其归属蛋白质的数目增加幅度开始变缓, 而5次分析的结果已经与7次分析基本接近。基于此, 可以认为对同一样品进行至少3次分析的合并结果会更全面地反映其多肽组的组成。由于个体差异, 在利用多肽组方法研究实际问题时, 多未提及重复次数[11~16], 说明该问题尚未引起足够重视。
3.4 共有肽段和差异肽段在蛋白质水平上的分析
由于液相色谱质谱分析方法的偶然性, 随着测量次数增加, 所鉴定到的交集数目越来越小。例如, 1和2的共有特异性肽段数目为189条, 前5次测量的共有肽段数目则为132条, 而7次合并后该数目则为109条, 随着合并次数的增加, 共有肽段数目的减小幅度也减小, 因此, 可以认为在7次分析中均检测到的肽段具有较高的检出概率, 即虽然数据依赖的扫描和采集方式的分析结果具有一定偶然性, 但仍具有较强的稳定性。例如, 虽然每次分析所鉴定的蛋白质数目不同, 但排名在前20位的蛋白质具有90%以上的检出率, 血红蛋白α链和尿调节素的Unused值排名总是在第一和第二位, 血红蛋白α链在7次检测中鉴定到的数目分别为24、27、30、31、33、34和36次, 其它蛋白质也存在类似规律, 即如果某蛋白质被鉴定的肽段数目较多, 则它总体上就有更高的检出概率并且可靠性排名(Unused值)相对稳定。换言之, 如果在两个不同结果中排名靠前的蛋白质发生明显变化, 则一定是样本本身的原因而非来自方法的偶然误差。但反之未必成立, 有些排名靠后的蛋白质也具有稳定性, 例如, 归属于40S核糖体蛋白S12的只有一个肽段AEEGIAAGGVMDVNTALQEVLK, 但它在所有7次测定中均被检出。值得注意的是, 肽段的检出率受离子强度的影响并不大, 这可能是因为质谱仪具有4个数量级以上的线性范围。例如, 在第一次分析中, 共检测到277个肽段, 离子强度的最小值为198, 最大值为204816, 平均值为4650, 而在第一次分析结果的共同109个肽段中, 最低值为363, 最高值为50366, 平均值为3582。值得注意的是, β防御素1的肽段GNFLTGLGHRSDHYNCVSSGGQCLYSACPIFTKIQGTCYRGKAKCC在所有277个肽段中的离子强度最高, 为204816, 但其在第2、3、4和7轮分析中均未测到, 在第5和第6次分析中的强度分别为197775和182780, 具体原因尚需进一步分析。endprint
另一方面, 如果在实际工作中只做一次实验, 希望能对可能漏检的肽段做出趋势性预测, 因此, 将单次分析结果与7次分析合并的结果进行了比较。首先, 重复实验可能发现肽段序列中氨基酸残基取代信息, 例如, 在第1次实验中共检测到5个含有YQKVVAGVANALAHKYH序列的肽段, 但在7次合并结果中测到了7个, 多出的两个分别为该肽段的12位亮氨酸被谷氨酸取代和11位的甘氨酸被丝氨酸取代。其次, 有些合并后增加的肽段来自单次分析已鉴定出的蛋白质, 即鉴定出的肽段数目增加, 但归属蛋白的数目未增加, 例如, 与第1次分析相比, 7次合并后血红蛋白α链多鉴定出6条肽段, 尿调节素多鉴定出7条肽段, 这些新增肽段与已鉴定肽段存在关联性, 例如, 在第一次分析中鉴定含有DQSRVLNLGPITR序列的总共15条肽段(如VIDQSRVLNLGPITRK), 但未鉴定到该肽段, 鉴定到肽段VIDQSRVLNLGPITRKGV, 但未鉴定到VIDQSRVLNLGPITRKG, 血红蛋白α链和胶原蛋白α1链等其它蛋白也存在类似情况, 因此, 可以謹慎推测, 在单次分析的情况下, 特别是对于阶梯序列肽段, 还存在一些未被鉴定的相关肽段是可能的。通过增加测定次数鉴定到的肽段出现频率很低, 通常仅在7次中的1或2次能被检测到, 但归属于新的蛋白质, 因此, 以这类蛋白质作为潜在的生物标志物最好进行平行实验的验证以排除方法原因。
蛋白质组学和多肽组学的检测对象都为肽段, 分析结果都受样本处理方法和分析次数的影响, 对于高丰度的蛋白质或肽段这两种分析体系的重现性都较好, 但后者为不经过特异性酶切的天然降解肽段, 经常检出的阶梯降解序列肽段对于蛋白质鉴定而言有冗余性。因此, 多肽组的分析结果在蛋白质水平上的重现性要优于肽段。
4 结 论
本研究结果表明, 即使对于尿液这样简单的体系, 鸟枪法的重现性对多肽组定性结果的影响仍不可忽视。研究发现3次平行实验后肽段及其归属蛋白质数目增加趋于平缓。进一步分析表明, 多肽组中低丰度肽段的鉴定具有一定的偶然性, 而高丰度肽段的鉴定具有较强的稳定性; 在蛋白质水平上, 单次测定与7次合并分析对高丰度蛋白质的鉴定结果基本一致, 说明利用蛋白质作为多肽组学生物标志物的指标在方法学上更为稳健, 提示若两组不同样品在蛋白质水平存在多条肽段的有和无的差异, 则单次分析亦可得到可靠的结果。但是, 如果仅利用单一肽段的差异表征生物标记物, 则需要进行3次以上的平行实验。本研究结果可为多肽组学生物标记物研究提供方法学依据和参考。endprint