基于毛细管电泳技术的高灵敏度蛋白质组学技术发展
2020-09-18田瑞军
杨 云, 田瑞军
(1. 南方科技大学化学系, 广东 深圳 518055; 2. 香港科技大学化学及生物工程学系, 香港 999077)
近年来,随着高灵敏度和高分辨质谱仪的快速发展,以及相应的样品前处理技术和数据分析方法的进步,蛋白质组学技术得到了长足的发展和成熟,并成为系统生物学研究的一门重要学科。细胞是生物体基本的结构和功能单位,每个细胞都是不同的,通常采用大量细胞样品整体分析的蛋白质组学分析得到的是平均值,这会掩盖单个细胞间的差异,也不能反映单个细胞的动态变化。而蛋白丰度与信使RNA水平表达仅有不到50%的一致性,因此单细胞蛋白质组学是研究细胞间异质性和细胞动态变化的一项关键技术。最近已经有个别研究初步实现了单细胞蛋白质组学[1]。类似地,每一块组织内部也是异质的,组织的不同区域内细胞种类和功能等方面也千差万别,病人细胞分型或组织分型的蛋白质组学能对疾病做更精准的蛋白质组分型并指导预后和治疗。另外,稀有细胞如血液循环肿瘤细胞和肿瘤干细胞等样品总蛋白含量非常少,只能依靠更高灵敏度的检测分析方法。近年来,随着单细胞基因组学技术的日益完善和成功应用,精准医学和生物医药研究对蛋白质组学提出了更高的期望。伴随着对单细胞蛋白质组学、临床蛋白质组学、细胞分型或组织分型的蛋白质组学等的需求增加,高灵敏度蛋白质组学得到了高度重视和快速发展。
主流的蛋白质组学方法均采用的是鸟枪法,即需要将复杂的蛋白样品先酶解为多肽,然后经过色谱或电泳分离,再进入质谱检测。除纳升液相色谱-质谱联用(nanoLC-MS)外,毛细管电泳-质谱联用(CE-MS)也已经成功地应用于微量样品的鸟枪法蛋白质组学分析。相比常规蛋白质组学分析,单细胞蛋白质组学等前沿应用需要实现数量级的灵敏度提升,这对蛋白质组学分析流程的各种步骤都提出了巨大的挑战。从样品前处理、多肽分离、毛细管电泳-质谱接口设计、质谱检测到数据分析方面,每一步都需要进行细致的方法学改进以尽可能减少样品损失和提高灵敏度。本文将对基于毛细管电泳技术的高灵敏度蛋白质组学技术的近期进展,包括样品前处理、毛细管电泳分离、CE-MS接口、质谱检测及应用进展进行综述,并对其面向单细胞蛋白质组学等前沿应用的机遇和挑战进行简要评述。
1 微量样品的蛋白质组学集成化前处理
目前主流的鸟枪法蛋白质组学均需要进行复杂的样品前处理,极易造成微量样品的缺失并降低相关生化反应的效率。为解决上述技术难题,国内外多个团队开发了相关的集成化样品前处理技术。例如,复旦大学张祥民教授团队开发了同步裂解少量活细胞和蛋白酶解的集成化样品前处理方法iPAD-100(integrated proteome analysis device for 100 living cells)[2]和iPAD-1 (integrated proteome analysis device for single-cell analysis)[3]。通过将含有盐酸胍和胰蛋白酶的缓冲液直接加入含有细胞样品的液相色谱的样品环中,在升温至50 ℃和超声条件下实现了1 h内细胞裂解和蛋白酶解的同步操作。基于该核心原理,iPAD-100技术可从100个人大肠癌细胞中平均鉴定635种蛋白。iPAD-1技术则进一步将样品前处理改为在22 μm内径的毛细管中进行,反应器体积减少到了2 nL,样品前处理时间压缩到了30 min。通过进一步改进纳升液相色谱分离、高分辨质谱检测及数据处理方法,作者从单个Hela细胞中最多鉴定到328种蛋白。中科院大连化学物理研究所张玉奎院士和张丽华研究员团队在集成化在线蛋白质组学分析系统构建方面具有长期积累,开发了一种基于固定化酶反应柱的自动化蛋白组学分析平台[4],可实现对最低125 ng大肠杆菌蛋白样品的全自动化酶解和在线质谱分析,并鉴定到接近300种蛋白。
浙江大学方群教授和北京大学黄超兰教授联合团队在国际上率先开发了基于液滴微流控芯片的蛋白质组学样品前处理技术[5]。通过将相关生化试剂不断滴加到反应体系中,细胞从裂解到酶解的前处理过程都可在总体积约550 nL的液滴内完成。通过将酶解后的多肽样品直接以气压方式上样到纳升分离色谱柱中,可以实现单个细胞内蛋白的高分辨质谱分析。基于Orbitrap Elite高分辨质谱仪,作者从单个、10个、50个和100个HeLa细胞中分别鉴定到了51种、192种、612种和1 360种蛋白。美国西北太平洋国家重点实验室Kelly教授团队也开发了类似的液滴微流控芯片技术nanoPOTS (nanodroplet processing in one pot for trace samples)[6,7]。基于更为灵敏的Orbitrap Fusion Lumos质谱仪,作者从单个Hela细胞中平均鉴定到了670种蛋白,并从约10个Hela细胞中平均鉴定到了2 674种蛋白。但基于液滴微流控芯片的样品前处理方法不能与nanoLC-MS在线连接,这会导致微量样品在上样过程中的损失并降低重现性。
本组近年来开发了一系列适用于微量生物样品蛋白质组深度覆盖分析的、基于离心式微流控器件的集成化样品前处理技术SISPROT(simple and integrated spintip-based proteomics technology)[8]。在200 μL至10 μL微流控器件内先填入C18膜再在上面填入离子交换填料即可制成SISPROT器件。不同于通常使用的表面活性剂十二烷基磺酸钠,我们采用一种温和且质谱兼容性好的表面活性剂十二烷基-β-D-麦芽糖苷进行细胞裂解。该表面活性剂能很好地溶解疏水性的膜蛋白,从而使膜蛋白鉴定量增加至总体蛋白鉴定量的40%左右[8]。蛋白样品首先吸附到离子交换填料上;经过蛋白富集和杂质洗脱后,蛋白的二硫键还原、烷基化封闭以及关键的蛋白酶解反应可以在纳升级别体积内高效地完成。酶解生成的多肽样品可以被方便地洗脱并转移至同一微流控器件内的C18膜上完成除盐或高pH反相液相色谱分级。通过进一步利用单一离子交换填料[9]或者混合模式的离子交换填料[10]进行第一维多肽分级,再进行基于高pH反相填料的第二维分级,我们成功地实现了微量蛋白样品的深度覆盖蛋白质组学分析。
基于SISPROT技术,我们从2 000个293T人胚肾细胞中鉴定到了1 270种蛋白,我们进一步从10万个人牙髓干细胞中鉴定到了9 078种蛋白,其中包含3 771种膜蛋白[8]。另外,我们建立了最大的肠道微菌群蛋白数据库,共从单个人粪便约10 μg蛋白样品中鉴定到约20 558种肠道微菌群蛋白[11]。通过结合亲和富集技术,我们发展了基于SISPROT技术的微量蛋白亲和富集-质谱联用分析流程,并精确地定量分析了生长因子受体结合蛋白2(growth factor receptor-bound protein 2, Grb2)的动态蛋白相互作用网络[12]。在液体活检应用方面,通过结合使用SISPROT技术和数据非依赖型质谱采集模式(data-independent acquisition, DIA),我们从1 μL血清样品中鉴定到了超过300种蛋白,其中包含近50种美国FDA批准的疾病标志物[13]。另外,从2 mL肾癌病人尿样中,我们能重复定量到约1 000种蛋白,并找到了125种具有显著性表达差异的蛋白[14]。通过进一步结合使用混合模式离子交换填料作为反应器,我们实现了血浆蛋白样品的中性条件上样,并进一步将整体样品前处理时间压缩到30 min。基于该技术的集成化二维色谱分级,我们成功地将来源于1 μL血浆的酶解多肽进行11个组分的分级并鉴定到862种蛋白[10]。在组织活检方面,我们采用激光显微切割技术对人肠癌和癌旁组织的4种细胞类型进行单细胞分辨率的捕获并实现了基于SISPROT技术的细胞分型蛋白质组学分析[15]。基于此,我们进一步将糖蛋白富集功能集成到SISPROT技术中,对鼠脑的4种不同区域分别进行了激光显微切割和规模化糖蛋白组分析[16]。
在在线高灵敏度蛋白质组学分析方面,我们早期开发了可实现少量细胞集成化处理和在线质谱分析的RCPR技术(rare cell proteomic reactor)[17]。基于LTQ质谱仪,我们分别从500、5 000和50 000种人胚干细胞样品中鉴定到了68、409和2 281种蛋白。最近,基于该技术并进一步结合SISPROT技术原理和先进的Q Exactive HF-X质谱仪,我们可以稳定地从100个细胞中鉴定超过2 000种蛋白(未发表数据)。为了进一步实现与毛细管电泳的联用,我们设计开发了一种基于微流控器件的SISPROT技术(相关文章已经投稿至Analytical Chemistry杂志)。该技术可以直接与分析柱连接,通过毛细管电泳仪的气压驱动装置全自动化完成集成化蛋白质组学样品前处理和多肽分级,为后续实现与CE-MS的全流程在线集成化操作奠定了基础。
基于CE-MS的蛋白质组学分析需要先进行样品前处理得到酶解后的多肽样品。但当前CE-MS领域的样品前处理基本仍在使用离心管做溶液内酶解,仅到了使用固相微萃取、瞬间等速电泳(transient isotachophoresis, tITP)或动态pH调节进样的预浓缩阶段才与CE-MS在线连接。溶液内酶解时间长、效率低、样品转移多且接触面积大,进而样品损失大,并不适合微量样品的前处理。nanoLC-MS领域已经开发了比较成熟的针对激光显微切割的微量组织样品和流式细胞仪分选的少量甚至单个活细胞样品的集成化前处理方法,为基于CE-MS技术的高灵敏度蛋白质组学分析奠定了基础。美国Dovichi教授团队曾报道将胰蛋白酶固定在毛细管整体柱上实现了少量蛋白标准品的在线高效酶解[18],后来又使用强阳离子交换整体柱作为蛋白样品酶解的微反应器[19],实现了蛋白样品的二硫键还原、烷基化封闭以及蛋白酶解的在线集成化前处理,并能与CE-MS在线连接。他们将前处理时间从溶液内酶解的24 h压缩到了40 min,从起始50 ng蛋白样品中鉴定到了975类蛋白和3 749条多肽,是样品前处理方面的一个重要进展。
2 蛋白质组学多肽样品的毛细管电泳分离
蛋白质组学样品前处理后得到的多肽样品由于太过复杂,需要经过纳升液相色谱或毛细管电泳分离后再进入质谱进行分析。纳升液相色谱分离中通常使用的反相液相色谱是基于多肽的疏水性质差别实现分离的,而毛细管电泳是基于多肽的荷质比的不同实现分离的。多肽在毛细管内的运动速度由电渗流速度和电泳速度共同决定,是两者的矢量之和。
毛细管区带电泳(capillary zone electrophoresis, CZE)是CE-MS中最主要使用的多肽分离方法,多肽在其中的峰展宽仅由轴向扩散引起[20]。相比纳升液相色谱分离,基于CZE的多肽分离可实现更窄的峰宽和更高的柱效。这主要是因为CZE可实现扁平的“活塞式”溶液流形,而纳升液相色谱中的压力驱动会形成抛物线形溶液流形,因而会引起溶质的扩散。美国Dovichi教授团队是国际上最早且最为深入地开展基于CZE-MS联用的蛋白质组学分析团队。在该团队针对酶解多肽样品的分析中,CZE在10 min的分离时间内平均峰宽仅2.8 s,平均理论塔板数达到了30万以上[21]。相比而言,采用2 h反相色谱梯度的纳升液相色谱分离平均峰宽一般为18.92 s[22]。通过延长CZE的分离时间至2 h以上可以大大提高其峰容量和蛋白鉴定数量,最高可从220 ng蛋白样品中鉴定约4 400种蛋白[23-25]。然而,毛细管电泳柱容量有限是其开管模式分离的弊端。在此方面,毛细管电色谱(capillary electrochromatography, CEC)是一种兼顾毛细管电泳高柱效和液相色谱高柱容量的分离方法。例如,通过采用基于0.4 μm粒径的新型介孔微球,我们早在2006年即可实现对多种药物分子的快速毛细管电色谱分析,平均理论塔板数达到了14.9万以上,最小理论塔板高度仅为2.0 μm[26]。由于该电驱动色谱分离方式,仍存在毛细管电泳固有的技术壁垒,例如重复性分析需要较高技术要求等,但其在高灵敏度蛋白质组学分离领域的应用值得期待。
另外,在线色谱分离流速对质谱检测的离子化效率和检测灵敏度也有着决定性的影响。一方面,通过降低色谱分离流速可以大大降低样品的溶剂稀释效应,从而显著地提高质谱检测的灵敏度[27,28]。纳升高效液相色谱仪在近年来获得了高速发展,无论在流速范围还是在梯度分离稳定性上都有了长足的进步。然而,目前的商品化纳升液相色谱仅能提供50 nL/min以上的流速。相比而言,毛细管电泳可以稳定地提供1~10 nL/min范围的流速,从而显著地降低样品的溶剂稀释效应。另一方面,通过显著性地降低色谱流速可以显著地提高质谱对离子化多肽的采集效率,因而也能增加质谱分析的灵敏度。因此,毛细管电泳在微量样品的蛋白质组学方面具有天然优势。虽然毛细管电泳因上样体积小和柱容量有限,导致单针的最大蛋白鉴定量一直逊于nanoLC-MS。但针对微量样品的蛋白质组学分析恰好可以充分利用毛细管电泳上样量低、峰宽窄、柱效高、流速低和灵敏度高的优势。虽然CE-MS相对于nanoLC-MS定量分析重复性重现性要差一些,而单细胞和极少量细胞的蛋白质组学研究目前还主要处在定性研究层面,毛细管电泳的此劣势也大可规避。另外,毛细管电泳技术的定量重复性的劣势也可通过进一步结合稳定同位素标记技术(例如tandem mass tags标记技术)加以解决。
3 CE-MS接口
在CE-MS应用中,电喷雾离子化(electrospray ionization, ESI)是最主要使用的多肽离子化方法。基于毛细管电泳的电驱动原理,CE-MS的离子化无需额外引入导线,从而可以简化离子化装置。然而,由于毛细管电泳流速极低,易降低ESI离子化效率,从而影响质谱检测灵敏度。目前,CE-MS的ESI离子化接口主要分为两大类:无鞘液接口和鞘液接口。虽然无鞘液接口是最早出现的(1987年),但目前鞘液接口更为常用。这主要是因为后者具有更好的兼容性和ESI喷雾稳定性。同轴流出的鞘液能在电极和毛细管内的缓冲液之间建立电接触,且能改变毛细管电泳缓冲液的组成从而提高ESI离子化和质谱检测的兼容性。但鞘液的稀释效应会降低灵敏度,且鞘液与雾化气引起的抽吸效应可能会降低柱效[29]。Dovichi教授团队在鞘液接口的设计方面做出了主要贡献[21,30,31]。他们设计的第一代接口简化了鞘液接口组成,直接将分离毛细管柱穿入发射器里面,通过在毛细管入口端施加高电压和在距发射器一小段距离处施加另一较低的高电压,不需要额外的机械泵即可在低鞘液流速下形成稳定的电喷雾,消除了发射器里面的电解作用并且减少了气泡的形成;第二代接口采用的氢氟酸蚀刻后的毛细管末端距离发射器开口更近(约200 μm),使灵敏度提升了约10倍;第三代接口将发射器开口增加到了约35 μm,解决了前二代接口容易堵塞的问题,极大地延长了接口的寿命,且灵敏度仍与第二代相当。他们设计的第三代接口已经被商品化(EMASS-Ⅱ离子源,CMP Scientific公司)[32]。
相对地,无鞘液接口是将电压直接加在背景电解质上,避免了鞘液的稀释效应。基于此,无鞘液接口可以降低背景信号,并相比鞘液接口提高灵敏度10倍以上[33]。上述特点对于微量样品的蛋白质组学分析更为重要。然而,这种接口显而易见的挑战是在不破坏毛细管电泳液流的情况下,在ESI喷针上建立起稳定的电接触。目前,建立电接触主要有两种方法[20]:一种方法是在不导电的发射器尖端外面涂上导电涂层,如金、银、铜、镍、石墨等,或套上可拆卸的导电的多孔发射器。然而,由于导电涂层在高压下的寿命往往较短,大多数情况下仅能连续使用数天。另一种方法是Moini团队发明的基于多孔喷针的无鞘液接口[34],是蛋白质组学分析中广泛使用的无鞘液接口类型。这种接口通过将多孔喷针与加电的背景电解质直接接触即可建立起稳定的电接触。这种多孔喷针的无鞘液接口也已经被Sciex公司商品化并应用于CESI 8000系列CE-MS仪器上[35]。
另外,如同纳升液相色谱-质谱联用,如何提高CE-MS中的离子化效率以及进入质谱仪的离子比例一直是高灵敏度蛋白质组学分析的一大挑战。一般而言,真正通过ESI电喷雾离子化进入质谱仪的多肽分子极少,可能低于总样品量的1%。加拿大UBC大学的Chen教授团队发明了一种加在质谱仪入口前端的微型漏斗形装置[36]。该装置能将羽状喷雾下发散开的雾化离子重新收敛聚集后再进入质谱仪,从而大大增加进入质谱仪的离子数量,并提高灵敏度2~8倍。类似的装置若能与无鞘液接口搭配使用,有望进一步提高CE-MS的检测灵敏度。
4 鸟枪法质谱分析
2011年,德国马普生化所Mann教授团队系统分析了串联质谱仪对离子化多肽分子的一级谱采集效率、高丰度离子的在线捕获效率、碰撞解离效率和二级谱采集以及多肽解析效率[37]。通过系统分析LTQ Orbitrap Velos质谱仪采集的质谱数据,作者将质谱采集的有效梯度时间内一价以上信号分成了3类:第一类是成功地被一级谱检测到的多肽特征信号;第二类是所有被一级谱检测到且被捕获进行了二级谱采集的信号;第三类是在第二类多肽特征信号中具有高质量二级谱图且成功被鉴定多肽序列的信号。令人惊讶的是,在101 726种被质谱成功检测到的第一类多肽特征信号中只有16%(16 924)的多肽分子被成功地捕获并进行二级谱扫描;而所采集的二级谱图中也只有58%(9 797)的二级质谱谱图可以被成功地用于肽段鉴定。近年来,该团队在更先进的Q Exactive和Q Exactive HF质谱仪上进行了类似的分析,但获得了类似的结论[38]。最近,本团队也采用具有更高扫描速度的OrbitrapFusion和Q Exactive HF-X质谱仪进行同样的实验,也获得了类似的结论(未发表数据)。尽管过去10年高分辨质谱在扫描速度、二级谱采集效率和灵敏度方面都有了飞速的发展,但相比复杂度巨大的蛋白质组样品仍然只能捕获并鉴定很低比例的多肽。
表 1 蛋白质组学领域主要质谱仪的最大扫描速度
2016年,美国威斯康星大学麦迪逊分校Coon团队系统地分析了主流纳升液相色谱-质谱联用系统应用于复杂酶解多肽的分析效率,并获得了极为不同的结论[39]。他们发现在过去的十几年时间里,质谱硬件有了很大改进,扫描速度增加了很多倍,但能鉴定到的多肽和蛋白数量并未有相应倍数增加。Coon等认为导致这一现状的主要原因是复杂多肽样品的纳升液相色谱分离方面基本没有改进,无法进一步降低色谱峰宽,从而充分利用先进质谱仪的高速扫描。表1总结了到目前为止的蛋白质组学领域主要质谱仪的最大扫描速度。基于扫描速度仅有约7 Hz的LTQ Orbitrap Velos质谱仪的数据,Mann等[37]曾预测质谱扫描速度增加到25 Hz以后,样品中的所有多肽特征信号理论均能被质谱仪捕获并采集二级谱。但事实上,即使质谱扫描速度增加到40 Hz甚至更高,仍然有很大比例的多肽信号没有被采集二级谱。在动态排除时间设置分别为5 s、15 s和30 s情况下,7 Hz时质谱扫描速度的利用率均为99%左右,但40 Hz时质谱扫描速度的利用率则分别下降到了73%、54%和38%。Coon等[39]认为质谱高扫描速度下利用率低的原因是质谱找不到足够多可以检测到的肽段信号,而最有希望解决此问题的方法是改善多肽的分离情况。Coon等进一步分析了峰容量与扫描速度间的关系,发现在低扫描速度下,随着峰容量提高,多肽鉴定量增加缓慢;而在高于20 Hz的高扫描速度下,多肽的鉴定量很大程度上依赖于多肽分离情况的好坏。例如,在41.3 Hz时,峰容量从接近400增加到略高于1 000时,多肽鉴定量从约15 000增加到了约31 000。在多肽分离得不好时,峰太宽会导致质谱只能重复采集高丰度峰的信号,而低丰度峰由于被排除在数据依赖型采集模式(data dependent acquisition, DDA)的TopN序列之外,或由于离子抑制强度低于设定的强度阀值而不被采集二级谱。正如之前提到的,毛细管电泳分离所具有的高柱效有望大大降低质谱的冗余采集率,进而增加对低丰度峰多肽特征信号的捕获和二级谱采集效率,并最终增加多肽和蛋白的鉴定量。
5 CE-MS应用于微量样品蛋白质组学分析的研究进展
在Dovichi等团队的推动下,CE-MS近年来在微量样品的蛋白质组学研究方面展现出了良好的潜力和发展前景。使用Q Exactive HF质谱仪,Dovichi团队从25 ng HeLa细胞裂解物中平均鉴定到10 005条多肽和2 158种蛋白[25]。最近,该团队采用10 μm内径毛细管进行CZE分离和基于Q Exactive HF的平行反应监测模式检测(parallel reaction monitoring, PRM),对混于0.25 mg/mL牛血清白蛋白(BSA)酶解物中的不同浓度的血管紧张肽进行分析,检出限达到了1 zmol[40]。在单细胞蛋白质组学分析方面,乔治·华盛顿大学的Nemes团队分析了单个非洲爪蟾卵裂球的样品,从20 ng样品中鉴定到500~800种蛋白[41]。
6 总结和展望
总之,基于本文的调研和论述,我们认为面向高灵敏度蛋白质组学分析的CE-MS技术应当在集成样品前处理、CE-MS和数据分析等多方面进行系统优化。集成化在线样品前处理能减少样品损失和提高酶解效率,有助于实现微量蛋白样品的全流程自动化处理和高灵敏度质谱分析。CE-MS领域应借鉴nanoLC-MS领域开发的针对微量样品的集成化在线样品前处理方法,尽快实现对激光显微切割的微量组织样品和流式细胞仪分选的少量甚至单个活细胞样品的集成化前处理,以避免微量样品的转移和尽量减少损失。相比纳升液相色谱分离,CE分离峰宽更窄、柱效更高、灵敏度更高,因此高效在线CE分离有望进一步提高高分辨质谱对微量蛋白质组学样品中多肽的鉴定效率。毛细管电色谱所兼具的高柱效和高柱容量有望实现与生物质谱高扫描速度和高灵敏度的完美结合。DIA和PRM等更高灵敏的质谱数据采集模式和match between runs等算法有助于进一步提高微量样品的蛋白鉴定量和定量准确度。另外,在自顶向下的蛋白质组学方面,密歇根州立大学的孙良亮组最近报道了,当单针进样量低至1 μg蛋白时,CZE-MS/MS相比nanoRPLC-MS/MS具有明显的优势[42]。CE-MS应用于单细胞等微量样品的蛋白质组学方面有独特优势和良好前景。若能结合使用适合微量样品的集成化样品前处理、无鞘液接口、更高灵敏度的质谱,并进一步针对微量样品优化质谱的参数和数据处理方法,CE-MS应用于微量样品的蛋白质组学将能取得更好的应用效果和前景。