基于质谱的尿蛋白质组学在肿瘤生物标志物发现中的研究进展*
2022-09-20宁思明胡思隽田苗苗聂勇战
宁思明 胡思隽 田苗苗 聂勇战
肿瘤生物标志物是反映肿瘤发生、发展和预后的一系列物质,在临床上广泛应用于肿瘤的早期诊断、治疗监测和预后评估。血液能够较真实反映机体的生理和病理变化,是肿瘤生物标志物研究的主要样本来源。与血液相比,尿液具有采集简便、非侵入性以及免受体内稳态机制的影响,成分是更为简单且稳定的血液滤液。因此,通过研究尿液标本寻找肿瘤生物标志物是众多研究者追求的目标。
随着质谱(mass spectrometry,MS)检测技术和数据处理方法的快速进步,基于MS 的高通量和高精度蛋白质组学技术得到了飞速发展,蛋白质标志物在肿瘤的早期诊断和疗效评估等方面发挥重要作用,应用蛋白质组学技术在尿液中寻找生物标志物的研究日益广泛。在2016年蔡梦等[1]和赵青等[2]研究中,详细阐述了部分肿瘤中发现的潜在尿蛋白标志物,并进行了系统地分析总结,为尿液肿瘤标志物进一步的研究提供有价值的参考。本文综述了近20年来通过MS 技术发现的尿蛋白标志物在常见肿瘤中的研究进展,并对尿蛋白质组学研究的优劣势和应用前景进行分析。
1 基于MS 的蛋白质组学技术在生物标志物发现中的研究进展
1.1 常用的蛋白质组学技术
早期的蛋白质组学主要应用于定性分析,随着研究的不断深入,提供蛋白质种类等定性信息的分析技术已经不能满足实际蛋白质组学研究的需求,当今蛋白质组学研究的热点逐渐转向定量分析。在蛋白质组学研究中,蛋白质鉴定经常使用的MS 技术包括双向凝胶电泳质谱(two-dimensional electrophoresis MS,2-DE-MS)、毛细管电泳质谱(capillary electrophoresis MS,CE-MS)、表面增强激光解吸电离飞行时间质谱(surface-enhanced laser desorption/ionization time-offlight MS,SELDI-TOF-MS)、基质辅助激光解吸电离飞行时间质谱(matrix-assisted laser desorption ionization time-of-flight MS,MALDI-TOF-MS)[3]。目前,蛋白质组学定量技术主要基于双向电泳(2-DE)和MS两大类技术。随着高精度MS 技术的快速发展,基于MS 的蛋白质组定量技术逐渐成为主要的分析手段。根据是否对目标蛋白进行定量,常用的蛋白质组学定量技术可分为非靶向定量蛋白质组学和靶向定量蛋白质组学两大类。
非靶向定量蛋白质组学是对样品中所有蛋白进行无差别定量分析,根据是否对样品中的蛋白质或多肽进行标记,又分为非标记和标记定量技术。常用的非标记定量技术包括label-free 和基于数据非依赖采集(data-independent acquisition/sequential window acquisition of all theoretical mass spectra,DIA/SWATH)技术,标记定量技术主要为细胞培养稳定同位素标记(stable isotope labeling with amino acids in cell culture,
SILAC)技术、同位素亲和标签(isotope-coded affinity tag,ICAT)技术、同位素标记相对和绝对定量(isobaric tags for relative and absolute quantitation,iTRAQ)技术、串联质量标签(tandem mass tags,TMT)技术、二甲基化或18O 标记技术[4]。Label-free 定量蛋白质组学技术的优势在于成本低廉和样品制备简单,与标记定量相比,定量的准确性相对较差。Label-free 和标记定量技术均属于数据依赖采集技术(data dependent analysis,DDA),尽管已广泛用于复杂样品中蛋白质的定性和定量分析,但DDA 一级扫描过程中总是偏向信号强的肽段进行裂解,因此容易造成感兴趣的低丰度肽段的丢失。数据非依赖采集(data independent analysis,DIA)技术利用高分辨MS 采集各区域范围内所有母离子的全部碎片离子信息,最后根据DDA参考谱图库对DIA 数据进行定性与定量分析。与DDA 技术相比,DIA 技术可对样品中所有离子的碎片信息进行无偏向性的数据采集,具有定量准确度高、重复性好和可回溯性高等优点[5]。靶向蛋白质组学能够对目标蛋白质、目标肽段进行选择性检测,从而实现目标蛋白质/多肽的相对/绝对定量。目前,主要有多重反应监测技术(multiple reaction monitoring,MRM)/选择反应监测技术(selected reaction monitoring,SRM)和平行反应监测技术(parallel reaction monitoring,PRM)。该技术摆脱了传统依赖商品化抗体质量的蛋白验证方法,如酶联免疫吸附测定(ELISA)和蛋白免疫印迹(Western blot)等,能够同时对多个目标蛋白质/肽段进行选择性检测分析。
非靶向蛋白质组学旨在发现并检测样品中更多的蛋白质,从而发现新的蛋白质和生物标志物等,适合于生物标志物发现的早期研究阶段。在非靶向蛋白质组学研究中发现感兴趣的特定蛋白质或生物标志物之后,可进一步通过靶向蛋白质组学的方法,在更多的样本中验证和研究这些蛋白质。相比于非靶向蛋白质组学,靶向蛋白质组学具有更高的准确性、灵敏度和重现性,可以有效弥补非靶向蛋白质组学重复性和分析效率低的缺点。根据不同的定量原理,任何一种蛋白质组学技术均不可能是完美无缺的,应根据实验需求进行合适选择。目前基于MS 的常用定量蛋白质组学技术的特点、优势及局限性进行汇总,见表1。
1.2 蛋白质组学用于生物标志物发现的研究策略
在蛋白质组学研究中,生物标志物的临床前研究通常分为3 个阶段:发现阶段,验证阶段和确认阶段。整个标志物研究阶段通常呈现的特点为患者群体规模的增加和候选生物标志物数量的减少。生物标志物的发现阶段主要目标是全面量化单个或混合样本中的数千种蛋白质。非靶向蛋白质组学技术已成为一种适合对大量蛋白质进行相对定量以寻找新的候选生物标志物的工具。发现阶段主要生成候选生物标志物列表为后续阶段分析建立至关重要的桥梁。生物标志物的验证和确认阶段通过扩大样本数量和规模,验证并确认发现阶段最有潜力的候选蛋白生物标志物列表。该阶段通过靶向蛋白定量方法来识别感兴趣的蛋白质或肽段。基于验证和确认阶段筛选出的候选标志物的优先排序结果,在临床验证阶段将选择数量有限且有前景的潜在候选标志物进行进一步评估。
2 尿蛋白质组学生物标志物的特征
2.1 尿蛋白质组学在生物标志物研究中的优势
蛋白质组学常用的研究对象包括临床组织样本和生物体液如脑脊液、血液、尿液等。由于组织样本和近源体液通常需要高侵入性手段获得,因此非侵入性收集的尿液、唾液和汗液等体液逐渐引起研究者的关注。例如,唾液蛋白在口腔癌、肺癌等多种癌症中的应用[6],汗液中的囊性纤维化跨膜传导调节蛋白在囊性纤维化中的应用等[7]。由于唾液蛋白具有易降解、易受饮食习惯等影响,汗液样本量少、采样困难等缺点,使其在蛋白质组学的研究中受到较大限制。生物标志物是与疾病相关的可测量指标,由于血液与身体各部位息息相关,能够较真实的反映人体微环境状态。因此,血液一直是寻找生物标志物的最主要来源。但是血液样本的蛋白质组学分析存在一定的缺点:血液取样是侵入性的;血液含有20 种高丰度蛋白质使低丰度蛋白质的识别能力变差,这将掩盖那些丰度较低但可能具有潜在意义的蛋白质。相较血液而言,尿液在肿瘤分子标志物的发现方面具有采集简单、无创,容易连续性获得等优点。尿蛋白质组相较血液蛋白质组复杂性更低,因此更易于检测低丰度蛋白的变化[8]。另外,血液作为体内环境的重要组成部分,受到人体内稳态机制的调节并尽可能保持机体稳定,然而,在检测过程中血液中微小的变化会被机体的稳态机制逐渐消除,特别是当变化发生得相对较早且很小的时候,这使得很难发现血液中的变化[9],而尿液收集全身的废物,变化比血液更丰富,其被认为是早期和敏感生物标志物发现的最有吸引力的来源之一。
近年来,越来越多的研究表明,尿液在疾病早期的蛋白质组学变化使其成为更好的生物标志物来源。如市面上的早孕试纸通过检测尿液中的特异激素人绒毛膜促性腺激素来判断是否怀孕,尽管这种检测不能保证100%的准确率,但它具有快速、方便、灵敏、特异性高等优点,已被广泛用于早孕的初筛检查。随着尿蛋白质组学研究领域的不断深入,许多复杂疾病得到了广泛的研究。2022年,Bi 等[10]通过TMT 定量技术,对新型冠状病毒肺炎(COVID-19)患者组以及健康对照组的尿液和血清样本进行了蛋白质组学分析,发现尿液中的蛋白分子量分布与全人类蛋白组的蛋白分子量分布一致。此外,该研究还表明尿液蛋白组显示出比血液蛋白组更高的检测灵敏度。
2.2 尿蛋白质组学在生物标志物研究中存在的问题
随着MS 检测技术和分析方法的快速发展,尿蛋白质组学逐渐趋于成熟。各种新型MS 技术的出现,使得寻找肿瘤生物标志物的困难程度大大降低。尽管尿蛋白质组学在生物标志物的发现中得到了广泛的应用,但到目前为止,很少有尿蛋白候选生物标志物被应用于临床中。因为有效生物标志物的发现受到许多因素的挑战,综合多个方面的专家建议和新技术的进展,其主要包括研究设计、样本收集和准备、蛋白质定量、仪器平台和数据分析等因素影响[11]。研究设计包括患者选择和严格的统计设计。样本收集和准备包括尿液的采集和蛋白质的提取。蛋白质定量即不同蛋白质组学定量技术的选择,包括发现生物标志物的非靶向定量技术或验证候选生物标志物的靶向定量技术。仪器平台和数据分析包括基于MS 平台的选择和生物信息学数据分析方法的选择等。
目前,大多数生物标志物的研究局限于患病群体和健康对照组之间的比较,由于尿液中潜在蛋白生物标志物的浓度非常低,尿液的特征与患者的性别、年龄、激素状态、饮食或身体活动等差异密切相关。因此,在尿蛋白生物标志物研究中,假阳性的发现率很高。已有研究者提出对于尿液生物标志物的研究,转化为临床最接近的方法是对同一患者进行疾病标志物前后的比较。这样,只要被比较的两种状态之间的生存方式无显著变化,大多数混杂因素就可以被抵消掉。通过使用同一患者疾病前后对照样本进行早期诊断标志物的筛选,并且可以收集健康人的尿液样本作为未来的对照[9]。如在2020年进行的一项研究中,Wu 等[12]通过label-free 定量技术对神经胶质瘤患者的术前和术后尿样进行差异蛋白的分析。由于肿瘤患者术后引起的应激反应较大,延长患者术后样本收集时间对试验样本策略来讲,将会是一个更好的选择,但同时也会增加样本收集的难度。另外,由于各种实验条件的限制,多数尿蛋白标志物的研究还不够成熟,大部分蛋白质组学研究均处于单中心研究阶段,且缺乏在其他肿瘤患者尿液中的验证研究,这样很难建立高可信度和高特异性的疾病生物标志物。因此,这些潜在的肿瘤生物标志物应用到临床中还需要很长的路要走。
3 尿蛋白质组学在肿瘤生物标志物发现中的应用
癌症的进展与癌基因的激活和抑癌基因的失活密切相关,这些变化造成了正常细胞和癌细胞之间基因、蛋白质和代谢物表达的一系列差异,其中一些变化可以在体液中被捕获到来鉴定体内的肿瘤状态。体液中有意义的蛋白质多为低丰度蛋白质,随着MS 技术的飞速发展,基于MS 的高通量、高灵敏及高深度蛋白质组学技术的日渐成熟,为筛选和定量体液中的低丰度生物标志物提供了技术可能。如最新的超灵敏蛋白质组学技术已经能够对临床复杂生物样本中小于微克级的上万个蛋白质实现快速定量深度分析。另外,针对基于MS 的蛋白质组学技术在体液中筛选出的微量目标蛋白,已有多种操作简单且快速的技术用于靶向蛋白的定量分析。如肿瘤标志物即时检测(POCT)技术、基于特异性亲和试剂的ELISA 法、新型的超高灵敏度单分子(Simoa)蛋白质检测技术等。尿液分子包括细胞内成分、循环蛋白和抗体,通常与机体的各个部位接触。因此,对肿瘤患者尿液成分的检测可能有助于识别新的生物标志物和监测疾病的进展。近年来,尿蛋白质组学在各类肿瘤生物标志物发现的研究中得到迅速发展,下面将对11 种常见肿瘤中已发现并初步验证的尿蛋白生物标志物进行归纳总结。
3.1 泌尿系统肿瘤
膀胱癌(bladder cancer,BLCA)、肾癌(kidney cancer,RC)和前列腺癌(prostate cancer,PCa)是国际主要泌尿系统癌症。由于泌尿系统与尿液直接接触,且尿液中70%的蛋白质由泌尿系统产生。因此,尿液十分适用于泌尿系统肿瘤生物标志物的研究。目前,已被推广于临床应用的尿蛋白肿瘤标志物多为泌尿系统癌症。如美国食品药品监督管理局(FDA)批准的BLCA 尿液标志物核基质蛋白22(NMP22)。
BLCA 目前检测和监测肿瘤进展以及复发的标准方法涉及尿细胞学、膀胱镜和活检检查。尽管BLCA 尿液标志物如膀胱肿瘤抗原(BTA)和NMP22等已用于临床尿样检测,但至今临床应用并不如细胞学检查广泛,主要原因可能存在许多干扰因素,如炎症、血尿等会影响检测结果。RC 的诊断以临床表现和影像学检查为主,大多数患者确诊时已到晚期。因此,RC 的早期筛选和诊断至关重要。PCa 目前筛查的手段主要包括前列腺特异性抗原(PSA)/前列腺特异性膜抗原(PSMA)血清水平的测量、直肠指诊(DRE)和前列腺活检。PSA 是PCa 检测、随访和治疗监测中最重要的生物标志物,采用PSA 血清检测可显著降低PCa 的死亡率,但同时也导致了对惰性PCa 的过度诊断和治疗。
基于MS 的尿蛋白质组学技术在常见的泌尿系统肿瘤生物标志物发现中的研究汇总,见表2。提示其中BLCA 相关文献报道,不同于以往疾病组和健康对照组的样本策略,Li 等[13]利用iTRAQ标记定量技术对发现组中BLCA Ⅲ期患者的术前和术后尿样进行蛋白质组学分析,该研究通过验证确认了一组具有代表性的候选生物标志物分子,其表达水平的改变与BLCA 患者的复发率显著相关。因此,这些分子可能成为监测和预测BLCA 的有用生物标志物。这种同一患者术前术后的样本设计很大程度降低了尿液中混杂因素的影响。
表2 常见泌尿系统肿瘤中发现的潜在尿蛋白生物标志物
3.2 呼吸系统肿瘤
肺癌(lung cancer,LC)在国际上是男性中最常被诊断的癌症,也是癌症死亡的主要原因之一。肺癌分为两种类型:小细胞肺癌(small cell lung cancer,SCLC)和非小细胞肺癌(non-small cell lung cancer,NSCLC)。目前用于LC 诊断的方法有胸部X 光、CT、PET、痰细胞学和支气管镜检查等。但这些既耗时又昂贵并且存在受到辐射照射的危险。癌胚抗原(CEA)、鳞状细胞癌抗原(SCC-Ag)和神经元特异性烯醇化酶(NSE)是检测肺癌、监测病情进展和疾病复发的常用血清标志物。然而,对于局限性肿瘤,上述标志物的诊断能力相对较差。事实上,多数LC 病例是在进展期或晚期发现的,因此增加了癌症相关的死亡率。
基于MS 的尿蛋白质组学技术在常见的呼吸系统肿瘤生物标志物发现中的研究汇总,见表3。其中Ma 等[20]通过DIA 定量蛋白质组学MS 技术,发现NSCLC 患者尿液中苹果酸脱氢酶2(MDH2)含量显著高于对照组,并通过ELISA 方法对1 091 例NSCLC患者和736 例健康对照组的尿液样本进行验证,该研究表明,与对照组相比,早期 NSCLC 患者的尿MDH2浓度更高,提示MDH2 可能作为早期检测NSCLC 的潜在生物标志物。该项研究样本量相对较大,增加了研究结果的可信度和说服力,但健康人群与NSCLC患者的人口学特征并不完全匹配,以及尿液中MDH2蛋白在NSCLC 中的特异性均需进一步的验证和研究。
表3 常见呼吸系统肿瘤中发现的潜在尿蛋白生物标志物
3.3 乳腺及妇科肿瘤
乳腺癌(breast cancer,BC) 是女性中最常见的恶性肿瘤,目前诊断程序的第一步包括乳房检查和影像学检查。尽管目前检测到早期BC 的病例数大幅增加,但筛查性乳房X 光检查仅略微降低了晚期癌症的检出率,这种不平衡表明存在严重的过度诊断。在筛查试验呈阳性结果的情况下,需要进行乳腺活检,通过检查细胞形态学来确认癌症的存在。乳腺活检是一种侵入性检查,对患者来说具有一定的风险。卵巢癌(ovarian cancer,OC)尽管在手术和免疫治疗等方面取得了巨大进步,但OC 的5年总生存率仅为45%[24]。肿瘤抗原125(CA125)是OC 中应用最广泛的血清标志物,但缺乏足够的诊断敏感度和特异性使其难以用于早期诊断。子宫内膜癌(endometrial cancer,ECa)的治疗主要是手术治疗。晚期或转移性ECa 的患者预后较差,其5年生存率<20%,与早期患者>90%的5年生存率相比,复发的风险更高[25]。
基于MS 的尿蛋白质组学技术在乳腺癌及常见的妇科肿瘤生物标志物发现中的研究汇总,见表4。其中Ye 等[26]通过SELDI-TOF-MS 和ELISA 方法,对收集的128 例卵巢癌患者、118 例其他类型疾病患者和188 例健康对照组的尿液样本进行分析验证,发现联用来自嗜酸性粒细胞源性神经毒素(EDN)和骨桥蛋白(OPN)的片段,对于早期OC 诊断的灵敏度和特异性分别达到72%和93%。该研究值得注意的是通过对健康对照组和不同类型疾病组进行了尿蛋白质组学分析,发现卵巢癌特异的潜在生物标志物,这样的实验设计为癌症的特异性研究提供了有价值的参考。
表4 乳腺及常见妇科肿瘤中发现的潜在尿蛋白生物标志物
表4 乳腺及常见妇科肿瘤中发现的潜在尿蛋白生物标志物 (续表4)
3.4 消化系统肿瘤
消化系统肿瘤是临床上常见的恶性肿瘤,如肝癌(hepatic cancer,HCC)、结直肠癌(colorectal cancer,CRC)、胰腺癌(pancreatic cancer,PaC)、胃癌(gastric cancer,GC)等肿瘤,其发病率较高,尽管用于诊断的肿瘤标志物较多,但目前尚没有特异性和灵敏度均较高的诊断方法。HCC 目前的诊断方法主要依赖于成像技术,但成本较高且耗时,不适用于早期肝癌的大规模筛查。尽管甲胎蛋白(AFP)、脱-γ-羧基凝血酶原(DCP)和肝素结合细胞因子(MDK)等已被报道为HCC 特异的生物标志物,但由于实际检测的敏感性和特异性较低,研究人员仍在努力寻找新的生物标志物。CRC 目前检测的“金标准”是内窥镜检查,但其具有高侵入性及潜在的并发症等风险。临床数据显示Ⅰ期CRC 患者的5年生存率为93%,而Ⅳ期仅为8%。因此,早期发现CRC 可显著提高患者的生存率。虽然近年来一些CRC 生物标志物,如CEA,已经应用于当前的临床诊断中,但其灵敏度和特异性相对较差。PaC 目前根治的唯一手段是外科手术。然而,仅有20%~25% 的患者在疾病切除有效的早期阶段被诊断出来[32]。在目前的诊断方法中,通常将糖类抗原19-9(CA19-9)血清检测作为PaC 的辅助检测。然而,尽管CA19-9 的敏感性可达80%,但其特异性较低,不适用于可切除期PaC 的检测。GC 的常见症状也见于胃良性疾病,由于不是癌症特异性的,因此通常在进展期或晚期被确诊出来,降低了治疗的效果和患者存活的机会。然而,对于早期胃癌手术治疗后5年生存率在90%以上,这突出了在高危人群中进行早期筛查的重要性。目前,临床使用的胃肠道肿瘤血清学蛋白生物标志物,包括CEA、CA19-9 和癌抗原72-4(CA724),但由于其在GC 患者中的阳性率<40%,且在早期胃癌患者中低于20%,不足以用于GC 的早期诊断。
基于MS 的尿蛋白质组学技术在常见的消化系统肿瘤生物标志物发现中的研究汇总,见表5。与传统ELISA 和Western blot 验证方法不同,Bröker 等[33]利用非靶向蛋白质组学技术发现潜在的候选标志物,再通过靶向蛋白质组学MRM 定量技术进行候选标志物的验证,从而系统地对24 例直肠癌肝转移患者和25 例健康对照的尿液标本进行差异表达多肽筛选和进一步多肽组的验证,发现两个有潜力的多肽其敏感性和特异性分别为88% 和88%,很可能作为直肠癌肝转移患者的无创检测。该研究分别利用不同MS 技术的优势在发现组和验证组进行标志物筛选和验证研究,将蛋白质组学技术合理应用于不同实验分析中,但试验纳入的样本量较少,且亟需大量样本进行后续验证。
表5 常见消化系统癌症中发现的潜在尿蛋白生物标志物
表5 常见消化系统癌症中发现的潜在尿蛋白生物标志物 (续表5)
4 结语与展望
尿液本身具有非侵入性、收集简单、蛋白质稳定、种类多且不受机体稳态机制调控等先天优势。目前,尿蛋白质组学在肿瘤标志物研究中需要解决的主要问题包括:扩大临床验证组的样本量、促进临床多中心合作和提高候选标志物在其他肿瘤中的验证研究。查阅文献发现,基于MS 技术在尿液中寻找用于肿瘤早期诊断的生物标志物不仅仅局限于蛋白质组学的研究,其研究对象和领域已涉及多种物质,如氨基酸、激素、挥发性有机化合物[38]等。有研究系统对基于MS 技术在4 种高发癌症常见标本中发现的肿瘤蛋白标志物进行了综述,其中汇总的常见标本主要为血清和组织样本,旨在阐明肿瘤的发生发展机制、开展精准的靶向治疗,为实现肿瘤精准诊疗提供新的理论依据[39]。本文主要汇总了基于MS 技术在多种常见肿瘤尿液样本中发现的蛋白标志物,旨在寻找疾病早期高灵敏度和高特异性的候选生物标志物,为肿瘤的早诊早治提供更多的临床依据。
随着蛋白质组学检测技术的不断进步和尿中微量蛋白检测灵敏度及稳定性的不断提高,尿蛋白质组学在肿瘤标志物的研究已经取得了很大进步。由于任何一种尿液肿瘤标志物的研究都有其局限性,在临床应用中应当采用单一生物标志物(或生物标志物组)或与临床检测相结合等手段联合分析。此外,伴随日新月异的基因检测新技术的涌现和成熟,结合血清肿瘤标志物、基因标志物和尿蛋白质标志物的联合诊断,期待高灵敏度、高特异性且便捷的肿瘤生物标志物技术被更好地应用于临床,受益于肿瘤患者。