生物信息学技术在生殖领域中的研究进展
2022-02-16周理韡郑书栋黄硕鲁婷刘悦丁之德
周理韡,郑书栋,黄硕,鲁婷,刘悦,丁之德
生物信息学(bioinformatics)是一个诞生于20世纪的新学科,其通过使用计算机数据库和算法分析研究生物过程及生物大分子。美国国立卫生研究院(National Institutes of Health,NIH)2022年将生物信息学定义为:与遗传学和基因组学相关的生物信息学,是一门涉及使用计算机技术收集、存储、分析和传播生物数据和信息的科学,如DNA和氨基酸的序列或这些序列的注释。科学家和临床医生使用数据库来组织和索引此类生物信息,以增加对健康和疾病的了解。在某些情况下,生物信息学技术可运用于临床决策,从而作为整个医疗过程的部分工作[1]。在生殖系统的研究中,生殖细胞的多样性、细胞发育环境的复杂性以及个体的差异性增加了研究的难度,为了进行高效而又精确的研究,生物信息学分析技术在很大程度上为研究者提供了新的方法和思路。现针对生物信息学在生殖系统中的研究现况,介绍近年在生殖系统研究中常用的生物信息学技术,以及在该领域取得的研究进展,为后续研究提供新的思路。
1 基因组相关的生物信息学技术
1.1 二代测序技术(next generation sequencing)二代测序技术以其高通量和高准确度为特点而进入科研工作者们的视野,并已成为被广泛使用的基因组技术之一。
1.1.1 外显子测序(exome sequencing)外显子测序常用来为生殖系统疾病的科学研究提供原始基因数据,进而为后续研究奠定必要的基础。Wei等[2]运用该技术对人前列腺癌组织基因进行分析并发现了210种基因突变,其中有133种突变发生在临床前列腺癌研究中已知且易产生突变的基因片段。与未治疗的前列腺癌患者相比,接受雄激素去势治疗且失败的患者其前列腺癌组织中编码CELSR3、CSMD1和FGD5等多个蛋白的基因片段有更多突变,表明这些基因突变可能是潜在的癌症驱动突变(driving mutations),该研究也为寻找前列腺癌治疗的新靶点提供了方向。此外,Ballabio等[3]用外显子测序检测27份冷冻保存的肿瘤活检标本,初步确定了高级别浆液性上皮性卵巢癌患者共有的基因组异常,获得的异常测序数据也在后续实验中被用于识别体细胞拷贝数变化。
1.1.2 靶基因测序(targeted sequencing)靶基因测序能够用于生殖系统组织器官的目的基因测序,以及疾病病理性质和病变情况分析。Wei等[2]利用该技术验证了相关基因突变后发现,不同前列腺癌患者的肿瘤组织以及同一肿瘤组织不同位置处的基因突变并不完全相同,证明了前列腺癌在癌间和癌内均存在异质性。此外,Lee等[4]对217个与卵巢癌相关的基因进行了靶向测序,还补充了常见单核苷酸突变的靶基因测序,从而确定了卵巢癌患者在新辅助化疗后仍存在的残留病变组织的基因组改变谱。该研究还发现,与没有同源重组修复(homologous recombination repair,HRR)基因突变的患者相比,有HRR突变患者的肿瘤突变负荷更高,这表明该类患者具有更多的潜在治疗靶点。
1.1.3 染色质免疫共沉淀测序(chromatin immunoprecipitation-sequencing,ChIP-Seq)基于二代测序技术,ChIP-Seq技术可用于目的基因测序或识别基因变异等。Stelloo等[5]用ChIP-Seq技术对雄激素受体基因进行测序,为后续的差异基因分析提供了实验依据。此外,Corona等[6]也运用ChIP-Seq技术识别调控元件以及被获得性非编码变异干扰的基因,对原发性卵巢肿瘤中染色质活性的组织类型特异性进行了表征。
1.2 DNA微阵列分析技术(DNA microarray)微阵列分析技术是一种先进的全基因组拷贝数变异检测技术,可以在排除正常生殖系统基因拷贝数变异的基础上识别肿瘤特异性的基因组改变,因而在生殖系统领域基因组相关研究中具有重要地位,对相关疾病的病因分析和治疗做出了贡献[3]。
1.2.1 微阵列比较基因组杂交技术(array-comparative genomic hybridization,arrary-CGH)arrary-CGH可以为生殖系统相关疾病的病因分析提供理论依据和数据支撑,也使研究过程更为严谨。如Yatsenko等[7]通过arrary-CGH对269例23~37岁的育龄女性和111例原发性卵巢功能不全(primary ovarian insufficiency,POI)患者的X染色体进行了高分辨率的基因拷贝数分析,并概述了两者X染色体结构的关键差异,表明X染色体的拷贝数变异可能在POI病因学中发挥重要作用。此外,Ballabio等[3]也采用该方法对57份卵巢癌活检标本进行了研究,并将研究范围从外显子测序能够检测到的编码区域扩大至整个基因组,发现2种不同的基因组技术获得的体细胞拷贝数变化无差异,再次验证了高级别浆液性上皮性卵巢癌患者所共有的基因组异常,确保了研究的严谨性和科学性。
1.2.2 微阵列单核苷酸多态性技术(array-single nucleotide polymorphisms,array-SNP)基于单核苷酸多态性微阵列的核型定位能够分析分布在整个基因组中的数千个单核苷酸多态性(single nucleotide polymorphisms,SNP),从而确定个体的基因型。Cariati等[8]发现通过将父母染色体中与待研究疾病相关的SNP与胚胎细胞中存在的SNP进行比较,可以确定突变携带者。此外,该技术还可为生殖系统相关疾病的治疗提供新的思路。如Cuppens等[9]用array-SNP对全基因组体细胞突变进行了特征分析,深入了解并确定了潜在的子宫平滑肌肉瘤治疗的新靶点,为这种治疗方法有限的罕见恶性肿瘤提供了新的治疗线索。
2 转录组相关的生物信息学技术
2.1 单细胞RNA测序技术(single cell RNA sequence,scRAN-Seq)传统测序技术的测序对象局限于组织内的混杂细胞群,无法解答单一细胞间的异质性表达。单细胞全转录组分析则可以在细胞水平上研究基因的表达模式,开启了肿瘤等复杂组织组学研究的新篇。近年各种类型的scRAN-Seq和相关的分析工具蓬勃发展并运用于生殖系统的研究,如检测转录组信息、识别细胞亚型[10]、跟踪细胞谱系[11]、构建基因之间的调控网络等[12],为生殖系统组成细胞的特征提供了有意义的信息。
2.1.1 空间转录组技术(spatial transcriptome technology,ST)由于单一scRAN-Seq仅针对单个细胞,细胞空间信息的丢失难以避免,而ST技术恰好能够定位和区分功能基因在特定空间位置的表达情况,并识别肿瘤组织的空间异质性。通过使用一种去卷积(deconvolution)的ST技术,Berglund等[13]首次分析了同一多灶性前列腺癌的近6 750个组织区域的转录组水平,发现不同组织区域内癌细胞的转录组水平存在显著差异,确认了肿瘤组织存在空间信息的价值。此外,基于ST技术定位的癌症表达区域可以延伸到基于病理学标注的肿瘤区域边界之外,提示空间基因表达谱可用于预测癌症、前列腺上皮内瘤变(prostatic intraepithelial neoplasia)或炎症的潜在侵袭区域。因此,这种大规模的组织区域分析可以作为基于转录组的癌症组织临床评估基础,同时提供信息更为全面的肿瘤微环境基因表达谱。另外,Garcia-Alonso等[14]首次用单细胞测序和Visium空间转录组学技术结合的方法分析了3份筛查潜在子宫内膜疾病的子宫内膜活检样本及6份死于非妇科原因的供体子宫内膜样本,成功绘制了育龄期妇女整个月经周期的子宫细胞状态图谱,这为研究许多被忽视的子宫内膜疾病提供了重要参考。
2.1.2 时间序列的单细胞转录组分析(single-cell transcriptome analysis of time series)正常生理活动的进程或疾病的发展是一个动态过程,时间序列的单细胞转录组分析通过对同源同种细胞进行差异时间采集分析,依次构建出特定细胞随传代数增加而改变的表达谱,这对探究个体发育等进程具有特殊意义。如Stévant等[11]对卵巢Nr5a1-绿色荧光蛋白(Nr5a1-GFP)阳性体细胞使用时间序列单细胞RNA测序,确定了一个产生前颗粒细胞和潜在的类固醇生成前体细胞的早期祖细胞群。此外,在比较XX和XY体细胞的时间序列单细胞转录谱时发现,性腺支持细胞源于早期祖细胞,且分化过程中不涉及性别特异性表达。类固醇生成前体细胞的分化具有类似的特点,仅XX细胞表达有延迟。该研究结果从单细胞测序视角为进一步研究睾丸和卵巢发育的分子和细胞程序提供了重要资源。此外,Cao等[15]对61只孕第9.5、10.5、11.5、12.5或13.5天的母鼠分别使用单细胞组合索引RNA测序技术(第3版)分析了约200万个小鼠胚胎细胞,由此形成的“小鼠器官发生细胞图谱”可提供小鼠胚胎发育过程的全局视图,尤其是发育关键的窗口期细胞的动态变化。
2.2 生殖相关非编码RNA(non-coding RNA,ncRNA)转录组分析ncRNA是重要的转录调控物,测序ncRNA及其调控网络有利于研究者理解生殖相关信号通路的走向及相关疾病发生、发展的影响因素,为下一步的基础研究奠定必要的基础。Zeng等[16]基于共表达和竞争性内源RNA理论以及转录组学手段挖掘出多囊卵巢综合征发展的关键长链非编码RNA、微小RNA和mRNA,并寻找可能通过逆转其表达而发挥作用的潜在治疗药物。此外,Guo等[17]利用RNA测序技术发现衰老将会改变小鼠和人类精子tRNA来源的小RNA(tRNA-derived small RNA,tsRNA)表达谱,且该变化能通过跨代遗传导致子代发生焦虑。
3 蛋白质组学相关的生物信息学技术
蛋白质组学的研究多应用于肿瘤或生殖系统障碍的生物性标志物的研究,同时也为临床治疗提供了新的靶点和视角[18]。目前蛋白质组学研究方式多为利用质谱分析目标蛋白[19],再通过各种数据库绘制其信号、生化通路或使用基因本体论富集分析(Gene Ontology,GO)研究目标蛋白的作用[20]。
3.1 质谱(mass spectrometry,MS)及其联用质谱是蛋白质组学研究中的常用方法,一般与各类分离技术结合,分离复杂的生物样品并从中检测出目标蛋白[21]。
3.1.1 基质辅助激光解析/电离成像质谱(matrixassisted laser desorption/ionization-mass spectrometry imaging,MALDI-MSI)MALDI-MSI可用于寻找生殖系统相关疾病的生物标志物,Lahiri等[22]利用MALDIMSI结合鸟枪蛋白质组学(shotgun proteomics)发现睾丸中芳香化酶P450过表达会导致生精障碍并出现炎症,提示睾丸正常生精过程遭到破坏。因此,芳香化酶P450或可作为男性不育的诊断标志物。此外,邱晓菲等[23]使用基质辅助激光解析电离飞行时间质谱(matrix assisted laser desorption ionization time of flight mass spectrometry,MALDI-TOF-MS)技术分析宫颈鳞癌组织切片,获取早期浸润宫颈鳞癌的分子标志物,并发现了7种有意义的差异蛋白,为宫颈癌的诊断及治疗提供了新的思路。朱宇[24]利用MALDI-MSI分子成像技术对多囊卵巢综合征患者子宫组织进行检测,为多囊卵巢综合征小分子代谢物的研究提供了新的方法。
3.1.2 基于顺序窗口采集所有理论质谱(sequential window acquisition of all theoretical spectra MS,SWATH-MS)的无标记定量蛋白质组学SWATHMS在研究中的优势在于该方法可对复杂的大样本中的蛋白质进行精确定量,并保证高重复性和一致性。Kumar等[25]用SWATH-MS法在20名孕妇的高位阴道液(high vaginal fluid)蛋白质组中确定了61种蛋白质在妊娠中晚期发生了明显的改变。
3.1.3 其他高新技术近年有很多的新型技术不断涌现。有研究用元蛋白质组学的方法研究女性感染人类免疫缺陷性病毒(human immunodeficiency virus,HIV)的可能性与自身状况和阴道内微生物的相关性,从而对不易培养的环境微生物蛋白质组学进行研究。蛋白质组学研究发现,感染HIV的女性患者的生殖道黏膜蛋白出现功能障碍,而这些黏膜蛋白的变化与女性体内激素异常、炎症以及阴道微生物菌群的影响密切相关[26]。另外,也有研究通过单细胞蛋白质组学的分析策略,利用膜渗透活性探针表征位于细胞质中溶酶体的相关功能性蛋白,从而在蛋白层面识别细胞群的异质性[27]。
3.2 蛋白质组学常用数据库实现高通量的研究离不开对大量数据的运算。生物信息学数据库可以快捷地储存、提取生物数据,并进行简单的分析和预测。
3.2.1 传统数据库一些寻找关键蛋白或者标志物的研究常用GO富集分析对检测到的大量蛋白质进行分类,从而筛选出目标蛋白。Hitit等[28]利用GO富集分析将高生育率公羊与低生育率公羊精子中的大量蛋白进行富集,并对差异蛋白GO生物过程进行标注,发现其最具代表性的蛋白质用于细胞呼吸,腺苷三磷酸(adenosine-triphosphate,ATP)代谢过程,纤毛或鞭毛依赖性细胞运动;而对GO细胞组分分析发现,最具代表性的蛋白质存在于线粒体基质和运动纤毛等细胞器中。
另一方面,在一些信号通路或生化通路的研究中,京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)数据库可以提供重要的靶分子通路信息。在对附睾各段解剖特征的分析研究中,Zhao等[29]对不同附睾分区的大量蛋白质进行KEGG信号通路分析,发现大量的附睾蛋白质主要参与内质网的信号通路,如蛋白质处理和代谢相关的信号,而在附睾尾部发现的蛋白质则参与了细胞运动和黏附过程。
3.2.2 新型数据库除了传统的GO分析和KEGG分析,更为先进的通路分析软件(Ingenuity Pathway Analysis,IPA)也逐渐在各类研究中得到应用。如对慢性高脂肪饮食小鼠睾丸蛋白的研究中,Jarvis等[30]使用IPA方法围绕慢性高脂肪饮食对睾丸的影响进行了通路分析,证实通过慢性高脂肪饮食改变的102种睾丸差异表达蛋白很多都是功能相关的。与传统的GO富集分析和KEGG通路分析相比,IPA主要用于分析组学数据,以及构建个性化通路,以更直观地反映其内在通路与上下游之间的关系。
4 代谢组相关的生物信息技术
与基因组和蛋白质组分析相比,人类代谢物仅由大概3 000种代谢物组成,较少的代谢物数量意味着可以更快地进行分析,在临床上具有实际运用价值。
4.1 核磁共振光谱(nuclear magnetic resonance,NMR)NMR是分析生物流体的理想平台,只需要制备少量小体积样品即可快速、非破坏性地针对代谢物进行分析。NMR可用于研究生殖系统疾病导致的机体代谢差异。McClements等[31]通过高分辨率1HNMR比较子宫灌注压降低诱导的母体心脏、胎儿心脏和胎盘的代谢组分变化,发现胎盘和母体心脏的能量代谢、碳水化合物、脂质和氨基酸代谢变化较大,而胎儿心脏的代谢变化较小。此外,NMR还可以帮助诊断生殖系统疾病。Reynolds等[32]利用1H-NMR对密度梯度离心后获得的不同层次精子进行代谢组学分析发现,如所选的精子群体存在形态缺陷,则提示未成熟精子比例较高,且精子中乳酸、胆碱和甘油磷酸胆碱浓度也偏高,脂质组成也同样存在差异。NMR技术可从低浓度精子样本中获取大量分子信息,证明了其运用于少精子症、弱精子症或畸形精子症患者精子检查分析的可行性。
4.2 质谱及其联用质谱比NMR更为敏感,并且通常需要材料更少,动态范围也较广,但质谱的重现性较差。
4.2.1 液相色谱联用(liquid chromatography-MS/MS,LC-MS/MS)LC-MS/MS可作为一种筛查工具,在不育原因不明的情况下检测男性不育的因素。Engel等[33]用LC-MS/MS分析20名健康捐赠者的精子和精浆中氨基酸、生物胺、糖等多个代谢物,发现精子中的代谢物与精子活力密切相关,而精浆中的代谢物与精子浓度和形态密切相关。Walters等[34]通过LC-MS/MS分析了94例体外受精妇女卵巢刺激后的血清与相匹配的单显性卵泡液的类固醇谱,发现在血清和卵泡液中均可检测到孕酮、雌二醇、雌酮、脱氢异雄酮、雄烯二酮和睾酮,而只有少数血清和卵泡液样品中检出了二氢睾酮、3α,5α戊二醇、3β,5α雄固烷二醇,该研究未发现显著相关的可预测体外受精成功率的类固醇因子。Yuan等[35]对鹅卵泡发育过程中的硬脂酰辅酶A氢酶(stearoyl-CoA desaturase,SCD)进行代谢组学分析,在SCD过表达组和敲除组用LC-MS/MS测定颗粒细胞中SCD的功能,结果显示胆固醇在过度表达组中变化最大,而泛醇在敲除组中变化最大。基于以上数据,该研究认为胆固醇和泛醇可作为研究SCD相关脂质代谢的潜在代谢组学生物标志物。
4.2.2 高效液相色谱联用(high performance liquid chromatography/MS)高效液相色谱联用可用于生殖系统疾病潜在病理机制的研究。Yu等[36]用高效液相色谱-电喷雾电离-串联质谱法检测花生四烯酸的靶向代谢网络,发现弱精子症患者异常的花生四烯酸代谢网络可通过脂氧合酶、细胞色素P450和环氧合酶代谢途径激活p38丝裂原活化蛋白激酶,从而降低精子活力。
4.2.3 气相色谱和质谱联用 (gas chromatography/MS,GC/MS)GC/MS常适用于寻找生殖系统疾病的潜在生物标志物,以期帮助疾病的诊断和治疗。Zhao等[37]通过运用GC/MS的非靶向代谢组学方法对特发性弱精子症患者和健康受试者的精子细胞样本中含有的33种代谢物进行了鉴定与分析,发现在特发性弱精子症组中有27种代谢物减少,6种代谢物增加,其中有一些代谢物是首次被报道。
4.2.4 超高效液相色谱和质谱联用 (ultra-high performance liquid chromatography/MS,UHPLC/MS)UHPLC/MS主要借助了高效液相色谱的原理,涵盖了小颗粒填料、快速检测手段等全新技术,增加了分析的通量、敏感度及色谱峰容量。UHPLC/MS可用于发现生殖系统疾病的潜在代谢标志物。Ilhan等[38]使用UHPLC/MS分析女性宫颈阴道代谢物差异,共计发现475种已知代谢物,其中与HPV阴性组相比,HPV阳性组和宫颈发育不良组的宫颈阴道代谢物的多样性降低,特定的氨基酸和核苷酸类代谢物减少,但宫颈癌患者的代谢物多样性增加,尤其是多种脂质类代谢物增多。
此外,UHPLC/MS还可用于探索生殖系统疾病相关的毒理学机制研究。Shi等[39]使用UHPLC/MS和Q-Exactive高分辨率质谱仪分析结果表明,暴露于PM2.5的小鼠精母细胞的总氨基酸浓度、核苷酸浓度显著降低,且显著减少的氨基酸大多参与了柠檬酸循环,证明暴露于PM2.5会导致小鼠睾丸精母细胞线粒体的功能受损,引起精母细胞损伤和精子活力下降。
5 结语与展望
生物信息学在生殖系统中的应用非常广泛,基因组和转录组的研究为下游蛋白质组学的研究提供了支持,而作为大部分生化过程的终产物,蛋白质组学的研究最为广泛。利用二代测序技术和基因芯片技术等,根据差异表达的基因组和转录组,寻找出研究各类组织及器官中的目标基因,而后通过质谱等方法研究其表达产物。后续可以通过KEGG和GO富集分析将目标蛋白作为标志物或临床靶点研究,也可以利用其他数据库对蛋白序列进行建模或预测性质。目前,在生殖系统疾病的病理机制研究中,大部分都集中在对某一生殖系统疾病致病基因、标志物蛋白或临床靶点的探索等。另一方面,临床上也常运用代谢组学技术对代谢终产物进行检查分析。此外,精子的发育过程作为男性生殖的一个研究重点,其所处环境的特殊性、蛋白质表达的时空差异性和研究标本的个体差异都增加了研究难度,这也使得生物信息学技术在此类研究中的作用至关重要。需要指出的是,生物信息技术在生殖系统疾病病理机制探索中的应用极大地推动了相关疾病临床诊治进程的优化,如男性不育的诊断分子和治疗靶标的发现等,相信生物信息学技术必定会持续发挥巨大作用,也会更进一步促进生殖系统基础理论研究的不断创新。