组学研究进展
2021-01-06张强王悦李美秋郑健
张强 王悦 李美秋 郑健
组学是基于高通量分析的集合生物学系统,根据分析目标的不同可分为基因组、转录组、蛋白组、代谢组和RNA组等,以整体角度去研究生物体内DNA转录、RNA翻译、蛋白质修饰和代谢产物的功能等情况。目前多组学的发展也实现了各个数据的互补,解决了人类利用单一组学无法解决的问题,使人类对生物体的表达信息研究更透彻。
1 基因组学
基因组学是由美国科学家Thomas Roderick于1986年提出的,指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录本图谱)、核昔酸序列分析、基因定位和基因功能分析的一门科学[1]。自21世纪以来,作为世界上最有影响力的学科,并不只限于生物学的范畴,而是与其他学科相互融合,不断发展新技术、新领域。通过基因组测序和DNA微阵列技术可以更深地了解一个物种的分子进化、系统发育和基因调控等特点。其中基因组测序的核心:第二代测序技术(NGS),它能够捕捉新合成的末端的标记来确定DNA的序列,可以快速高效的鉴别单核苷酸多态性(SNPs)标记、插入和缺失(InDel)标记等[2]。Peterson等[3]利用双酶切系统的基因组测序技术在鹿鼠的2个姐妹物种的杂交群体中共获得了1 000多个SNPs,且具有固定差异,并利用1 000多个SNPs构建了遗传图谱。DNA微阵列则可以高通量检测分析DNA结合蛋白与大量DNA分子相互作用,用以确定转录因子的DNA结合亲和性、特异性及序列偏好性[4]。Wong等[5]将DNA微阵列技术与最新的一种转录因子DNA结合特异性高通量表征技术-SELEX-Seq相结合,表征了转录因子NF-κB的9种二聚体与各种11-mer序列的结合亲和性,进一步鉴定基因调控区中与性状、疾病相关的重要SNP。
20世纪90年代初,以美国为主导的人类基因组计划开始兴起;1998年,中国在上海和北京相继成立了人类基因组南方研究中心,1999年,中国参加人类基因组计划(HGP),成为继美、英、日、德、法之后第六个国际HGP参与国,近年来,水稻基因组、人类基因组等两个重大科技项目以及由此在中国逐步实施的一系列基因组和功能基因组测序与研究工作都实现了跨越式的发展[6]。在未来10~20年间里,人类对基因组学的研究进入后基因组研究阶段,并尝试解读所有模式生物、模式基因组和代表生物的遗传密码,也将更容易、更完全地理解基因对人类生、老、病、死的影响,根据相关致病基因的定位、排序等信息,就能够找到包括肿瘤以及非肿瘤疾病的许多顽症病因,有针对的设计和筛选新药,或者改变基因在染色体上的线性排列,纠正基因组中可能出现的遗传缺陷,研制出相应的药物,治疗相关疾病。
2 转录组学
转录组学是功能基因组学研究的重要组成部分,是一门在整体水平上研究细胞中所有基因转录及转录调控规律的学科[7]。作为率先开展起来的一门技术已经在生物学研究中得到了广泛的应用,包括动植物和微生物基础研究、临床诊断和药物研发等领域。由于基因调控复杂、测序成本高,对转录组学的分析只能局限在极少数基因的研究,但近几年来随着分子生物学的快速发展,使转录组学技术得到了巨大的进步,主要有基于杂交的基因芯片技术和基于测序的基因表达系列分析技术(SAGE)、大规模的平行测序技术(MPSS)、RNA测序技术(RNA-sep)。基因芯片是利用红、绿荧光染料分别标记实验样本和对照样本cDNA,将样本混合后与基因芯片杂交,可显示实验样本和对照样本基因的表达强度,主要应用于基因表达检测、寻找新基因和基因突变以及基因文库作图等方面研究;SAGE技术是一种可以定量并同时分析大量转录本的方法,而MPSS是在SAGE的基础上进行改进,在cDNA上添加了接头,是新一代测序发展的先驱;RNA-sep技术则是先将细胞中的所有转录产物作为cDNA 文库,然后将cDNA文库中的DNA随机剪切为小片段,再在cDNA两端加上接头,并利用新一代高通量测序仪测序,直到获得足够的序列,最后将所得序列通过比对或从头组装形成全基因组范围的转录谱[8]。
最初Lockhart等[9]在研究酵母基因表达时提出了转录组的概念,近几年研究范畴进一步扩大,将组学概念广泛应用于肿瘤、代谢工程领域和药用植物研究中,如利用RNA测序分析技术研究抽烟对肺癌的影响、发现蔬菜作物转录组的重要基因以及用蛋白质药物等产品生成大量动物细胞系等。转录组学也将为疾病控制和新药开发、作物和畜禽品种的改良提供新思路,为人类解决健康问题、食物问题、能源问题和环境问题提供新方法。随着各种转录组学研究技术的进步,特别是测序技术的应用,转录组学的探索已经进入了全新的阶段。
3 蛋白质组学
蛋白质组学是以蛋白质组为研究对象,从整体、动态和定量的角度去研究基因的功能,是后基因组计划的一个重要组成部分[10]。与基因组学和转录组学相比,蛋白组学的组成更加庞大和复杂,能帮助人类从更多的角度去探究生命的本质,因此受到国内外高度重视。蛋白组学的发展离不开相关实验技术的进步,不仅可以分离、鉴定和筛选相关蛋白质,还可以对制得的蛋白样品进行分析,主要核心技术包括双向电泳、酵母双杂交、蛋白质芯片及质谱分析。双向电泳是蛋白质组学研究中的重要分离手段,能够提高细胞内蛋白质分离的分辨率,并反映机体的蛋白质表达水平及转译后的修饰状况,具有简便、快速、高分辨率等优点,但同时也有自动化程度低,重复性差,以及对过大和过小分子量的蛋白质、低丰度蛋白质、极酸或极碱和难溶的蛋白质如膜蛋白等分离困难的缺点[11,12]。酵母双杂交技术是鉴定蛋白互作最有效和最广泛的分子生物学技术,该技术能直接作用于活细胞,检测细胞内蛋白质互作,具有成本低、易操作、可达到全基因组水平、能进行品种间的互作鉴定等诸多优点[13]。蛋白质芯片是一种高通量的蛋白功能分析技术,用于蛋白质表达谱的分析,研究蛋白质与蛋白质的相互作用,筛选药物作用的蛋白靶点,具有高通量、功能广、特异性和灵敏度高等特点[14]。质谱分析是唯一可以确定分子质量的方法。在高分辨率质谱仪中,能够准确测定质量,而且可以确定化合物的化学结构式,也可以测定正确蛋白质分子的质量,进行蛋白质分子鉴定、修饰和相互作用的研究[15]。
Wilkins等首次提出了蛋白质组的概念,2001年,蛋白质组学成为仅次于干细胞研究的六大热点之一[16,17]。近几年国内外许多学者利用蛋白组学技术广泛应用于植物学、食品科学以及疾病研究等。Jiao等[18]对陆地棉幼苗根系在响应盐胁迫过程的分析中,阐明抗坏血酸氧化酶、谷胱甘肽转移酶的同源蛋白表达显著上调。Mao等[19]对不同脂肪含量的牛肉进行蛋白质组学分析,结果表明,HSPB1蛋白(一种热休克蛋白)的表达具有差异。SPRAGGINS团队利用MALDI MSI进行肾细胞癌组织成像,得到高分辨率的蛋白质成像图,结果显示肿瘤和正常区域不同的分子分布,表明MSI可以分析组织特异性分子的能力[20]。因此,蛋白质组的研究已开辟了一个广大的生命科学的全新领域,使人类对生命的本质和发展过程的认知达到一个新的高度。
4 代谢组学
代谢组学是全面系统地研究生物样本或器官小分子代谢产物的科学,可利用现代的分析技术针对在特定时间内对生物体某一特定细胞、血液等代谢产物进行定性、定量的多元化检测分析,从而达到对植物、动物等组织进行无损伤的动态研究[21]。近年,代谢组学研究分析方法愈加先进,包括磁共振技术(NMR)、质谱、气相色谱-质谱联用(GC-MS)和液相色谱-质谱联用(LC-MS)等。NMR是当前代谢组学研究中的主要分析技术,能完成代谢产物中大多数化合物的检测,所产生的波谱可检测血浆、尿液等生物基质中一些特殊物质的微妙变化;质谱技术则具有较高的灵敏度和专属性,能够高效的分析和鉴定多种化合物;GC-MS可以同时分析几百个化学性质不同的化合物,具有较高的灵敏度和分辨率,可定性定量分析代谢产物;LC-MS相对于GC-MS能够精密地分析高极性和高相对分子质量的化合物,从而检测和鉴定一些复杂的代谢产物[22,23]。
代谢组学是是于基因组学、转录组学和蛋白组学后的一门新的组学研究技术,最早是由英国理工大学Jeremy Nicholson提出,2000年由德国Fiehn对这一概念进行完善[24],目前广泛应用于动物、植物、微生物、医学等领域。Rohart等[25]利用NMR对大白猪、长白猪和皮特兰猪的血浆进行代谢物检测,结果显示肌酸酐、缬氨酸、柠檬酸、β-丙氨酸、乳酸、丙氨酸和异亮氨酸等代谢物与猪的瘦肉率性状相关,可以用于猪瘦肉率预测;Francini等[26]利用NMR技术分析不同品种的苹果干中的多酚类物质,发现了苹果干中儿茶素、绿原酸等活性物质和其抗氧化能力是区别其品种的判断依据;Orikiiriza[27]等利用NMR技术对恶性疟原虫患者血浆进行检测,发现其宿主脂代谢发生紊乱;热比姑丽等[28]采用1H-NMR技术研究发现银屑病患者血清低密度脂蛋白、糖蛋白及酪氨酸含量较健康志愿者显著降低,乳酸、肌酸及苯丙氨酸水平显著升高,提示银屑病发病存在氨基酸、脂类及其一些小分子化合代谢紊乱。综上所述,随着代谢组学技术快速发展,应用范围会更加广泛,人们将会在临床疾病诊断、药学及营养学中大大受益,进而造福人类。
5 RNA组学
RNA组学是以基因组学研究技术为基础,探索生命个体的细胞中非编码RNA的结构和功能,并通过RNA的转录以及翻译成蛋白质等过程去揭示生命个体的遗传信息,进一步解析人类基因组的结构和功能[29]。近年来,人们从参与蛋白质编码的RNA逐渐深入到基因组中的非编码RNA的研究,非编码RNA主要包括参与蛋白质翻译的tRNA和rRNA、染色体复制中的端粒RNA以及在转录水平前后起重要作用的miRNAs等。目前,RNA组学主要核心技术有miRNA治疗干预技术和RNA干扰等。miRNA是一段进化上保守的、长度为19~25个核苷酸的非编码单链RNA,它在人类肿瘤疾病中异常表达,阻碍了对许多疾病的治疗,所以对miRNA的表达调控进行一定程度的干预已成为RNA组学研究的热点[30]。RNA干扰技术则是以双链RNA为基础,降解外源性和内源性的mRNA,从而使机体外源基因和病毒基因等沉默,达到机体的特定核苷酸序列不受侵害[31]。
近年来,随着国内外的RNA组学技术逐步发展和进步,对非编码RNA研究也在肿瘤诊断和治疗、农业和疾病预防等领域广泛应用。姜妍等[32]使用两种模式的干预miRNA对结直肠癌手术患者进行观察和对比中发现,使用常规模式和FTS-CIS模式对miRNA进行干预后可使结直肠癌患者病情恢复,并且能够降低并发症发生率。Guo等[33]以小菜蛾为模型,利用RNA干扰技术研究昆虫的耐药性,发现当沉默ABC转运蛋白基因时,可降低小菜蛾幼虫对杀虫剂的毒素敏感性,从而降低小菜蛾的抗药性。Linke等[34]引入了治疗禽流感病毒的新方法,利用小干扰RNA的细菌载体靶向禽类黏膜上皮细胞,并使用小干扰RNA来对抗禽流感中的核蛋白及聚合酶酸性蛋白,发现这些抗病毒载体使病毒滴度降低了10 000倍。综上所述,RNA组学作为基因组学之后的新兴科学,在生命个体中细胞的分化和发育、表观遗传中RNA的调控以及人类疾病发生的诊断和治疗等具有重大的意义。
6 微生物组学
微生物组学是以特定生物样品中微生物群体为研究对象,以功能基因筛选和测序分析为研究手段,对微生物多样性、种群结构、进化关系、基因功能等及其与环境之间的相互关系进行研究的微生物研究方法,揭示了微生物多样性与人和生态稳定性之间关系[35],近十几年里,微生物组学多利用扩增子测序技术检测样本中微生物的种类及构成、微生物群落的多样性及不同微生物的组成差异等。扩增子测序是利用PCR反应的引物来扩增基因组的特定区域,靶向地捕获目标区域的DNA,达到目的DNA片段的富集目标,最后针对扩增产物(也被称为扩增子)进行高通量测序,分析序列中的遗传变异等信息,主要包括16SrRNA标记和转录间隔区(ITS)等方法[36]。16sRNA为核糖体RNA中的一部分,它具有种内基因序列相对一致而种间差异较为明显的特征,在全部细菌染色体基因组中表达,并且能够调控生物蛋白质的合成,是研究细菌系统分类中有效的分子标记[37];ITS鉴定是指对ITS序列进行更准确的DNA测序,然后将ITS序列与已知真菌ITS序列比对,从而分析种属间和菌株间的差异的一种方法,目前广泛应用于真菌不同种属的系统发育分析[36]。
早在19世纪巴斯德创立了细菌学,逐渐有了灭菌的意识和主动利用单一微生物的方法[38]。20世纪以来人们对微生物的形态结构、生化和遗传特性、基因调控等有了更深的了解,研究以微生物发酵为主的生物技术,近年来随着微生物测序的方法不断进步,使得微生物组学广泛应用于医学、农业、工业及生态环境等方面。Brown等[39]应用16SrRNA分析发现,正常健康个体肠道中富含产乳酸和丁酸的细菌群,这些细菌可合成大量黏蛋白以维持肠道健康;张纪红[40]发现微生物肥料可以释放养分供给植物营养以刺激植物的生长,同时还具有抑制病菌和改良土壤等功能;Moita等[41]表明通过微生物合成的一种细胞内聚酯-PHA可以克服纯培养技术的一些缺点,从而显著地降低了生产成本,增加了经济上的竞争力。因此,微生物组学的快速发展将在疾病控制、农作物生长及工业生物技术方面发挥重要作用,未来也会与基因组学、代谢组学等共同推动组学的发展与进步。
7 其他组学
糖组学被定义为单一生物体中全部聚糖的总称,是研究糖组结构与功能的科学,主要研究聚糖组的分离与纯化、糖链组的分离、糖链的结构解析及糖链性质和功能。聚糖组的分离与纯化主要分为:(1)糖蛋白组的亲和层析法、透析法、滤膜超滤法化;(2)蛋白聚糖组的凝胶过滤层析法、凝集素亲和色谱;(3)糖脂组的柱层析色谱法、薄层层析印迹法等;糖链组的分离则是将糖链从糖蛋白、蛋白聚糖或糖脂上有效分离下来并进行高效富集,然后对糖链结构进行定量分析,其主要包括亲水色谱法和固相萃取技术等;糖链的结构解析和定量是糖组学的核心内容,主要是利用生物质谱分析、凝集素芯片技术等去获取某一特定类型糖链组中所含有的所有糖链的结构和含量信息[42]。目前,糖组学技术可应用于乳腺癌和肠癌等一些常见癌症的分析,但由于糖链结构的复杂性,糖组学技术始终没有进展性的突破,与基因组和蛋白组相比仍停留在起始阶段,相信随着研究的深入,糖组学的发展会随其他组学达到新的高度。
影像组学是通过计算机软件,从医学影像中得到大量有代表的影像,使用统计学的方法,选择出最有价值的影像组学图像,用来分析临床信息、疾病的定性、肿瘤分期、疗效评价和预后预测等[43]。这一概念诞生不足八年,是基于常规影像学的基础上,通过对影像学数据进行标准化获取,然后进行分割和重建图像,再进一步筛选有特征有代表的图像,最后应用临床并且共享数据库。2012年,荷兰学者Lambin首次提出影像组学概念;2014年,Gillies[44]在北美放射学会提出影像组学可以预测肿瘤遗传异质性的程度。因此近年影像组学主要应用于肿瘤诊断、治疗和预后等方面,包括肺癌、乳腺癌、头颈癌、直肠癌、脑肿瘤、前列腺癌、食管癌、肝癌等多种肿瘤疾病。影像组学在MRI、CT等一些超声技术中也有初步研究,如Zhang等[45]在超声弹性图像中提取364个高通量特征用于乳腺肿瘤鉴别诊断,准确率为88%,灵敏度为86%,特异度为89%。因此,影像组学通过医学成像和超声技术对目前癌症诊断和治疗等起重要作用,未来也将会对临床医学产生深远的影响和巨大的变革。
脂质组学是对脂质分子种属及其生物功能的全面描述,主要研究与蛋白质表达有关的脂质代谢及其功能,它是代谢组学的一个重要分支,并且属于生命科学的范畴[46]。由于脂类化合物种类繁多,生物样品基质复杂,因此首先要使用固相萃取、超临界萃取等技术提取样品,然后利用MS、LC-MS等仪器对其全脂分析、目标分析以及成像分析,最后使用SECD等软件对获得的生物标志物进行信息处理[47]。近年由于脂质组学的研究方法取得了突破性进展,广泛应用于疾病诊断和食品科学领域等。如于莉[48,49]通过脂质组学技术对小细胞肺癌患者进行研究,发现与对照组相比早期诊断指标中磷脂酸在小细胞肺癌的男女患者中都显著增加,而在非小细胞肺癌患者中含量没有明显的变化,推测出磷脂酸的增加可能是小细胞肺癌的特异性标志物;以及借助HPLC与MALDI-TOF-MS联用技术,定量分析了鱼肉中PC的总量,证明PC可以用作指示水体中的镉对于鲫鱼 毒害作用的生物标志物。总之,通过脂质组学仪器分析方法能够推动脂质组学研究的深入研究,为生命科学领域的进步和促进人类健康提供有力的科学支撑。
近年来,以基因组学、转录组学、蛋白组学和代谢组学等为基础、以糖组学、影像组学和脂质组学等为新兴发展的科学的组学技术,明确了由DNA转录为RNA,再翻译为蛋白质形成代谢物的系统网络,并且也广泛应用于各个领域,解决了人类以往无法解决的问题,然而,组学研究虽然能得到更详细的数据,但是通过多组学联用得到更加充分的核心数据并且加以验证等都是人类后续要解决的问题。