APP下载

转录组学主要研究技术及其应用概述

2019-11-27郭光艳秘彩莉

生物学教学 2019年10期
关键词:组学基因组测序

刘 伟 郭光艳 秘彩莉

(河北师范大学生命科学学院 石家庄 050024)

1 转录组学简介

遗传学中心法则表明,遗传信息在精密的调控下通过信使RNA(mRNA)从DNA传递到蛋白质。因此,mRNA被认为是DNA与蛋白质之间生物信息传递的“桥梁”,而所有表达基因及其转录水平的综合被称作转录组(transcriptome)。转录组这个概念最初由Velcuescu等[1]在研究酵母基因表达时提出。研究转录组的转录组学(transcriptomics)与蛋白质组学和代谢组学一样,均属于功能基因组学研究范畴[2],是一门在整体水平上研究细胞中所有基因转录及转录调控规律的学科[3]。作为一种新的研究方法,转录组学利用全部基因的表达调控、蛋白质功能等信息来解决生物学问题,将基因组学研究带入了一个高速发展的时代。转录组学的研究目的不仅是不同转录组样本中每个基因的表达水平的变化,也包括转录组的定位和注释及每个基因在基因组中的功能和结构的测定。对基因及其转录表达产物功能研究的功能基因组学,将为疾病控制和新药开发、作物和畜禽品种的改良提供新思路,为人类解决健康问题、食物问题、能源问题和环境问题提供新方法。

转录组学作为一个率先发展起来的技术已经在生物学前沿研究中得到了越来越广泛的应用。广义转录组指从一种细胞或者组织的基因组所转录出来的RNA总和,包括编码蛋白质的mRNA和各种非编码RNA(ncRNA),如rRNA、tRNA、核仁小RNA(snoRNA)、小核RNA(snRNA)、微RNA(mRNA)和其他ncRNA等。转录组学从整体水平研究基因的功能和基因结构,揭示特定生物学过程中的分子机理。目前,已广泛应用于微生物和动植物基础研究、临床诊断和药物研发等领域。

2 转录组学的相关技术

由于测序价格昂贵、基因序列数目有限,转录组学研究者只能进行极少数特定基因的结构功能分析和表达研究。近十几年,分子生物学技术的快速发展使高通量分析成为可能,这为真正意义上的转录组学的研究奠定了基础。这些高通量研究方法主要分为两类: 一类是基于杂交的方法,主要是指微阵列技术(microarray)、基因芯片(microassay)技术;一类是基于测序的方法,这类方法包括表达序列标签技术(expression sequence tags technology, EST)、基因表达系列分析技术(serial analysis of gene expression, SAGE)、大规模平行测序技术(massively parallel signature sequencing, MPSS)、RNA测序技术(RNA sequencing, RNA-seq)。其中,microarray和EST技术是较早发展起来的先驱技术,SAGE、 MPSS和RNA-seq是高通量测序条件下的转录组学研究方法,有助于了解特定生命过程中相关基因的整体表达情况,进而从转录水平揭示生命过程的代谢网络及调控机理。

2.1 微阵列技术 微阵列技术是分子生物学领域具有里程碑式意义的重大突破,同时它可以测量不同样本中成千上万个基因在不同环境和不同状态下的表达水平。基因表达数据是基于DNA微阵列技术而产生的反映基因转录产物mRNA丰度值的一种数据。

2.1.1 cDNA微阵列 cDNA微阵列的制备过程包括: ①对各种生物随机克隆和随机测序所得的cDNA片段进行归类;②把每一类cDNA片段的代表克隆(代表一个独立基因)进行体外扩增,并将得到的大小和序列不同的片段分别进行纯化;③利用机械手高速、高密度、有序地将它们点样固定在玻片硅晶片或尼龙膜上制备成cDNA微阵列;④以此cDNA微阵列对各基因的表达情况进行同步分析。它的特点是造价低、适用面广、研制周期短、灵活性高。

2.1.2 寡核苷酸微阵列 寡核苷酸微阵列的主要原理与cDNA微阵列类似,主要是通过碱基互补配对原则进行杂交,来检测对应片段是否存在和存在量的多少。它与cDNA芯片的本质差别在于寡核苷酸的探针片段相对较短(一般为20~70 nt)。寡核苷酸微阵列的探针经过优化,长度基本一致,而且Tm也相差不大。比较而言,cDNA微阵列具有以下优点: 无需扩增,可避免扩增失败而影响实验;减少非特异性杂交,能够有效地区分同源序列的基因;杂交温度均一,可提高杂交效率;减少了微阵列片上探针的二级结构。

2.2 基因芯片技术 基因芯片是基于核酸杂交的一种转录组研究技术,该技术利用红、绿荧光染料分别标记实验样本和对照样本cDNA,将样本混合后与基因芯片杂交,可显示实验样本和对照样本基因的表达强度[4]。目前,基因芯片主要应用于基因表达检测、寻找新基因和基因突变以及基因文库作图等方面研究。

基因芯片技术比较成熟,能够准确地检测较高表达的基因。但因杂交背景高,受基因拷贝数的限制无法检测出低丰度基因,且数据库数据有限,可能出现注释错误。

2.3 表达序列标签技术(EST) 基因表达序列标签(expressed sequence tags, ESTs)为长约200~800 bp的cDNA部分序列。当人类基因组计划刚刚开始时,一些科学家就主张cDNA测序应该先于基因组测序进行,原因是基因组的编码区代表了基因组绝大部分信息,而编码区长度只有总基因组长度的3%,因此可以用最低的代价、最短的时间获得最多、最有用的信息。

一个典型的真核生物mRNA分子由5′端转录非翻译区(5′-UTR)、开放阅读框架(ORF)、3′端转录非翻译区(3′-UTR)和聚A [poly(A)]四部分组成,其cDNA具有对应的结构。对于任何一个基因,其5′-UTR和3′-UTR都是特定的,即每条cDNA的5′端或3′端的有限序列可特异性地代表生物体某种组织在特定的时空条件下的一个表达基因。通过对生物体EST的分析,可以获得生物体内基因的表达情况和表达丰度。要获得生物体EST信息,通常应先构建其某个代表性组织的cDNA文库,从中随机挑取大量克隆,根据载体的通用引物进行测序,一般可以得到5′或3′端的200~500 bp的碱基序列,然后将测得的EST序列与网上已有的EST数据库进行比较,对生物体基因的表达丰度进行分析。

2.4 新一代高通量测序技术 主要介绍三种:

2.4.1 基因表达系列分析技术(SAGE) SAGE技术是由Velculescu等人[5]在1995年提出的,是一种可以定量并同时分析大量转录本的方法。1998年,Powell[6]利用生物素标记的PCR引物合成生物素标记的接头,并利用链霉抗生素蛋白磁珠绑定接头,有效地去除了一些多余的接头,从而提高了SAGE技术的分析效率。SAGE技术的理论依据主要有两点: 第一,来自cDNA特定位置的一段9~13 bp的序列包含有足够的信息作为确认唯一一种转录物的SAGE标签(9个碱基能够分辨49个不同转录物);第二,将来自不同cDNA的SAGE标签集于同一克隆中进行测序,就可以获得连续的短序列SAGE标签,而这些SAGE标签可以显示对应的基因表达情况。

2.4.2 大规模平行测序技术(MPSS) MPSS技术是由Brenner等[7]在2000年建立的以测序为基础的大规模高通量的基因分析技术。其方法的理论基础[8]是: 一个标签序列(一般为10~20 bp)含有其对应cDNA的足够识别信息,将标签序列与某种长的连续分子连接在一起,可以便于克隆和测序分析,而每个标签序列的出现频率又能够代表其相应基因的表达量。

2.4.3 RNA测序技术(RNA-seq) 该技术首先将细胞中的所有转录产物作为cDNA文库,然后将cDNA文库中的DNA随机剪切为小片段(或先将RNA片段化后再转录),再在cDNA两端加上接头,并利用新一代高通量测序仪测序,直到获得足够的序列,最后将所得序列通过比对或从头组装形成全基因组范围的转录谱。

3 转录组学相关技术的应用

3.1 微阵列技术 主要介绍该技术用于基因组表达差异研究以及基因点突变与多态性研究。

3.1.1 表达差异的研究 1995年Schena[9]等用了48个PCR扩增的cDNA探针点制的微阵列片分析了野生型和转基因的拟南芥中基因表达差异,并且在同一张玻片上使用不同的荧光染料同步进行差异比较。近年来,研究多集中于突变型与野生型、环境胁迫型与正常生长型、激素处理组与未处理组或者不同组织器官之间基因表达差异的比较。Ma等[10]利用寡核苷酸微阵列研究了玉米3个雄性不育突变体和可育植株花药4个发育阶段的基因表达情况,检测到了近9 200个正、反义转录本。通过比较每个突变体与其可育花药的基因表达差异,筛选到了一大批可能与花药分化相关的重要转录因子和调控因子。

3.1.2 基因点突变及多态性检测 现用于治疗艾滋病(AIDS)的药物,主要是病毒逆转录酶和蛋白酶的抑制剂,但在用药3~12月后常出现耐药性,其原因是逆转录酶和蛋白酶基因都能产生一个或多个点突变。逆转录酶的四个常见突变位点是Asp67-Asn、 Lys70-Arg、 Thr215-Phe/Tyr和Lys219-Gln,四个位点同时突变较单一位点突变对药物的耐受能力成百倍增加[11]。如将这些基因突变部位的全部序列构建为DNA芯片,则可快速地检测患者体内发生的是一个还是多个基因突变,这对指导治疗和预后具有十分重要的意义。

3.2 表达序列标签技术的应用 主要介绍以下5个方面的应用:

3.2.1 绘制基因组物理图谱 通过已知的EST序列设计引物,并对基因组BAC文库进行PCR,能显示扩增条带的那个克隆就是EST在染色体上的位置,这个EST就可以被定位在相关染色体上,并进而亚定位至染色体的某个区段。另外,还可以用EST序列提供的探针与基因组BAC文库杂交,同样能将某个已知EST在染色体上定位和亚定位。

3.2.2 基因的电子克隆 电子克隆技术是以算法为核心,以计算机和互联网为工具,利用现有的表达序列标签(EST)和生物信息数据库,对其中大量的EST进行分类、整合和组装,直接获得大片段或cDNA全长的方法。电子克隆技术的出现,可充分利用现有的信息资源,特别是利用其他模式生物的EST信息,快速发现目标基因。

3.2.3 分离鉴定新基因 对某一特异组织或某一生长发育阶段的cDNA文库进行随机的部分测序,得到大量EST,将这些EST作查询项在GenBank的子数据库dbEST中进行同源查找,同时将由EST推出的氨基酸序列作为查询项在聚异三聚氰酸酯(polyisocyanurate foam, PIR)中查找类似物,可以识别这些基因到底是什么基因;对于那些在以上数据库中没有找到类似物的EST,再把它们置于6个开放阅读框下,翻译出推定的氨基酸序列,将可能的氨基酸序列作为查询项,在PIR数据库中查找类似物,如果有类似物,就认为这个EST代表着这个蛋白的基因。而那些在dbEST和PIR数据库中都没有类似物的EST,就可能是完全新的基因,需要进一步识别和研究。

3.2.4 通过EST寻找SSR和SNR分子标记 从EST数据库中筛选简单重复序列(SSR)和单核苷酸多态性(SNP)的主要优点在于,这样筛选出来的SSR和SNP分子标记直接与基因的编码区相对应,即得到的往往是基因相关标记。筛选的大致步骤为: EST重叠群的组装;通过对大量重复的EST进行序列比较,识别出候选SSR或SNP;对候选SSR或SNP进行确认。EST还可在基因结构分析(内含子、外显子识别)、基因表达及重组蛋白表达的分析中具有重要作用。

3.2.5 RNAi技术的研究 RNAi指外源性双链RNA(dsRNA)能抑制细胞内与其序列同源的基因表达。在进化上,这可能是生物调控基因表达及抵御病毒侵染或转座子诱导DNA突变的一种共有的生理机制。该技术最大的优点就是可以获得大规模的缺失突变体,能为基因功能的研究提供很好的研究工具。同时EST作为序列标签,很好地实现表型相关的基因克隆。

3.3 新一代高通量测序技术的应用 主要介绍三个方面:

3.3.1 SAGE技术同时检测大量的基因转录本 一个测序反应可得到40个左右标签序列,同时由于SAGE技术的灵敏度很高,可以检测出低丰度表达的基因,是一种预测基因数目和发现新基因的有效途径。SAGE还可用于在不同生理状态、不同环境或不同生长阶段的细胞或组织的基因表达图谱构建,对不同状态下基因表达水平的定量或定性比较。

3.3.2 MPSS可提供某一cDNA在体内特定发育阶段的拷贝数 MPSS的这一功能,为在转录水平上进行基因表达分析提供了强有力定性和定量手段。MPSS所获得的基因序列可提供PCR引物,通过比较EST数据库等进行基因定位,也可转化为分子标记构建遗传图谱等,因此该技术可广泛用于动植物分类学和遗传学、功能基因组学、蛋白质组学等研究领域。

3.3.3 RNA-seq能在单核苷酸水平对任意物种的整体转录活动进行高精确度检测 可以用于分析真核生物复杂的转录本的结构及表达水平,提供最全面的转录组信息。从而可以在总体上全面研究基因表达,制定构建基因表达图谱的首选策略,用以发现新的基因。

3.4 在代谢工程领域中的应用 动物细胞系目前已经被广泛用于蛋白质药物等产品的大量生产上,利用动物细胞表达蛋白其优势在于有助于蛋白质正确折叠、组装并进行翻译后的修饰,目标蛋白质可正常行使其功能。转录组分析在减少细胞代谢负担、控制细胞贴壁性、调控细胞生长活性等方面有成功的应用。

3.5 在药用植物研究中的应用 目前,1/3以上的临床用药来源于植物提取物或其衍生物。随着分子生物学向各个学科领域的渗透及蛋白质学和生物信息学的应用,阐明药用植物天然活性成分生物合成途径及其关键酶,实现关键酶基因的克隆与体外高效表达,利用现代生物技术手段及次生代谢工程,大规模生产药用植物的有效成分将成为未来发展方向之一。

3.6 在瓜菜作物上的应用 转录组技术因具有测序通量高、时间短且成本低、信息量大等优势,现已被广泛应用于瓜菜作物转录组的研究中,如辣椒、南瓜、西葫芦、西瓜、黄瓜、甘薯、大蒜、西兰花、番茄等作物。这些研究运用RNA-seq技术,有助于发现瓜菜作物转录组的重要基因和SSR分子标记。此外,瓜菜作物在受到生物和非生物因素影响后,会引起自身代谢失衡等生理状态的变化,而运用转录组学方法,可以研究特定时间、特定状态下内源因子和外源因子调控的基因表达差异情况,在瓜菜非生物胁迫和抗病机制研究应用方面前景广阔。

4 展望

随着各种转录组学研究技术的发展,尤其是RNA-Seq技术的应用,转录组学研究已经进入了一个全新的阶段。转录水平调控是生物体最主要的调控方式,对生物体细胞RNA的调控机制研究可以从基因组水平上进行。就目前来看,转录组测序技术正逐步取代传统测序方法(如基因芯片技术)而成为研究基因的主要手段。现阶段,转录组学技术因其低成本和方便性已经受到广泛重视。

猜你喜欢

组学基因组测序
PET影像组学在乳腺癌中的研究进展
两种高通量测序平台应用于不同SARS-CoV-2变异株的对比研究
“植物界大熊猫”完整基因组图谱首次发布
我国小麦基因组编辑抗病育种取得突破
宏基因组测序辅助诊断原发性肺隐球菌
基于影像组学的直肠癌术前T分期预测
第一代基因组设计的杂交马铃薯问世
牛参考基因组中发现被忽视基因
生物测序走在前
基因测序技术研究进展