APP下载

转录组测序技术在家畜遗传育种中的应用研究进展

2017-02-04白献晓张子敬徐照学

河南农业科学 2017年4期
关键词:外显子组学剪切

白献晓,张子敬,王 璟,徐照学

(河南省农业科学院 畜牧兽医研究所,河南 郑州450002)

转录组测序技术在家畜遗传育种中的应用研究进展

白献晓,张子敬,王 璟*,徐照学

(河南省农业科学院 畜牧兽医研究所,河南 郑州450002)

转录组测序技术能够全面分析某一组织或细胞在不同物种、品种、发育阶段以及不同处理条件下,全部转录产物的类别、结构以及表达水平的变化,揭示特定生物学过程的分子调控机制。近年来,研究人员广泛利用该技术筛选家畜优良经济性状的靶基因,为家畜的分子育种工作奠定了基础。结合转录组测序技术的技术特点,综述了其在家畜生长发育、肉质、泌乳、被毛等方面的研究进展,旨在为今后该技术的应用提供参考。

家畜; 转录组; 基因表达; 遗传育种

近年来,随着基因组时代的到来,相继出现了转录组学、蛋白质组学、代谢组学等多层次组学技术[1]。其中,作为研究基因结构和功能的转录组学受到越来越多的关注,研究人员应用该技术分析某一组织、细胞在不同物种、品种、不同发育阶段以及不同处理条件下转录产物的类别、结构变异及其表达水平的变化,筛选差异表达基因,进而将基因和性状联系起来,为进一步治疗疾病或遗传育种寻找靶位点。转录组学广义上包含编码蛋白质的RNA——信使RNA(messenger RNA,mRNA)和非编码蛋白质的RNA(non-coding RNA,ncRNA),如核糖体RNA(ribosomal RNA,rRNA)、转运RNA(transfer ribonucleic acid,tRNA)、微RNA(microRNA,miRNA)等,以下主要探讨狭义转录组学(仅包括编码蛋白质的mRNA)在家畜遗传育种中的应用。

转录组测序就是通过反转录将样品的mRNA合成cDNA,然后使用高通量测序技术分析转录本在不同样品中的结构和表达特点。对于基因组序列信息已知的生物,依据现有的基因注释结果,分析基因在不同组织中的差异表达情况、选择性剪切(alternativesplicing,AS)、单核苷酸多态性(single nucleotide polymorphisms,SNPs)和基因融合等特征。主要步骤可以简单概括为以下几点:(1)建库。提取样品总RNA,通过脱氧核糖核酸酶(DNAase I)处理样品以除去滞留的DNA,然后使用含多聚体的磁珠对mRNA进行分离及纯化。纯化后的RNA序列被随机打断形成小片段,再经过反转录合成cDNA,完成建库。(2)上机测序。一般采用双向测序策略增加分析的准确性[2]。(3)生物信息学分析。将数以百万计的reads与参考基因组进行序列比对,完成基因的表达注释、新转录本预测、SNP[3-4]以及AS[5]等分析。得到测序数据后,具体操作步骤及相关应用如下。

1 测序序列质量评估

在组装所获得的测序序列之前,首先要评估其准确性和完整性,用参考序列包含已知转录本丰度的分布,评估其完整性、连续性、准确性、嵌合体及变异率[6]。但是目前开发的软件仅能满足部分要求,如BLAST可以用来确定覆盖度和连续性,Bedtools可以用来查看覆盖度[7],Tablet能确保reads正常对齐[8]。当reads位于基因外显子的边界时,其映射到基因组时可能只映射到1个参考基因上,从而导致选择性剪切基因出现剪切体的不完全识别现象。目前,为增加结果的真实性,通常综合使用多种工具分析。King等[9]在分析手足口病病毒时,应用Tablet检测比对情况,同时应用Bedtools分析覆盖度。而在研究南美洲9个水泡性口炎病毒的基因组序列时,Fowler等[10]同时使用2种软件进行序列的质量评估。

2 基因重组优化与新转录本检测

转录组测序技术能够绘制样品所有转录产物与异构体的精确表达图谱,从而充实和完善已有基因组信息,而组装这些reads并与参考基因组进行匹配的过程称为基因重组优化。基因重组优化有3个难点:首先,基因的表达水平差异较大,可能跨越几个数量级;其次,所得reads可能来源于成熟的mRNA(外显子),也可能来源于不完全剪切的前体RNA,很难识别成熟转录本;此外,基因具有许多亚型,将短reads与亚型进行匹配有难度。基因重组优化不仅能够延伸优化基因结构、鉴定5′和3′UTR区域,还可以发现基因的新转录本。Huang等[11]通过比对牛胚胎不同发育时期的转录本,发现了1 785个新转录本。李青芝等[12]在长白母猪皮下、大网膜以及肠系膜脂肪中分别检测到4 654、4 583、4 765个新转录本。贺花[13]通过转录组测序分析秦川牛肌肉发育相关基因,在成年牛和胎牛背最长肌中分别发现24 464个和29 994个新转录本。晁天乐[14]在小尾寒羊和杜泊羊臂二头肌共发现5 553个新转录本,其中,473个属于已注释基因的新转录本,27个为新基因的新转录本。

3 基因注释和差异分析

当基因的表达水平经过量化和标准化分析之后,需要确定基因在不同条件下表达差异水平。目前,广泛应用的是微阵列统计分析法,基本原理是通过将测序reads与参考基因比对,计算单个样品的测序深度,即利用覆盖度来估计转录本的表达丰度分布,分析不同样品间基因表达的差异。样品测序深度、基因表达水平以及基因长度均会影响基因的差异表达分析结果[15-16]。

分析方法的选择对基因的差异表达分析结果影响很大,最初是基于计数分布(如泊松分布)分析转录组差异表达基因模型的[17]。但是有研究报告称,泊松分布不适于解释生物样本间的差异[18]。使用简化基因定量模型分析(如外显子杂交法或外显子结合法)也会产生偏差,有些基因具有多个亚型,亚型的表达可能不会随着原基因表达水平的改变而改变。1个基因有2种转录本,其中1个转录本比另1个转录本序列长,如果基因水平reads数相似,那么依据这种计数方法,不同亚型差异表达结果的分布也会有所不同。与此相反,如果利用转录本的表达差异来分析,那么外显子结合法和外显子杂交法可能检测不到该基因的变化。事实上,对于具有多个转录本的基因,转录表达法优于外显子结合法,而二者均优于外显子杂交法。

表达差异分析以后,要对差异表达基因进行GO功能富集(gene ontology,包括基因的分子功能、生物学过程和细胞组件)和KEGG功能富集(kyotoencyclopedia of genes and genomes,包括基因和基因产物、基因编码产物和新陈代谢途径等)分析。在对比患癌牛角组织和正常组织的差异时,对909 345个转录本进行了KEGG功能富集和GO功能富集分析,其中,KEGG功能富集分析发现,差异表达基因主要与免疫系统、代谢以及癌症信号等通路相关,而GO功能富集分析发现,这些基因主要富集在细胞组分和生物过程等通路[18]。孟宪然等[19]利用转录组测序分析不同年龄和性别绒山羊背最长肌的差异,GO功能富集分析发现,肉品质相关的差异基因主要与骨骼肌生长发育和脂质代谢相关;KEGG功能富集分析发现,丝裂原活化蛋白激酶(mitogen-activated protein kinases,MAPKs)和糖酵解/糖异生等信号通路与优质肉品质相关。吴泽辉[20]在研究凉山猪肌肉生长发育的调控机制时发现,生长拐点前(before growth inflection point,BIP)和生长拐点(growth inflection point,UIP)差异基因主要与免疫系统发育相关,而生长拐点(after growth inflection point,AIP)后与UIP的差异主要与氨基酸和糖类代谢相关。有研究采用转录组测序技术比较不同等级大理石花纹肉质的肉牛肌肉组织,结果发现,差异表达基因主要与脂肪酸代谢相关,KEGG功能富集分析发现,差异表达基因主要参与调控MAPK和过氧化物酶体增殖剂激活受体(peroxisome proliferator-activated receptor,PPAR)等脂肪代谢相关的信号通路[21]。

4 SNP分析

SNP分析是转录组测序最常见的应用,作为遗传标记,SNP能够帮助找到与某表型效应关联的关键区域。具体方法是将测序所得转录本与参考基因组的序列进行比对,寻找SNP位点,并将其与表型性状进行关联分析,得到种群或个体间的差异性,为物种进化研究、疾病诊断、分子育种等提供研究基础。Canovas等[22]比较分析荷斯坦奶牛不同哺乳期乳样品中的mRNA表达差异,检测到100 734 个SNP位点,其中位于外显子区的3 045个SNP位点与产奶性状相关,可进一步用于荷斯坦奶牛的分子育种。康晓龙[23]比较不同月龄滩羊的皮肤组织,获得227 155个SNP位点,其中有8 807个SNP位点为2种样本共有,这些SNP位点分布在绵羊不同染色体上,匹配最高的为1号(10.9%)、2号(10.8%)、3号(8.12%)染色体,提示这些SNP位点可能参与调控了滩羊被毛卷曲性状。杨建敏等[24]比较杜洛克和槐猪背最长肌转录组差异,分别检测到44 582个和103 583个SNP位点,其中比例最高的是碱基转换,高达74%,这些SNP位点可能参与调控猪肉品质差异。

5 AS分析

基因的选择性剪切,颠覆了之前的1个基因只编码1种蛋白质的概念,在哺乳动物基因组内至少有50%的基因存在选择性剪切现象,转录组测序技术也可用于分析样品中基因的可变剪切事件[25]。随着物种基因组注释的逐年增加和高通量测序技术的发展,通过比较分析不同处理样品剪切模式的差异,能够更好地研究某种性状的分子调控机制。陈伟[26]在莱芜猪和大白猪骨骼肌构建的mRNA文库中,检测到12种选择性剪切方式,其中TSS(转录起始位点)和TTS(转录终止位点)所占比例最大,分别为43%和40%。陈玲[27]通过转录组测序比较了健康奶牛和患乳房炎奶牛乳腺组织的基因表达差异,共发现了7种选择性剪切,其中第1个外显子(alternative 5′first exon,TTS)和最后1个外显子(alternative 3′last exon,TSS)的可变剪切比例最高,其次是单外显子跳跃(skipped exon,SKIP)、多外显子跳跃(multiexon skipped exon,MSKIP),最后是内含子滞留(intron retention,IR)。樊红樱[28]研究发现,呼伦贝尔大尾羊和小尾羊尾部脂肪组织样品中剪接事件TSS和TTS的概率远远大于其他类型的选择性剪切。这些研究结果说明,基因的选择性剪切对于家畜经济性状具有重要调控功能,提示在基因功能研究中,不仅要重视不同基因的功能差异,也应重视同一基因不同转录本的功能差异。Hao等[29]分析了热应激对猪背最长肌转录组的影响,共检测到12种选择剪切方式,其中TSS和TTS最常见,二者所占比例高达40%以上,相比之下,MSKIP和多内含子保留(approximate multi-intron retention,XMIR)这2种方式所占比例最低。应激组和对照组的差异主要体现在IR、单内含子滞留(模糊边界)(approximate intron retention,XIR)和多内含子滞留(multi-intron retention,MIR)3种方式。

随着高通量测序技术的发展和成本的降低,越来越多的研究人员将其作为工具来挖掘家畜基因组资源,其高通量的优势极大地促进了家畜的遗传育种研究。但需要指出的是,针对某一性状,要更全面和真实地反映其分子调控机制,首先需要选择合适的对照组样品、足够的测序样品数量;其次要与miRNA、长链非编码RNA(long non-coding RNA,lncRNA)、环状RNA(circular RNA,circRNA)及蛋白质组、代谢组等多组学联合分析;最后要通过体内、体外试验对所得结果进行验证。总之,结合个人研究内容,科学合理地选择、设计试验,通过经济、高效地利用高通量测序获得更真实、准确的数据,是未来遗传育种工作者的目标。

[1] Lockhart D J,Winzeler E A.Genomics,gene expression and DNA arrays[J].Nature,2000,405:827-836.

[2] Wilhelm B T,Marguerat S,Watt S,etal.Dynamic repertoire of a eukaryotic transcriptome surveyed at single-nucleotide resolution[J].Nature,2008,453:1239-1243.

[3] Alagna F,D′Agostino N,Torchia L,etal.Comparative 454 pyrosequencing of transcripts from two olive genotypes during fruit development[J].BMC Genomics,2009,10:399.

[4] Novaes E,Drost D R,Farmerie W G,etal.High-throughput gene and SNP discovery inEucalyptusgrandis,an uncharacterized genome[J].BMC Genomics,2008,9:312.

[5] Wang E T,Sandberg R,Luo S,etal.Alternative isoform regulation in human tissue transcriptomes[J].Nature,2008,456:470-476.

[6] Martin J A,Wang Z.Next-generation transcriptome assembly[J].Nat Rev Genet,2011,12(10):671-682.

[7] Quinlan A R,Hall I M.BEDTools:A flexible suite of utilities for comparing genomic features[J].Bioinformatics,2010,26(6):841-842.

[8] Milne I,Bayer M,Cardle L,etal.Tablet—next generation sequence assembly visualization[J].Bioinformatics,2010,26(3):401-402.

[9] King D J,Knowles N J,Freimanis G L,etal.Genome sequencing of foot-and-mouth disease virus type O isolate GRE/23/94[J].Genome Announc,2016,4(3):e00353-16.

[10] Fowler V L,King D J,Howson E L,etal.Genome sequences of nine vesicular stomatitis virus isolates from South America[J].Genome Announc,2016,4(2):e00249-16.

[11] Huang W,Khatib H.Comparison of transcriptomic landscapes of bovine embryos using RNA-Seq[J].BMC Genomics,2010,11:711.

[12] 李青芝,王滔,李明洲,等.猪皮下与内脏脂肪组织mRNA转录组的构建与差异分析[J].四川农业大学学报,2013,31(1):65-70.

[13] 贺花.秦川牛肌肉生长发育相关基因和蛋白质的筛选及其初步鉴定[D].杨凌:西北农林科技大学,2014.

[14] 晁天乐.绵羊臂二头肌转录组新转录本及新长非编码RNA的鉴别与验证[D].泰安:山东农业大学,2015.

[15] Bullard J H,Purdom E,Hansen K D,etal.Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments[J].BMC Bioinformatics,2010,11:94.

[16] Oshlack A,Wakefield M J.Transcript length bias in RNA-seq data confounds systems biology[J].Biol Direct,2009,4:14.

[17] Jiang H,Wong W H.Statistical inferences for isoform expression in RNA-Seq[J].Bioinformatics,2009,25(8):1026-1032.

[18] Robinson M D,Smyth G K.Moderated statistical tests for assessing differences in tag abundance[J].Bioinformatics,2007,23(21):2881-2887.

[19] 孟宪然,杜琛,王静,等.基于RNA-Seq识别山羊肉品质候选基因[J].畜牧兽医学报,2015,46(8):1300-1307.

[20] 吴泽辉.凉山猪不同生长发育时期肌肉转录组表达谱及表达特征研究[D].雅安:四川农业大学,2015.

[21] 陈东.基于转录组学进行肉牛不同大理石花纹等级分子机制的研究[D].北京:中国农业大学,2015.

[22] Canovas A,Rincon G,Islas-Trejo A,etal.SNP discovery in the bovine milk transcriptome using RNA-Seq technology[J].Mamm Genome,2010,21(11/12):592-598.

[23] 康晓龙.基于转录组学滩羊卷曲被毛形成的分子机制研究[D].北京:中国农业大学,2013.

[24] 杨建敏,胡宇平,林威敏,等.槐猪和杜洛克猪背最长肌差异表达基因的筛选与注释[J].福建农林大学学报(自然科学版),2016,45(2):192-195.

[25] Bush S J,Chen L,Tovar-Corona J M,etal.Alternative splicing and the evolution of phenotypic novelty[J].Philos Trans R Soc Lond B Biol Sci,2017,372:1-7.

[26] 陈伟.莱芜猪和大白猪背最长肌miRNA与mRNA转录组测序及特征分析[D].泰安:山东农业大学,2014.

[27] 陈玲.LPS刺激的奶牛乳腺上皮细胞转录组和miRNA表达谱变化规律的研究[D].杨凌:西北农林科技大学,2016.

[28] 樊红樱.呼伦贝尔绵羊尾部脂肪组织的转录组差异表达分析[D].兰州:甘肃农业大学,2016.

[29] Hao Y,Feng Y,Yang P,etal.Transcriptome analysis reveals that constant heat stress modifies the metabolism and structure of the porcine longissimus dorsi skeletal muscle[J].Mol Genet Genomics,2016,291(6):2101-2115.

Application of Transcriptome Sequencing Technology in Genetic Breeding of Livestock

BAI Xianxiao,ZHANG Zijing,WANG Jing*,XU Zhaoxue

(Institute of Animal Husbandry and Veterinary Science,Henan Academy of Agriculture Science,Zhengzhou 450002,China)

The transcriptome sequencing technology was used to reveal the molecular regulation mechanism of biological processes by analyzing the variety of total transcripts’ category,structure and the expression level for certain type of tissues or cells in different species,breeds,developmental stage or physiological condition.Recently,transcriptome sequencing technology was widely used to screen the target genes related to economic traits,to provide basic data for molecular breeding in livestock.In this article,combined with the principle and technical characteristics of transcriptome sequencing technology,its research progressin livestock’s growing development,meat,milk,hair,and so on were summarized,to provide reference for further researches.

livestock; transcriptome; gene expression; genetic breeding

2016-11-06

河南省农业科学院自主创新基金项目(2016ZC48);国家自然科学基金青年基金项目(31601927)

白献晓(1963-),男,河南南阳人,研究员,主要从事食品安全与畜牧技术经济研究。E-mail:bxx388@sina.com

*通讯作者:王 璟(1985-),女,陕西潼关人,助理研究员,博士,主要从事动物遗传育种研究工作。 E-mail:wangjing_0407@163.com

Q75;S82

A

1004-3268(2017)04-0006-04

猜你喜欢

外显子组学剪切
外显子跳跃模式中组蛋白修饰的组合模式分析
影像组学在肾上腺肿瘤中的研究进展
东莨菪碱中毒大鼠的代谢组学
影像组学在核医学影像中的应用进展
外显子组测序助力产前诊断胎儿骨骼发育不良
东天山中段晚古生代剪切带叠加特征及构造控矿作用
TC4钛合金扩散焊接头剪切疲劳性能研究
不锈钢管坯热扩孔用剪切环形状研究
外显子组测序助力产前诊断胎儿骨骼发育不良
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究