麻类作物转录组测序分析研究进展
2020-08-26韦秀叶赵信林郭媛邱财生龙松华王玉富
韦秀叶,赵信林,郭媛,邱财生,龙松华,王玉富
(中国农业科学院麻类研究所,湖南长沙410205)
麻类作物作为人类最早栽培的作物之一,是中国重要的经济作物。麻类作物在纺织、造纸、饲料、油料、食品、药用等方面均有重要作用和价值[1]。目前我国大面积种植的麻类作物主要包括工业大麻(Cannabis sativa)、亚麻(Linum usitatissimum)、苎麻(Boehmeria nivea L.)和红麻(Hibiscus cannabinus),其中苎麻种植面积和产量占世界的95%以上,亚麻占世界种植面积28%以上[2],而纤维用工业大麻年种植面积约46666 hm2,纤维年产量约占世界的38%,居世界第二,其中黑龙江省种植面积超过了全国种植面积的60%以上[3]。
随着转录组学和测序技术的迅速发展,转录组测序分析可以不依靠参考基因组,直接对转录本进行测序分析比较,研究各种基因的差异表达情况,从而发现并分离出潜在的优异基因,为作物育种提供丰富的基因资源。麻类作物作为小作物,科研投入较少,遗传研究基础相对薄弱,在分子生物学层面的研究落后于水稻、小麦、玉米和棉花等大作物,但随着测序技术和生物信息学的快速发展以及测序成本的降低,转录组测序分析在麻类作物遗传机制方面得到应用,促进了麻类作物分子生物学的发展。本文总结了转录组测序分析在麻类作物上的研究应用及成果,展望了其在麻类作物上的应用前景。
1 转录组测序分析相关概念
1.1 转录组
转录组在广义上是指特定细胞或组织在某一发育阶段或功能状态下转录出来的所有RNA的总和,主要包括mRNA和非编码RNA(Non-coding RNA,ncRNA),而在狭义上是指所有编码蛋白质的mRNA的总和[4]。通过转录组测序分析可以使人们在缺乏遗传背景资料的情况下,既能得到样本中的序列信息,又可以对序列的表达量进行定量分析,进而全面揭示当前各细胞或组织的生命活动状态。
1.2 高通量测序平台
高通量测序(High-throughput sequencing)技术是指在一次运行中同时对数十万到数百万的DNA序列进行序列测定,且读长较短的技术,也被称为“下一代测序技术”,又称“深度测序”。高通量测序技术主要包括以 Roche 454[5]、Illumina Solexa[6-7]和 ABISOLiD[8]为测序平台的第二代测序技术及以Pacbio为测序平台的第三代单分子测序技术[9]。
第二代测序技术实现了测序的高通量和自动化,提高了测序分辨率,加快了转录组学研究的发展,降低了试验成本,除了能鉴定RNA上发生的修饰外,如RNA甲基化修饰,还可用于研究RNA与其它分子之间的相互作用[10]。然而二代测序技术普遍读长较短,需从头组装且拼接过程较复杂,易产生大量无法拼接的片段和重叠群,易丢失可变剪切等重要信息[11],所以通常只能对基因的局部结构进行研究。
第三代测序技术是基于Pacbio测序平台的全长转录组测序分析,其最大特点就是单分子实时测序(Single-molecule real-time,SMRT),测序过程无须进行PCR扩增,无须进行打断,且具有超长读长(Pacibo SMRT-seq读段平均读长超过15 Kb,最长可达300 Kb),可直接获得包含5-UTR、3-UTR和poly A tail的完整转录本,从而准确分析参考基因组物种可变剪切及融合基因等结构信息,克服无参考基因组物种转录本拼接较短、信息不完整的难题[12]。同时还可以借助二代测序数据,进行转录本特异性表达分析,获得更加全面的注释信息。但由于其没有模板扩增过程,三代单分子测序的光学信号相比于二代测序要弱很多,容易产生非检测特异性的背景干扰,从而影响碱基判断的准确度,导致测序读段的错误率相对于二代测序高[10],且测试成本也较高,所以目前仍以二代测序为主。
1.3 转录组测序分析及流程
转录组测序分析(RNA-Seq)技术,是指利用高通量测序技术将细胞或组织中全部或部分mRNA、small RNA和no-coding RNA进行测序分析的技术[11]。该技术具有速度快、准确性高、运行成本低、可测定未知基因组序列等特性[13]。已有拟南芥、水稻、小麦、玉米、西红柿、葡萄等多个物种的全基因组序列通过转录组测序分析获得。其基本分析和操作流程如图1所示。
1.3.1 mRNA测序分析
植物mRNA测序是基于HiSeq平台,对真核生物特定组织或细胞在某个时期转录的所有mRNA进行测序,既可研究已知基因,也可以发掘未知基因,全面快速获得mRNA序列和丰度信息。测序方法可分为有参基因组的转录组和无参基因组的转录组,有参转录组直接与该物种的参考基因组比对,而没有参考基因组的物种则通过序列拼接组装进行分析,所以在准确性上不及有参转录组[12]。
图1 转录组测序分析的基本操作流程Fig.1 The basic operational process for RNA-seq
1.3.2 非编码RNA测序分析
非编码RNA在细胞内虽然不能形成蛋白产物,但其转录的一些不具备编码能力的ncRNA在动植物育种及抗病研究中越来越受到重视。非编码RNA主要包括短链的small RNA(miRNA、siRNA、piRNA)、lncRNA和circRNA[12],虽然暂时未发现他们的编码功能,但是其在表观遗传学上发挥着重要的调控功能。small RNA测序是基于Illumina测序平台,研究特定组织功能状态下的所有已知small RNA,发现新的small RNA并预测其靶基因,为研究small RNA的功能及基因调控机制提供了有力的工具。lncRNA测序是研究已有参考基因组物种的特定组织或细胞在某个特定时期转录出的所有lncRNA和mRNA。
2 转录组测序分析在麻类作物上的研究进展
2.1 转录组测序分析在工业大麻中的研究应用
工业大麻(Cannabis sativa L.)是大麻科(Cannabinaceae)大麻属(Cannabis)一年生草本植物,又称“大麻”、“汉麻”、“火麻”或“线麻”。在中国已有6000多年的栽培历史[14],其作为一种理想的多用途作物正在世界范围内重新兴起,在工、农、医、食等行业具有重要的开发和应用价值。
转录组测序分析技术在工业大麻中的应用已有些许报道。如:为明确大麻转录组特征,Van Bakel等[15]对工业大麻品种Purple Kush的根、茎、枝、花蕾和早期花及中期花6种组织进行RNASeq分析,获得大于18.8 Gb的序列,通过对这6种组织构建cDNA文库并测序,获得了大麻基因组。为研究大麻素生物合成途径中基因的表达水平,Braich等[16]利用雌性大麻品种Cannbio-2的根、茎、花及毛状体组织在其开花后的第35、42、49、56 d进行取样,利用RNA-Seq对样品进行了测序,与之前的研究结果相比,原始序列有所增加[15]。通过差异基因表达分析鉴定出不同组织的特异表达基因,获得了参与萜烯和大麻素合成的候选基因,这对于预测大麻素和萜烯类化合物的组成具有重要意义,为麻类作物次生代谢产物、功能基因组学和分子育种提供了思路。为了解工业大麻性染色体系统,Prentout等[17]利用RNA-Seq测定工业大麻家族(2个亲本和10个雌雄后代)基因序列,并利用概率性统计方法SEX-DETector对所有的基因序列进行分析和分离,鉴定出至少500个与性别相关的基因,之后运用一种更有效的RNA-Seq技术,快速分离获得了大麻性染色体[18],作为重要的基因组资源,有助于提高工业大麻产量。为挖掘工业大麻活性成分合成酶关键基因,Vergara等[19]利用基于PacBio平台的第三代测序技术—单分子实时长读测序对药用型雄性大麻Pineapple Banana Bubba Kush(PBBK)和基于Illumina平台测序的雌雄异株雌性药用型大麻品种Purple Kush(PK)的测序,将这些数据进行组装,从头测序分析,在PBBK和PK组装中分别获得了11、5个CBDA/THCA合成酶基因,同时在该基因家族中还鉴定出了16个潜在的同源基因。此外,转录组测序分析技术在工业大麻抗逆机制领域也有报道。Liu等[20]利用RNA-Seq技术分析盐(500 mmol/L NaCl)胁迫下两个大麻品种“云麻5号”和“巴马火麻”的叶片差异基因表达情况,共鉴定出220个共同上调的差异表达基因(DEGs),而在盐胁迫2 d后,在单个品种中分别鉴定出26个上调的 DEGs和24个下调的 DEGs。Huang等[21]利用转录组测序分析揭示工业大麻“Yuma1”和“Neimengguxiaoli”两个品种对镉耐性差异表达的关键基因,发现3个基因(ORTHOMCL 32688,ORT-HOMCL 35508,ORT-HOMCL 16423)参与了金属离子的结合,这为麻类作物镉耐性及其他重金属研究提供了理论基础。
2.2 转录组测序分析在亚麻中的研究应用
亚麻(Linum usitatissmum L.)是亚麻科(Linaceae)亚麻属(Linum)一年生草本植物,作为生长在中国东北和世界其他地区的主要纤维和油料作物,广泛应用于纺织、化工、食品和医药产品等领域。
国内外亚麻转录组测序研究起步较早,在纤维组织时空差异表达、遗传图谱构建方面均有报道,但相关研究主要集中在抗逆机制方面。Gorshkov等[22]对亚麻中分离出的韧皮纤维和不同茎部位进行了RNA-Seq分析,共获得了66841618个原始序列,序列片段在1930万~2420万之间,并系统地研究了纤维分化的调节机制。吴建忠等[23]用简化基因组测序技术开发出亚麻特异性SSR序列1576条,利用其中62个SSR标记将48个亚麻供试材料分为油用型和纤维型亚麻两大类,且在初步构建遗传图谱的基础上,利用高通量测序技术检测SLAF多态性标记,构建了目前密度最高的亚麻遗传连锁图谱。为鉴定调控亚麻渗透胁迫响应的重要基因,Wu等[24]筛选了正常处理和PEG 6000胁迫处理下生长的幼苗差异表达的Unigenes(DEUs),利用Illumina技术构建了8个亚麻cDNA文库并随机测序,共获得序列471208288条。在这些序列中,除与拟南芥参考基因组对比序列一致的Unigenes外,经注释后获得239个差异表达基因,证实存在对亚麻渗透胁迫响应的基因,该发现有助于对亚麻相关抗性功能基因进行鉴定。Dmitriev等[25]利用高通量测序技术在正常N、缺P及N、P、K过量条件下分别鉴定出34924、33797和33698个转录本,通过qPCR验证,发现WRKY和JAS基因家族的表达在被检测的亚麻植株中均发生了改变,表明这些基因在亚麻N、P、K胁迫的响应中具有重要的作用。Dmitriev等[26]还分别对两个亚麻品种Norlin(耐酸碱)和Mogilevsky(敏感)进行高通量测序,鉴定了在非最佳土壤酸度及缺锌条件下亚麻基因的表达变化。Krasnov等[27]利用RNA-Seq测定不同亚麻品种在铝胁迫下的差异表达基因,发现有明显上调或下调的基因,且抗病品种与敏感品种间存在表达差异较大的基因,包括编码MADS-box和NACs的基因,以及与细胞壁发育相关的酶,这可能与亚麻耐铝性有关。这些结果表明,亚麻组织内部环境对铝的耐受性是可遗传的。
2.3 转录组测序分析在苎麻中的研究应用
苎麻(Boehmeria nivea L.)为荨麻科(Vrticaceae)苎麻属(Boehmeria)多年生宿根性韧皮纤维作物,是一种优良的天然纺织工业原料,其根系具有较高的药用价值,拥有“中国草”、“中国宝”的美誉,其应用范围十分广泛。
长期以来,苎麻育种多以常规育种为主,但常规育种周期较长且对优良性状的改良效果不明显,严重制约了苎麻高产高抗优质育种工作。随着生物技术的快速发展,分子育种技术已在水稻、玉米、小麦中得到广泛应用。但苎麻基因组序列信息不全,可用转录组信息较少,致使苎麻分子生物学的发展相对落后于其他作物。
转录组测序弥补了苎麻功能基因组信息缺失的不足。为加快苎麻分子遗传学研究和分子标记辅助育种,Liu等[28]对生长期为10、30、60 d的“中苎1号”的根、叶、茎韧皮部、茎木质部进行了转录组测序,获得了43990个Unigenes,平均读长为824 bp,其中34192个(77.7%)基因被功能注释,51个纤维素发育的相关基因被鉴定。Chen等[29]首次利用高通量测序技术对苎麻不同发育阶段的韧皮纤维进行测序和组装,获得了58269个Unigenes,丰富了对苎麻及其他麻类作物纤维发育分子机制的认识。She等[30]以Illumina Solexa为平台进行测序,构建了苎麻镉胁迫下根系基因表达谱,共筛选到3887个差异表达基因。Wang等[31]为解析苎麻的表达谱并挖掘其重要基因,首次通过第三代单分子长读测序获得一个高质量的苎麻转录组,包含30591个非冗余的转录本,利用鉴定出的55882个单核苷酸多态性(SNPs)建立了高密度的遗传图谱,根据这个遗传图谱,有181.7 Mb的苎麻基因组序列被组装到14条染色体。为研究苎麻栽培品种的选择模式和遗传关系,Huang等[32]利用RNA-Seq技术对苎麻栽培品种“中苎麻1号(BNZ)”和四个野生型苎麻品种“BNT、BNN、BNW和BAN”序列进行分析,通过转录组从头组装测序产生了119114个Unigenes,平均长度为633 bp,共识别出7084对同源基因,其中有2425个和269个基因分别进行了显著的纯化和阳性选择。
2.4 转录组测序分析在红麻中的研究应用
红麻(Hibiscus cannabinus L.)是锦葵科(Malvaceae)木槿属(Hibiscus)一年生韧皮纤维作物,主要生长在亚洲和非洲的热带地区[33],具有耐盐碱、耐旱、耐贫瘠等优良特性,其纤维产量高。红麻传统的工业用途是用作纺织原料,用于麻绳、麻袋的生产,近年来针对红麻进行了多用途开发利用,用于饲料、麻骨炭、制浆造纸、复合材料、生物质能源等方面,是公认的新型造纸原料和传统麻纺工业的重要原料[1]。
目前,关于红麻研究主要以转基因为主,红麻转录组测序分析少有研究报道。李辉等[34]以红麻转录组中与WD40基因高度相似的Unigene为参考,设计引物,进行反转录PCR扩增,经Sanger测序获得基因HcWD40-1(GenBank登录号:KX711617)的cDNA序列。为获得红麻转录组整体情况并开发大规模红麻SSR标记,Li等[35]从红麻不同营养组织(叶、茎秆、茎尖、麻皮)提取总的RNA,经纯化后构建了3个cDNA文库,利用Illumina双端测序技术生成EST简单序列,利用MISA软件挖掘SSR标记,鉴定了71318个平均长度为1143 nt的Unigenes,并使用4个不同的蛋白质数据库对这些Unigenes进行了注释。其中有9324对互补配对,被指定为EST-SSR标记,这一新资源将有助于构建红麻的遗传连锁图谱,研究红麻纤维的生长发育,并对新的基因挖掘和功能基因组研究具有参考价值。张立武等[36]以Illumina HiSeq 2000高通量测序获得红麻转录组65631343条短读序列(6.56 Gb),并将注释的23051个Unigenes归入254个KEGG的参考代谢途径中,发现红麻茎皮表达的317个Unigenes属于淀粉—蔗糖代谢途径,且与红麻韧皮纤维的生长调节有关。
3 问题与展望
转录组测序分析能够确定信使RNA(mRNA)、非编码RNAs(ncRNA)序列和转录基因的结构,在不同生物学模式条件下定量动态表达相应转录本[12]。随着测序技术的不断发展和完善,转录组测序技术在麻类作物的时空特异表达、抗逆机制、遗传图谱构建及其纤维发育调控等研究领域取得了重要突破。但相对于水稻、玉米、小麦及棉花等大作物而言,仍处于落后地位。主要是由于:(1)麻类作物为非模式作物,受关注度较低。(2)尽管苎麻基因组信息相对于其他麻类作物较完善,且工业大麻[37-39]和亚麻[40-42]也有相关基因组文章发表,但与拟南芥等模式物种相比,麻类作物基因组资源相对少且质量低,可供其他作物参考利用价值较低。因此,利用比较基因组学将有利于解决麻类作物物种间亲缘关系问题。Yang等[43]利用分子系统发育分析证实了在2100万~2780万年前,大麻科的两个属之间存在亲缘关系。(3)麻类作物的农艺性状如:种子产量、生物量、作物播种密度、光周期敏感性和开花时间等研究较多,但重要农艺性状纤维质量和数量的遗传学研究起步较晚,单个基因或单倍型植株对纤维产量的影响等研究能否深入,将直接影响基因信息的进一步应用。(4)目前麻类作物的重点研究方向是对纤维发育的基因表达调控及活性成分的探究,但影响纤维质量的关键调控因子和影响活性成分的关键酶基因未被挖掘,从而限制了麻纤维产品和麻类作物活性成分的开发和利用。麻类作物可借鉴棉花纤维关键基因挖掘的重要技术手段如全基因组关联分析、QTL定位等,提高其纤维质量和利用率。近年来,随着工业大麻的药用价值不断提升,越来越多的科研工作者对工业大麻活性成分四氢大麻酚(THC)和大麻二酚(CBD)进行研究,但其调控机制尚不够完善。如能有效利用各测序平台,将转录组测序分析技术与分子标记结合,挖掘出重要功能基因,将会促进麻类作物全基因组表达模式研究及分子育种的发展。