盐胁迫下大麻SSR标记的分布特征分析
2022-03-25陶杰张江江常丽张翠萍李建军张超李德芳赵立宁
陶杰,张江江,常丽,张翠萍,李建军,张超,李德芳,赵立宁
(中国农业科学院麻类研究所/农业农村部麻类生物学与加工重点实验室,湖南 长沙 410205)
大麻(CannabissativaL.)是中国传统的纤维作物,为大麻科大麻属一年生草本植物[1],又称汉麻、线麻、寒麻和线麻等,约有150个品种,全球均有分布,主要集中在亚洲、欧洲[2]。早期大麻常用于纺织、造纸、食用、医疗等行业[3-4]。当前,随着土壤盐碱化的不断加剧,植物的生长发育受到严重限制,通过转录组学进行基因的编码序列表达信息挖掘,开展盐胁迫下大麻转录EST-SSR标记的开发,能够极大地丰富大麻遗传育种的分子标记信息。而土壤盐胁迫是现代化工业发展造成的一种常见的非生物胁迫,如过度使用工业化肥造成的土壤次生盐,使土壤盐渍化不断加剧。盐胁迫严重影响着植物的生长发育和地理分布,主要表现为抑制生长,影响植物的整个营养代谢过程,从而造成植株整个形态发生明显的改变,进而抑制植物的整个正常生长周期[5-6]。为探究盐胁迫对农作物的生理生态响应机制,以提高作物耐盐性,已有研究人员对枸杞[7]、小麦[8-9]、高粱[10-11]、黄瓜[12]、萝卜[13]和红花[14]等作物进行了盐胁迫生理响应的探究试验,研究发现土壤盐胁迫对植株的生长发育造成了不同程度的影响,并揭示了作物在高盐环境下生理调控响应机制。
在麻类作物中,卢瑞克等[15]通过对不同黄麻种质资源间耐盐等级差异性的生理响应研究,发现在0、150、250mmol/L NaCl处理下,不同黄麻种质资源间耐盐性存在显著性差异,特别是在NaCl胁迫下,不同耐盐等级的黄麻种质叶片内可溶性糖和游离脯氨酸含量均显著提高,而可溶性蛋白含量显著降低。并证明在250 mmol/L NaCl胁迫时各项含量鉴定指标均出现下降趋势,说明这些指标均可有效鉴别不同黄麻种质间的耐盐性差异。郭瑞等[16]通过亚麻响应盐、碱胁迫的生理特点,发现在相同盐浓度下,碱胁迫的伤害大于盐胁迫,胁迫强度增加促使地上部分Na+积累,K+含量下降,过度的Na+积累可能是碱胁迫伤害大于盐胁迫的主因,揭示了高pH值是直接影响植物根系和矿物元素吸收、离子稳健平衡的主要因素。程霞等[5]的研究发现,盐胁迫下工业大麻叶片中可溶性糖含量降低速度缓慢,但细胞膜未被完全破坏,其内含糖物质未大量流失。胡华冉等[17]对不同盐胁迫下大麻种子萌发与幼苗生长的研究,揭示了不同盐浓度对大麻种子萌发和幼苗生长的效应不同,大麻种子和幼苗对低浓度中性盐胁迫有一定的适应性,其耐盐性是复杂的、受多因素影响的。众多研究表明,工业大麻对于盐胁迫环境有着很好的耐受性和抗逆性。
当前,转录测序技术已成为分子生物学研究的重要手段,现已广泛应用于植物逆境响应、分子标记开发、功能基因挖掘和代谢通路与信号转导的研究中。进行耐盐转录组学的相关研究,探究土壤盐胁迫对大麻耐盐性的影响,提高大麻耐盐性遗传育种具有重要的现实意义。简单重复序列(simple sequence repeats,SSRs)是以1~6个碱基对为基本单元的串联重复形成的DNA序列,是一种以特异引物PCR为基础的分子标记技术,又称微卫星序列(microsatellites),因具有分布广泛、多态性高、重复性高和共显性等特点,常被应用于研究植物遗传进化、基因定位和分子辅助育种等领域中[18-19]。从序列来源上划分,SSR标记可分为基因组SSR和表达序列标签SSR(EST-SSR,expressed sequence tags-SSR)。而表达序列标签因来源于转录区产物,能够很好地反映出基因的表达信息,且与基因功能直接相关,通用性比SSR更好,在一定程度上弥补了SSRs的缺陷。而就EST-SSR与基因组SSR而言,EST-SSR标记在不同物种间的通透性较好,在基因的编码序列中也更容易获得基因表达的信息以及更好地进行功能基因的鉴定,也就更加准确地揭示不同物种间的遗传差异和亲缘关系[20]。因此,EST序列在新基因中的挖掘为SSR标记的开发提供了重要的序列信息来源,以此为基础建立的EST-SSR技术已成为指纹图谱构建[21]、全基因组分析[22]、转录组分析[23-25]等领域的新型研究工具。
目前,我国工业大麻的研究主要围绕品种培育、栽培技术、纺织、饲料、药品、大麻检测和遗传多样性等方面,而基于盐胁迫下工业大麻转录组测序分析进行SSR标记资源的深度挖掘很有必要。因此,利用转录组测序技术快速构建大麻SSR位点信息,对大麻耐盐品种的研究和深度挖掘EST-SSR分子标记的开发具有十分重要的意义。本文拟通过对大麻盐胁迫转录组数据构建的SSR位点进行分析,揭示大麻盐胁迫条件下SSR位点数量特征及重复基序分布特点,旨在为今后开展大麻盐胁迫EST-SSR分子标记开发提供可用的SSR标记资源。
1 材料与方法
1.1 材料来源与处理
大麻材料为中国农业科学院麻类研究所一年生麻类育种改良团队提供的皖大麻2号和K94(俄罗斯品种)。采用13 cm×12 cm育苗钵播种,选取大小均匀、健康饱满的种子播种,土壤基质与园土按3∶1(体积)混合,填满育苗钵,均匀撒播,浅覆土约0.5 cm厚,浇透水,温室内培养。
温室内培养一个月后挑选长势相同的植株(约10~15 cm高,2对真叶),每盆定苗3株,设3盆为盐胁迫处理组,3盆为空白对照组。待植株长至3~4对真叶时,处理组在100 mmol NaCl下进行浇灌,空白组采用去离子水。然后分别取处理后0、1、2、3 d的混样,每个处理3个重复,锡箔纸包裹,液氮速冻保存,将选取的大麻样本进行转录组学测序。
1.2 SSR位点鉴别与引物设计
利用 MISA(MI cro SA tellite identification tool,27/09/2010)软件对工业大麻测序所得到的 84 483条Unigene序列进行SSR位点查找。筛选标准:单、二、三、四、五、六核苷酸重复序列最小重复数为10、6、5、5、5和5。利用Primer 3.0软件进行引物设计,设置引物退火温度为55~60℃,引物长度10~27 bp,预期扩增长度范围100~300 bp。引物均由北京擎科生物科技有限公司(Tsingke Biotechnology Co.,Ltd.)合成。
1.3 SSR位点数据分析处理
用MISA(MI cro SA tellite identification tool)软件分析大麻转录组序列中SSR位点数量分布频率、重复类型、结构特征和重复长度、分布频率等。
2 结果与分析
2.1 大麻盐胁迫下转录组中SSR位点的数量特征
通过对大麻盐胁迫下转录组高通量测序,结果见表1。由表1可知,共检测出84 483条Unigene序列,序列总长87.31 Mb,序列平均长度为1033 bp,含有SSR位点27 861个。经SSR位点筛选,在84 483条Unigene序列中筛选出16 133条含SSR位点的序列,SSR标记的发生频率(含SSR的Unigene序列数与总Unigene序列数的比值)为19.10%,含2个或2个以上SSR位点的Unigene序列有6687条,含1个SSR位点的有9446条,其余3615条为复合型SSR位点。SSR检出率(SSR个数与总的Unigene序列数的比值)为33.1%,这表明,在Unigene序列中平均3.13 kb就会出现一个SSR位点。
表1 SSR分析的基本统计Table 1 Basic statistics of SSR analysis
2.2 大麻转录组中SSR重复基元分布及结构特征
经筛选后发现,在27 861个SSR位点中一共含有118种重复基元,重复基元类型主要为单、二、三、四、五和六碱基重复。其中单碱基重复数为14 690个,检出率52.73%(表2、图1);二碱基重复数为6481个,检出率23.26%;三碱基重复数为6174个,检出率22.16%;四碱基重复数为369个,检出率1.32%;五碱基重复数为75个,检出率0.27%;六碱基重复数为72个,检出率0.26%。除单碱基SSR重复外,在二碱基SSR位点中重复6~10次的有5025个,占该碱基SSR重复总数的77.53%;重复10次以上的有1456个,占该碱基SSR重复总数的22.47%。三碱基SSR位点重复5次的有3118个,占50.50%;重复10次以上的有162个,占2.62%。四、五、六碱基SSR重复多集中在5次,其中四碱基SSR位点重复有5个达到8次,五碱基SSR位点重复中有1个达到10次,六碱基SSR位点重复中有2个达到9次,1个达到10次以上。结果表明,在SSR位点分布中,主要以单、二和三碱基重复类型为主,其中二、三碱基重复具有较大的标记开发潜力。
表2 大麻EST-SSR分布频率Table 2 Distribution frequency of industrial hemp EST-SSR
图1 SSR分布Fig.1 SSR distribution
2.3 大麻SSR重复基序频率及分布特征
由表3可知,在单核苷酸中重复最多的是A/T,有14 647个,比例为53%,占该重复总数的99.71%。二核苷酸重复中AG/CT最多,有3155个,比例为11.42%,占该重复总数的48.68%(图2),其次是 AT/AT(2856个,比例为10.33%)和 AC/GT(430个,比例为 1.56%),分别占 44.07%和6.63%;CG/CG重复最少(40个,比例为0.14%),占0.62%。三核苷酸重复中主要的重复基元为AAG/CTT,有1863个,AAT/ATT有 1484个,ATC/ATG有 1099个,AAC/GTT有 531个,ACC/GGT有348个,分别占30.17%、24.04%、17.80%、8.60%和5.64%(图 3)。四核苷酸重复为 AAAT/ATTT,有134个,占36.31%;五核苷酸重复为AAAAG/CTTTT,有18个,占24%;六核苷酸重复为AAAAAT/ATTTTT,有5个,占6.94%。从出现频率来看,在整个重复基元中出现频率最高的前5种基元分别是 A/T、AG/CT、AT/AT、AAG/CTT和 AAT/ATT,分别占总 SSR位点数的 52.57%、11.32%、10.25%、6.69%和5.33%,占总的SSR位点数的96.16%。
图2 大麻二核苷酸SSR重复基元分布特征Fig.2 Distribution characteristics of industrial hemp dinucleotide SSR repeatmotifs
图3 大麻三核苷酸SSR重复基元分布特征Fig.3 Distribution characteristics of industrial hemp trinucleotide SSR repeatmotifs
表3 大麻SSR重复类型分布特征Table 3 Distribution characteristics of industrial hemp SSR repeat types
2.4 大麻SSR重复长度分布特征
对大麻盐胁迫转绿组SSR序列进行引物设计,共获得24 246条引物,碱基对总长度为579 992 bp,平均长度23.92 bp,可用引物有17 894条。从获取的SET-SSR序列长度来看,SSR位点10 bp最多,有3106个,占总SSR位点重复总数的17.36%(图4)。其次是15 bp,有2464个,占13.77%。然后是12 bp有2060个,占11.51%;18 bp有1514个,占8.46%;11 bp有1509个,占8.43%。序列中10~21 bp占SSR重复总数的79.72%,可见引物序列长度多集中在10~21 bp,其中SSR位点最长重复长度为226 bp。
图4 大麻转录组SSR重复长度分布Fig.4 SSR repeat length distribution of industrial hemp transcriptome
3 讨论与结论
随着生物技术的不断发展和创新,转录组测序技术应用领域的发展越来越迅速,测序更加精准、快速、便捷、易于操作,使得高通量测序技术在实际研究中已经成为一种实用、快捷的技术手段,其应用范围几乎覆盖了所需基因物种的全部转录信息[26]。而SSR标记技术的运用在植物遗传图谱、功能基因标记、亲缘关系、分类学和进化等研究中至关重要。据报道,Himanshu Dubey等[27]通过对茶树基因组转录资源的整合与SSR标记开发,从获得的6种资源的SSR数据信息、3种茶树基因组数据和17种野生茶树转录组序列中,鉴定出935 547个SSRs,并利用这些转录数据开发了一个茶树SSR标记的综合数据库--TeaMiD。作为研究基因编码的序列表达信息的新型技术工具,已广泛运用在杉木[23]、核桃[25]、花椒[26]、油梨[28]、小麦[29]、红松[30]和红花[31]等经济作物的指纹图谱、遗传多样性和全基因组分析的研究中。
目前,麻类作物在基因组学上的发展远不如其他经济作物,已报道的有大麻状罗布麻全基因组分析[22]、苎麻品种遗传多样性和转录组学研究[32-33]、籽用大麻性别连锁标记[34]、黄麻转录组测序[35-36]和工业大麻盐胁迫转录组学研究[5,43]等。信朋飞等[38]在大麻数据库中检索到 1114个SSR,三核苷酸(39.84%)、六核苷酸(34.56%)重复基元类型居多,而本研究中主要以二核苷酸(23.26%)、三核苷酸(22.16%)重复基元类型为主。宋立肖等[21]在大麻状罗布麻全基因组SSR中鉴定出117 511个 SSR,平均每1478 bp出现1个 SSR,且多以单核苷酸(67.79%)、二核苷酸(25.30%)重复基元类型为主,与本研究一致。万雪贝等[38]在红麻表达序列标签数据筛选后,发现重复基元类型主要以三核苷酸(62.7%)、二核苷酸重复(34.0%)为主,这与大部分植物基因组和本次研究中二、三核苷酸重复的分布频率结果是一致的。这说明基于土壤盐胁迫下的大麻遗传育种和转录组学对SSR位点分布特征的分析,能够深入挖掘其在盐胁迫上的EST-SSR开发潜力,丰富当前大麻遗传育种改良EST-SSR标记的数据资源。
本次研究中,利用高通量测序技术,从大麻盐胁迫转录组中获得84 483条Unigene序列,序列总长87.31 Mb,平均长度1033 bp。经筛选后,在84 483条Unigene序列中获得16 133个SSR位点,SSR标记发生频率为 19.10%,检出率为 33.10%,高于小麦(4.1%)[29]、红松(4.24%)[30]、杉木(9.72%)[23]和油梨(17.05%)[28],而三角梅 SSR检出率则为 44.91%[24],推测其原因为 SSR筛选时所设置的SSR标记分布、长度范围、各碱基重复类型以及转录序列位点不一致。研究显示,大麻转录组标记中平均3.13 kb就会出现一个SSR位点,明显高于杉木47.66 kb[23],与红花3.11 kb[31]、核桃 2.55 kb[25]、竹叶花椒 3.91 kb[26]、黄麻 3.47 kb[35]和金花茶 3.46 kb[39]相当,可能是物种间基因序列表达差异所引起的。
从SSR碱基重复类型来看,大麻转录组中SSR位点包含有多种重复类型,一至六碱基重复均有分布。除单核苷酸重复外,以二、三核苷酸重复为主,检出率分别为23.26%和22.16%。二、三核苷酸在整体重复碱基和重复次数上占据优势,能够很好地进行SSR位点信息的筛选,转录时获取SSR位点的可能性更大,这与大麻状罗布麻[22]、蜡梅[40]和红麻[38]的基序分布情况一致。其中,二核苷酸重复在整个序列的SSR位点数以及重复次数占主导,更具有较大的EST-SSR标记的开发潜能,三核苷酸重复次之,这与大多数植物EST-SSR标记的结果一致。
在重复基元类型中,二核苷酸重复以AG/CT为主要类型,占该重复总数的48.68%,其次是AT/AT、AC/GT和 CG/CG;三核苷酸重复有 10种不同基元,以 AAG/CTT和 AAT/ATT为主要类型,分别占30.17%和24.04%。该重复基元类型可能与其他研究结果存在差异,这种差异的产生与作物的品种、序列大小和重复参数设置标准等有关。引物重复长度SSR位点数最多的为10 bp,占总SSR位点重复总数的17.36%,其次是15、12、18 bp。从分布趋势来看,重复长度SSR位点数多集中在 10~21 bp之间,占 SSR总数的 79.72%,其重复长度集中范围与红花[31]、红松[30]和黄麻[41]的基本一致。
结果表明,大麻引物重复基元主要以二、三核苷酸重复为主,同时二核苷酸重复占SSR总数的23.26%,三核苷酸重复占SSR总数的22.16%。这说明,大麻在二、三核苷酸重复中具有丰富的SSR位点标记资源,二、三核苷酸重复具有很好的EST-SSR标记开发潜力。此外,序列重复长度分布的差异和SSR位点重复数可在一定程度上直接影响EST-SSR标记的有效性和多态性,但大麻EST-SSR引物序列的有效性和多态性潜力还需进一步验证。
大麻为一年生草本植物,雌雄异株,是我国传统的经济作物之一,用途广泛,常用于纺织、造纸、榨油、入药、饲用、保健品开发和生态修复等领域。SSR在动植物基因组中具有高信息量、多态性丰富、共显性和通用性好等特点,通过SSR标记对物种进行遗传多样性分析、亲缘关系鉴定、比较作图和遗传图谱构建等,可为遗传资源研究、核心种质的构建和分子标记辅助育种等方面提供有力的工具[42-45]。通过对大麻在土壤盐胁迫适应性和转录组学EST-SSR标记的研究,能够极大地促进大麻遗传改良育种的相关研究。本文通过对大麻盐胁迫下转录组数据构建的SSR位点进行分析,初步阐述了大麻盐胁迫转录组EST-SSR标记开发的潜力。研究表明,利用大麻盐胁迫转录组数据筛选出的SSR位点序列以及分布特征分析,可挖掘的SSR标记位点丰富,大麻引物重复基元在二、三核苷酸重复具有很好的EST-SSR标记开发的潜力。其分析结果可为今后的大麻盐胁迫品种选育、遗传多样性评价、EST-SSR标记开发等提供可参考的数据资源。