基于高通量测序的当归抽薹相关基因分析△
2022-03-16王振恒王引权雒军荔淑楠晋玲陈燕
王振恒,王引权*,雒军,荔淑楠,晋玲,陈燕
1.甘肃中医药大学 药学院,甘肃 兰州 730000;
2.甘肃省高校中(藏)药化学与质量研究省级重点实验室,甘肃 兰州 730000;
3.西北中藏药协同创新中心,甘肃 兰州 730000
当归为伞形科植物当归Angelica sinensis(Oliv.)Diel 的干燥根。当归药材以人工栽培为主,主产区主要分布在甘肃东南部,其中岷县当归量大质优;四川、云南、湖北、陕西、青海等省也有种植,分布范围较广[1]。当归中主要化学成分有挥发油类、香豆素类、黄酮类及有机酸类等[2]。
人工栽培当归为3 年生草本植物:第一年育苗;第二年移栽,秋季可成药;第三年可以采收种子,但其根已不能入药。在当归栽培过程中,第二年有10%~20%的抽薹率[3],影响当归药材产量。早期抽薹发生后,当归根的次生韧皮部和次生木质部比例发生改变,根木质化并空心,根部柴性大、缺乏油气,不能入药。已有文献对当归的研究主要集中在育种[4]、栽培技术[5-6]、化学成分[7]、功效[8]等方面,分子生物学水平的研究多是利用分子标记技术,如简单序列重复区间扩增多态性(ISSR)[9-10]、随机扩增多态性DNA[11]及内转录间隔区(ITS)[12]等分析当归种质资源的遗传多样性,而通过转录组学方法研究当归的功能基因相对较少。抽薹的机制尚未阐明,仍是影响当归生产和供给的突出问题。本实验探索当归早期抽薹后相关基因表达,为当归抽薹机制研究及分子育种提供基础数据。
1 材料
1.1 试药
当归样品采自甘肃定西市岷县十里镇台子村岷县红太阳食用菌种植农民专业合作社试验田(N103°59′10.176″,E34°25′31.44″),于2017年7月21日采样,在试验田随机选取6 株植物,抽薹和未抽薹的各3 株,剪取倒数第三片完全展开的成熟叶片中部小叶片,快速放入盛有液氮的容器中混合,剪碎除去叶柄叶轴部分,轻轻研磨成粉末状,待液氮快挥发完时装入冻存管,移入液氮罐当天运输回实验室,放入冰箱-80 ℃条件下保存,供后期转录组测序使用;RNA 6000 Nano Kit(美国Agilent 公司)。
1.2 仪器
2100 型生物分析仪(美国Agilent 公司);NanoDrop 2000c 型紫外-可见分光光度计(Thermo Fisher Scientific公司)。
2 方法
2.1 当归转录组序列测序、组装和功能注释
当归RNA 提取、cDNA 文库构建及测序实验均由武汉华大基因科技有限公司进行。当归样本所测片段的序列过滤掉低质量、接头污染及未知碱基N含量过高的reads,进行分析、组装后得到Unigene。利用BLAST[13]程序搜索并比对非冗余蛋白(NR)、核酸序列(NT)、基因本体(GO)、真核生物蛋白相邻类的聚簇(KOG)、京都基因与基因组百科全书(KEGG)、SwissProt和InterPro数据库进行注释。
2.2 差异表达基因(DEGs)筛选及分析
以抽薹与未抽薹的当归样本Unigene|lg2(foldchange)|≥1.5 和P≤0.05 为标准,筛选出DEGs,并对其功能进一步分类,查找与抽薹相关的基因。
3 结果与分析
3.1 当归转录组测序与组装
测序数据去除杂质后发现,每个当归转录组的数据量超过100 Mb reads,其中长度>20 个碱基的占比为95%以上。把过滤后的reads 利用Trinity 2.0.6软件进行合并组装,共获得了129 Mb原始序列的数据,去除原始序列数据中的接头污染数据、重复冗余数据及低质量数据,共获得了110 Mb 有效序列,其中有效序列占原始序列的85.24%。以上数据结果表明,高通量测序技术平台BGISEQ-500 对当归进行转录组测序获得的序列数量和质量均较高[14]。其中抽薹当归的基因序列长度为300 nt 的有17 253 条,基因序列长度为3000 nt的有455条,基因序列长度>3000 nt的有4665条(图1)。
图1 当归转录组组装序列长度分布
3.2 NR注释物种分布
NR注释结果显示,当归的同源Unigenes与葡萄Vitis viniferaL.、芝麻Sesamum indicumL.、中粒咖啡Coffea canephoraPierre ex Froehn.和大蓟Cynara cardunculusFisch.ex DC.同源Unigenes百分比分别为18.51%、8.29%、7.46%和5.42%(图2)。
图2 当归总转录本NR注释匹配的物种分布
3.3 当归转录组Unigene的GO注释及分类
为了进一步了解当归功能基因表达和与抽薹相关的功能基因情况,利用BLAST[14]对当归转录组数据进行基因功能分类,最终发现219 197 条Unigene在GO 中得到注释。综合Unigene 功能将其分为细胞组分、生物过程和分子功能3 类,其中有些基因序列可能同时参与了多个进程。
细胞组分功能可分为17 个功能亚类,其中组成细胞结构(cell structure)的Unigene 有16 642 条,细胞组分(cell component)有16 510 条,组成细胞膜(cell membrane)的有15 367 条,这几个功能亚类的基因注释数量明显高于其他细胞组分功能亚类。在分子功能中共有14 个亚类,可以看出许多功能亚类与活性有关,如核酸结合转录因子活性、抗氧化活性等。其中参与催化活性(catalytic activity)的Unigene 有21 330 条、参与结合(combination)的Unigene 有19 420 条、参与转运活性(transport activity)的Unigene 有3125 条。参与生物过程的功能亚类最多,主要分类为细胞形成过程(cell formation process)20 820 条、细胞成分的组织或生物合成(tissue or biosynthesis of cellular components)3283 条、代谢过程(metabolic process)21 470 条、生长发育过程(growth and development process)1870 条、生物调节(biological regulation)4500 条、生长过程(growth process)348条(图3)。
图3 当归转录组总Unigene的GO功能分类
3.4 当归DEGs功能注释及分类
根据各样品基因表达结果可以检测样品(或者样品组)之间的DEGs,使用DEseq2 和PossionDis算法进行检测,差异表达结果见图4。X、Y坐标轴均取基因表达量的对数值。通过2.2 项下的条件筛选得到936个DEGs。
图4 抽薹与未抽薹当归转录组DEGs散点图
当归的936 个DEGs 中 有69 个 与SwissProt、InterPro、NT 和KOG 等数据库都不匹配。通过SwissProt数据库对其余867个与数据库匹配的DEGs进行分析,其中505 个与已知功能基因相匹配,比对成功,362 个被聚合为尚待鉴定的基因。505 个已知功能基因被分为182 个上调基因(UR)和323 个下调基因(DR)。根据生物功能和生理特性,将505个基因分为9 大类,分别为次生代谢、细胞形态发生、生物信号传导、初生代谢、光合/能量、转录/多核苷酸代谢、翻译/蛋白质修饰、转运、胁迫耐受。
在DEGs 分析过程中,使用|lg2(fold-change)|≥1.5和P≤0.05的标准来识别DEGs。使用UniProtKB/SwissProt数据库进行功能基因分类。其中转录/多核苷酸代谢的功能基因序列有82 条(占比16.24%);细胞形态发生的功能基因序列74 条(占比14.65%);生物信号传导的功能基因序列70 条(占比13.86%);转运的功能基因序列62 条(占比12.28%);初生代谢的功能基因序列60 条(占比11.88%);次生代谢的功能基因序列54 条(占比10.69%);光合/能量的功能基因序列50 条(占比9.90%);胁迫耐受的功能基因序列33 条(占比6.53%);翻译/蛋白质修饰的功能基因序列20 条(占比3.96%)。从此次分类中可以看到,在当归的生长发育过程中,除了最基本的生命活动,如转录核苷酸代谢外,细胞形态建成、生物信号传导、次生代谢和初生代谢也占有重要地位,这表明细胞形态建成在当归叶的形成和发育的过程中起到了重要作用。
3.5 当归形态建成的DEGs
从SwissProt数据库中注释到74个与当归形态建成相关的DEGs,其中40 个涉及调节当归开花、茎尖生长发育、种子发育、细胞生长分化、光合作用、叶片生长发育和开花的DEGs(表1)。
表1 当归形态建成相关基因
4 讨论
目前,当归全基因测序尚未完成,影响当归抽薹相关的基因研究较少。叶是植物光合作用的重要器官,可积累营养物质为开花提供物质基础。本研究采用BGISEQ-500 平台测序技术对当归叶转录组进行高通量测序,通过将当归样本的Unigene 与功能数据库进行比对,找出DEGs 并进行功能基因分类。结果表明,在当归的生长发育过程中,除了最基本的生命活动,如转录核苷酸代谢外,细胞形态建成、生物信号传导、次生代谢和初生代谢占重要地位。其中有74 个差异表达基因参与细胞形态建成,占14.65%,表明细胞形态建成在抽薹当归叶的生长发育的过程中起到了重要作用。
当归抽薹形态上表现出花期过早或者当归地上部分发育过度,所以从当归DEGs 中进行分析,发现影响细胞的分裂和调节生长的基因有CDC48C、CYCA1-1;调节当归种子生长发育的基因主要有CSLA2、AUG8,主要调节种皮发育和启动胚胎发生;促进当归叶片生长的基因有CER26、BTAF1等;调节当归开花的基因有TPS1、ALA6、AP2、SOCI,主要调节当归花瓣和花粉管等的发育;调节叶片光合作用的基因主要有CAB37、CAP10A,其主要功能有参与光合作用、光捕获、积累营养物质。
转录组测序反映的是特定条件下表达活跃的基因,可以快速、高效地研究生物调控方式,因此转录组测序在分子标记、代谢物含量监控、功能基因的挖掘、药用植物活性成分生物合成与调控分析、药材道地性分子机制探索方面提供了新的思路和方法[15]。目前利用转录组测序技术在金银花[16]、丹参[17]、人参[18]等药用植物活性成分的生物合成与调控研究中已取得重大进展。当归早期抽薹不仅影响药材的产量和质量,还制约当归资源可持续发展。本实验结果丰富了当归转录组数据,为进一步研究影响当归抽薹及分子育种提供了基础数据。但是调控当归抽薹的分子机制和通路有待进一步研究。研究表明,与未抽薹植株比较,早期抽薹当归可溶性糖和蛋白质含量降低,而游离氨基酸含量、过氧化物酶和多酚氧化酶活性有升高趋势[19];在内源激素方面,早期抽薹植株开花过程中植株体内赤霉素A3(GA3)、玉米素核苷和多胺类含量均呈增加的趋势[20]。因此,可进一步考察当归抽薹植株可溶性糖、蛋白质、GA3含量的变化,使调控开花的基因和代谢通路更加清晰。