刺五加P450基因的筛选及其表达对皂苷含量的影响
2021-08-24崔明晖张朵朵林丽梅邢朝斌
宋 鑫,崔明晖,张朵朵,张 杰,林丽梅,邢朝斌
刺五加基因的筛选及其表达对皂苷含量的影响
宋 鑫,崔明晖,张朵朵,张 杰,林丽梅,邢朝斌*
华北理工大学生命科学学院,河北 唐山 063210
筛选和鉴定刺五加中的细胞色素基因(),分析其进化特征,探究其与刺五加总皂苷含量的相关性。根据转录组测序结果,筛选得到基因,并对其进行生物信息学分析与适应性进化分析,采用qRT-PCR法检测基因的表达量,采用分光光度计测定刺五加的总皂苷含量。筛选得到了18条基因。刺五加P450蛋白不存在跨膜区域,二级结构以α-螺旋和无规则卷曲结构为主。基因不存在正选择位点。各间的表达量差异显著,部分基因表达量差值在10倍以上,7条基因的表达与皂苷含量呈正相关关系(<0.05)。鉴定出与刺五加总皂苷含量存在正相关关系的基因,基因在进化中受到纯净选择。
刺五加;细胞色素;生物信息学分析;基因表达量;qRT-PCR
刺五加(Rupr. et Maxim.) Maxim.是我国珍贵药用植物,具有抗疲劳、抗缺氧、抗肿瘤等许多药理作用,与人参一样,被广泛用作“适应原”样药物[1],三萜类化合物是其主要活性成分之一。三萜皂苷类化合物在生物体中均需通过依赖甲羟戊酸的类异戊二烯途径进行合成[2],合成过程分为前体形成、骨架构建以及后修饰3个阶段。其中,后修饰过程是决定形成何种皂苷和其产量的关键环节,细胞色素P450(cyctochrome P450 enzyme,P450)即在此过程中负责三萜烯骨架的羟基化、氧化和糖基化等复杂的后修饰作用,是三萜皂苷类化合物生物合成中的关键酶[3]。
P450是第一组被归类于“超级家族”的酶类,在动植物、细菌和真菌等细胞中广泛分布[4],它是自然界中最大且最古老的家族。自从1958年从小鼠肝脏微粒体中分离到第一个细胞色素P450,以及1989年从鳄梨Mill.中克隆出第1个植物基因序列[5]以来,基因就因其多样化的功能成为了研究热点。在植物中,P450主要参与植物体内初级和次级代谢反应,并发挥重要的催化作用[6]。迄今为止,利用功能缺失突变体法、差异筛选法、抗体或探选cDNA文库、同源序列法等方法已成功地分离了多个基因,部分基因功能已经被鉴定[7]。Vasav等[8]在番茄中鉴定出233个基因以及保守基序并进行了系统进化分析,为番茄中基因家族的功能和进化提供具有重要价值的信息。
本研究通过刺五加转录组测序数据筛选刺五加()基因,利用BLAST工具对其序列进行分析和鉴定,同时利用生物信息学方法来进行分析,通过qRT-PCR分析基因的表达量与皂苷含量间的相关性,为进一步研究刺五加药用成分生物合成机理奠定基础。为三萜生物合成途径的进一步解析与P450的功能研究提供借鉴。
1 材料与仪器
1.1 材料
刺五加样本采自河北省承德市雾灵山国家级自然保护区,经华北理工大学邢朝斌教授鉴定为五加科植物刺五加(Rupr. et Maxim) Maxim.。选取刺五加植株的叶片,经清水洗净、滤纸吸干水分保存于−80 ℃,用作后续提取刺五加总RNA和测定总皂苷含量的样本,根据总皂苷含量差异筛选4株同一产地、三年生、长势相似的刺五加样本(A、B、C、D),进行后续转录本测序。
1.2 仪器
核酸定量仪(NanoDrop One,Thermo Fisher Scientific);7900HT型实时荧光定量PCR系统(Thenmo scientific);AC2-s型无菌操作台(ESCO公司);3K15型冷冻高速离心机(Sigma公司);PCR扩增仪(ProFlex PCR System,Life technologies);核酸电泳仪、DYY-12型水平电泳槽(北京市六一仪器厂);C300型凝胶成像仪(Azure biosystems);2ZX-2型旋片式真空泵(临海市谭氏真空设备有限公司);V-5100B型可见光光度计(上海元析仪器有限公司)。
2 方法
2.1 EsP450基因的筛选及生物信息学分析
使用RNAprep Pure植物总RNA提取试剂盒提取和纯化刺五加叶片总RNA,使用琼脂糖凝胶电泳法检测所提取总RNA的完整性,并将其逆转录为cDNA,构建cDNA文库,进行高通量测序。经过转录组拼接、组装与功能注释后,获得unigene的注释信息[9]。
根据unigene注释信息筛选出刺五加转录组测序数据中的,通过BLAST比对和人工鉴定,最终得到18条基因。使用ExPASy中的Protparam预测蛋白质氨基酸数量、相对分子质量、理论等电点(PI)等蛋白质基本性质。在NCBI中的Conserved Domain Database在线软件中分析蛋白质结构功能域。通过TMHMM Server(v2.0)软件对蛋白质跨膜结构进行预测。在TargetP 1.1 Sever软件中分析蛋白质亚细胞定位,Singalp 3.0 Sever进行信号肽的预测,使用SOPMA软件对蛋白质二级结构进行预测。之后使用SWISS-MODEL进行蛋白质三级结构的预测。最后,在MEGA7.0软件中使用邻位相连法(neighbor-joining)构建基因的系统进化树
2.2 进化分析与正选择位点的确定
通过Clustal X软件进行多序列比对,采用MEGA7.0软件中的临近法,bootst rap值设为1000,构建系统发育树。通过分析系统发育关系,进行适应性进化分析,在分子水平上度量选择压力时,可通过估算核苷酸序列非同义替换率(N)与同义替换率(S)的比值()来推测出其进化趋势与所经受的选择压力。当N=S,即=1表现为中性选择;当N<S,即<1,表明受到负选择;当N>S,即>1,表明出现了正选择,若显著大于1可被视为蛋白质发生适应性进化的证据[10]。使用PAML软件中的Comdelc程序的位点模型对刺五加的基因在进化过程中所受到的选择压力进行分析。
位点模型假设不同位点的值不同,但进化树上各分支值相同。本研究采用M1a(近中性)对M2a(正选择),M0(单一比值)对M3(离散)和M7(beta)对M8(beta&)3对模型进行LRT检验来验证模型之间是否存在差异。其中M0(单一比值)对M3(离散)的比较是为了验证不同位点的值是否不同,M7(beta)对M8(beta&ω)易出现假阳性结果,所以选择M1a(近中性)对M2a的检测结果为可能的正选择位点[10]。并将序列数据提交到Datamonkey(http://www. datamonkey.org/)和MEC(http:// selecton. tau.ac.il/)。使用Datamonkey Web服务器中的固定效应似然模型(fixed effects likelihood model,FEL)和单一似然祖先计数法(single likelihood ancestor counting,SLAC)对位点的选择压力进行在线分析,对于SLAC、FEL方法而言,处于<0.1水平的位点即可认为是受正选择的影响[10]。
2.3 差异表达基因的筛选
使用RSEM得到每个样品比对到每个基因上的read count数目,以FPKM(Fragments Per Kilobase of transcript per Million mapped reads)来确定每个基因的表达水平。接着,使用EBSeq进行差异分析,将FDR<0.01且|log2(FC)|≥1作为筛选基因表达出现显著差异的标准,Fold Change表示2样品(组)间表达量的比值,错误发现率(false discovery rate,FDR)是通过对差异显著性值进行校正得到的。
2.4 基因表达量的测定
以“2.1”项中的cDNA作为qRT-PCR模板,以刺五加基因为内参基因,并对筛选得到的9条差异表达的基因,设计qRT-PCR的特异性扩增引物(表1)。进行qRT-PCR反应,每个样本重复3次。总反应体系为10 μL,上、下游引物各0.3 μL,cDNA模板0.5 μL,50×ROX Reference Dye 1 μL,RNase-Free ddH2O 2.9 μL,2×Talent qPCR PreMix 5 μL。反应条件:预变性95 ℃,3 min;变性95 ℃,5 s;退火55 ℃,10s;延伸72 ℃,15s,共40个循环。基于2−ΔΔCt方法计算各样本中的基因相对表达量。
表1 EsP450基因及GAPDH基因qRT-PCR的引物序列
2.5 皂苷含量的测定及相关性分析
参考文献的方法[11],对样品进行烘干、研末、称重、乙醇溶解超声破碎提取后,进行石油醚除色素,正丁醇萃取,通过香草醛-浓硫酸显色法在543 nm的波长下测得其吸光度后,将其带入齐墩果酸标准曲线(=0.185 6-0.011 7,²=0.996 4)进行重复多次计算,得到刺五加样本总皂苷含量。使用SPSS 18.0软件分析基因表达量与皂苷含量间的相关性。
3 结果与分析
3.1 P450基因鉴定及其蛋白理化性质
筛选转录组测序数据获得的刺五加unigenes,将其中标记为基因的序列调出,与NCBI数据库进行逐一比对,之后借助Pfam数据库进行功能结构域的鉴定,最终确定其中存在18条,其中TRINITY_DN41836_c0_g1、TRINITY_ DN5264_ c0_g2、TRINITY_DN10211_c0_g2和TRINITY_ DN1308_c0_g1均缺少了编码蛋白质的核酸序列,推测为转录组拼接过程中丢失了前端部分序列,其余14条基因具有完整的开放阅读框。
EsP450蛋白的理化性质分析结果表明(表2),各EsP450的长度、等电点方面有很大差异。编码的氨基酸长度在122~746 aa;相对分子质量介于13 629.50~83 620.79;等电点在5.78~9.55,碱性蛋白占据多数,共12个,酸性蛋白共6个;不稳定系数介于31.88~64.80,平均值为42.22,总体上稳定性较差;脂溶指数在83.09~102.21,平均值为95.21,亲水系数均为负值,因此推测EsP450蛋白为亲脂性蛋白质。
表2 刺五加P450蛋白的基本理化特性
3.2 P450蛋白二级结构及亚细胞定位分析
在刺五加P450蛋白二级结构(表3)中,α-螺旋(23.77%~54.35%)>无规则卷曲(31.79%~49.18%)>延伸链(9.24%~18.03%)>β-转角(3.24%~9.02%)。因此推测二级结构中起关键作用的是α-螺旋。信号肽预测结果表明,P450蛋白中含有信号肽的可能性较小,推测为胞内蛋白。亚细胞定位结果分析,1个位于细胞核,1个位于线粒体,2个位于质膜,1个位于叶绿体类囊体膜,5个位于过氧化物酶体,8个位于内质网膜,推测P450蛋白在不同的位置实现氧化功能。
3.3 保守结构域分析
为了进一步探索的功能作用和进化关系,使用筛选出的18条以及来自拟南芥的52条的氨基酸序列,利用MEGA7.0软件构建了P450的ML系统发育树(图1)。如图1所示,分别属于不同家族。其中,CYP72家族与CYP82家族各有3条;CYP81家族与CYP94家族各有1条为TRINITY_DN4544_c0_g1和TRINITY_DN6616_c0_ g1;而刺五加P450基因并未分布在CYP70家族和CYP76家族中;而4条(TRINITY_DN11618_c0_g1、TRINITY_DN3437_c0_g1、TRINITY_DN1436_c0_g1、TRINITY_DN3773_c0_g1)序列与代表序列的同源性过小,因此无法归属;其余序列全部分布在多基因簇CYP71家族中。根据刺五加核苷酸序列,使用邻位相连法再次进行了系统发育进化树的构建(图2),未鉴定出所在家族的4条基因,经过BLAST比对与基因结构分析后,确认TRINITY_DN3437_c0_g1、TRINITY_DN1436_c0_g1和TRINITY_DN3773_c0_g1属于CYP71家族,TRINITY_DN11618_c0_g1,除了dnak保守结构域外,还包含了CYP71家族保守基序,因此将其归属为CYP71家族。
表3 刺五加P450蛋白二级结构及亚细胞定位
红星为刺五加中的P450基因
在进行保守结构域分析时发现(图2),基因的motif中存在典型的保守结构域。这些典型的保守结构域主要包括PERF结构域(PXRX)、K螺旋(EXXR)和C末端的血红素结合域(FXXGXXXCXG)。血红素结合域存在铁元素形成硫醇盐离子键的绝对保守的半胱氨酸残基,该结构域也是P450蛋白的特征结构,其中,血红素结合域存在于motif 1,PERF结构域存在于motif 7,K螺旋存在于motif 5。在全部序列中均较测到了motif 1与motif 7,除TRINITY_DN41836_c0_g1外,其他序列还共同拥有motif 3。但K螺旋所在的motif 5只存在于分支Ⅱ全部序列、分支Ⅰ除TRINITY_DN41836_c0_g1外全部序列、以及TRINITY_DN1051_c3_g1、TRINITY_DN6616_c0_ g1中,在进行多序列比对确认后,发现K螺旋确实存在于除TRINITY_DN41836_c0_g1外全部序列,而TRINITY_DN41836_c0_g1转录本序列为934 bp,但其编码形成的多肽链仅有122 aa,因此推测为在转录组拼接时出现了丢失,从而证实了筛选得到的P450真实性。
A-P450基因序列构建的系统发育进化树 B-motif C-domain
3.4 选择压力分析
利用PLAM软件中的Comedlc程序检测EsP450家族中的每个位点的选择压力(表4)。单比率模型M0的参数np=35,似然值ln=−4 587.954 733;离散模型M3的参数np=39,似然值ln=−4 519.625 208,两者之间的LRT检验<0.001。备择假设模型M3成立,M3优于M0,说明各个位点存在选择严压力的差异。M3的2小于1,说明不存在正选择位点。模型M1a与M2a的2Δln=0,=1,说明备择假设M2a不成立。在模型M7与M8比较中,df=2,2Δln=0.198 608,得到=0.905 07,说明模型M8不成立基于Datamonkey检测选择压力:分别以SLAC模型与IFEL模型进行正选择位点的鉴定。SLAC模型在<0.1水平下检测到6个(2E、34K、64K、125R、223L、334E)正选择位点,14个负选择位点;在<0.05水平下,检测到5个(160K、254E、308A、356H、437K)负选择位点,未检测到正选择位点;在<0.01水平下未检测到选择位点。在IFEL模型中,当<0.1时检测到3个(13L、26K、45G)正选择位点,19个负选择位点;在<0.01水平下检测到2个(197F、310D)正选择位点,6个(33K、171V、256K、343L、353L、380E)负选择位点。
将刺五加18条基因序列上传至在线服务器MEC内,以Clustal W为对比方法,于TRINITY_DN11618_c0_g1一级结构上标注选择压力(图3)。绝大部分的位点被标注为紫色,其中深紫色位点有150个,占总位点的20.1%。不存在橙色标记与黄色标记。表明了纯净选择在基因家族的进化过程中占主导地位。
表4 刺五加P450基因基于PAML软件的适应性分析
黄色代表受到正选择的位点,白色代表受到中性选择,红色代表受到负选择的位点,颜色越深代表在统计学上的显著性越强
3.5 基因相对表达量与皂苷含量
从18条基因中筛选得到9条差异表达基因,对它们进行qRT-PCR验证的结果显示,qRT-PCR得到的在各个样品中的表达量与转录组结果基本一致(<0.05)。TRINITY_ DN41836_c0_g1在样本D中表达量最高,是样本C中表达量的19.5倍;TRINITY_DN6616_c0_g1在各样本中表达量均较低,其中在样本A中未检测到其表达。4个样本中总皂苷的含量从高到低依次为D(47.2 g/kg)>C(37.6 g/kg)>B(32.2 g/kg)>A(26.1 g/kg)。使用SPSS软件对基因表达量与总皂苷含量进行相关性分析。结果显示,在0.01级别检测到了6条基因与总皂苷含量相关性显著;在0.05级别检测到了TRINITY_DN41836_c0_g1与总皂苷含量相关性显著;TRINITY_DN39772_c0_g3和TRINITY_ DN5264_c0_g2与总皂苷含量不存在相关性。见图4。
4 讨论
三萜皂苷是许多药用植物的主要活性成分之一,基因的表达水平影响了三萜皂苷在药用植物中合成和积累量的多寡[11]。本研究从刺五加转录组数据中挖掘出了基因家族成员,对其进行了系统的生物信息学分析。研究结果表明,CYP450蛋白二级结构以α-螺旋和无规则卷曲结构为主,延伸链和β-转角相对较少,推测α-螺旋和无规则卷曲在其蛋白二级结构中发挥着重要的作用。细胞定位分析结果显示不同的CYP450定位在不同的细胞器中实现其氧化功能,这与前人研究结果一致[12]。基因家族分析的结果显示,所在家族与已知和三萜结构修饰有关的分布家族基本吻合[13]。在刺五加中存在的最大类型是CYP71。CYP71也是植物中最大的基因簇,这个基因簇基本上包含超过半数基因,功能非常丰富[14],此家族中的CYP716A47和CYP716A53v2已被证实参与人参皂苷生物合成过程中2步连续的氧化反应[15],而刺五加与人参同属五加科,是人参的近源物种,在刺五加CYP71家族中很可能存在参与三萜皂苷合成途径反应的CYP450。
A~D分别代表4株刺五加样本 1-TRINITY_DN10211_c0_g2 2-TRINITY_DN1436_c0_g1 3-TRINITY_DN1439_c0_g1 4-TRINITY_ DN3773_c0_g1 5-TRINITY_DN39772_c0_g3 6-TRINITY_DN41836_c0_g1 7-TRINITY_DN4544_c0_g1 8-TRINITY_DN5264_c0_g2 9-TRINITY_DN6616_c0_g1
氨基酸序列的适应性进化能够为研究酶的活性位点和功能提供有意义的信息。在植物众多的P450中,部分为三萜皂苷生物合成通路中的关键酶,这些酶也是造成三萜苷元多样性的重要原因之一。利用分子适应性进化原理进行功能位点的筛选可以为植物P450的活性位点提供有价值的参考。本研究通过PAML、MEC模型、Datamonkey共3种方式对进行了分析,结果表明不存在正选择位点,由此推测基因以负选择为主导,它们受到强烈的负选择作用的约束,在长期进化的过程中高度保守,对维持基因的重要功能起到了保护作用。比如,维持蛋白质结构的位点一般都受负选择,因为它们一旦发生突变,就会被纯化处理而消失[16]。
本研究所用的不同刺五加样本皂苷含量存在显著差异,并且9条差异表达基因中,有7条基因的表达量与刺五加总皂苷含量成正相关关系(<0.05)。吴鹏等[3]研究结果也表明,基因表达量与三萜皂苷含量间确实存在正相关关系,这代表参与刺五加三萜皂苷合成途径的很可能存在于本研究筛选得到的7条差异基因中。目前预测P450的功能仍具有一定难度,今后可以对这7条基因进行深入挖掘,开展基因克隆及功能研究,为进一步解析三萜皂苷合成途径提供借鉴。
利益冲突 所有作者均声明不存在利益冲突
[1] Huang L, Zhao H, Huang B,.: Review of botany, chemistry and pharmacology [J]., 2011, 66(2): 83-97.
[2] Choi D W, Jung J, Ha Y I,. Analysis of transcripts in methyl jasmonate-treated ginseng hairy roots to identify genes involved in the biosynthesis of ginsenosides and other secondary metabolites [J]., 2005, 23(8): 557-566.
[3] 吴鹏, 谷俊涛, 修乐山, 等. 刺五加P450基因时空表达差异及与皂苷含量的相关性分析 [J]. 河北农业大学学报, 2014, 37(3): 29-33.
[4] Nelson D R, Kamataki T, Waxman D J,. The P450 superfamily: Update on new sequences, gene mapping, accession numbers, early trivial names of enzymes, and nomenclature [J]., 1993, 12(1): 1-51.
[5] Bozak K R, Yu H, Sirevag R,. Sequence analysis of ripening-related cytochrome P-450 cDNAs from avocado fruit [J]., 1990, 87(10): 3904-3908.
[6] 张福生, 孔冉冉, 陈彤垚, 等. P450s介导远志皂苷等齐墩果烷型植物三萜生物合成的研究进展 [J]. 药学学报, 2019, 54(6): 1000-1009.
[7] Vasav A P, Barvkar V T. Phylogenomic analysis of cytochrome P450 multigene family and their differential expression analysis inL. suggested tissue specific promoters [J]., 2019, 20(1): 116.
[8] 董栩, 许燕, 李月亭, 等. 药用植物中细胞色素P450基因的研究进展 [J]. 云南中医药杂志, 2016, 37(3): 75-78.
[9] 宋菊, 国红玉, 李志栋, 等. 刺五加转录组和差异性表达分析 [J]. 中草药, 2016, 47(22): 4049-4053.
[10] 王卓, 国红玉, 张妍彤, 等. 五加科药用植物鲨烯合酶的适应性进化分析 [J]. 中草药, 2019, 50(14): 3413-3419.
[11] 邢朝斌, 龙月红, 劳凤云, 等. 刺五加鲨烯合酶基因的表达及其对皂苷含量的影响 [J]. 经济林研究, 2013, 31(1): 25-29.
[12] 赵志新, 鹿鹏鹏, 王通. 植物三萜皂苷代谢中细胞色素P450的生物信息学分析 [J]. 西南农业学报, 2019, 32(10): 2304-2312.
[13] 朱灵英, 郭娟, 张爱丽, 等. 参与植物三萜生物合成的细胞色素P450酶研究进展 [J]. 中草药, 2019, 50(22): 5597-5610.
[14] Nelson D, Werck-Reichhart D. A P450-centric view of plant evolution [J]., 2011, 66(1): 194-211.
[15] Gwak Y S, Han J Y, Choi Y E. Production of ginsenoside aglycone (protopanaxatriol) and male sterility of transgenic tobacco co-overexpressing threegenes:,, and[J]., 2019, 43(2): 261-271.
[16] 陈晓霞, 苏应娟, 王艇. 细鳞苔科psbA基因的适应性进化分析 [J]. 西北植物学报, 2010, 30(8): 1534-1544.
Identification ofgene ofand its effect on saponin content
SONG Xin, CUI Ming-hui, ZHANG Duo-duo, ZHANG Jie, LIN Li-mei, XING Zhao-bin
College of Life Science, North China University of Science and Technology, Tangshan 063210, China
To screen and identifygene in(), analyze its evolutionary characteristics, and explore the correlation betweengene and total saponins content of.According to the results of transcriptome sequencing,was screened and analyzed by bioinformatics and adaptive evolution, qRT-PCR was used to detect the expression ofand spectrophotometer was used to determine the total saponin content of.Eighteenwere screened. There was no transmembrane region in, and the secondary structure was mainly α-helix and irregular curly structure. There was no positive selection site of. The expression ofwas significantly different. Sevenwere identified, which were positively correlated with the total saponin content (<0.05).Thewere subjected to purifying selection pressure during evolution.
(Rupr.et Maxim) Maxim; cytochrome P450; bioinformatics analysis; gene expression level; qRT-PCR
R282.12
A
0253 - 2670(2021)16 - 5012 - 09
10.7501/j.issn.0253-2670.2021.16.026
2021-01-23
河北省自然科学基金生物医药联合基金项目(H2020209302);河北省教育厅资助科研项目(ZD2019075);国家自然科学基金项目(31570683);河北省大学生创新创业训练计划(S202010081016);华北理工大学大学生创新创业训练计划(R2020044);河北省大中学生科技创新能力培育专项项目(2021H020911)
宋 鑫(2000—),男,研究方向为生物信息在药用植物中的应用。
邢朝斌(1975—),男,教授,研究方向为分子生药学。Tel/Fax: (0315)8805590 E-mail: xingzhb@ncst.edu.cn
[责任编辑 时圣明]