基于基因组和转录组的丹参酮生物合成相关基因SmCYP71AU66 的筛选*
2019-09-14于浩滢高冉冉徐志超闵伟红
于浩滢,高冉冉,徐志超,闵伟红
(1.吉林农业大学食品科学与工程学院 长春 130118;2.中国医学科学院/北京协和医学院药用植物研究所中药资源教育部工程研究中心 北京 100193;3.国家中医药管理局中药资源保护重点研究室 北京100193)
药用模式植物丹参(Salvia miltiorrhiza)[1]主要药效活性成分之一为丹参酮,一种脂溶性松香烷二萜类化合物,具有抗癌、抗菌、抗病毒等作用,对心脑血管疾病的治疗效果尤为显著[2-4]。由于丹参酮化合物结构复杂多样及其显著的药理活性,丹参酮生物合成途径和体外合成生物学研究受国内外广泛关注。
丹参酮作为二萜类化合物,其上游生物合成途径主要通过位于质体中的非甲羟戊酸途径(2-C-methyld-erythritol-4-phosphate,MEP)来完成,由关键酶DXS(1-Deoxy-D-xylulose-5-phosphate synthase)、DXR(1-Deoxy-D-xylulose-5-phosphate reductoisomerase)、MCT(MEP cytidylyltransferase)、CMK(4-(cytidine-5-diphospho)-2-C-methyl-D-erythritol kinase)、MDS(2-C-methyl-D-erythritol-2,4-cyclodiphosbphate synthase)、HDS(Hydroxymethybutenyl-4-diphosphate synthase)、HDR(Hydroxymethylbutenyl-4-diphosphate reductase)逐步催化3-磷酸甘油醛(Glyceraldehyde-3-phosphate,G3P)和丙酮酸(Pyruvate)合成异戊烯基焦磷酸(Isopentenyl diphosphate,IPP);IPP 与二甲基丙烯基焦磷酸(Dimethylallyl diphosphate,DMAPP)聚合形成二萜前体牻牛儿基牻牛儿基焦磷酸(Geranylgeranyl diphosphate,GGPP);二萜合酶SmCPS 和SmKSL 催化GGPP 合成丹参酮化合物的关键前体次丹参酮二烯(Miltiradiene),Zhou 等[5]将丹参SmCPS1 和SmKSL1 编码基因模块化组装到酵母中通过合成生物学方法合成次丹参酮二烯,产量达到365 mg·L-1,后经Dai等[6]优化酵母表达系统将产量提高至488 mg·L-1。CYP76AH1催化次丹参酮二烯合成铁锈醇(Ferruginol),CYP76AH3和CYP76AK1 多步催化铁锈醇生成11,20-二羟基铁锈醇和11,20-二羟基柳杉酚,最后在细胞色素P450(Cytochrome P450 monooxygenase,CYP450)或其他氧化酶作用下产生丹参酮类化合物[7-14],Xu等[15]研究发现2-酮戊二酸依赖性双加氧酶(2-oxo-glutarate dependent di-oxygenases,2OGDs)超家族中的2OGD5参与丹参酮生物合成。鉴于丹参酮类化合物及其中间产物的结构多样性,其生物合成途径仍然有多个未知的氧化酶编码基因参与,如CYP450s、SDRs(Short-chain alcohol dehydrogenases)、2OGDs等[16]。基于丹参基因组和转录组数据筛选丹参酮生物合成相关的氧化酶编码基因,有助于丹参酮合成途径的解析及合成生物学研究[16-18]。
CYP450 是一种血红素-铁硫蛋白,在植物体内催化多种初级和次级代谢反应,如植物天然产物合成过程的结构修饰,包括萜类、生物碱类、甾醇类、信号分子、色素、植物激素、脂肪酸、黄酮类和异黄酮等的合成及代谢过程[19-21]。在陆地植物中,CYP450家族被分为11个clans:CYP51clan、CYP74clan、CYP97clan、CYP710clan、CYP711clan、CYP727clan、CYP746clan、CYP71clan、CYP72clan、CYP85clan、CYP86clan。其中,CYP71clan占高等植物中所有CYP450s的一半以上[22]。已鉴定的与萜类化合物多样性有关的CYP450家族成员大多数属 于CYP71clan[23],如 鳄 梨(Persea americana)中 的CYP71A1 是第一个从植物中克隆出来与单萜类化合物的代谢有关的CYP450[24];百脉根(Lotus japonicus)中CYP71D353 具有氧化羽扇豆烷型五环三萜的功能[25];青蒿(Artemisia annua)中CYP71AV1两步催化紫穗槐-4,11-二烯生成青蒿醇和青蒿醛[26,27]。丹参中参与丹参酮生物合成的SmCYP76AH1、SmCYP76AH3、SmCYP76AK1和SmCYP71D375也属于CYP71clan[12,13,28]。
本研究基于丹参全基因组及全长转录组数据库,系统鉴定丹参的CYP71clan 的编码基因,通过差异表达及共表达分析,筛选可能参与丹参酮生物合成的CYP450基因,为进一步解析丹参酮生物合成途径奠定基础。
1 材料
丹参植物材料(99-3)包括根、茎、叶、花、根周皮、根韧皮部、根木质部等组织、器官来源于中国医学科学院药用植物研究所实验田。
2 方法
2.1 丹参CYP450系统发育树构建及亚家族成员鉴定
通过PFAM 注释丹参基因组中的CYP450(PF00067);下载拟南芥CYP450s 的蛋白序列(http://drnelson.uthsc.edu/Arablinks.html);采用MEGA6.0 进行蛋白序列比对并构建NJ(Neighbor-joining)系统进化树,选择Tones Taylor Thornton(JTT)模型,bootstrap 设置为1000次[29]。
2.2 基因结构、保守基序及差异表达分析
基于CDS 序列及对应基因组序列,利用在线服务器(http://gsds.cbi.pku.edu.cn/index.php)分析亚家族成员的基因结构。利用MEME(Suite version 5.0.2)对亚家族成员保守基序进行分析,参数:E 值小于2×10-30,基序重复次数不限[30]。
基于丹参已发表的转录组数据[16-18],包括丹参根部三个组织(周皮、韧皮部、木质部)以及根、茎、叶、花四个部位,通过HISAT2和Cufflinks计算丹参编码基因的FPKM(Fragments per kilobase of exon model per million mapped reads)值[31],鉴定丹参CYP450s 基因的表达量。通过皮尔森相关系数(Pearson’s Correlation Tests,r)分析候选基因与SmCPS 和SmKSL 的共表达情况[32]。
2.3 丹参酮合成相关基因克隆与生物信息学分析
利用多糖多酚植物总RNA抽提试剂盒(天根生物技术有限公司,北京,中国),提取丹参根部总RNA。取1.0 μg 总RNA,通过PrimeScript™II 1st Strand cDNA Synthesis(TAKARA)反转录试剂盒反转录得到cDNA。采用Takara Ex Taq DNA 聚合酶对候选基因进行基因克隆,依据全长转录组及基因组信息设计引物(5'FATGGAGGAAATCCAATTCCATCCC/3' R-TTATGTAGTGTGAGAAGCAACTGC),反应条件为:95℃30 sec;30 clycles:95℃5 sec,60℃34 sec,72℃2 min;72℃10 min。反应后利用1%琼脂糖凝胶电泳检测,回收DNA并与pMD-18T载体连接,进行测序验证。
克隆到候选基因后,通过ExPASy Proteomics Server的在线工具Protparam(http://www.expasy.ch/tools/protparam.html)预 测 其 理 化 性 质;Predictprotein(https://www.predictprotein.org)预测蛋白的二级结构;PFAM(http://pfam.xfam.org/search/batch)预测蛋白保守结构域;利用SWISS-MODEL(https://swissmodel.expasy.org/interactive)进行蛋白质的三维同源建模,并使用Pymol 软件进行蛋白三级结构模型比对处理。
图1 丹参CYP71clan系统进化分析
2.4 候选基因在丹参不同组织部位表达分析
参考2.3 的试验方法,分别提取丹参根三个组织(周皮、韧皮部和木质部)以及丹参不同器官(根、茎、叶、花)的总RNA,并合成cDNA。利用Primer Premier 6 软件设计实时定量PCR 特异引物(5'F-CCGCTGATGCTTCTTCACTT/3'R-CAGTATTCGCCGTAAGGAGAG),以丹参SmACTIN 作为内参基因,采用2-△△Ct方法计算基因在丹参不同组织部位的相对表达,one-way ANOVA(IBM SPSS v20)分析多样品间的差异显著性。
3 结果
3.1 基于丹参基因组的CYP450注释及系统发育分析
本研究基于PFAM结构域(PF00067)从丹参基因组注释到331个CYP450s,占全基因组编码基因的1%[16],高于拟南芥中报道的CYP450s的数量(246)[33],且与大豆中CYP450s数量(332)[34]近乎一致。将丹参CYP450蛋白序列与拟南芥CYP71clan蛋白序列比对构建系统发育树,鉴定到161个丹参CYP71clan成员。根据拟南芥家族分类,将丹参CYP71clan 分为16 个家族:CYP701、CYP703、CYP706、CYP71、CYP73、CYP75、CYP76、CYP77、CYP78、CYP79、CYP81、CYP82、CYP84、CYP89、CYP92、CYP93,各家族成员数分别为2、1、4、64、2、3、28、4、8、7、12、8、3、1、10、1 个,其中CYP71家族成员最多,CYP76家族次之(图1)。已验证功能的丹参SmCYP76AH1、SmCYP76AH3、SmCYP76AK1基因分别对应SMil_00020972、Mil_00029757、SMil_00003277,属于CYP71clan 的CYP76 家族;SmCYP71-D375(SMil_00024363)属于CYP71clan的CYP71家族。
3.2 基于转录组的丹参CYP450s编码基因表达分析
图2 SmCYP71家族成员在丹参不同组织部位中的差异表达图谱
在丹参的根组织中,23%(77/331)的CYP450s 基因的表达水平FPKM >10,49%的CYP450s 基因沉默表达(FPKM <1)。此外,丹参CYP71clan 中36%(58/161)的基因在丹参根部组织或其他部位高表达(FPKM >10),其中CYP71 家族和CYP76 家族数量最多,各14 个 基 因,CYP81 家 族7 个 基 因,CYP75、CYP92、CYP98、CYP706 家 族 各3 个 基 因,CYP78、CYP82、CYP84 家 族 各2 个 基 因,CYP73、CYP77、CYP79、CYP701、CYP89家族各1个基因。62个基因在丹参根、茎、叶、花、根周皮、根韧皮部和根木质部中全部沉默表达。CYP84 家族中的SMil_00026853 基因在丹参茎中特异表达;CYP76家族中的Smil_00024737基因与CYP706 家族中的SMil_00028777 基因在丹参叶片中特异表达;CYP98 家族中的SMil_00026146 基因在花中特异表达。丹参根及根周皮是丹参酮的合成和积累部位[16],丹参酮合成途径关键酶CPS、KSL、CYP76AH1、CYP76AH3、CYP76AK1 编码基因在丹参的根及根周皮中显著高表达[12,13,28,35]。本研究中,CYP71家 族 的CYP71D375(SMil_00024363)、CYP71AU66(SMil_00019862)、SMil_00024176 基因在丹参根及根周皮显著表达,且与SmCPS1 和SmKSL1 基因共表达(r=0.99)。
3.3 丹参CYP71家族基因结构、保守基序分析
丹参CYP71家族是CYP71clan中数量最多的家族,在差异表达分析结果高表达基因中占比也最高,浦[30]等已鉴定到丹参CYP71 家族中的SmCYP71D375 参与丹参酮生物合成。丹参中64 个CYP71 家族成员的基因结构较为相似,从图中看,大部分基因含有1个内含子,10 个基因有两个内含子,9 个基因无内含子。SMil_00018381含有4个内含子,是家族中内含子数量最多的基因,(图3A)。利用MEME(Suite version 5.0.2)对SmCYP71 家族基因进行基序预测,总共预测了12个保守基序,其中23 个CYP71 家族成员含有全部12个基序,11个CYP71家族成员保守存在基序1、4、7、8、9、10、12,(图3B)。
3.4 丹参酮生物合成SmCYP71AU66的克隆及表达分析
SmCYP71AU66(SMil_00019862)在丹参根及根周皮显著高表达,且与SmCPS 和SmKSL 显著共表达。SmCYP71AU66 定位在丹参基因组sacffold 3314,基因组DNA 序列长度1585bp。本研究克隆获得SmCYP71AU66长度1503bp,编码500个氨基酸。
SmCYP71AU66 基因编码的蛋白理化性质在线分析推测该蛋白分子式为C2537H4040N684O724S21,分子量56.4kD,原子总数为8006,等电点6.72,带正电残基(Arg+Lys)63,负电残基(Asp+Glu)61。SmCYP71AU66蛋白不稳定系数为38.91,脂肪系数为98.28,亲水性系数为-0.128。蛋白质二级结构中存在50.80%α-螺旋,8.60%β-折叠和40.60%的无规则卷曲。经PFAM 预测SmCYP71AU66 在37~486 位点具有CYP450 保守结构域(PF00067)。用SWISS-MODEL预测SmCYP71AU66蛋白三级结构,其与丹参中的SmCYP76AH1 基因(PDB ID:5ylw.1)同源性最高,为36.51%,故选其为模板,在第45-492 位氨基酸处建模,模型覆盖率为88%。运用Pymol 软件将同源建模的模型与模板进行比对,黄色为SmCYP71AU66 蛋白三级结构,蓝色为SmCYP76AH1 蛋白三级结构,红色为模型与模板的差异,(图4)。
图3 丹参CYP71家族基因结构特征和保守基序分布
通过对SmCYP71AU66 在丹参根的周皮、韧皮部、木质部和丹参的不同器官根、茎、叶、花中的转录组数据进行差异表达分析,根周皮表达量最高,其次是根韧皮部和根,根木质部中表达量略少,在茎、叶、花中SmCYP71AU66 基因的表达没有被检测到(图5A),根周皮表达量是韧皮部的12.3倍,SmCYP71AU66的表达集中在根部,与药典中丹参以根茎入药相符[36]。
针对SmCYP71AU66 进行实时定量PCR 分析,(图5B)所示,SmCYP71AU66的表达量最高的是根周皮,根韧皮部次之,在根、根木质部、花、叶、茎中表达量依次递减,根周皮表达量约为韧皮部的5倍,与转录组表达趋势相符合。
4 讨论
图4 SmCYP71AU66蛋白三维结构预测
图5 SmCYP71AU66基因在丹参不同组织器官的表达
丹参酮类化合物能够有效治疗心脑血管疾病,其生物合成途径的解析和调控以及合成生物学研究受到广泛关注[37]。由于丹参酮和丹酚酸等天然产物结构独特、丹参转基因技术成熟、生长周期相对短,丹参被认为是药用植物次生代谢途径合成及调控等研究的模式植物[1]。近年来,丹参二萜合酶CPS和KSL环化GGPP合成次丹参酮二烯,CYP76AH1、CYP76AH3和CYP76AK1催化次丹参酮二烯合成铁锈醇、柳杉酚等丹参酮的中间产物[12,13,28,35];多个丹参bHLH和AP2/ERF转录因子被证实正向调控丹参酮的生物合成[38-42];丹参酮中间产物在酵母中的合成生物学生产也取得显著进展[5,6]。由于丹参酮类化合物的结构多样且具有高度氧化的特性,推测有未知的CYP450 等氧化酶家族编码基因发挥关键作用。已发表的丹参基因组结构显示丹参酮生物合成基因不呈现基因簇的形式,因此基于共表达分析筛选及挖掘候选功能基因至关重要。
CYP450s是迄今为止发现的参与植物代谢最大的酶家族,约5100个植物CYP450序列已被注释和命名[21],参与催化萜类、黄酮类、生物碱类等化合物的生物合成,增加植物天然产物化合物的结构多样性。例如CYP71clan的CYP71D亚家族中CYP71D13、CYP71D15和CYP71D18 基因,能够催化薄荷属植物中柠檬烯在不同位置发生羟基化反应[43]。本研究基于丹参全基因组数据,系统分析丹参CYP71clan成员,将其分为16个家族,其中CYP71 家族成员64 个,数量最多。CYP71家族在丹参中进化较为保守,成员中大多数含有相同基序,基因结构也较为相似。差异表达分析显示,在高表达(FPKM >10)的基因中CYP71家族成员占比最大,其中,SmCYP71AU66 基因在丹参根中显著高表达,且根周皮中表达最高,与丹参二萜合酶SmCPS和SmKSL基因呈显著共表达,与丹参酮在丹参不同组织、器官中的分布及积累规律一致,因此预测SmCYP71AU66参与催化丹参中丹参酮的生物合成。
然而SmCYP71AU66 的具体功能和机制可以通过实验进一步验证,如结合RNAi 或CRISPR-Cas9 基因编辑手段对SmCYP71AU66基因进行沉默或敲除,以及过表达等经丹参体内遗传转化后,通过高效液相色谱检测观察丹参酮类化合物含量的变化,再通过代谢组学检测等分析寻找相关底物,候选底物在体外进行酶活催化反应,揭示其催化丹参酮生物合成的分子机理。也可采用化学生物学方法[44,45],利用功能分子探针进行丹参酮合成途径相关蛋白酶和代谢物的鉴定,推动丹参酮途径的解析,为丹参酮合成生物学及丹参分子辅助育种奠定基础。