芫荽基因组中NBS-LRR家族基因的鉴定及系统演化分析
2021-12-28钱兰华孙小芹张艳梅
钱兰华, 孙小芹, 邹 鑫, 张艳梅,①
〔1. 苏州农业职业技术学院, 江苏 苏州 215008; 2. 江苏省中国科学院植物研究所(南京中山植物园), 江苏 南京 210014;3. 苏州市种子管理站, 江苏 苏州 215011〕
芫荽(CoriandrumsativumLinn.)隶属于伞形科(Apiaceae)芫荽属(CoriandrumLinn.),为一种具有强烈气味的草本植物[1],起源于欧洲地中海地区,目前在北非、中欧和亚洲种植广泛,其茎和叶具有特殊的芳香气味,是世界各地普遍使用的香料[2]。新鲜的芫荽被广泛用于中国、泰国、越南等国家的菜品制作;磨碎的芫荽种子干粉除了在地中海地区用作调味品或香料外,还是印度人制作咖喱粉的主要成分。此外,芫荽的根、茎、叶和种子中还含有多种药物活性成分,具有抑菌、抗氧化、抗炎及抗糖尿病等功效[2],是很多国家和地区的重要传统药用植物。而且,芫荽的茎和叶中含有丰富的人体所需的营养元素(包括蛋白质、脂肪、矿质元素、纤维素、碳水化合物及维生素等),根部也含有丰富的糠醛、不饱和脂肪酸及萜类等益于人体健康的化学成分[3-4]。
近年来,随着种植面积不断扩大和重茬种植,芫荽的病害问题越来越严重,极大地威胁了芫荽的种植和生产。研究发现,芫荽的主要病害有软腐病、菌核病、叶枯病、白粉病和病毒病等,轻则影响产品质量,重则导致植株成片腐烂,造成绝产[5-6]。迄今为止,人们尚未发现针对芫荽上述病害的有效防治措施,极大地阻碍了芫荽的绿色高效生产。因此,亟需对芫荽的抗病种质资源和功能抗病基因进行发掘和利用,为芫荽的农业生产提供理论支持。
植物抗病基因(R基因)是植物在长期演化过程中形成的一类特殊的功能基因,其编码的蛋白可识别各种病原体,使植物体产生抗性。发掘植物抗病基因是植物抗病育种工作的重要前提。自第1个植物抗病基因Hm1从玉米(ZeamaysLinn.)中被克隆以来,研究者已陆续从不同植物中克隆到300多个抗病基因[7]。这些基因编码的蛋白结构不同,可分成不同的家族,如RLK/RLP(receptor-like kinases/receptor-like proteins)家族、Ser/Thr(serine/threonine)激酶家族和NBS-LRR(nucleotide-binding site leucine-rich repeat)家族。超过60%的抗病基因属于NBS-LRR家族,该家族基因可对细菌、真菌、病毒和线虫等发挥抗性作用[7]。根据基因编码的蛋白氨基端结构域的不同,可将NBS-LRR家族基因分成3个亚类,分别为具有Toll/白细胞介素-1受体(toll/interleukin-1 receptor, TIR)结构域的TIR-NBS-LRR(TNL)亚类、具有不规则卷曲(coiled-coil, CC)结构域的CC-NBS-LRR(CNL)亚类及具有白粉病抗性基因8(resistance to powdery mildew 8, RPW8)结构域的RPW8-NBS-LRR(RNL)亚类[8]。
近年来,随着基因组测序技术的发展,国内外研究者已对上百种植物基因组的NBS-LRR家族基因开展相关研究[9-12],大大地促进了人们对NBS-LRR家族基因的结构特征、作用机制和演化模式的认识。基于全基因组数据的NBS-LRR家族基因鉴定和遗传多样性分析可为植物功能抗病基因发掘提供重要资源,有利于挖掘植物体内新的功能抗病基因,对于植物分子标记辅助育种和功能抗病基因克隆等也具有重要价值。Zhang等[13]基于对水稻(OryzasativaLinn.)基因组中NBS-LRR家族基因的分析,对水稻抗性品种的NBS-LRR家族基因进行了特异性克隆,发现数十个对水稻稻瘟病发挥抗性的NBS-LRR家族基因。Witek等[14]在对马铃薯(SolanumtuberosumLinn.)基因组中NBS-LRR家族基因分析的基础上,结合目标片段捕获联合三代测序技术从同属植物少花龙葵(S.americanumMiller)中成功克隆到晚疫病抗性基因Rpi-amr3i。因此,在全基因组范围内进行NBS-LRR家族基因鉴定和分析不但对植物功能抗病基因的克隆具有重要的促进作用,还对从近缘种中克隆功能抗病基因具有重要的参考价值。
目前,芫荽的基因组测序工作已经完成[15],同科植物旱芹(ApiumgraveolensLinn.)和野胡萝卜(DaucuscarotaLinn.)的基因组测序工作也已经完成[16-17]。在此基础上,作者利用BLAST和HMMER软件对芫荽基因组中的NBS-LRR家族基因进行了鉴定,对这些基因的结构域组成、染色体分布、复制类型和器官表达进行了分析,并对芫荽、旱芹和野胡萝卜的NBS-LRR家族基因进行了系统演化分析,以期为芫荽及其近缘种中抗病基因的筛选和克隆以及抗病分子育种奠定研究基础。
1 材料和方法
1.1 数据来源
芫荽基因组序列、注释信息及器官转录组数据均来自芫荽基因组数据库(CGDB,http:∥cgdb.bio2db.com/)。旱芹和野胡萝卜基因组中NBS-LRR家族基因的相关数据来自被子植物NBS-LRR数据库(ANNA,https:∥biobigdata.nju.edu.cn/ANNA/)。
1.2 方法
1.2.1 基因鉴定及结构域组成分析 参照相关研究方法[7,18],从Pfam数据库下载NBS结构域(登录号PF00931)的HMM模型(隐马尔科夫模型,hidden Markov model);使用HMMER3软件中的hmmsearch程序,设置e-value为0.000 1,在下载的芫荽基因组注释蛋白序列中搜索含有NB-ARC结构域的蛋白序列;以获得的所有蛋白序列为问询序列,使用BLASTp程序对芫荽基因组编码的所有蛋白序列进行再次搜索,设置e-value为0.000 1;使用HMMER3软件中的hmmscan程序,设置e-value为0.000 1,利用Pfam-A数据库对获得的序列进行结构域组成鉴定,所有具NB-ARC结构域蛋白的编码基因均被认定为NBS-LRR家族基因。
根据前期鉴定的拟南芥基因组中NBS-LRR家族基因的相关信息[18],建立本地Blast数据库;以获得的芫荽NBS-LRR家族基因编码的蛋白序列为问询序列,使用BLASTp程序进行搜索。根据每条序列在拟南芥中的最佳匹配结果,划分亚类。随后,使用保守结构域搜索工具Conserved Domain Search (https:∥www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)在NCBI数据库中搜索芫荽NBS-LRR家族基因编码的氨基酸序列,以鉴定TIR、CC、RPW8、NBS和LRR结构域及其具体位置。采用同样的方法鉴定下载自ANNA数据库的旱芹和野胡萝卜NBS-LRR家族基因的结构域组成。
1.2.2 基因染色体分布分析 从下载的芫荽基因组gff注释文件中,提取每个NBS-LRR家族基因在染色体上的位置。参照Ameline-Torregrosa等[19]划分NBS-LRR家族基因簇的标准,将染色体上间隔小于250 kb的NBS-LRR家族基因划分为1个多基因位点,将超过250 kb的NBS-LRR家族基因划分为不同的多基因位点,并使用作者编写的Perl脚本绘制芫荽NBS-LRR家族基因的染色体分布图。
1.2.3 基因复制类型分析 将芫荽基因组注释的所有蛋白序列建立本地蛋白数据库;以芫荽基因组注释的所有蛋白序列为问询序列,使用BLASTp程序进行全基因组同源蛋白序列搜索,每条问询序列保留5个最佳匹配序列,输出M8格式的文件。将获得的结果文件与芫荽基因组gff注释文件中的染色体号、基因名、基因起始位置、基因终止位置输入MCScanX软件[20]进行分析,获得芫荽基因组注释的所有蛋白的共线性信息及复制类型信息。最后,使用TBtools软件进行染色体共线性作图[21]。
1.2.4 系统演化分析 参照相关研究方法[22]进行序列比对和系统发育树构建。根据HMMER3软件中hmmscan程序的输出文件,提取芫荽所有NBS-LRR蛋白NB-ARC结构域的氨基酸序列,并采用相同方法提取旱芹和野胡萝卜所有NBS-LRR蛋白NB-ARC结构域的氨基酸序列;使用MEGA7.0软件中的ClustalW程序对NB-ARC结构域的氨基酸序列进行比对[23],手动删除序列太短或比对结果较差的序列;使用ModelFinder软件选择最佳拟合模型,使用IQ-TREE软件采用最大似然法构建系统发育树[24],并采用UFBoot2方法进行分支支持率分析[25]。
1.2.5 器官表达分析 根据Song等[15]得到的芫荽根、茎、花和叶等器官转录测序后的基因表达数据,提取NBS-LRR家族基因在芫荽不同器官中的表达信息,据此进行比较和分析。
2 结果和分析
2.1 芫荽NBS-LRR家族基因鉴定结果及其与同科植物的比较
研究结果(表1)表明:在芫荽基因组中共鉴定出191个NBS-LRR家族基因,约占芫荽全基因组注释基因总数(40 747)的0.5%,这些基因分属于CNL、TNL和RNL 3个亚类。其中,CNL亚类基因有122个,占已鉴定的NBS-LRR家族基因数的63.9%;TNL亚类基因有62个,占已鉴定的NBS-LRR家族基因数的32.5%;RNL亚类基因有7个,占已鉴定的NBS-LRR家族基因数的3.7%。根据芫荽各基因编码蛋白的结构域组合,CNL亚类进一步分成CNL、CN、NL、N和NN 5个类型,且N型基因最多(71),占该亚类基因数的58.2%;TNL亚类进一步分成TNL、TN、NL、N、TNLTN、TNLTNL和TNT 7个类型,且TNL型基因最多(26),占该亚类基因数的41.9%;RNL亚类进一步分成RNL、RRN和RNRR 3个类型,且RNL型基因最多(5),占该亚类基因数的71.4%。
将芫荽与同科植物旱芹和野胡萝卜的NBS-LRR家族基因进行比较,结果(表1)表明:3个种类的NBS-LRR家族基因总数差异较大,其中,芫荽的NBS-LRR家族基因最多(191),而旱芹的NBS-LRR家族基因最少(64)。3个种类中,CNL亚类的基因数明显高于TNL和RNL亚类,但芫荽CNL亚类基因在已鉴定的NBS-LRR家族基因中的占比明显低于旱芹(73.4%)和野胡萝卜(93.3%)。
表1 芫荽NBS-LRR家族基因的分类和结构域组合类型及其与同科植物的比较
2.2 芫荽NBS-LRR家族基因的染色体定位分析
染色体定位分析结果(图1)表明:在已鉴定的191个芫荽NBS-LRR家族基因中,有155个基因被定位到芫荽的11条染色体上,其余36个基因位于scaffold。值得注意的是,芫荽NBS-LRR家族基因在染色体上的分布不均匀,并且,染色体的长度与其包含的NBS-LRR家族基因数无明显关系。1号、2号、3号、4号、7号、9号和10号染色体上的NBS-LRR家族基因较多(均超过10个),而5号、6号、8号和11号染色体上的NBS-LRR家族基因却较少(最多只有5个)。其中,7号染色体上的NBS-LRR家族基因最多(33),占已鉴定的NBS-LRR家族基因数的17.3%;6号染色体上的NBS-LRR家族基因最少(2),仅占已鉴定的NBS-LRR家族基因数的1.0%。
由图1可见:位于11条染色体上的155个NBS-LRR家族基因可划分成98个位点,包括72个单基因位点和26个多基因位点,平均每个位点的基因数为1.6。多基因位点在5号、6号、8号和11号染色体上未出现,但集中分布在1号、2号、3号、4号、7号、9号和10号染色体上,这7条染色体上的多基因位点共包含83个NBS-LRR家族基因,平均每个多基因位点的基因数为3.2。其中,最大的多基因位点位于10号染色体,包含9个TNL亚类基因。
2.3 芫荽NBS-LRR家族基因的复制类型分析
对定位于染色体的芫荽NBS-LRR家族基因的复制类型进行分析,结果(表2)表明:分散重复基因最多(91),占已定位的NBS-LRR家族基因数的58.7%;串联重复基因较多(34),近端重复基因也较多(26),分别占已定位的NBS-LRR家族基因数的21.9%和16.8%;片段重复基因最少(4),仅占已定位的NBS-LRR家族基因数的2.6%,并且,这4个基因被分成2对。
表2 芫荽NBS-LRR家族基因的复制类型
2.4 芫荽NBS-LRR家族基因的系统演化分析
模型检测发现,JTT+F+R6模型是构建芫荽、旱芹和野胡萝卜的NBS-LRR家族基因系统发育树的最优模型。在此基础上,采用最大似然法构建3个种类NBS-LRR家族基因的系统发育树,结果见图2。由图2可见:3个种类的NBS-LRR家族基因在系统发育树上聚成3个分支,分别对应NBS-LRR家族的TNL亚类、CNL亚类和RNL亚类,且这3个分支的支持率均较高。RNL亚类分支可进一步分成ADR1和NRG1 2个小分支,其中,ADR1小支包含3个种类的4个NBS-LRR家族基因,而NRG1小支包含3个种类的16个NBS-LRR家族基因。总体来看,芫荽、旱芹和野胡萝卜的多数NBS-LRR家族基因各自聚集。
: 芫荽Coriandrum sativum Linn.; : 旱芹Apium graveolens Linn.; : 野胡萝卜Daucus carota Linn. : CNL亚类CNL subclass; : TNL亚类TNL subclass; : RNL亚类RNL subclass. 分支上的数值表示UFBoot2支持率The values on the branches represent UFBoot2 support rates.
2.5 芫荽NBS-LRR家族基因的器官表达分析
对芫荽根、茎、叶、花4个不同器官的转录组数据进行分析,结果(表3)表明:在已鉴定的191个芫荽NBS-LRR家族基因中,多数NBS-LRR家族基因能够在芫荽各器官中表达,但表达水平很低,并有23个基因在所有器官中未表达。其中,147个基因在根中表达,141个基因在茎中表达,144个基因在叶中表达,146个基因在花中表达。经计算,芫荽NBS-LRR家族基因在根、茎、叶和花中的平均表达丰度(FPKM)分别为1.57、1.59、1.59和0.68。值得注意的是,个别NBS-LRR家族基因的表达丰度相对较高,如:RNL亚类中的Cs08G00288.1基因,该基因在4个器官中的平均表达丰度为27.34,在茎中的表达丰度最高,达48.9。
表3 芫荽NBS-LRR家族基因在不同器官中的表达情况
续表3 Table 3 (Continued)
3 讨 论
本研究在芫荽基因组中共鉴定出191个NBS-LRR家族基因,这些基因属于CNL、TNL和RNL 3个亚类,其中,CNL和TNL亚类基因占绝大多数(96.4%),而RNL亚类基因较少,只有3.7%,与绝大多数被子植物NBS-LRR家族基因的亚类组成一致[8],这可能是因为CNL和TNL亚类基因编码的蛋白通过识别特定病原入侵而发挥作用,并且,这2个亚类基因在与病原长期“军备竞赛式”的演化历程中经历了剧烈的扩张,在很多被子植物基因组中保存了数十到数百个成员;而RNL亚类基因编码的蛋白并不参与病原识别,只是在抗病信号传导过程中发挥作用,在植物基因组中的拷贝数较少[8]。值得注意的是,芫荽基因组中CNL亚类的基因数约是TNL亚类的2倍,该研究结果支持Shao等[8]在被子植物演化尺度研究中对NBS-LRR家族基因演化模式的研究结论,即CNL亚类基因在被子植物祖先中分化形成了较多分支,并在演化过程中经历了持续扩张;而TNL亚类基因在被子植物祖先中分化形成的分支相对较少,且在演化过程中未扩张。然而,芫荽同科植物旱芹和野胡萝卜基因组中CNL亚类的基因数分别约是TNL亚类的5和28倍,这与芫荽基因组中2个亚类基因的比例存在极大差异,可能是因为各亚类基因在科以下水平的种类分化过程中经历了不同的演化模式[8],具体原因有待进一步探索。
本研究获得的芫荽基因组中的NBS-LRR家族基因较少(191),远低于水稻(498)和大豆〔Glycinemax(Linn.) Merr.〕(465)等农作物[8]。研究发现,NBS-LRR家族基因多基因位点的形成与基因的串联复制有关[26]。在芫荽基因组中已定位的155个NBS-LRR家族基因中,串联复制基因仅占21.9%,明显低于紫苜蓿(MedicagosativaLinn.)(45.2%)、菜豆(PhaseolusvulgarisLinn.)(52.5%)和大豆(35.1%)基因组中串联复制基因所占比例[26]。Song等[15]发现,在伞形科的共同祖先中发生过2次基因组加倍,而在芫荽基因组中仅检测到2对片段重复NBS-LRR家族基因,说明大量片段重复NBS-LRR家族基因可能在芫荽物种形成过程中丢失。据此推测,串联重复NBS-LRR家族基因缺乏以及大量的片段重复NBS-LRR家族基因丢失可能是芫荽基因组中NBS-LRR家族基因较少的主要原因。另外,芫荽基因组中属于散在复制的分散重复和近端重复NBS-LRR家族基因分别有91和26个,占芫荽基因组中已定位的NBS-LRR家族基因数的75.5%,说明芫荽的NBS-LRR家族基因复制类型以散在复制为主。
芫荽NBS-LRR家族基因在不同器官中的表达分析结果表明:芫荽多数NBS-LRR家族基因在各器官中的表达水平较低,这与抗病基因的诱导性表达特征[27]相符。抗病基因具有独特的生物学功能,其高表达可能造成蛋白异常激活,进而引发植物体发生细胞坏死等免疫反应,对植物的正常生长发育造成危害[27]。因此,从演化角度来看,很多抗病基因仅在病原入侵时具备表达必要性,在无病原侵染状态下大量抗病基因的低表达是植物抗病基因的适应性演化结果,达到降低适应性代价的目的。另外,芫荽NBS-LRR家族基因在根、茎和叶中的平均表达丰度(FPKM)较为接近,无明显差异,但在花中的平均表达水平明显低于其他器官,说明植物抗病基因在繁殖器官中的表达水平更低[22]。