基于转录组学的管纹艳虎天牛表皮蛋白基因家族的鉴定及特征分析
2021-03-30李根层赵昱杰刘乃勇
李根层,赵昱杰,赵 宁,刘乃勇
(西南林业大学云南省森林灾害预警与控制重点实验室,昆明 650224)
昆虫的表皮覆盖其整个体躯,不仅能够防御病原体的攻击和不利环境的伤害,而且在昆虫发育过程中对于体型塑造、水分保持和维持正常的活动能力等起着重要作用(Delon and Payre, 2004)。昆虫表皮的主要成分是表皮蛋白(cuticular proteins, CPs)和几丁质。其中,CP是昆虫体内一种重要的结构蛋白,其种类和数量因种间或同种不同发育阶段而存在差异。因此,CP种类和数量的变化是昆虫表皮结构及其机械性能的重要影响因素(Andersenetal., 1995; Fireetal., 1998)。1982年,Snyder等首次报道了黑腹果蝇Drosophilamelanogaster的5个CP基因(DmelCP1-5)(Snyderetal., 1982);随后,Ioannidou等(2014)从黑腹果蝇基因组中共鉴定到228个CP基因(Ioannidouetal., 2014)。随着家蚕Bombyxmori、埃及伊蚊Aedesaegypti、冈比亚按蚊Anophelesgambiae、意大利蜜蜂Apismellifera、赤拟谷盗Triboliumcastaneum等昆虫完成基因组测序,已有大量的CP基因得到鉴定,为CP基因家族的进化及功能研究提供了重要资源,但是在不同物种间其数量差异较大(66~305个)(Futahashietal., 2008;Willis, 2010;Ioannidouetal., 2014)。截至目前(2020年1月),在NCBI(National Center for Biotechnology Information)数据库中收录的有详细描述的昆虫CP序列已达数千条。
基于保守的氨基酸基序,昆虫的CP蛋白可以划分为CP-RR(含有Rebers & Riddiford保守基序)、CPF(含一段高度保守的长为44个氨基酸的区域)、CPFL(CPF Like)、Tweedle(含有4个保守的区域)、CPAP1(有1个ChtBD2几丁质结合域)、CPAP3(有3个ChtBD2几丁质结合域)、CPG(有许多短的甘氨酸重复序列)、CPLC(一类含有低复杂序列的蛋白,包括CPLCA、CPLCG、CPLCP和CPLCW家族)和Apidermin等12个家族(Heetal., 2007; Togawaetal., 2007; Willisetal., 2010)。1988年,Rebers和Riddiford通过对7条CP氨基酸序列的比对分析,鉴定到CP-RR家族的保守基序为G-X(8)-G-X(6)-Y-X-A-X-E-X-G-Y-X(7)-P-X(2)-P(X表示氨基酸,括号内的数字为该处X的数目)(Rebers and Riddiford, 1988)。随后,有学者根据R&R保守基序的差异,将CP-RR分为CP-RR1(主要存在柔软表皮层)、CP-RR2(主要存在于坚硬表皮层)和CP-RR3(目前对其研究不多,可能参与蜕皮后新表皮的形成)3个家族(Soaresetal., 2007;刘清明等, 2010)。
昆虫CP蛋白的种类较多,每类CP基因的功能可能因其所在位置及发育阶段的不同而存在差异(梁九波, 2012)。Guan等(2006)在研究黑腹果蝇的体形时发现,TweedleD1基因缺失会导致果蝇幼虫与蛹变短(Guanetal., 2006)。马铃薯甲虫Leptinotarsadecemlineata通过调节表皮蛋白基因LdecGRP1、LdecGRP2和LdecGRP3的表达来增加自身对外界环境的适应能力(Zhangetal., 2008)。Dittmer等(2012)通过蛋白质组学和转录组学的方法,发现赤拟谷盗鞘翅中存在大量CP-RR2基因,而CP-RR1基因则集中于柔软后翅中,表明CP基因的类型对表皮物理性质有重要影响(Dittmeretal., 2012)。赤拟谷盗的TcasCPAP1基因的缺失会导致其表皮发育不全并脱落;而TcasCPAP3-A1和TcasCPAP3-A2基因的缺失则会影响其鞘翅的发育(Jasrapuriaetal., 2012)。Arakane等(2012)将赤拟谷盗的TcasCP18和TcasCP27基因沉默后,发现成虫鞘翅产生皱褶、弯曲、多孔等症状,从而导致成虫在羽化后因鞘翅过短而不能完整包裹虫体,进而导致成虫失水死亡,且异形的鞘翅弹性显著降低,表明这两个CP基因对于维持赤拟谷盗鞘翅的形态和机械性能是不可缺少的(Arakaneetal., 2012)。此外,赤拟谷盗CP-RR1家族的TcasCPR4基因在其表皮层孔道的形成中具有重要作用(Nohetal., 2015)。综上所述,昆虫CP基因在其生长发育、体型塑造、表皮和翅的形成等生理过程中具有重要作用。
管纹艳虎天牛Rhaphumahorsfieldi隶属鞘翅目Coleoptera天牛科Cerambycidae虎天牛族Clytini艳虎天牛属Rhaphuma,主要为害香须树、木姜子属、合欢属以及三台核桃等树木。在国内主要分布于云南、四川、贵州望漠等地(云南省林业厅等, 1987),在印度、缅甸、越南、老挝等国家也有关于该天牛的相关报道(张俊香, 2005)。课题组前期调查发现,该天牛是云南三台核桃上新发现的一种重要蛀干害虫,每年5-7月,成虫开始羽化,随后完成交配、并咬食树干后,在刻槽内产卵,孵化后的幼虫钻蛀到树干木质部进行取食和为害(尹宁娜等, 2019)。由于管纹艳虎天牛的幼虫生活在树干内,不易防治;此外,成虫具有坚硬的外表皮,进一步加大了防治的难度。目前,管纹艳虎天牛表皮相关蛋白的研究仍属空白,如何能够有效地抑制天牛昆虫表皮的形成,从而采用化学防治等方法将其杀死,是昆虫生理生化领域的研究热点。本文基于测序的转录组数据,采用生物信息学方法在鉴定管纹艳虎天牛CP基因的基础上,进一步研究了CP基因家族的序列及结构特征、与鞘翅目其他昆虫CP基因的进化关系以及组织表达特征。研究结果不仅可以为后续管纹艳虎天牛CP基因的功能研究奠定基础,还可为该种天牛的防治提供理论指导。
1 材料与方法
1.1 研究对象
管纹艳虎天牛采自云南省楚雄州大姚县三台乡(N26°00′01.6″,E101°04′04.7″),海拔1 999 m。2016年7月中旬,通过野外采集带有天牛产卵刻痕的受害核桃木段于室内饲养,并保持受害核桃木段水分,待2017年成虫羽化后收集备用。
分别收集管纹艳虎天牛雌雄成虫触角、跗节及身体其他组织(不含触角和跗节),每个组织收集两套生物学模板,用于转录组测序。
1.2 研究方法
1.2.1基因的鉴定及比较
收集光肩星天牛Anoplophoraglabripennis(McKennaetal., 2016)、马铃薯甲虫(Schovilleetal., 2018)和赤拟谷盗(Ioannidouetal., 2014)的CP蛋白序列,用于管纹艳虎天牛CP基因的鉴定;然后,将管纹艳虎天牛转录组导入BioEdit软件中,采用tBlastn同源搜索的方法鉴定管纹艳虎天牛中候选的CP基因;最后,采用Primer Premier 5软件将已鉴定的基因翻译成氨基酸序列,在NCBI Nr数据库中进行比对,每个RhorCPs仅选择比对到光肩星天牛的AglaCPs。
根据已发表的文献,收集鞘翅目、双翅目、膜翅目和鳞翅目等其他昆虫的CP基因,分析和比较不同目及同目不同种间CP基因的数量差异。
1.2.2序列及进化分析
采用NCBI Open Reading Frame Finder预测RhorCPs基因的开放阅读框(ORF)(https://www.ncbi.nlm.nih.gov/orffinder/)。采用ClustalW软件进行序列比对(Larkinetal., 2007)。采用WebLogo在线软件绘制CP-RR1和CP-RR2家族的结构域Logo图(Crooketal., 2004),并标记保守基序。采用SignalP 4.1预测信号肽(Petersenetal., 2011)。利用CutProtFam-Pred对鉴定的RhorCPs基因进行不同家族的划分(Ioannidouetal., 2014)。在结构域分析中,仅选取具有全长的RhorCPs,采用SMART鉴定RhorCPs的结构域(Letunic and Bork, 2018),并绘制序列结构域示意图。
选取管纹艳虎天牛和光肩星天牛的CP序列,首先利用MAFFT v7.388进行序列比对(Katoh and Standley, 2013);然后,采用FastTree v2.1.5软件中的SH-like 1000 support方法构建CP的进化树(Priceetal., 2010)。进化树的编辑和可视化采用FigTree v1.4.4软件进行(http://tree.bio.ed. ac.uk/software/figtree/)。
1.2.3基因的表达水平研究
采用Bowtie软件将测序获得的reads比对到unigenes数据库,然后利用RSEM对基因的表达量进行计算,最后采用FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairs sequenced,即每百万fragments中来自某一基因每千碱基长度的fragments数目)值比较不同CP基因在同一样本或同一CP基因在不同样本间的表达量(Trapnelletal., 2010)。根据转录组测序获得的FPKM值及基因对应的编号,找到每个基因在不同组织的FPKM值,然后取两次重复的FPKM平均值研究CP基因在不同组织的表达情况。
2 结果与分析
2.1 管纹艳虎天牛CP基因的鉴定
基于管纹艳虎天牛的转录组数据,采用Blast同源搜索的方法一共鉴定到108个CP基因,包括7个家族成员(表1):41个CP-RR1、30个CP-RR2、8个CPAP1、7个CPAP3、3个CPCFC、14个CPU和5个TWDL。在CP-RR1基因家族中,16个基因具有全长序列,编码105~239个氨基酸;剩余25个基因为片段,编码88~410个氨基酸。在CP-RR2基因家族中,13个基因具有全长序列,编码113~340个氨基酸;剩余基因为片段,编码88~252个氨基酸。在CPAP1基因家族中,CPAP1.4和CPAP1.7具有全长ORF,分别编码172和129个氨基酸。在CPAP3家族中,CPAP3.2和CPAP3.6是全长序列,分别编码238和255个氨基酸。在CPCFC家族中,CPCFC2和CPCFC3是全长序列,分别编码214和186个氨基酸。在CPU家族中,4个基因(CPU2、CPU10、CPU13和CPU14)具有全长序列,编码177~1 093个氨基酸。在TWDL家族中,所有5个基因均为片段,其中最长的是TWDL1,编码465个氨基酸;最短的是TWDL3,编码153个氨基酸(表1)。NCBI Blast比对结果表明,在具有全长序列的CP基因中,RhorCPAP3.2与AglaCPAP3.4(GenBank登录号:XP_018569398.1)一致性最高,为92%;RhorCP-RR1.10与AglaCP-RR1.28(GenBank登录号:XP_018568269.1)的氨基酸一致性最低,仅为38%(表1)。
表1 管纹艳虎天牛CP基因的信息Table 1 Information for cuticular protein genes in Rhaphuma horsfieldi
续表1 Continued table 1
2.2 不同昆虫间CP基因的数量比较
为了比较管纹艳虎天牛与其他昆虫CP基因的数量差异,从已发表文章中收集了鞘翅目、双翅目、膜翅目、鳞翅目、半翅目和直翅目等12种昆虫的CP基因。相比于其他昆虫,管纹艳虎天牛的CP基因数量多于直翅目的东亚飞蝗Locustamigratoria、膜翅目的意大利蜜蜂和丽蝇蛹集金小蜂Nasoniavitripennis(表2)。与同目其他昆虫相比,管纹艳虎天牛的CP-RR1家族的基因数量仅多于赤拟谷盗;CP-RR2家族的基因少于其他3个物种;CPU家族的基因数量多于光肩星天牛,但是少于马铃薯甲虫和赤拟谷盗;在管纹艳虎天牛中未鉴定到CPF家族的基因;所有鞘翅目昆虫均不含CPLCW基因;其他CP家族在鞘翅目不同种间基因数量相近。与非鞘翅目昆虫相比,管纹艳虎天牛的CP-RR2和CPAP1均少于双翅目、鳞翅目和半翅目昆虫;CP-RR1仅少于双翅目和鳞翅目昆虫(表2)。
2.3 管纹艳虎天牛CP基因家族的结构域分析
结构域分析结果表明,所有检测的RhorCPs均具有信号肽序列;在CP-RR1和CP-RR2中,所有CP-RRs均具有保守的Chitin_bind_4结构域,仅CP-RR2.21含有盘管区;此外,RhorCPs在低复杂区的有无、数量及位置上也存在差异(图1)。与其他昆虫CPAP1类似,CPAP1.4和CPAP1.7包含1个信号肽和1个ChtBD2结构域;CPAP3.2和CPAP3.6则包含1个信号肽和3个ChtBD2结构域;两个RhorCPCFCs间差异较大,共有结构域为信号肽和CPCFC结构域,此外CPCFC2还包含1个 SCOP结构域,而CPCFC3包含两个低复杂区;在4个RhorCPUs家族成员中,仅CPU13具有Chitin_bind_4结构域,其余成员均不含保守的结构域(图1)。
2.4 管纹艳虎天牛CP家族的保守基序分析
利用WebLogo在线工具对CP家族结构域的氨基酸保守基序进行了分析。结果表明,CP-RR1和CP-RR2家族的保守基序分别为G-X(8)-G-X(6)-Y-X-A-X-E-X-G-F(图2-A)和G-X-Y-X(5)-D-G-X(6)-Y-X-A-X(4)-G-F(X表示保守的氨基酸;数字表示氨基酸数量)(图2-B)。
图1 管纹艳虎天牛CP序列结构域特征Fig.1 Characteristics of cuticular protein domains of Rhaphuma horsfieldi
图2 管纹艳虎天牛CP-RR1(A)和CP-RR2(B)保守基序的WebLogo分析Fig.2 WebLogo analysis of conserved motifs of CP-RR1 (A)and CP-RR2 (B)families from Rhaphuma horsfieldi注:*表示保守的氨基酸残基;CP-RR1和CP-RR2保守基序模式在序列上方出示。Note:* represented conserved amino acid residues. Conserved motifs of CP-RR1 and CP-RR2 were presented on the top of sequences, respectively.
2.5 管纹艳虎天牛CP基因的进化分析
利用FastTree软件,构建了管纹艳虎天牛与光肩星天牛共293个CP基因的系统进化树。结果表明,两种天牛的CP可划分为8个家族(图3):CPR-RR1、CPR-RR2、CPAP1、CPAP3、CPCFC、CPF、TWDL和CPU。除CPF家族外,RhorCPs在其余7个家族中均有分布,两种天牛大部分的CP均为同源基因,且与光肩星天牛的AglaCPs具有较高的氨基酸一致性。此外,CPAP1和CPU家族聚类到好几个分支;CPAP3家族分散到两个分支;CP-RR1和CP-RR2家族聚类相对集中;CPCFC、CPF和TWDL家族仅聚类到一个大的分支(图3)。
图3 管纹艳虎天牛和光肩星天牛CP的进化树Fig.3 Phylogenetic tree of cuticle proteins from Rhaphuma horsfieldi (Rhor)and Anoplophora glabripennis (Agla)
2.6 管纹艳虎天牛CP基因的表达谱分析
基于转录组测序获得的FPKM值,研究了RhorCPs基因在不同组织的表达谱。结果表明,大部分CP-RR1基因在检测的组织中表达量均较低(图4-A)。然而,CP-RR1.14和CP-RR1.20在所有组织中均有较高表达;部分基因呈现组织特异或高表达的特点,如CP-RR1.1和CP-RR1.7在雄虫身体(不含触角和跗节)中特异表达,CP-RR1.11在雌虫身体(不含触角和跗节)中特异表达,CP-RR1.29和CP-RR1.35在雌虫触角特异表达,CP-RR1.16和CP-RR1.40在雌虫触角高表达,CP-RR1.12在雌虫跗节高表达,CP-RR1.19在雌雄虫跗节高表达,CP-RR1.24在雌雄虫触角和跗节均有较高表达(图4-A)。
图4 管纹艳虎天牛CP基因在雌雄成虫不同组织的表达谱Fig.4 Expression profile of cuticle protein genes in different tissues of Rhaphuma horsfieldi注:A,RhorCP-RR1基因的组织表达谱;B,RhorCP-RR2基因的组织表达谱;C,其他家族RhorCPs基因的表达谱。基因的表达水平用两次重复的FPKM平均值表示。MA,雄虫触角;MTa,雄虫跗节;MB,不含触角和跗节的雄虫身体;FA,雌虫触角;FTa,雌虫跗节;FB,不含触角和跗节的雌虫身体。Note: A, Expression profiles of RhorCP-RR1 genes; B, Expression profiles of RhorCP-RR2 genes; C, Expression profiles of other RhorCP genes. Gene expression levels were shown by mean FPKM values with two replicates. MA, male antennae; MTa, male tarsi; MB, male bodies without antennae and tarsi; FA, female antennae; FTa, female tarsi; FB, female bodies without antennae and tarsi.
与CP-RR1类似,大部分CP-RR2基因在检测的所有组织中也仅有微弱表达(图4-B)。然而,CP-RR2.17在所有检测的组织中均有较高表达,且呈现雌雄虫跗节高表达的特点;CP-RR2.14和CP-RR2.18在雌雄虫触角中高表达;CP-RR2.13、CP-RR2.16、CP-RR2.18、CP-RR2.19和CP-RR2.20在雌雄虫触角和跗节中高表达,且CP-RR2.13呈现雌虫触角偏好表达的特点,CP-RR2.16呈现雄虫触角偏好表达的特点,CP-RR2.20呈现雄虫触角和跗节偏好表达的特点(图4-B)。
在CPU基因家族中,CPU6和CPU7在所有组织中具有较高表达,且CPU6呈现雌虫跗节高表达的特点;CPU5、CPU9、CPU13和CPU14在所有组织中表达量均较低;CPU3和CPU8在雌雄虫触角和跗节高表达,且呈现雄虫跗节高表达的特点。在两个CPAP家族中,所有CPAP1基因在测序的大部分组织中表达量均较低,其中CPAP1.3在雌虫触角高表达;CPAP3.1、CPAP3.2和CPAP3.5在雌雄虫触角和跗节中高表达,CPAP3.4在所有组织中均有较高表达,CPAP3.3在所有组织中仅有微弱表达。在剩余的两个家族中,CPCFC1在雌雄虫触角和跗节中高表达;CPCFC2在所有检测的组织中表达量较低;CPCFC3在雌虫跗节中高表达。5个TWDL基因在所有组织中仅有微弱表达(图4-C)。
3 结论与讨论
昆虫的表皮是昆虫体壁皮细胞分泌物形成的一种高度有序的层状结构,是昆虫抵御外界不良环境的第一道防线(Andersenetal., 1995; Vincent and Wegst, 2004)。昆虫表皮的主要成分是几丁质和蛋白质,因此表皮蛋白是昆虫极为重要的结构蛋白,在昆虫生存和繁衍中必不可少(梁九波, 2012)。本研究基于测序的转录组数据,从管纹艳虎天牛中共鉴定到108个CP基因,其中CP-RR1占所有基因的37.96%、CP-RR2占27.78%、CPAP1占7.41%、CPAP3占6.48%、CPCFC占2.78%、CUP占12.96%和TWDL占4.63%,该比例与黑腹果蝇CP基因在不同家族中的比例类似,但是不同于其他物种的CP基因家族,在其他物种中多为CP-RR2所占比例最高,其次为CP-RR1(Ioannidouetal., 2014)。
光肩星天牛是天牛科昆虫中具有基因组、且已完成CP基因家族注释的物种(McKennaetal., 2016),在基因鉴定、序列比对和进化分析中,选取光肩星天牛CP基因家族作为参考序列更有利于分析管纹艳虎天牛的CP基因家族。其中,在管纹艳虎天牛中仅有39个CP基因(39/108,36.11%)具有全长序列,可能与测序组织及CP基因的发育表达特征有关,因为昆虫的CP基因主要在幼虫蜕皮、化蛹阶段、羽化阶段、成虫表皮等组织和发育阶段有较高表达(Liangetal., 2010; Chuetal., 2013; Dittmeretal., 2015; 付丹影等, 2016),而本研究并未对幼虫、蛹及表皮等组织进行测序;同时,这也可能是管纹艳虎天牛转录组中获得较少CP基因的原因之一。在基因数量的比较中,除膜翅目与直翅目外,管纹艳虎天牛CP基因的数量均少于鞘翅目等其他昆虫(Ioannidouetal., 2014),而其他物种的CP基因均来源于基因组,表明管纹艳虎天牛可能仍有部分CP基因未得到鉴定。从CP基因不同家族的分析结果来看,除双翅目昆虫(Loannidouetal., 2014)外,其他昆虫均不含有CPLCW基因;此外,天牛科、膜翅目、半翅目和直翅目等昆虫还缺失CPLCA和CPLCG基因,暗示昆虫在进化过程中很可能因外界环境(如生境)的影响而导致CP基因家族的收缩或扩张(付丹影等, 2016)。
昆虫CP-RR家族保守基序的起始通常为G-X(8)-G-X(6)-Y,通常不会因物种及CP-RR数量的增加而发生改变(Willisetal., 2010; 付丹影等, 2016)。在管纹艳虎天牛中,RR1和RR2家族均具有1个保守的Chitin_bind_4结构域,其中RR1家族完全符合经典的R&R基序G-X(8)-G-X(6)-Y,而RR2家族保守基序为G-X-Y-X(5)-D-G-X(6)-Y,与R&R保守基序相比出现了保守的酪氨酸(tyrosine, Y)与天冬氨酸(aspartic acid, D)。Hamodrakas等(2002)研究发现,芳香族氨基酸残基(主要为酪氨酸Y与苯丙氨酸P)会形成一个疏水平面,以阻止几丁质的堆叠(Hamodrakasetal., 2002)。因此,管纹艳虎天牛CP-RR2家族结构域中的保守氨基酸残基Y很可能有利于加强蛋白质与几丁质的结合。类似的结果在葱蝇Deliaantiqua的CP-RR2家族中也有发现(付丹影等, 2016)。基于光肩星天牛和管纹艳虎天牛的进化树,发现两个物种间CP具有较高的氨基酸一致性,说明天牛科昆虫CP间具有相对高的保守性,在功能上主要参与表皮的形成和发育。此外,在CP-RR1和CP-RR2家族中,光肩星天牛部分CP基因呈物种聚类分布模式(McKennaetal., 2016),但在管纹艳虎天牛中仅RR1中具有一个聚类分支(RhorCP-RR1.10/12/13/30/38),鉴于AglaCPs基因是从基因组中鉴定,而RhorCPs基则是从转录组中获得,表明管纹艳虎天牛的这一CP聚类分支可能是物种特异的分支。
昆虫CP基因主要在幼虫、蛹和成虫的表皮组织中表达,但在其他组织中也有发现。中华蜜蜂Apiscerana的AcerCP24基因在蛹后期的表皮、肌肉、脑和中肠中均有表达,且呈现中肠高表达的特点(Chuetal., 2013)。在黑腹果蝇中,DmelTWDLs基因在表皮、前肠、气管和胚胎等组织中高表达(Guanetal., 2006)。家蚕的BmorCP4基因在腹部表皮组织中表达,BmorCP9基因在胸部表皮中表达(Alietal., 2012);而BmorTWDLs基因则主要在表皮和翅原基表达(Futahashietal., 2008)。此外,赤拟谷盗的TcasCPAP1和TcasCPAP3基因参与到发育、蜕皮、表皮形成、产卵等生理过程(Jasrapuriaetal., 2012)。与其他昆虫CP基因的表达特征类似,管纹艳虎天牛RhorCPs基因的表达谱也具有多样性,即RhorCPs基因在雌雄虫触角、跗节、身体等一至多个组织有表达,暗示它们很可能具有多种功能。值得注意的是,部分RhorCPs基因(RhorCP-RR1.16、CP-RR1.19、CP-RR2.17、CPAP3.4、CPU6、CPCFC1等)在触角或跗节中特异或高表达,推测这些基因可能具有嗅觉或味觉方面的功能。