昆虫的水平基因转移研究
2021-08-13黄羽豪龚森瑞李浩森
黄羽豪,龚森瑞,李浩森,庞 虹
(有害生物控制与资源利用国家重点实验室,中山大学生态学院/生命科学学院,广州 510275)
生物体的遗传物质大多数情况下是由亲代到子代垂直传递的。然而,生物体中有的基因可能是从其它个体或线粒体、叶绿体等不同细胞器的遗传物质中获得的,这种现象被称为水平基因转移(horizontal gene transfer, HGT)或横向基因转移(lateral gene transfer, LGT),而这些不依赖亲缘关系获得的基因被称为水平转移基因(horizontally transferred genes, HTGs)。HGT可以发生在同种的不同生物个体或者单个细胞的不同细胞器之间,但由于检测手段的限制和基因功能的探讨意义等原因,物种间的HGT在研究中更为常见。
早在20世纪50-60年代,研究者发现遗传物质可以在不同菌种之间传递,如从大肠杆菌Escherichiacoli传递至沙门氏杆菌Salmonella(Miyake and Demerec, 1959; Zinder, 1960),这是人们首次认识到HGT现象在细菌进化上的重要性,并能够解释抗药性在菌群中的快速传播。后续的大量研究发现,HGT在原核生物中十分常见,其促进了新性状的快速传播,如抗生素耐药性、致病性和其它各种有利于适应周围环境的代谢特性,同时也有许多HGT不带功能或功能未明(Ochmanetal., 2000; Pallen and Wren, 2007)。
近年来,真核生物中的HGT也逐渐被发现,并被认为是普遍存在于单细胞真核生物(Keeling and Palmer, 2008)、动物(Hotoppetal., 2007; Gladyshevetal., 2008; Hotopp, 2011; Flotetal., 2013; Boto, 2014; Drezenetal., 2017; Sieberetal., 2017)、植物(Gaoetal., 2014; Wangetal., 2020)及真菌(Fitzpatrick, 2012)等类群中。在昆虫(Nakabachi, 2015; Wybouwetal., 2016; Zakharov, 2016)以及近源的蜱螨(Chouetal., 2015; Wybouwetal., 2016; Hayesetal., 2020)、蜈蚣 (Undheim and Jenner, 2021)和弹尾虫(Faddeeva-Vakhrushevaetal., 2016; Faddeeva-Vakhrushevaetal., 2017; Wuetal., 2017)等节肢动物中也有大量HGT的报道。随着对共生微生物研究的不断深入,人们对宿主生物、共生微生物以及它们之间的联系也有了全新的理解,生物体对环境的适应离不开共生微生物的作用,甚至有观点将宿主生物及其所有共生微生物作为一个整体的完全生物(holobionts),并将这个整体的所有基因集合作为完全基因组(hologenomes)看待(Haag, 2018);而HGT在这个共生系统中也扮演了重要的角色,是宿主生物和共生微生物联系的纽带之一。同时,HGT也更新了人们对于进化的观点,生命之网似乎比生物之树更符合真实的进化历程(Soucyetal., 2015; Malletetal., 2016)。昆虫物种多样性高,与微生物关系密切,昆虫体内的HGT研究是近年的热点之一。本文将从HGT研究的常用流程和方法、昆虫HGT的供体、HGT的受体昆虫以及昆虫HGT的功能4个方面进行综述,并提出现阶段昆虫HGT研究的一些问题以及未来展望。
1 水平基因转移研究的常用流程和方法
HGT研究主要分为三大环节:搜索、验证以及功能探究(图1)。搜索通常是基于序列同源性的组学数据的搜索;验证包含两个方面,分别是系统发育关系的验证和内含子、侧翼序列、信号肽、不同数据及表达情况等污染排除的方面;功能探究则包括序列信息分析、选择压力分析等生物信息学探究和表达谱、功能验证实验等实验方面的探究。
图1 后生动物水平基因转移研究的常用流程、方法及其作用Fig.1 Common processes and methods in research of horizontal gene transfer in Metazoa and their function
1.1 水平基因转移的搜索
1.1.1后生动物水平基因转移的搜索方法
真核生物HGT的发现一般为基因组、转录组、蛋白组和代谢组等组学研究中基因注释后的意外发现,也有专门对组学数据进行搜索得到的HGT。HGT的搜索主要是基于序列同源性的方法。许多研究会将NCBI的非冗余蛋白序列数据库(Non-Redundant Protein Sequence Database, NR)、Swiss-Prot或基因组等数据库分为后生动物Metazoa类群数据库和细菌、真菌、植物、病毒及其它非后生动物的真核生物等其它类群数据库,或者建立特定外群物种的子库。为避免自身的序列或近源物种的序列造成干扰,后生动物的数据库通常还会去除自身或近源物种的序列,然后进行BLAST (Camachoetal., 2009)搜索,再对后生动物数据库和其它数据库的结果进行手动的比较以及后续的验证。在针对基因蛋白序列时有时也会使用DIAMOND (Buchfinketal., 2015)进行搜索,而搜索基因组中的HGT片段有时会使用MUMmer (Marcaisetal., 2018)搜索。手动比较通常是基于比对结果中的bitscore值、E值、一致度和覆盖度等参数,判断与后生动物或其它类群的同源性大小,若与其它类群的基因比后生动物更近源,则认为是HGT。然而,手动比较存在一定的主观性,导致标准不统一的问题;另外,需要检测的基因或基因组片段数以万计,手动比较工作量较大。因此,水平基因转移的搜索需要更为系统性、流程化和标准化的方法。
目前,较为常用的流程化方法有4种:HGT指数h、外源指数(alien index, AI)、比对一致支
持度(Consensus Hit Support, CHS)和Wheeleretal.(2013)的检测方法(表1)。h指数(Boschettietal., 2012)和外源指数(Gladyshevetal., 2008)分别是基于BLAST的bitscore值和E值计算的指标,h指数是非后生动物的物种序列数据库最佳比对的bitscore值减去后生动物库最佳比对bitscore值的差,当h≥30且bitscore≥100时认为该基因是HGT;外源指数则表现为两个最佳比对的E值的对数比较,当≥45时认为该基因为HGT。Wheeleretal.(2013)的检测方法同样是以BLAST的E值作为指标,仅以小于1e-5的E值的大小作为直接判断,若细菌数据库比对的E值比后生动物数据库的E值更小则作为HGT的候选。Wheeleretal.(2013)的方法较为简单,后面更是改良为滑动窗口的方式搜索基因组的HGT片段,被用于光肩星天牛Anoplophoraglabripennis(McKennaetal., 2016)、烟盲蝽Nesidiocoristenuis(Fergusonetal., 2020)、乳草长蝽Oncopeltusfasciatus(Panfilioetal., 2019)、西花蓟马Frankliniellaoccidentalis(Rotenbergetal., 2020)、温带臭虫Cimexlectularius(Benoitetal., 2016)、黑森瘿蚊Mayetioladestructor(Zhaoetal., 2015)、茶翅蝽Halyomorphahalys(Sparksetal., 2020)、厩螯蝇Stomoxyscalcitrans(Olafsonetal., 2021)和一种寄生茧蜂Diachasmaalloeum(Tvedteetal., 2019)等许多基因组的HGT搜索中。CHS方法(Koutsovoulosetal., 2016)则基于DIAMOND搜索提供的物种来源信息,每条跟数据库比对上的序列会对应相应的物种及其所属阶元,若90%以上的比对来源于细菌或其它非后生动物类群,则认为该基因可能是HGT的候选基因。
表1 后生动物HGT搜索环节常用的工具和方法
基于外源指数开发的Alienness网络服务器(http://alienness.sophia.inra.fr)可以上传用户提供的NR数据库搜索结果,计算外源指数和h指数,并根据外源指数AI和对非目标类群的比对一致度的大小检测出3类蛋白序列:AI>15且一致度<70%的候选HGT、0
1.1.2细菌水平基因转移的搜索方法
在研究历史更长、更成熟的细菌HGT研究中,更多HGT搜索的方法被开发出来(表2)。
表2 HGT搜索方法的类型Table 2 Types of search methods for HGT
这些方法主要可以分为两类:基于序列组成的参数方法和基于系统发育的方法(Ravenhalletal., 2015)。
基于序列组成的参数方法主要使用GC含量、密码子使用偏好、基因结构及寡核苷酸组成等参数判断序列的外源性。最近开发的DeepHGT软件正是基于序列特征,使用深度残差网络(deep residual network)训练并识别HGT插入位点,但目前仅适用于细菌的基因组(Lietal., 2020)。而Arevaloetal.(2019)开发的PopCOGenT方法则基于近期发生HGT的基因组之间比自然突变的基因组拥有更长相同区域的原理,使用长度分布模型估计出细菌基因组之间近期的HGT事件,并构建出细菌的HGT网络,将细菌分为不同功能的种群单元。基于序列组成的方法更有利于探索HGT机制的本质,但会受基因组内部的参数变化影响,且古老HGT由于长时间跟随基因组经历相同的进化而被逐步同化,易造成识别不准(Ravenhalletal., 2015)。
系统发育的方法则包括隐式和显式两大类型(Ravenhalletal., 2015)。隐式的系统发育方法主要是各类非进化树的聚类或同源性分析手段,包括最常用的基于序列同源性的BLAST搜索、基因和物种距离、同源基因分析及多态位点聚类等方法;而显式系统发育方法则完全基于进化树,如使用Shimodaira-Hasegawa检验(Shimodaira and Hasegawa, 1999)对物种树和基因树的拓扑结构进行比较等。但大多数显式系统发育方法容易受基因复制丢失等其它进化事件和系统发育不确定性的影响,物种树和基因树协调的方法被尝试用来分离这些影响,用来分析物种在进化过程中的HGT、基因渐渗、基因复制和基因丢失等进化事件。这种方法在昆虫中也有零星的尝试,如Chauveetal.(2018)对按蚊属Anopheles基因组的分析。另外,显式系统发育方法操作较为繁琐,难以流程化(Ravenhalletal., 2015)。因此,研究中通常先使用同源性搜索寻找出候选的HGT,再将系统发育分析作为验证的一个环节。
1.1.3水平基因转移搜索方法的限制和注意事项
HGT的搜索方法大多只能用于搜索相对近期的HGT,古老的HGT由于序列组成趋同于受体的基因组,且数据库中存在近源物种的同源基因,难以通过统一流程化的方法准确搜索到,需要在搜索前对数据库进行一些近源物种的删减,或在Alienness网络服务器中排除对近源物种的考虑;也可以使用MEGAN (Husonetal., 2016)等软件可视化同源搜索比对到的序列物种分布,人为做出判断。
同时,基于同源性搜索的方法可能会因为非后生动物类群中偶然出现的同源序列(如后生动物转移到非后生动物类群的HGT基因)而将检测的基因判断为HGT基因,或无法判断HGT的方向,公用数据库的物种序列缺失、物种序列污染以及序列信息错误等因素也会影响HGT的检测。
另外,搜索和检测HGT的方法一般无法区分HGT和污染序列。而其它物种尤其是共生菌或肠道微生物的污染可能会体现在基因组的部分序列中;由于二代测序读长短,因此也容易发生拼接错误导致的污染片段(Ku and Martin, 2016)。一种水熊虫Hypsibiusdujardini的HGT曾被认为占全部基因总数的1/6,明显多于其它物种,而后续的研究却表明其HGT仅占1%~4%,引起了很大的争议,这种分歧可能就是由严重的细菌序列污染造成的(Boothbyetal., 2015; Arakawa, 2016; Bemmetal., 2016; Delmont and Eren, 2016; Koutsovoulosetal., 2016; Yoshidaetal., 2017)。Ku and Martin (2016)认为,真核蛋白与原核蛋白的一致度在70%以上时很可能是测序污染、组装或者注释等技术的问题,并提出了70%原则防止HGT的误判。因此,搜索出来的候选HGT还需要进行进一步的验证,防止污染序列的影响。
此外,HGT搜索前的基因组组装、预测和注释阶段同样可能给HGT的检测带来影响,例如寄生蜂Leptopilinaheterotoma的Lar基因为处于另一基因RRP8的长内含子内的嵌套基因(nested gene),昆虫基因组中也含有较多嵌套基因,然而,基因预测中常用的EVidenceModeler等软件默认情况下并不进行嵌套基因的预测(Haasetal., 2008; Huangetal., 2021),有可能造成HGT挖掘的不全面。
对于现阶段的昆虫及其它后生动物研究,HGT的搜索还无法做到准确的认定HGT事件及排除污染,只能以灵敏度为主,确定候选HGT的范围,并交由系统发育分析进行进一步的验证与认定,以及使用多种手段排除污染的可能。
1.2 水平基因转移的验证:系统发育分析与排除污染
为了验证HGT候选基因的进化历程和供体来源,进一步确认HGT事件,需要对候选基因及搜索到的同源基因进行系统发育构建,这在HGT研究中是定性的必要环节,但由于同源基因等序列资源配置较为繁琐,通常在流程化的同源性搜索确定候选范围后再进行。系统发育关系可以使用RAxML (Stamatakis, 2014)或IQ-TREE (Minhetal., 2020)等软件构建得到。随后在构建出的进化树中观察基因的进化历程,若候选基因或候选基因集在进化树上被非近源物种的基因包围,则这些基因可能是HGT基因,那些相邻支系的物种可能是HGT的供体。
除此之外,昆虫及其他后生动物的候选HGT还应排除可能为污染的情况。首先,需要验证候选基因周围的侧翼基因或片段序列属于真核生物,如利用基因组的注释信息BLAST搜索周围序列,还可以进一步采用PCR方法或者高通量数据中对应的原始序列验证基因的连接处。另外,不同个体、种群与物种的数据可以使用BLAST相互印证,排除某个数据的污染,也可以用PCR直接验证准备好的生物样品,这一过程可以说明该基因在该物种或该类群的共同祖先出现前就已经发生了HGT事件。真核基因的特征也可以用来辅助验证,比较常用的特征包括内含子、信号肽、polyA位点和GC含量等。部分真核基因中含有内含子,研究表明内含子能够增加基因的表达(Le Hiretal., 2003),因此可以证明含有内含子的基因来自真核生物,检测HGT候选基因中是否存在内含子,也是对基因结构的描述,这一步可以通过基因组的注释信息或PCR进行验证。真核生物分泌系统的信号肽与原核生物不同,用SignalP (Armenterosetal., 2019)等软件进行真核信号肽的预测,若HGT候选基因含有信号肽,则可以证明该基因为真核基因,并且为分泌蛋白。可以使用转录组或qRT-PCR等方法验证该基因是否表达,同时得到该基因的表达谱。如果表达,不但能较大程度排除污染的可能性,还可以说明该基因在生物体中发挥了作用,通过表达谱也能推测该基因的作用。此外,转录本中的polyA位点也可以进一步说明该基因为真核基因。
1.3 水平基因转移的功能探究:生物信息学与实验
HGT的功能探究通常可以分为生物信息学和实验两方面的探究。生物信息学分析包括了信号肽、结构域、同源性注释、催化位点及蛋白结构等序列信息的分析,除此之外,选择压力分析也是常见的分析之一。基因在进化过程中经历正选择或负选择说明该基因在进化过程中发挥了重要的作用,选择压力可以使用HyPhy (Pondetal., 2020)或PAML程序包的CODEML程序(Yang, 2007)进行检测。实验方面,主要包括表达谱和功能验证实验。通过转录组或qRT-PCR等手段获取基因在各部位或各发育阶段的时空表达谱以及不同实验处理的表达谱,不同情况下某一基因的表达上下调情况有利于间接推测该基因的作用。在表达谱和序列信息分析的基础上,可以提出对基因功能的合理假设,设计实验验证基因的功能,常用的实验手段包括RNA干扰、体外表达与底物实验等。
2 昆虫水平基因转移的供体
HGT的供体是指提供基因的物种,即HGT基因的来源。HGT的供体通常是通过构建基因的进化树推断的,但由于数据库的物种缺失、系统发育推断的不确定性以及古老物种和现存物种的差异等,推测得出的HGT供体很可能并不是客观的供体。Crispetal.(2015)通过HGT指数h的方法搜索了果蝇属Drosophila的基因组,结果表明HGT主要来自细菌(26.5%)和原生动物(46.5%),也有来自植物(14.9%)、真菌(9.9%)和古菌(2.2%)的HGT。然而,从现有研究来看,昆虫HGT的供体以细菌为主,真菌、植物和病毒等类群也有一些报道,还有少量已报道的HGT来自原生动物等其它类群(图2,表3)。
HGT易发生在紧密联系的生物之间,在自然界中昆虫与细菌广泛接触,关系密切,使得来自细菌的HGT数量在昆虫HGT总数中占比较高,胞内共生菌、肠道微生物、昆虫病原细菌以及其它细菌都可能是昆虫HGT的供体。而许多已报道的HGT是通过系统发育的方法推测来自细菌供体的,但由于发生时间久远,具体的供体物种或是否有中间供体(如噬菌体)已难以推测。来自细菌的HGT中,以沃尔巴克氏体Wolbachia为供体的HGT报道较为常见,沃尔巴克氏体是昆虫体内广泛存在的胞内共生菌,能够在昆虫中稳定垂直传递给后代,也能在物种间水平传播(Correa and Ballard, 2016)。早在2002年,Kondoetal.(2002)发现,通过抗生素处理的绿豆象Callosobruchuschinensis的X染色体上存在沃尔巴克氏体的DNA片段,这些片段上面包含了沃尔巴克氏体的多个基因。而到了2007年,昆虫基因组上存在沃尔巴克氏体的片段才通过严谨的实验证明。Hotoppetal.(2007)通过BLAST搜索,同时使用PCR验证侧翼的连接处,并对不同种群、性别及物种数据进行相互验证,还验证了表达量与染色体定位等信息,确定了果蝇、寄生蜂和蚊子基因组上均存在沃尔巴克氏体的基因片段。随后的研究在绿豆象和松墨天牛Monochamusalternatus体内分别发现其基因组整合有沃尔巴克氏体基因组约30%和超过10%的片段(Nikohetal., 2008; Aikawaetal., 2009)。Klassonetal.(2009)发现伊蚊属Aedes内存在两个相邻的来源于沃尔巴克氏体的基因。Werrenetal.(2010)发现13个来自沃尔巴克氏体的锚蛋白重复痘蛋白基因水平转移入金小蜂属Nasonia的基因组中。随后,来自沃尔巴克氏体的基因或基因组片段被陆续发现存在于茶翅蝽(Ioannidisetal., 2014)、光肩星天牛(McKennaetal., 2016)、网蛱蝶Melitaeacinxia(Ahmedetal., 2016)、厩螯蝇(Olafsonetal., 2021)、粉虱Aleyrodidae (Renetal., 2020)、木虱Psyllidae (Sloanetal., 2014)、蚂蚁Formicidae与沫蝉Cercopoidea(Dhaygudeetal., 2019)等物种的基因组中。除此之外,粉蚧Psudococcidae中许多营养合成基因来自于其兼性肠道微生物和共生菌,如Tremblaya菌以及Tremblaya菌内的Moranella菌等γ-变形杆菌(Husniketal., 2013; Husnik and McCutcheon, 2016)。而家蚕Bombyxmori及其它鳞翅目中22个HGT基因主要来自昆虫病原细菌,涉及糖基水解、氧化还原和氨基酸代谢等功能(Lietal., 2011)。来源于肠杆菌科Enterobacteriaceae等肠道微生物的HGT在鳞翅目(Sunetal., 2013; Wheeleretal., 2013)、鞘翅目(Keelingetal., 2013)和竹节虫目(Shelomietal., 2016)等昆虫中也有报道。
来自真菌的昆虫HGT主要是分解果胶的聚半乳糖醛酸酶GH28基因(部分)和分解纤维素的纤维素酶GH45基因。这两种酶广泛存在于包括米象Sitophilusoryzae(Shenetal., 2003)、光肩星天牛(McKennaetal., 2016)和桑角天牛Aprionajaponica(Pauchetetal., 2014)等在内的植食性甲虫Phytophaga,能够帮助甲虫消化植物细胞壁(Kirschetal., 2014; Buschetal., 2019; McKennaetal., 2019; Hazzourietal., 2020)。帮助红棕象甲Rhynchophorusferrugineus有效消化食物的糖苷水解酶GH16基因也可能来自真菌或细菌(Hazzourietal., 2020)。另外,蚜虫(Moran and Jarvik, 2010; Novakova and Moran, 2012)和瘿蚊Cecidomyiidae (Cobbsetal., 2013)中的类胡萝卜素合成基因被推断来自真菌。烟粉虱Bemisiatabaci的基因组经过HGT指数h的方法搜索出142个HGT基因,其中78个基因可能来自真菌(Chenetal., 2016)。来源真菌的HGT基因在家蚕(Wangetal., 2019)和寄生蜂(Martinsonetal., 2016)中也有报道。
来自植物的HGT除果蝇外,目前只发现存在于粉虱和家蚕中。Zhuetal.(2011)通过搜索家蚕的基因组,发现了10个HGT基因,包括1个来自植物的基因芳香开环双加氧酶LigB亚基和9个来自细菌的基因。Lapadulaetal.(2020)在烟粉虱和温室白粉虱Trialeurodesvaporariorum中均发现2~3个来自植物的HGT基因核糖体失活蛋白基因RIP,而Xiaetal.(2021)则在烟粉虱中验证并探究了来自植物的酚苷丙二酰转移酶BtPMaT1基因。
有报道表明,昆虫中的HGT可能是由噬菌体或茧蜂病毒等病毒介导的(Zakharov, 2016; Drezenetal., 2017)。目前通过系统发育关系显示是由病毒提供的HGT报道多见于鳞翅目中,如夜蛾属Spodoptera中发现来自病毒的gasmin基因(Gasmietal., 2016; Di Lelioetal., 2019)和类茧蜂病毒凝集素Se-BLLs基因(Gasmietal., 2018),其中棉贪夜蛾Spodopteralittoralis的gasmin基因可能来自寄生蜂的共生病毒(Di Lelioetal., 2019)。Chengetal.(2014)发现裸病毒Nudiviridae提供了32个核心基因转移到宿主褐飞虱Nilaparvatalugens的基因组上。Morozovetal.(2017)则发现RNA病毒的解旋酶序列整合到了鳞翅目、半翅目、直翅目、膜翅目和蚊子等昆虫的转座子中,可能有抑制转录后RNA沉默的作用。另外,果蝇(Versteretal., 2019)和黑森瘿蚊(Zhaoetal., 2015)中也曾报道可能来自噬菌体的HGT。
少部分昆虫HGT来自原生动物等非后生动物的其它生物。东亚飞蝗Locustamigratoria(Haoetal., 2019)、果蝇(Crispetal., 2015)、寄生蜂(Huangetal., 2021)及鳞翅目昆虫(Sunetal., 2013)中均发现可能来自黏菌等原生生物的HGT基因。
昆虫转座子则被证实能够在昆虫之间进行水平转移,昆虫基因组中平均2.08%、最高24%的核苷酸是水平转移的转座子,水平转移的转座子在伊蚊属基因组中占到7%,而在按蚊属基因组仅占小部分,这些转座子是影响昆虫基因组进化的主要力量(Peccoudetal., 2017; de Melo and Wallau, 2020)。鳞翅目的转座子水平转移比其它昆虫和节肢动物更多,而杆状病毒经常攻击鳞翅目,在病毒感染过程中,蛾类DNA被整合到杆状病毒基因组中,其中大多数是转座元件,平均4.8%的病毒含有蛾类的DNA,说明杆状病毒是节肢动物水平基因转移潜在的重要媒介(Gilbertetal., 2016; Reissetal., 2019)。另外,HGT事件产生的基因也可能含有昆虫本身的基因片段,如存在于双翅目、膜翅目和蟋蟀等昆虫的oskar基因,其LOTUS结构域来自昆虫本身,而OSK结构域来自细菌的类GDSL结构域(Blondeletal., 2020)。
3 水平基因转移的受体昆虫
HGT的受体指的是外源基因转入的物种。从以往的经验来看,HGT在真核生物物种中是广泛存在的(Hotoppetal., 2007; Crispetal., 2015)。但目前昆虫HGT的研究仍集中在部分昆虫,尤其是模式昆虫,主要包括半翅目、鳞翅目、鞘翅目、膜翅目和双翅目等物种较多的类群,也有少部分其它类群的昆虫(图2,表3)。
表3 近年报道的功能较明确的昆虫HGT经典案例
续表1 Continued table 1
续表1 Continued table 1
图2 现阶段昆虫HGT研究中发现的供体和受体Fig.2 Donors and recipients of HGT in insects identified in the present researches注:图中昆虫的系统发育关系参考Misof et al. (2014)的研究结果,现存物种数参考Rainford et al. (2014)的数据。Note: The phylogenetic relationship of insects in the figure referred to the research results of Misof et al. (2014), and extant richness referred to the data of Rainford et al. (2014).
半翅目的HGT研究主要集中在胸喙亚目Sternorrhyncha。胸喙亚目昆虫与主要属于γ-变形杆菌的共生菌组成密切的共生系统,如蚜虫和Buchnera菌(Nakabachietal., 2005; Nikoh and Nakabachi, 2009; Nikohetal., 2010; Richardsetal., 2010; Nakabachietal., 2014; Nicholsonetal., 2015)、粉蚧和Tremblaya/Moranella菌(Husniketal., 2013; Husnik and McCutcheon, 2016; Szaboetal., 2017; Bublitzetal., 2019)、粉虱和Portiera菌(Luanetal., 2015; Chenetal., 2016; Xieetal., 2018; Renetal., 2020; Renetal., 2021)以及木虱和Carsonella菌(Sloanetal., 2014)。这些研究发现,昆虫含菌体细胞中细菌来源的HGT基因的表达能够补全共生菌缺失的营养和结构合成通路。相似的共生机制在头喙亚目Auchenorrhyncha的叶蝉Cicadellidae中也有发现(Maoetal., 2018; Mao and Bennett, 2020)。蝉的共生菌也缺乏完整的tRNA合成通路(Van Leuvenetal., 2019),预示着这套共生机制可能在头喙亚目甚至更广的类群中也普遍存在。
此外,蚜虫中存在来自细菌的溶菌酶GH25基因 (Metcalfetal., 2014)和来自真菌的类胡萝卜素合成基因(Moran and Jarvik, 2010; Novakova and Moran, 2012),而粉虱中还检测到RIP(Lapadulaetal., 2020)、BtPMaT1(Xiaetal., 2021)等植物基因和78个真菌基因(Chenetal., 2016)。褐飞虱(Chengetal., 2014)、茶翅蝽(Ioannidisetal., 2014; Sparksetal., 2020)、烟盲蝽(Fergusonetal., 2020)、乳草长蝽(Panfilioetal., 2019)与温带臭虫(Benoitetal., 2016)等物种也有研究报道过HGT的存在。
在鳞翅目中,HGT研究最多的物种是模式生物的家蚕(Lietal., 2011; Sunetal., 2013; Wheeleretal., 2013; Wybouwetal., 2014; Wangetal., 2019),也涉及棉贪夜蛾(Di Lelioetal., 2019)、甜菜夜蛾Spodopteraexigua(Gasmietal., 2016; Gasmietal., 2018)、烟草天蛾Manducasexta(Kanostetal., 2016)、菜粉蝶Pierisrapae(van Ohlenetal., 2016)、东方菜粉蝶Pieriscanidia(Subbarayanetal., 2016)和网蛱蝶(Ahmedetal., 2016)等物种。鳞翅目的HGT基因中不少与植物的消化和解毒有关,如糖苷水解酶GH31基因(Wheeleretal., 2013)、β-呋喃果糖苷酶GH32基因 (Daimonetal., 2008)、半胱氨酸合成酶(Wybouwetal., 2014; van Ohlenetal., 2016)及犬尿氨酸酶(Mengetal., 2009)等。
植食甲虫Phytophaga与以糖苷水解酶家族(glycoside hydrolases, GH)为主的内源性植物细胞壁降解酶(plant cell wall degrading enzymes, PCWDEs)是鞘翅目HGT研究的热点。在植食甲虫中普遍发现来自细菌或真菌的植物细胞壁降解酶或其它植物消化酶,这些HGT基因可能是植食甲虫在中生代多元化的关键(Shenetal., 2003; Pauchetetal., 2010; Acunaetal., 2012; Keelingetal., 2013; Pauchet and Heckel, 2013; Eyunetal., 2014; Kirschetal., 2014; Pauchetetal., 2014; Vegaetal., 2015; Kirschetal., 2016; McKennaetal., 2016; Buschetal., 2019; Kirschetal., 2019; McKennaetal., 2019)。另外,在绿豆象(Kondoetal., 2002; Nikohetal., 2008)和松墨天牛(Aikawaetal., 2009)中存在沃尔巴克氏体的多个基因;而在瓢虫亚科Coccinellinae中则存在支系特异的细菌细胞壁水解酶cwh基因(Lietal., 2021b)。
在膜翅目中,HGT研究以寄生蜂为代表。在Leptopilinaheterotoma、L.boulardi(Huangetal., 2021)、蝇蛹金小蜂Nasoniavitripennis(Werrenetal., 2010; Martinsonetal., 2016)、N.giraulti与N.longicornis(Werrenetal., 2010)及Diachasmaalloeum(Tvedteetal., 2019)等寄生蜂中均有HGT的报道。在蚂蚁中也存在来自沃尔巴克氏体的DNA片段,包含转座酶、ABC转运体和锚蛋白重复包含蛋白等83个基因(Dhaygudeetal., 2019)。
果蝇作为模式生物类群,被用于许多HGT搜索的研究,例如Crispetal.(2015)、Versteretal.(2019)、Hotoppetal.(2007)以及Emamehetal.(2016)等的研究。另外,在厩螯蝇的基因组中发现来自沃尔巴克氏体的3个片段,但未发现蛋白基因(Olafsonetal., 2021)。库蚊与伊蚊 (Lapadulaetal., 2017)、瘿蚊(Cobbsetal., 2013; Zhaoetal., 2015; Subramanyametal., 2021)等蚊类物种中也有发现毒素和植物消化等不同作用的HGT基因。值得注意的是,在许多其它类群研究中发现的一些HGT在库蚊、伊蚊、按蚊和瘿蚊等蚊类物种中也存在相似的基因,不同的是,其中一部分基因是通过另外独立的HGT事件进入的,如几丁质酶GH19基因 (Martinsonetal., 2016)、β-碳酸酐酶β-CA基因(Emamehetal., 2016)、RNA病毒的解旋酶(Morozovetal., 2017)及细胞壁水解酶cwh基因(Lietal., 2021b)等,HGT的频繁发生可能与蚊类较为恶劣的生存环境有关。
在竹节虫及德国小蠊Blatellagermanica中也有内源性植物消化酶的报道,包括聚半乳糖醛酸酶GH28等消化果胶的酶(Shelomietal., 2014; Shelomietal., 2016; Wuetal., 2016; Brandetal., 2018)。此外,东亚飞蝗(Haoetal., 2019)与西花蓟马(Rotenbergetal., 2020)等物种也报道了HGT的存在。
4 昆虫水平基因转移的功能
4.1 “半路出家”——昆虫植食性的获得:细胞壁降解、营养吸收与解毒
早期研究普遍认为,昆虫中缺乏植物细胞壁的消化酶,而共生微生物是昆虫“半路出家”的关键,可以帮助植物消化、解毒植物的毒素,而随着组学技术的发展,越来越多昆虫HGT获得的内源性植物细胞壁降解酶、营养吸收与解毒的基因被发现和研究(图3),这些基因对昆虫适应植食、“半路出家”有着重要的意义(Calderon-Cortesetal., 2012; Wybouwetal., 2016; Skidmore and Hansen, 2017; Masonetal., 2019; Tokuda, 2019)。
植物细胞壁降解酶除GH1和GH9来源于动物祖先(Chang and Lai, 2018)外,一般来自细菌或真菌,大多属于糖苷水解酶GH家族,包括分解果胶的碳水化合物酯酶CE8、多聚糖裂解酶PL4和GH28;分解蔗糖的GH32;分解半纤维素的GH5-2、GH5-8、GH5-10、GH5-12、GH10、GH11和分解纤维素的GH43、GH44、GH45、GH48等,这些酶主要集中报道于植食甲虫Phytophaga中,在许多植食性昆虫中也有记录 (Calderon-Cortesetal., 2012; Pauchet and Heckel, 2013; McKennaetal., 2019)。Shenetal.(2003)在米象中发现了一种可能来自真菌的果胶消化酶——聚半乳糖醛酸酶GH28;Acunaetal.(2012)在咖啡果小蠹Hypothenemushampei的中肠分泌组中发现一种属于GH5家族的酶——甘露聚糖酶HhMAN1,能够水解咖啡豆中的半乳甘露聚糖,而其基因组中搜索得到10个HGT基因,包括2个木聚糖酶和2个甘露聚糖酶基因(Vegaetal., 2015);在芥菜叶甲Phaedoncochleariae的基因组中,Pauchet and Heckel (2013)发现有编码活性木聚糖酶GH11的基因存在;在山松甲虫Dendroctonusponderosae(Keelingetal., 2013)、白蜡窄吉丁Agrilusplanipennis(Zhaoetal., 2014)和甘蔗象甲Sphenophoruslevis(Pedezzietal., 2014)体内则均发现了GH32家族的β-呋喃果糖苷酶scrB基因。在其他类群的植食性昆虫中也有相似的HGT细胞壁降解酶的研究,如竹节虫中来源于细菌的果胶酶基因在前中肠中大量表达,底物酶活性实验也证明其可以降解果胶和聚半乳糖醛酸,证明了这些果胶酶在竹节虫消化植物中的重要作用(Shelomietal., 2014; Shelomietal., 2016);黑森瘿蚊GH32家族的MdesGH32基因的蛋白则拥有菊粉酶和转化酶活性,协助将植物细胞壁菊粉聚合物分解为单体,并将植物主要运输糖蔗糖转化为葡萄糖和果糖,从而形成有利于黑森瘿蚊寄生的富含营养的组织(Subramanyametal., 2021)。在这些细胞壁降解酶与植食性昆虫联系的认识基础上,越来越多的研究将这些细胞壁降解酶与植食性昆虫联系成为一个整体,用大量数据去深入探究它们的作用。Buschetal.(2019)研究了植食甲虫纤维素酶GH45的作用,发现其能够降解3种底物:无定形纤维素、木葡聚糖和葡甘露聚糖。Kirschetal.(2019)则以植食甲虫的GH28作为研究对象,探究了其中的假酶(pseudoenzymes),也就是失去了果胶催化活性的酶,他们认为这些假酶也是果胶消化途径的一部分,假酶降低了能量转化效率并延长了甲虫的发育历期,对消化过程的影响甚至超过了活性酶。McKennaetal.(2019)研究了鞘翅目昆虫的进化历史,以系统发育分析和比较基因组学为手段,发现不同支系的植食性甲虫在获得大量消化细胞壁的HGT后往往开始适应性辐射进化,占据了多样的生态位。这些细胞壁降解酶在HGT发生后通常会经历基因的复制和扩张以及亚功能化(Kirschetal., 2016; Brandetal., 2018; Kirschetal., 2019)。
促进植物营养吸收的基因包括糖类代谢、氨基酸合成、维生素合成和类胡萝卜素合成等的基因。促进糖类代谢的基因除消化细胞壁成分的降解酶外,还包括消化胼胝质的GH16基因 (Hazzourietal., 2020)与糖苷水解酶GH31基因 (Lietal., 2011; Sunetal., 2013; Wheeleretal., 2013)等。氨基酸和维生素合成基因包括精氨琥珀酸裂解酶argH、分支酸变位酶CM及生物素合成酶bioB等许多基因,这些基因与半翅目胸喙亚目及其共生菌的共生系统有关(Luanetal., 2015; Wybouwetal., 2016)。而类胡萝卜素合成基因最初发现于豌豆长管蚜Acyrthosiphonpisum中,蚜虫基因组中发现了来自真菌的类胡萝卜素去饱和酶和类胡萝卜素环化酶/合成酶(Moran and Jarvik, 2010)。Novakova and Moran (2012)研究发现,蚜虫和球蚜中均存在这些基因,说明HGT事件发生在这些类群的共同祖先出现之前。随后,相似的基因在瘿蚊中被发现,而这些基因可能是由不同的HGT事件进入的(Cobbsetal., 2013)。另外,在其它节肢动物的叶螨中,也有真菌源类胡萝卜素合成基因的报道(Altinciceketal., 2012)。
植物在昆虫取食时会使用一些防御手段,如释放氰化物等毒素,针对这个防御手段,昆虫通过HGT获得能够解毒的基因,从而冲破植物的防线达到取食植物的目的。存在于鳞翅目和柑橘粉蚧Planococcuscitri等昆虫的半胱氨酸合成酶CAS具有解毒植物氰化物的功能(Husniketal., 2013; Wybouwetal., 2014; van Ohlenetal., 2016)。家蚕中的β-呋喃果糖苷酶GH32具有解毒桑叶毒素的作用,犬尿氨酸酶同样具有解毒植物毒素的作用(Daimonetal., 2008; Mengetal., 2009; Lietal., 2011; Zhuetal., 2011; Sunetal., 2013)。近日,Xiaetal.(2021)在烟粉虱中发现一个来自植物的近期HGT基因——酚苷丙二酰转移酶BtPMaT1基因,经过对番茄叶毒素的鉴定以及对烟粉虱的RNA干扰等实验,发现该基因可以中和解毒植物中的毒素酚苷,这很可能促进了烟粉虱近期的食性扩张。另外,对不同物种的RNA干扰结果还表明通过dsRNA的手段可以对烟粉虱进行靶标性的防治。
4.2 “难舍难分”的共生:营养与结构合成
胸喙亚目昆虫,包括蚜虫、粉蚧、粉虱和木虱等类群,体内通常伴随着一类基因组小于0.5 Mb、十分微小的共生菌,这些共生菌能为宿主昆虫提供植物汁液食物缺乏的必需氨基酸和维生素等营养(Baumann, 2005; McCutcheon and Moran, 2012; Douglas, 2016)。近期的研究显示,这些胸喙亚目昆虫中存在一种专门储存共生菌的含菌体器官,其中的含菌体细胞能够表达细菌来源的HGT基因,补全这类微小共生菌缺失的营养物质或结构合成环节,使得胸喙亚目昆虫与共生菌联系紧密,难以分割(图3)。
胸喙亚目昆虫共生体系的HGT基因最初发现于蚜虫中。Nakabachietal.(2005)在豌豆长管蚜的含菌体中发现了两条区别于共生菌Buchnera的转录本,其含有与细菌相似的基因。对这两条转录本测序发现,这两条转录本含有类似细菌的LD-羧肽酶ldcA基因和稀有脂蛋白rlpA基因,这两个基因能够参与合成细菌细胞壁的主要成分肽聚糖,而Buchnera菌正好缺失了这部分基因(Nikoh and Nakabachi, 2009)。Richardsetal.(2010)通过搜索豌豆长管蚜的基因组发现了12个HGT基因,包括了3个ldcA和5个rlpA基因以及2个来自Buchnera菌的基因,其中7个基因在含菌体细胞中表达较高。Nakabachietal.(2014)在之后的研究中通过免疫化学的实验观察到含菌体表达的rlpA4的蛋白被转运进入Buchnera菌的细胞中。而Nicholsonetal.(2015)在麦双尾蚜Diuraphisnoxia的基因组中同样发现来自细菌的ldcA和rlpA基因。
在粉蚧中,这种共生机制进一步得到诠释。Husniketal.(2013)在柑橘粉蚧的含菌体中寻找到22个转录的HGT基因,其中2个赖氨酸合成基因与5个维生素B合成基因能够补全共生菌Tremblaya及其胞内共生菌Moranella的必需氨基酸以及维生素合成通路,为粉蚧提供食物中缺乏的营养物质,而另外9个肽聚糖合成相关基因与Moranella菌的细胞壁合成有关,为我们展示了粉蚧中复杂的三重共生体系。随后,Husnik and McCutcheon (2016)调查了5种不同粉蚧物种内的共生体系,发现这套HGT的机制稳定存在于粉蚧、Tremblaya菌和γ-变形杆菌的共生体系中,其中较为古老的HGT主要与氨基酸和维生素B合成和代谢有关,而后期HGT主要与肽聚糖合成代谢有关。同样,甘露粉蚧Trabutinamannipara中也发现了类似的共生体系和HGT机制(Szaboetal., 2017)。对于粉蚧中获得的肽聚糖合成相关基因,Bublitzetal.(2019)做了进一步的探究,揭示了粉蚧中的HGT与Moranella菌的基因共同协作合成Moranella菌外周的肽聚糖层,并通过免疫组织化学的手段发现其中一个HGT基因MurF编码的蛋白已经进入到Moranella菌的细胞质。
在烟粉虱的研究中,Luanetal.(2015)同样发现其存在8个HGT基因能够补全共生的Portiera菌中缺失的赖氨酸/苏氨酸、苯丙氨酸/色氨酸和精氨酸合成通路,另外2个HGT基因BioA、BioB在已有的基础上进一步增补共生的Hamiltonella菌生物素的合成。Chenetal.(2016)和Xieetal.(2018)测序得到的烟粉虱基因组也验证了这些HGT的存在。Renetal.(2020)进一步探究了粉虱和Hamiltonella菌的维生素B7生物素合成途径,发现粉虱体内的HGT基因BioA、BioD及BioB能够合成生物素,与Hamiltonella菌合成的生物素相互补充,提高粉虱存活率和繁殖率。随后,粉虱中的维生素B5泛酸合成途径也被研究。Renetal.(2021)发现细菌中的泛酸合成基因panB和panC在烟粉虱中融合成一个基因panBC,能够补全Portiera菌的泛酸合成通路,提高粉虱的适应性。
杨梅叶柄瘿木虱Pachypsyllavenusta中也存在与共生菌互补的HGT基因,其中精氨琥珀酸裂解酶argH基因能够补全共生的Carsonella菌的精氨酸合成通路,分支酸变位酶CM是苯丙氨酸合成的必要酶,另外还有维生素B2核黄素合成酶ribC基因等7个HGT基因(Sloanetal., 2014)。
胸喙亚目昆虫与胞内共生菌这套“难舍难分”的协作共生机制似乎与线粒体、叶绿体等细胞器有很多相似的地方,可能为我们带来细胞器初期演化的一些启示。
4.3 以子之“矛”攻子之“盾”:抗菌与抗病毒
昆虫通过HGT能够从细菌中夺取细菌细胞壁代谢的相关基因,从而用于降解细菌细胞壁,以达到抗菌的作用(图3)。Hotopp and Estes (2014)认为,这是真核生物在生物战争中反击的利器。烟粉虱夺取植物基因BtPMaT1对付植物毒素也是类似的机制(Xiaetal., 2021)。以子之“矛”攻子之“盾”,堪称为生物进化中的智慧。
图3 昆虫HGT的主要功能Fig.3 The main function of insect HGT注:(A)“半路出家”,昆虫通过HGT从细菌、真菌或植物中获得与细胞壁降解、营养吸收与解毒相关的基因,从而获得植食性;(B)“难舍难分”的共生,胸喙亚目昆虫通过HGT从细菌中获得部分营养合成基因,与共生菌基因协作合成所需的营养;(C)以子之“矛”攻子之“盾”,昆虫通过HGT从细菌中夺取抗菌作用的基因;(D)借“刀”杀“人”,昆虫从微生物或原生动物中借来毒素或防御相关基因,在寄生蜂的寄生中发挥重要作用。Note: (A) Become a monk or nun late in life, insects acquired genes related to cell wall degradation, nutrient absorption and detoxification from bacteria, fungi or plants through HGT, thus acquiring herbivory; (B) Inseparable symbiosis, Sternorrhyncha insects acquired part of nutrient synthesis genes from bacteria through HGT, which can cooperate with genes in symbiosis bacteria to produce the required nutrients; (C) Turn somebody’s battery against himself, insects robbed antimicrobial genes from bacteriathrough HGT; (D) Borrow a knife to kill a man, insects borrowed toxins or defense-related genes from microorganisms or protozoans, which play an important role in parasitizing of parasitic wasps.
Lietal.(2021b)利用38种瓢虫的转录组数据,以及数个瓢虫基因组,鉴定出一组细菌细胞壁水解酶cwh基因,该基因在真核生物中十分罕见,但在包含大部分瓢虫科Coccinellidae物种的瓢虫亚科物种中均稳定存在,而在物种较少的小维氏瓢虫亚科Microweiseinae中缺乏该基因。经过系统发育分析,证明该基因是来源于细菌的HGT,在进入瓢虫亚科祖先后分化为两支,分别是无信号肽的cwh1和包含信号肽的cwh2,cwh1在食性范围较广的瓢虫族Coccinellini的多个物种中发生了复制,表明了该基因对食性扩张可能有一定的贡献。而时空表达谱表明,瓢虫各器官以及各发育阶段的表达量相似,说明这些基因在瓢虫体内稳定发挥作用。经过实验发现,感染枯草芽孢杆菌导致瓢虫体内cwh基因表达上调,而且体外表达的蛋白能够抑制细菌的增殖,经过RNA干扰后,其它抗菌基因的表达量显著下调,表明cwh基因在抗菌免疫防御中发挥作用。随后,Lietal.(2021a)测序了生物防治天敌孟氏隐唇瓢虫Cryptolaemusmontrouzieri的高质量基因组,并做了比较基因组学和不同食物处理的转录组分析,发现cwh等免疫基因在取食人工饲料后相比天然猎物的粉蚧发生下调,揭示了免疫基因在瓢虫取食胸喙亚目昆虫的食性中发挥了重要作用。cwh基因在白垩纪晚期进入瓢虫亚科祖先,可能在瓢虫的猎物适应、生态位扩张和物种辐射进化中发挥了重要的作用(Lietal., 2021b)。
豌豆长管蚜(Metcalfetal., 2014)和茶翅蝽(Ioannidisetal., 2014)的基因组中也存在从细菌抢夺而来的溶菌酶基因;烟盲蝽从Sodalis菌夺取了吩嗪合成蛋白的编码基因,而吩嗪有抗菌的效果,这个HGT可能在烟盲蝽体内发挥了抗菌的作用(Fergusonetal., 2020);乳草长蝽同样存在与细胞壁代谢相关的HGT基因,可能有相同的抗菌作用(Panfilioetal., 2019)。在其它节肢动物中也有类似功能的HGT,细菌来源的抗菌性HGT酰胺酶效应器dae基因在蜱对抗皮肤细菌的过程中发挥着重要的作用(Chouetal., 2015; Hayesetal., 2020)。除此之外,甜菜夜蛾从多DNA病毒抢夺的gasmin基因能够抑制杆状病毒增殖(Gasmietal., 2016);而夜蛾属夺取病毒的类茧蜂病毒凝集素Se-BLLs基因以对抗体内病毒(Gasmietal., 2018)。
然而,抗菌的HGT可能并不是从目标类群夺取的,昆虫同样不介意夺取其它类群物种的“矛”来攻击细菌或真菌。棉贪夜蛾从寄生蜂共生病毒夺取的gasmin基因能够参与免疫反应,促进血细胞吞噬细菌(Di Lelioetal., 2019)。家蚕与其它鳞翅目中来自真菌的4,5-多巴加双氧酶BmDODA基因参与多巴代谢,并能够促进抗菌活性(Wangetal., 2019)。而家蚕中GH18家族的几丁质酶BmChi-h基因可能参与降解真菌的细胞壁,起到抗真菌的作用(Daimonetal., 2003)。
4.4 借“刀”杀“人”:毒素与防御
昆虫可以通过HGT从其它类群生物中借来一些与毒素和防御有关的基因,用来对付天敌或者猎物,达到借“刀”杀“人”的目的(图3)。Huangetal.(2021)对广寄生性的果蝇寄生蜂Leptopilinaheterotoma和专性寄生蜂L.boulardi进行了转录组和蛋白组的研究,在L.heterotoma中发现可能来自微生物或原生动物的淋巴腺凋亡相关蛋白Lar基因,该蛋白能够溶解果蝇的淋巴腺,从而主动抑制果蝇的免疫反应,达成该寄生蜂广泛寄生的目的;而L.boulardi中存在来自共生菌的含有粘蛋白结合域的蜂卵粘附相关蛋白Warm基因,该蛋白能够将蜂卵粘附在宿主组织上逃避宿主免疫细胞的完全包裹,使孵化的寄生蜂幼虫能够从粘附面逃出,而达成寄生专一宿主的功能。这些基因在获得后均经过复制和亚功能化,促进了寄生蜂宿主范围的转移。蝇蛹金小蜂从真菌微孢子虫中获得的几丁质酶GH19基因能够上调宿主真菌保护基因的表达,操纵宿主的免疫系统,可能消耗宿主的能量并降低宿主营养质量,从而作为毒素提高寄生的成功率(Martinsonetal., 2016)。东方菜粉蝶则存在细菌HGT基因——半胱天冬酶依赖的细胞凋亡诱导蛋白pierisin-5基因,该基因能发挥细胞毒性的作用,促进细胞的凋亡(Subbarayanetal., 2016)。在其它节肢动物的蜈蚣中,至少有5个毒素基因来自细菌或真菌,而其中β-PFTx和centiPAD等多个毒素基因存在其它独立转移至鳞翅目、鞘翅目和膜翅目等类群中部分昆虫的HGT事件(Undheim and Jenner, 2021)。
此外,粉虱中从植物、蚊子从蓝藻中分别获得核糖体失活蛋白RIP基因,之前的研究发现这个基因在果蝇中的共生螺原体Spiroplasma中具有防御线虫的作用,以此推测粉虱和蚊子中这些HGT也有相似的功能(Hamiltonetal., 2016; Lapadulaetal., 2017; Lapadulaetal., 2020)。果蝇从蚜虫共生菌CandidatusHamiltonelladefensa或其噬菌体获得的细胞致死膨胀毒素cdtB基因可能也具有该共生菌防御寄生蜂的功能(Versteretal., 2019)。黑森瘿蚊拥有来自噬菌体的YD毒素,同样可能与寄生蜂防御有关(Zhaoetal., 2015)。
4.5 其它功能
昆虫中的HGT基因还存在许多其它的功能。鳞翅目中的犬尿氨酸酶(Mengetal., 2009; Lietal., 2011; Sunetal., 2013; Wheeleretal., 2013)、蚜虫和瘿蚊的类胡萝卜素合成基因(Moran and Jarvik, 2010; Novakova and Moran, 2012; Cobbsetal., 2013)除了植物营养吸收外还可能与昆虫的身体色彩有关。在果蝇中存在的oskar基因则与神经模式和卵子发生有关,在昆虫繁殖中发挥重要作用(Blondeletal., 2020)。蚊子和果蝇中的细菌源β-碳酸酐酶β-CA高效催化CO2的水合作用,参与包括呼吸、pH及CO2稳态、生物合成与毒力调节等生理过程(Emamehetal., 2016)。东亚飞蝗的类黏菌蛋白激酶MPKL则有诱导光周期滞育的作用(Haoetal., 2019)。这些HGT基因往往帮助昆虫获得了新性状,从而获得更适应环境的能力。另外,还有大量搜索出来的HGT基因功能并未得到明确。
5 存在问题与展望
昆虫HGT研究作为近年昆虫研究的热点,为我们揭开了昆虫适应和进化机制的一角。昆虫植食食性的获得、营养合成、昆虫免疫以及寄生蜂的寄生与宿主的防御等表型的改变或生理的过程,均与HGT有着密切的联系。而且,无论是内源性植物消化解毒酶、与共生菌协作合成氨基酸和维生素、捕食性瓢虫的免疫基因还是寄生蜂的宿主毒性,均与昆虫食性的适应和扩张有关,表明了HGT与昆虫食性之间千丝万缕的关系。然而,在深入研究昆虫HGT之前,我们需要注意现阶段研究中一些不足:
(1) HGT的搜索与验证缺乏一套严谨的系统化的方法,且供体类群考虑不全面。目前HGT的搜索大多基于同源搜索的结果,再加以系统发育分析和真核序列的验证。但搜索阶段容易受到数据库质量、其它物种污染和近源物种HGT等问题的影响,缺乏一套系统化的方法,也容易造成搜索结果的缺失或误判。目前较为常用的HGT指数h等的流程化方法较为简单,但还很难解决以上的问题。另外,系统发育分析中可能会受到数据库物种序列缺失或错误以及系统发育不确定性等影响,无法准确还原HGT的历程,同时很难解释独立多次发生的古老HGT与基因复制丢失等其它进化事件的区别。而真核序列验证过程较为繁琐,也存在无法排除物种中稳定且特异的胞内共生菌或肠道微生物基因的可能性。研究中对供体的考虑大多受限于细菌,而对真菌、植物、病毒和原生动物等类群的考虑较少,几乎没有古菌和其它后生动物等其它类群的报道,这可能是因为病毒序列不稳定,而真菌、植物等真核生物与昆虫较为近源,序列容易混淆造成误判,造成研究者不愿考虑这些类群来源的HGT。Alienness网络服务器能较好的处理HGT搜索中流程化、近源物种HGT和多种类型供体等的问题,但目前仅应用于Undheim and Jenner (2021)等较少的研究中,且仍然存在需要人为定义近源类群、无法严谨排除污染、无法确定HGT方向、准确性欠佳及后续还需要验证等不足。
HGT的序列片段或结构域可能会重新参与组成新的基因,如与自身基因组成的oskar基因(Blondeletal., 2020)和互相融合而成的panBC基因(Renetal., 2021)。然而,目前HGT研究中仍以考虑整体基因为主,可能错过一些含有部分HGT片段的基因。以结构域或基因片段为单位的HGT检测方法可能会为我们带来更全面的对HGT的认识。
长期来看,开发一套严谨的系统化方法是必要的。对于包括昆虫在内的更加近源的后生动物类群供体,尤其是天敌、猎物及竞争物种等有密切关系的潜在供体,则需要开发更加精准的区分方法,基于序列组成的方法可能是一个突破口。
(2) 昆虫HGT研究的受体昆虫类群较为局限。HGT研究的受体昆虫集中于半翅目、鳞翅目、鞘翅目、膜翅目及双翅目等类群,尤其是胸喙亚目、植食甲虫等类群和果蝇、蚊子、家蚕等模式生物,其他昆虫研究较少,包括物种较为丰富的毛翅目、直翅目等类群,半翅目和全变态类Holometabola以外的昆虫类群更是缺乏HGT的认识。要完全揭开HGT在昆虫中的神秘面纱,还需要在更多类群中进行研究,将热点普遍化。要探究HGT与食性的联系,也不能仅关注植食性昆虫和寄生蜂,捕食性昆虫、腐食性昆虫以及菌食性昆虫也需要更深入的研究。
(3) HGT的功能验证较为困难,搜索出来的大量HGT并未明确功能。HGT的基因在进入受体昆虫后往往跟随昆虫基因组进行了很长时间的进化,会发生复制、插入内含子、添加信号肽和亚功能化等进化事件,其具体功能与在细菌等供体中的时候产生了微妙的差别,尤其在个体层面,HGT基因对供体和受体的意义可能相差甚远。例如代谢酶和营养合成基因,它们在微观的代谢通路上功能可能是相似的,但个体获取这些基因的意义往往很难有合理的假设,这就增加了这些基因功能验证的难度。这需要结合物种的进化历史、与近缘的非HGT受体的生物学特性比较、表达谱的探究以及严谨的下游功能验证。而目前,还有许多搜索发现的HGT并未得到功能验证,如烟盲蝽中的吩嗪合成蛋白,可能与其抗菌免疫相关 (Fergusonetal., 2020),如果得到验证将是一个有趣的发现;而温带臭虫中的类patatin基因仅在雄性表达(Benoitetal., 2016),该基因在生殖或性二型过程中的作用需要进一步挖掘。另外,未发现表达的HGT基因以及基因组上的HGT片段,究竟是进化过程中的偶然,还是具有潜在的功能,还需要进行探索。
HGT的研究正处于持续拓展的阶段,在技术方法上还需要有更多的突破,在类群的研究上也需要进一步扩大范围,而这些已发现的HGT也需要明确在新的生物体中的功能。相信在不久的将来,昆虫HGT的研究必然会为我们讲述更多HGT与昆虫食性扩张、适应环境的精彩故事。