桑树叶绿体psbA基因的生物信息学预测及分析

2022-07-19杨贵明

北方蚕业 2022年2期

王敬王鹏王晖杨贵明周玲*

(1.承德医学院蚕业研究所/河北省高校特产蚕桑技术应用研发中心，河北承德 067000； 2.承德应用技术职业学院，河北承德 067000)

psbA基因存在于桑属植物的叶绿体，碱基序列位于叶绿体外显子全部碱基序列中的第333—1 394位，全长1 062 bp。高等植物的叶绿体基因在遗传中为母系遗传，序列具有极高度的保守性[1]。这使其在植物的进化过程中变异率低，因此，psbA成为研究植物进化过程的重要标记基因之一[2]。郭亮亮对桑属植物叶绿体psbA基因序列和进化进行分析[3]，林琳对29种桃金娘目植物psbA基因进行密码子偏好及聚类分析[4]，发现结合RSCU的值和CDS序列的聚类分析可更好地对物种进行高精度的分类，获得psbA基因的进化的内在规律。当下，尚无对桑树psbA基因进行生物信息学分析的报道，本研究拟对其氨基酸序列的基础生物信息学进行分析及预测，为基于psbA基因研究植物的分类提供理论基础。

1 材料及方法

psbA基因(登录号：NC_008359.1，333-1394)，其氨基酸序列(登录号：YP_762241.1)。使用开放阅读框OFR Finder(https://www.ncbi.nlm.nih.gov/orffinder/)对桑树psbA基因进行分析；对桑树氨基酸psbA序列的理化性质使用Prot Param(https://www.expasy.org/resources/protparam)推断；用Prot Scale(https://web.expasy.org/protscale/)对其氨基酸序列的疏水性/亲水性预测；使用SignalP-5.0(https://services.healthtech.dtu.dk/service.php?SignalP-5.0)对其氨基酸序列信号肽分析；TMHMM Server.v.2.0(https://services.healthtech.dtu.dk/service.php?TMHMM-2.0)分析氨基酸序列的跨膜结构域；PBIL(https://npsa-pbil.ibcp.fr/)分析氨基酸序列的二级结构；通过使用PredictProtein(https://predictprotein.org/)对其进行亚细胞定位、聚类分析、靶位点预测，并使用构建同源树的DNAman对桑、白果树、箭毒木、榕树、腾构等11个物种进行同源树构建。

2 结果及分析

2.1 psbA基因开放阅读框特征

DNA序列中所具备编码蛋白质潜质的序列被称为开放阅读框。用OFR Finder在线软件对其基因序列分析得出(图1)psbA基因有7条开放阅读框，这7条开放阅读框的长度依次为：1 062 bp、87 bp、90 bp、123 bp、129 bp、111 bp和84 bp；psbA基因的起始密码子及终止密码子的位置依次为：1 bp处、182 bp处、93 bp处、1 011 bp处、756 bp处、869 bp处、575 bp处及1 062 bp处、268 bp处、182 bp处、889 bp处、628 bp处、759 bp处和492 bp处；所翻译的氨基酸数目依次是353个、28个、29个、40个、42个、36个和27个。

图1 psbA基因的开放阅读框特征

2.2 psbA氨基酸序列的理化性质推断

经Prot Param在线软件分析得出，psbA序列由353个氨基酸构成，根据其所含元素的数量推算其分子式C1789H2676N456O492S14，分子量38892.53，等电点为5.21，由于其不稳定指数为34.66(34.66<40)，因此属稳定蛋白。N末端为甲硫氨酸。其所含的氨基酸中，甘氨酸(Gly)占比最高为9.6%，其次为亮氨酸(Leu)、异亮氨酸(Ile)、丝氨酸(Ser)，谷氨酰胺(Gln)含量最少(图2)。

图2 psbA基因各氨基酸的种类及含量推断

2.3 psbA的氨基酸序列疏水性/亲水性预测

经软件Prot Scale分析得出(图3)，由图可看出负值峰少于正值峰，表现为疏水性。

图3 psbA氨基酸序列的疏水性/亲水性预测

2.4 psbA氨基酸序列的信号肽分析

经软件SignalP-5.0预测得出图4。由图4可看出信号肽存在的几率为0.002 1，趋近于0，不存在信号肽，可推断为非分泌蛋白。

图4 桑树psbA氨基酸序列的信号肽分析

2.5 psbA氨基酸序列跨膜结构域的推测

经TMHMM Server.v.2.0分析得出膜内区域的概率趋近于0%，膜外的概率接近于100%，不存在跨膜结构域(图5)。

表示为跨膜区域；表示为膜内区域；表示膜外区域图5 桑树psbA氨基酸序列跨膜结构域的推测

2.6 psbA基因氨基酸序列的二级结构预判

经PBIL分析的结果显示，氨基酸序列的组成中包括：12.75%的延伸链、58.64%的无规则卷曲和28.61%螺旋(图6)。

图6 psbA氨基酸序列二级结构的预判

2.7 psbA氨基酸序列的亚细胞定位、GO功能、结合区的推测

经PredictProtein分析得出：psbA氨基酸序列存在真核生物细胞的叶绿体中，与当前文献的查询结果相同。蛋白结合位点为13个，依次位于：59-64、129-134、188-192、193-193、194-197、251-251、253-253、267-270、297-302、317-321、323-324、327-327、329-340位(图7)。

图7 psbA氨基酸序列二级结构的预判

psbA氨基酸序列的GO功能注释包括细胞组分、生物学进程、分子功能。细胞组成包括膜的整体组成、叶绿体类囊体膜、类囊体、叶绿体、光系统II；生物学进程有光合作用、蛋白质-发色团连锁、对除草剂反应、光合电子传输系统II；分子功能包括辅酶绑定、铁离子结合、氧化还原酶活性、阴离子结合和电子传送器(图8)。

图8 psbA氨基酸序列GO功能

2.8 桑等物种psbA基因序列的亲缘关系推测

经使用软件DNAMAN对桑、白果树、箭毒木等共11个物种构建同源树，(图9)所示。桑与其余10个物种的psbA氨基酸序列相似度极高，其最低相似度是98%，说明psbA氨基酸序列保守性极高。

图9 11个物种psbA氨基酸序列同源树

3 结论及讨论

psbA作为叶绿体中的关键调控基因，在光合作用中起传递电子到编码光合系统 II 反应蛋白的作用[5]。高等植物叶绿体psbA基因的启动子作为叶绿体基因工程中常用的启动子[6]，经常用于分子发育关系的比较[7]。由于叶绿体基因为母系遗传，变异程度低，常被运用于物种的发育及进化领域研究[8]。

通过利用生物信息学对桑树psbA基因进行预测，psbA基因存在于真核生物细胞的叶绿体中，和侯世昌[9]等人的研究相同。psbA基因存在7条开放阅读框，含有353个氨基酸。氨基酸序列具有疏水性，无信号肽。psbA的结构以无规则卷曲为主要方式。GO功能分为三类，序列分布有13个蛋白结合位点。桑与白果树、箭毒木等11个物种的psbA氨基酸序列具有极高的同源性，说明psbA在生物进化中保守性极高。本文使用生物信息学手段对桑树psbA基因进行预测分析，与常见的对于桑属植物的分类研究方式略有不同。对于桑属植物的分类研究还有更多的方法，本文仅对psbA基因进行了初步的生物信息学分析，对于psbA基因功能的探索还需要进一步进行实验研究。