细胞骨架基因的数据挖掘与算法
2018-08-30于岸洲彭冠华
于岸洲 彭冠华
摘 要:细胞骨架是细胞的重要结构之一,它在维持细胞形态、物质运输与细胞分裂中都有重要作用。因为细胞骨架蛋白属于高表达的蛋白,在植物中任何部位,都有表达。细胞骨架对植物的抗逆可能具有重要作用。本文利用大数据挖掘方法,通过聚类分析、主成分分析算法挖掘出两个不同源细胞骨架基因具有相似的表达模式,初步得出这两个基因在响应干旱胁迫中具有相似功能。
关键词:细胞骨架基因;干旱胁迫;表达模式;聚类分析;主成分分析
中图分类号:R96 文献标识码:A 文章编号:1671-2064(2018)14-0214-02
1 实验背景介绍
细胞骨架是细胞的重要结构之一,它在维持细胞形态、物质运输与细胞分裂中都有重要作用。细胞骨架中微丝与微管的聚合与解聚,二者分别结合不同的结合蛋白,具有不同的功能。所以,为了探究在植物的逆境生长中细胞骨架基因及其相关基因在逆境中的功能,我们在NCBI的Gene Expression Omnibus(GEO)Database数据库中找到了GPL15008平台做的Daytime soybean transcriptome fluctuations during water deficit stress(大豆转录组在白天的缺水胁迫下波动)的数据。将此数据下载后,于R软件中转换为TXT格式[2]。用于分析。该平台通过用Illumina技术对36个cDNA文库进行测序,鉴定了在大豆植物中差异表达的基因,以应答水缺乏和在一天的不同时期上调或下调的基因。在54,175个预测的大豆基因(Glyma v1.1)中,35.52%在24小时期间表现出表达振荡。所以目标在于从Phytozome V11.0数据库中找到已知的确定的编码细胞骨架的基因,以这些已知基因为基础,找到下载的数据中包含的这些已知基因。采用聚类分析的方法找出其他可能与这些基因有共表达途径的基因。然后采用生物信息学方法进行基因功能的预测。
以表1中的Glyma.04g02390基因为研究对象,通过PhytozomeV11.0数据库、文献追踪的方法总结出此基因编码微管蛋白的相关蛋白(FtsZ蛋白)根据搜集的资料表明,该基因属于FtsZ家族基因,Fts1Z基因编码的蛋白能够在原核细胞分裂时产生分裂环,在分裂环中微管之间发生相对滑动导致细胞缩。序列比较分析以及对FtsZ蛋白和微管蛋白三维结构的解析都显示出二者在序列和结构上具有同源性。且FtsZ蛋白在不同物种中的功能都是保守的。
2 聚类分析
以该基因为参考对象,进行聚类分析:因为下载的数据是按照时间序列进行基因表达量的测量记录。所以按照时间序列对数据进行了双因素K值聚类[3]。聚类结果如下:
如图1所示,红色代表基因表达量上调;绿色代表基因表达量下调;黑色代表基因表达量稳定。图中横向聚类为Gene ID,纵向为处理时间的聚类。图中黄色方框圈出的部分代表Glyma.04g02390基因在缺水处理下不同时间段的表达量情况。以大于0.9的相关性系数为筛选分类标准,表达情况相似的基因为Glyma.10g01940。首先,利用PhytozomeV11.0数据库查询以上基因的功能,发现Glyma.10g01940无已知功能。
在热图中发现,Glyma.04g02390基因在干旱处理后表达量一直下调,根据该基因的功能,猜想该基因下调导致了叶绿体含量的减少,通過这种途径来应对干旱。当干旱胁迫时,该基因表达量下调,导致FtsZ蛋白合成减少,这样导致了叶绿体分裂时无法产生合适的分裂环,分裂环中微管的相对滑动距离不足,导致叶绿体无法正常分裂。从而叶绿体数量减少。而保卫细胞中一般含有大量叶绿体,通过叶绿体光合作用利用CO2值升高pH,促使淀粉磷酸化酶催化淀粉转化为葡萄糖-1-磷酸,细胞中糖分高,使得细胞中的水的相对浓度下降,从而导致水势下降,水势下降对水的吸收能力增大,细胞吸收水分,气孔开放。当干旱胁迫时,FtsZ蛋白合成减少,叶绿体分裂受抑制,导致光合作用不足,CO2利用率低,不能产生足够的糖分使得气孔导度减小。以此减少水分流失。
另一方面,根据图2中BLAST比对Glyma.10g01940与Glyma.04g02390的相似性不高,所以我判断二者不具有同源性。聚类分析得知二者的差异表达方式及其相似,差异表达的相关性系数高,所以我猜想该基因可能具有Arc基因的功能。Arc基因源于拟南芥的FtsZ基因研究中的核基因突变体,该基因在正常情况下诱导叶绿体正常分裂,突变后导致叶绿体分裂数显著下降。
3 启动子的主成分分析
利用R语言做出主成分分析图[1]:
周期相似的启动子,能够对相同的环境变化产生共同贡献值的响应。所以由表2、表3以及图3的主成分分析图可以分析这是一类突变基因,可能在干旱响应中产生类似功能。后期应该增加筛选突变株的实验,并将突变株置于干旱胁迫下处理一定时间观测其叶绿体数目。
4 结语
尽管在Blast结果上Glyma.10g01940与Glyma.04g02390的相似性不高,所以判断二者不具有同源性。聚类分析得知二者的差异表达方式及其相似,差异表达的相关性系数高,所以猜想该基因可能具有Arc基因的功能。在启动子的主成分分析中两个基因的启动子都有相似功能的顺式作用元件,且两个启动子相似的顺手作用原件主要集中在相同正负极链上。所以两个基因在响应干旱的表达模式上具有一定相似性。
参考文献
[1]黄金国,刘涛,周先春,严锡君.基于可变粒度机会调度的网络大数据知识扩充算法[J/OL].计算机应用研究,2019,(03):1-3[2018-03-10].
[2]郑乔舒,岳淏伟,杨云锋.基因芯片数据预处理方法(LnMR和RAln)的评估和比较[J].微生物学通报,2015,42(05):817-825.
[3]张聪.基于极限学习机的基因表达数据分类算法研究[D].中国计量学院,2014.