基于EST序列的茶代谢网络的构建
2017-08-12张正东申铁周文卫谢晓尧
张正东 申铁 周文卫 谢晓尧
摘要:茶树体内的生化反应所生成的各种功能性化合物是茶叶具有营养和健康功能的物质基础,也是茶叶品质的决定因素。这些生化反应由茶树基因编码的酶催化并组成复杂的代谢网络。首先通过开源工具包jsoup开发异步数据采集程序,从布伦瑞克酶数据库(braunschweig enzyme database,简称BRENDA)和美国国立生物技术信息中心(NCBI)网站上获取酶序列及其催化反应、GI号、EC编码对应关系等相关信息,建立本地酶数据库;其次从NCBI上下载FASTA格式的茶树表达序列标签(expressed sequence tag,简称EST)序列数据,通过GI号查询本地酶数据库,得到酶催化反应信息,继而基于超图思想利用Cytoscape Web API重构茶代谢网络;最后对EST序列信息进行统计分析,并从多个维度对构造的代谢网络进行拓扑特性、KEGG路径、生物意义的深入分析,对茶树内生化反应的理解、新功能基因的挖掘、茶叶品质的提升、新茶产品的开发具有重要意义。
关键词:Cytoscape Web;EST;超图;代谢网络;茶叶
中图分类号: Q811.4文献标志码: A
文章编号:1002-1302(2017)11-0029-04[HS)][HT9.SS]
茶是世界上一种重要的饮料[1]。茶叶品质是茶叶具有营养和健康功能的物质基础,其决定因素是茶叶中的各种功能性化合物[2]。研究表明,茶叶中蕴含的活性物质能够促进身体健康和预防多种疾病。比如,茶叶中的多酚类物质有很强的抗氧化性和生理活性,具有很好的抗衰老效果[3]。茶多酚及其氧化物能够吸收放射性物质锶90、钴60,具有一定的抗辐射作用[4]。此外,茶多酚(主要是儿茶素类化合物)具有预防多种器官癌症、代谢综合征、心血管疾病以及神经退行性疾病的作用[5-7]。
茶叶中的功能性化合物来源于茶树基因编码的酶[8]。酶是代谢反应的生物催化剂,其活性由基因转录和翻译的特定氨基酸序列决定[9-12]。茶叶中的酶促反应组成复杂的生化反应网络,即代谢网络[13]。代谢网络的基本功能是不停地与外界环境进行物质和能量交换,维持茶树体的生命特征[14]。此外,代谢网络对于茶叶中的物质合成至关重要,这些物质是决定茶叶品质和等级的关键要素[15-16]。研究茶叶中的酶及其催化的代谢反应,对于茶树品种的开发、品质的提升、新型茶产品的研发加工具有重要作用。
茶叶酶的特性取决于氨基酸种类和线性排列,这些氨基酸由茶树基因编码[17]。因此,本研究通过异步数据采集程序从布伦瑞克酶数据库(BRENDA)、美国国立生物技术信息中心(NCBI)网站上获取酶序列及其催化反应、GI号、EC编码等相关信息,建立本地酶数据库;从NCBI上下载茶树表达序列标签(EST)序列数据,通过查询本地酶数据库鉴别出EST序列对应的茶叶酶,继而构造茶代谢网络,从多个维度对构造的代谢网络进行拓扑特性和生物信息统计分析,并讨论分析结果所蕴含的生物学意义。
1材料与方法
1.1EST数据采集
茶树EST序列数据来源于NCBI数据库。在NCBI首页搜索“Camellia sinensis”,选择“protein”,共获得38 619 条FASTA格式的茶树EST氨基酸序列数据。
1.2酶数据库构建
酶及其催化反应信息来源于BRENDA[18]。BRENDA中共保存了6 759种酶EC编码、推荐命名和催化反应等信息。由于数据量较大,本研究利用开源工具包jsoup开发异步数据采集程序,解析BRENDA中所有酶及其催化反应的底物和产物等相关信息。对于没有催化反应信息的酶,如EC 1.1.1.5,将其过滤掉,最终共获得5 221个酶及其催化反应数据。EST序列的GI号、酶EC编码对应关系数据也来源于BRENDA。由于NCBI中序列数据会被不断完善和修正,当EST序列信息被更新时,其GI号也将被赋予新值,而BRENDA中保留的仍然是旧的GI号,因此,将会出现1个EC编码可能对应多个GI号的情况。这种情况下,首先判定EST序列数据是否被更新,若被更新,追踪更新历史信息并找到最近的GI号,此过程通过异步数据采集程序自动完成,采集到的数据保存在本地酶数据库中。
1.3酶基因筛查
从NCBI上下载的FASTA格式文件的每个序列都有1个GI号作为唯一标识,以便于对序列进行监控和管理[19]。GI号位于FASTA文件序列描述信息的第1行(以“>”开始)。通过GI号查询本地酶数据库可以获得酶的EC编码,进而得到酶及其催化反应信息。
[HTK]1.4代谢网络的构建和可视化[HT]
代谢网络的可视化采用Cytoscape Web实现。Cytoscape Web是一款开源、交互式、高可定制的基于浏览器的网络可视化工具,采用Flex/ActionScript实现,支持GraphML、XGMML、SIF等多種交互文本格式[20]。本研究采用GraphML格式与Cytoscape Web进行数据交互。Cytoscape Web提供非常丰富的JavaScript API,利用这些API可以设置点、边的颜色、形状、权重等各种网络参数,也可实现各种回调方法与网络交互。
代谢反应可能涉及到多个底物和产物,普通图每条边最多连接2个顶点,因此采用普通图表示代谢网络,无论是酶还是化合物作为顶点,都要作一些额外限制,很难完整地展现代谢网络的全部信息。而超图(hypergraph)的超边可以连接多个顶点[21],普通图可视为超边最多连接2个顶点的超图特例。超图可以完整地表示网络的全部信息,是代谢网络等复杂网络的最佳形式化表示方法。因此,本研究采用有向超图作为代谢网络的形式化表示方法。酶和化合物均作为超图的顶点,菱形表示酶顶点,圆形表示化合物顶点。若化合物是酶催化反应的底物,在酶和化合物之间有1条有向超边,方向指向酶;反之,有向超边方向则指向化合物。构造的代谢网络如图1所示。[FL)]
2.2代謝网络统计
在2 414条酶序列重构的代谢网络中,共有297个酶促反应,包含297个酶和530个化合物。代谢网络最大阶为9,最小阶为2,平均阶为4,阶频数分布如图2所示;最大度为101,最小度为1,平均度为2,度频数分布如图3所示。阶定义为超边所连接的点的个数,即酶促反应的化合物数量;度的定义和普通图中一样,为顶点关联的超边个数,即化合物参与的代谢反应数量(表2)。
2.3代谢网络KEGG路径分析
代谢网络的一个重要特性是代谢路径及其所涉及到的化合物,即KEGG路径分析,这对于理解构建的代谢网络在整个网络中的位置和作用有重要意义。因此,本研究将所有的代谢反应映射到KEGG路径。如图4所示,2个最大的路径是次生代谢物、抗生素的生物合成,分别包含44、16个反应,这种情况是合理的,因为这2个路径位于高层次的分类,包含的反应较多;第二大路径是嘌呤,包含11个反应;其他较大的路径是氨酰-tRNA、半胱氨酸和蛋氨酸、乙醛酸和二甲酸、嘧啶和丙酮酸,每个均包含7个反应;色氨酸、淀粉和蔗糖路径也包含5个以上反应,这些路径主要是碳相关网络并分布在中心碳代谢周围。所以构造的代谢网络主要分布在中心碳代谢周围,并被单体生物合成路径围绕,同时也包含其他分散的网络。
2.4代谢网络详述
整个代谢网络由15个彼此间没有交集的独立子网络组成,其中最大子网络由282个反应构成,1个子网络由2个反应构成,其余13个子网络均由1个反应构成。
最大子网络包含茶树碳中心代谢系统的主要网络,如糖酵解途径、磷酸戊糖途径、回补途径、三羧酸循环的绝大部分;此外,该网络还涵盖部分氨基酸合成代谢途径、核苷酸代谢、一碳单位代谢、糖类物质代谢、脂肪酸合成与分解代谢等重要代谢途径,同时还覆盖泛醌、NADPH、NADH、ATP、ADP、acetyl-CoA等各类辅因子及辅酶的生成与转化途径。这些途径能够实现茶树主要物质分解、能量合成、能量转移等主要的生化活动。
另外,该网络还涉及相当数量的次生代谢网络,存在与儿茶素类物质代谢相关的黄酮醇合成酶、苯丙氨酸解氨酶、花白素还原酶等,为将儿茶素类物质代谢放到基因组规模代谢网络背景下进行研究提供便利;同时,该网络还存在没食子酸、花青素、二氢黄酮、原儿茶酸等具体物质的相关反应。
3结论
茶叶品质的决定因素是茶树体内的生化反应所生成的各种功能性化合物,这些生化反应由茶树基因编码的酶催化并组成复杂的代谢网络。研究茶树的代谢网络对于了解茶树内的生化反应、挖掘茶树的功能基因、提升茶叶的品质、开发新的茶产品具有基础性与指导性的重要意义。本研究从NCBI上获得茶树的EST序列,通过GI号确定对应的酶及其催化反应,继而基于超图思想构造茶树的代谢网络,并作拓扑结构和生物意义的深入分析。后续笔者会不断地完善数据和方法,增加新的功能,如本地BLAST序列比对。最终,希望提供[FL)]
[FK(W21][TPZZD4.tif][FK)]
[FL(2K2]一款普适工具,输入任意来源的任意序列均可轻易解析出该序列对应的酶及其催化反应信息,构建代谢网络。
参考文献:
[1]Cabrera C,Artacho R,Giménez R.Beneficial effects of green tea:a review[J]. J Am Coll Nutr,2006,25(2):79-99.
[2]Abuajah C L,Ogbonna A C,Osuji C M.Functional components and medicinal properties of food:a review[J]. J Food Sci Technol,2015,52(5):2522-2529.
[3]Khan N,Mukhtar H.Tea and health:studies in humans[J]. Curr Pharm Des,2013,19(34):6141-6147.
[4]Chen H X,Zhang M,Qu Z H,et al.Antioxidant activities of different fractions of polysaccharide conjugates from green tea(Camellia Sinensis)[J]. Food Chem,2008,106(2):559-563.
[5]Yang C S,Wang X,Lu G,et al.Cancer prevention by tea:animal studies,molecular mechanisms and human relevance[J]. Nat Rev Cancer,2009,9(6):429-439.
[6]Kanwar J,Taskeen M,Mohammad I,et al.Recent advances on tea polyphenols[J]. Front Biosci,2012(4):111-131.
[7]Chen Z M,Lin Z.Tea and human health:biomedical functions of tea active components and current issues[J]. J Zhejiang Univ Sci B,2015,16(2):87-102.
[8]Bonnely S,Davis A L,Lewis J R,et al.A model oxidation system to study oxidised phenolic compounds present in black tea[J]. Food Chem,2003,83(4):485-492.
[9]Yun J,Kang S,Park S,et al.Characterization of a novel amylolytic enzyme encoded by a gene from a soil-derived metagenomic library[J]. Appl Environ Microbiol,2004,70(12):7229-7235.[ZK)]
[10]Annaluru N,Ramalingam S,Chandrasegaran S.Rewriting the blueprint of life by synthetic genomics and genome engineering[J]. Genome Biol,2015,16(1):1-12.
[11]Seelig B.mRNA display for the selection and evolution of enzymes from in vitro-translated protein libraries[J]. Nat Protoc,2011,6(4):540-552.
[12]Karigar C S,Rao S S.Role of microbial enzymes in the bioremediation of pollutants:a review[J]. Enzyme Res,2011(2011):805187.
[13]Caetano-Anollés G,Yafremava L S,Gee H,et al.The origin and evolution of modern metabolism[J]. Int J Biochem Cell Biol,2009,41(2):285-297.
[14]Wagner A,Fell D A.The small world inside large metabolic networks[J]. Proc Biol Sci,2001,268(1478):1803-1810.
[15]Nishikawa T,Gulbahce N,Motter A E.Spontaneous reaction silencing in metabolic optimization[J]. PLoS Comput Biol,2008,4(12):e1000236.
[16]Janga S C,Babu M M.Network-based approaches for linking metabolism with environment[J]. Genome Biol,2008,9(11):239-244.
[17]Griffiths A J F,Miller J H,Suzuki D T,et al.An introduction to genetic analysis:gene-protein relations[M]. 7th ed.New York:W H Freeman,2000.
[18]Scheer M,Grote A,Chang A,et al.BRENDA,the enzyme information system in 2011[J]. Nucleic Acids Res,2011(39):D670-D676.
[19]McGinnis S,Madden T L.BLAST:at the core of a powerful and diverse set of sequence analysis tools[J]. Nucleic Acids Res,2004(32):W20-W25.
[20]Lopes C T,Franz M,Kazi F,et al.Cytoscape web:an interactive web-based network browser[J]. Bioinformatics,2010,26(18):2347-2348.
[21]Berge C.Packing problems and hypergraph theory:a survey[J]. Ann Discrete Math,1979(4):3-37.
[22]Parkinson J,Blaxter M.Expressed sequence tags:an overview[J]. Methods Mol Biol,2009,533:1-12.[ZK)][HT][HJ][FL)]