数据挖掘技术在蛋白质结构预测方面的应用
2016-03-14长春医学高等专科学校130031
刘 妍(长春医学高等专科学校,130031)
数据挖掘技术在蛋白质结构预测方面的应用
刘 妍
(长春医学高等专科学校,130031)
摘要:随着生物信息学的高速发展,人们通过蛋白质序列测定和结构分析获得大量的蛋白质结构数据,从而建立了众多的蛋白质结构数据库。本文主要介绍了六种蛋白质结构数据库, 并对PDB数据库进行了深入分析,阐述了蛋白质序列和结构的切片数据库之间的联系和内在规律。利用蛋白质数据库和数据挖掘技术来处理大量的蛋白质结构数据是未来蛋白质研究的一个重要发展方向。
关键词:数据挖掘技术;蛋白质结构数据库;PDB数据库;结构预测
1 数据挖掘技术的简介
目前,随着大数据时代的来临,人们利用信息技术和数据获取技术能力的大幅提高,大量用于商业管理、政府办公、科学研究和项目开发的数据库如雨后春笋般脱颖而出。未来数据库信息爆炸式的增长,信息的优劣性及有效性等类似的问题就逐渐脱颖而出。为了解决这一问题我们引入数据挖掘技术来处理大量的、带噪声的、不完全的、事先并不明确的,并且可能具有潜在有用信息的。利用数据挖掘技术可以对这些无序、杂乱和不完整的信息进行管理、查询、优化和决策等。通过数据收集、整理、处理和评定,最后经过多次循环才能达到预期效果。
2 数据挖掘技术在蛋白质结构预测上的应用
蛋白质的结构在很大程度上影响着蛋白质的功能,所以对其结构的预测也就成为判断其功能化的重要内容。随着基因技术的不断发展,借助蛋白质结构和序列的测定从而获得了海量的数据。虽然蛋白质结构预测方法种类繁多,但是面对种类繁多的蛋白质其预测方法往往差强人意。从最早的统计学方法到多层神经网络、决策树,蛋白质预测方法的准确性不断提高。
通过理论和实践证明蛋白质的结构预测主要围绕其二级结构预测和空间结构预测。同种蛋白质在不同环境下往往会呈现出不同的结构,特别是其二级结构中片段中心的残基是α螺旋或β折叠影响蛋白质整体功能。而引入数据挖掘技术来预测蛋白质结构,可以对确立蛋白质结构及其序列之间的关系,从而更深层次的了解蛋白质结构的确定机理和蛋白质的功能变化。由于蛋白质中氨基酸的序列和蛋白质的二级结构之间不具有明显的关系,应用数据挖掘技术处理种类繁多信息量巨大的氨基酸序列,可以提取出有用的信息。通常来说蛋白质结构测序方法主要有:模式对比、折叠识别和从头算法三类组成。其中,模式对比主要是利用已知蛋白质结构中的特征来对比其中的蛋白质。这种方法具有很大的局限性,特别是蛋白质序列不同而结构相似的蛋白质。折叠识别方法则可以描述大部分的蛋白质结构,这种方法基于蛋白质折叠核心的数据库,并且把折叠核心同蛋白质序列联系起来,从而得到最优的结构。从头算法对比前两种方法来说更合适预测蛋白质结构,它可以根据蛋白质的氨基酸序列来预测蛋白质的结构。
3 数据挖掘技术在蛋白质数据库上的应用
本节中主要讨论蛋白质结构数据库,并对这些数据库中所应用的数据挖掘技术进行归纳总结,主要介绍PDB(Protein Data Bank)数据库、NRL-3D(Naval Research Laboratory-3D)数据库、HSSP(homology-derived second structures of proteins)数据库、SCOP(Structural classification of proteins)数据库、DSSP(Definition of Secondary Structure of Protein)、FSSP(Families of Structural Similar Protein)这六种主要的蛋白质结构数据库。这些数据库各具特色,其中PDB数据库主要依靠实验数据(核磁共振和X射线)获得蛋白质结构;NRL-3D数据库可以对已知结构的蛋白质序列进行比对;HSSP数据库则利用蛋白质的同源性对不同序列但是结构相似的蛋白质进行归类;SCOP数据库可以对某一蛋白质数据与已知蛋白质结构进行比对;而DSSP数据库则提供了蛋白质二级结构的构象参数;FSSP数据库包含了整个蛋白质家族。虽然这六种数据库特点鲜明,但是它们却都有一个共性特点,那就是都含有大量的蛋白质结构信息,这就凸显出数据挖掘技术在数据库应用中的重要作用。下面对PDB数据中数据挖掘技术进行详细讨论。引入数据挖掘技术就是为了找到蛋白质结构自身的一般性规律,也就是说从海量数据信息中萃取出有效的信息以及获得精准的结论。为了挖掘有效数据和规律性变化本文从三个方面入手:蛋白质二级结构、蛋白质长度序列同其二级结构之间的关系和蛋白质序列追踪。利用数据挖掘技术可以有效的统计三类蛋白质二级结构(α螺旋、β折叠和其他结构),很多结构的组合在现实的蛋白质结构中并不存在。可以挑选出这些结构的组合为未来蛋白质结构的预测提供便利。同样将一定数量的蛋白质结构和其对应固定长度的蛋白质序列进行挖掘分析可知,由于在数据库中存在大量的序列出现次数很少,那么其所对应的可能的结构概率分布就很均匀。通过数据挖掘技术来追踪蛋白质数据库序列,得出结构相对确定的序列切片占所有序列切片总数比重相同。
4 总结和展望
随着大数据和网络时代的到来,数据挖掘技术逐渐演变成大规模数据库中数据分析和提取的重要手段之一。将蛋白质结构预测与信息挖掘技术相结合的方法已经逐渐演变成蛋白质数据库发展进程的关键技术之一。本文主要研究蛋白质结构数据库技术和数据挖掘技术在PDB数据库中的应用,总结了数据挖掘技术在蛋白质二级结构预测、固定序列同蛋白质结构的关系和蛋白质数据追踪的结果。发现数据挖掘技术以完全可以为蛋白质结构数据库服务,并且可以获得更为准确和规律性结论。
参考文献
[1]冉丽,邹先霞,许龙飞,基于数据挖掘技术的蛋白质结构分类的研究,计算机工程与应用,2006.18
[2]万跃华,何立民,网上生物信息学数据库资源,情报学报,2002.04
[3]姜鑫,生物信息学数据库及其利用发放,现代情报,2005.06
Application of data mining techniques in protein structure prediction
Liu Yan
(changchun medical college,130031)
Abstract:With the fast development of Bioinformation,a great amount of protein structure data are gained by protein sequencing and protein structure analysis,therefore lots of protein structure databases have been built up.This paper introduced six protein databases,and discussed the PDB database in detail,showed the relationship between protein sequence and structure slice database,and its inner laws.Protein databases and data mining techniques are useful technology for analyzing the great amount of protein structure data,and will be an important direction for the future development.
Keywords:data mining technology;protein structure database;PDB database;structure prediction