数据挖掘技术在生物信息学中的应用

2016-11-30马青原

中国科技纵横 2016年17期

马青原

【摘要】人类社会进入到新时期，各学科、各领域之间相互交叉和交融，衍生出了很多新学科。其中生物信息学作为一门新兴学科，是生物学与信息技术学科交叉产生的新学科，主要是分析和研究生物信息的学科。生物学科自身具有复杂性特点，为了能够更好地实现对生物信息学的研究，我们积极引进数据挖掘技术，能够有效收集和处理信息的同时，还能够将研究成果应用到实践当中。本文将从数据挖掘技术概念入手，分析并了解生物信息学，最后探讨技术在生物信息学中的应用。

【关键词】数据挖掘技术生物信息学应用

信息时代背景下，计算机、信息技术在医学领域得到了广泛推广和普及，在提高医学水平的同时，为生物学、信息学等学科之间的融合创造了契机，并形成了生物信息学学科。医学信息化建设促使医学数据呈现几何级数增长，具有非常明显的大数据等特点。任何事物都有属于自身的独特发展规律，为了能够更好地挖掘其中的规律，我们需要引进数据挖掘技术。数据挖掘技术作为一项新型技术，以其自身强大的存储能力、分析能力，为生物信息学健康发展提供了一定支持和帮助。因此加强对该课题的研究具有非常重要的现实意义。

1 数据挖掘技术概念

所谓数据挖掘技术，主要是指数据库知识发现的一个环节，建立在计算机基础之上，从大量数据中通过算法搜索隐藏于其中信息的过程，具体是由统计、在线分析处理、情报检索等方法构成[1]。当今社会中，信息资源逐渐成为企业发展核心资源，能够为企业带来更多发展契机，因此数据挖掘技术在社会各领域中的应用范围较广，图1为数据挖掘系统结构。

该项技术最早起源于上个世纪九十年代后期，是一门跨学科综合研究领域，涉及数据库系统、统计学等多项内容。该项技术出现的终极目标是为了从数据当中发现规律，预测事件未来发展趋势，为决策者提供科学依据。

2 生物信息学概述

上个世纪八十年代，生物学随着人类基因组计划兴起，比数据挖掘技术发展较早。生物信息学提出的终极目标是揭示基因组信息结构特点、遗传语言规律等，以此来充分掌握人类基因变化情况，认识人类自身，从中挖掘出更多具有研究价值的知识与内容。生物信息学的出现，在很大程度上丰富和发展当前物理学、生物学及化学等多个学科，为学科群持续发展奠定了坚实的基础，成为学科群中最具活力和影响力的新学科[2]。

相比较其他学科，生物信息学起步较晚，正处于发展阶段，但很多学者都被学科奥秘所吸引，并钻研其中。在未来，生物信息学将成为电子信息技术之后的又一个科技革命，且会创造巨大的社会与经济效益。现阶段，国内外出现了将生物信息学作为基础的企业，并开展了对基因工程药学、生物芯片等方面的研究。就本质上来说，生物信息学研究主要是对知识发现、数据挖掘的过程，现有研究成果已经应用到实践当中，并取得了不错的成效。

3 数据挖掘技术在生物信息学中的应用

生物信息分布范围较广，除了基本DNA序列外，还存在蛋白质以及结构等内容，其中将cDNA序列作为基础的数据库记录能够达到上万条，大量数据共同构成了生物学数据海洋。面对大量数据信息，我们能够明确的是其中存在很多有价值的内容，但是如何更好地挖掘和提炼出来，成为需要解决的难点。因此将数据挖掘技术应用于生物信息学当中非常必要。笔者结合自身实践经验，认为可以从以下几个方面入手：

3.1 蛋白质序列数据库

蛋白质结构直接决定其自身生物功能。因此在研究蛋白质过程中，我们需要充分了解蛋白质的空间结构。实际研究中，蛋白质结构测定方法较少，且成熟度偏低，无法满足实际研究要求。核酸霉变性及重折叠实验，能够从蛋白质的氨基酸序列当中预测出蛋白质的三维空间结构，为实践提供强大的支持。蛋白质结构预测主要针对二级结构进行预测。实践表明，不同的氨基酸残基在不同的环境当中能够形成对应的二级结构倾向性，所以对于二级结构的预测具有模式识别问题。为了能够提高研究有效性，可以选择立体化学、图论及统计等方法。

就理论层面而言，蛋白质一级结构是其折叠后的基础，能够从氨基酸序列当中获得自然折叠的蛋白质结构。但是蛋白质自身具有多肤链特点，将会促使构象是一个天文数字，现有计算能力远远不能够满足构象构建的构建。因此需要采取一定的启发式方法，找到接近构象的方法[3]。具体来说，可以采取从头预测的方法，构建同源模型，并在此基础上判断亚细胞定位、信号肤剪切位点等。

3.2 基因序列数据库

基因组不仅仅是简单的基因排列，其还具有独特的组织、信息结构，结构在长期发展过程中势必会形成这种特性，究其根本，是受到基因功能自身的影响。对此，我们可以利用EST数据，从基因序列当中挖掘出新基因，并分析和预测各种功能位点，其中研究基因调整和控制网络成为近年来的主要发展方向。具体来说，主要体现在两个方面：一是从头算方法；二是同源列比较方法。前者主要根据蛋白质编码基因的性质及特点进行识别，通过统值区别外显子、内含子等之间的关系；而后者主要是借助数据库当中现存的基因信息进行对比，找到其中没有的新基因。

针对新DNA序列而言，我们主要找到与现有蛋白质相似的区域，并将新编码提炼出来。针对此，我们选择最理想的方法就是合并两类方法的优点，形成一种新型的混合算法，以此来提高研究有效性。在DNA序列当中，除了基本的基因，还存在很多其他信息，信息与核算结构特点存在一定的相似之处，也是DNA与蛋白质之间的关系的具体表现，将此作为基础，能够实现对DNA序列的分析，并从中发现新事物、新规律，新特点，推进生物信息学持续发展。

3.3 生物序列数据库

比较作为生物信息学研究的一种方式和方法，其中序列比较作为一项基础性操作方法，通过序列比较，能够发现生物序列当中的功能、结构及进化信息等。通常来说，在生物信息学领域，序列即结构，而结构直接决定功能。因此在实践中，我们通过对生物序列进行比较和分析，能够发现它们的相似性与不同处。研究序列相似性的根本目标在于结合相似的序列找到相似的结构与功能[4]。基于生物自身特殊性的影响，在研究中，我们仍然能够发现完全不同的序列，但却具有同样的功能，而这一发现，能够为我们的序列研究提供更多支持和帮助，促进序列研究进一步发展。

在实际操作中，我们借助数据挖掘技术，主要将两个序列的字符排列出来，找到序列之间的相似与不同处，同时将打分矩阵作为序列比较的基础，坚持具体问题具体分析原则，找到针对性打分矩阵后，对结果进行分析和对比。如针对核算序列打分举证来说，可以由BLAST、转换—颠换等矩阵；而针对蛋白质的矩阵而言，可以有遗传密码、PAM及BLOSUM等矩阵。在矩阵中进行序列对比研究，不仅能够提高研究有效性，还能够降低数据研究难度，从而为生物信息学研究提供更大的支持和帮助。

3.4 结构数据库

结构数据库涉及范围较广，如蛋白质、核算及小分子等，笔者主要针对蛋白质结构数据库进行分析。PDB作为全世界范围内认可的唯一一个生物大分子结构数据库，最早建立在美国。针对PDB数据收集来说，主要来源于X光晶体衍射等方面，后经过整理后存档形成的数据库[5]。

在数据库当中，包含着非常详细的蛋白质结构情况，且由RCSB负责。我们在数据库中能够提炼出原子坐标数据，并通过Chime等浏览器实现对三维图像的观察和分析，为具体研究工作奠定坚实的数据基础。

3.5 基因数据表达

现阶段，基因数据表达作为生物信息学研究的新热点，受到了众多学者的关注。基因数据表达主要是为了更加直观、客观表达基因。目前，针对基因数据表达的处理主要采取聚类分析方法，将基因聚作为划分主要依据，并在此基础上寻找到有关基因，分析基因的基本功能[6]。结合当前数据挖掘技术来看，主要采取相关分析法、层次聚类方法等多种方法，如果进一步研究还能够探索基因中的调节网络等，明确在不同环境当中，基因的变化形态有哪些。

在实践中，我们借助基因数据表达，能够结合聚类分析研究基因的启动子、分析表达模式相同的一类基因启动子组成特点。通过多重列比对的方式，将各个基因序列作为研究对象进行针对性研究。不可否认的是聚类方法是基因表数据分析的基础，但是该方面仅能够发现基因的表面、简单的特点，尚不能够挖掘基因之间的深层次关系，还有待进一步改进和完善[7]。近年来，随着计算机技术的发展，数据挖掘技术也随之发展，新技术的应用被应用到阵列表达数据处理工作当中，如支持向量机方法，最早出现在上个世纪九十年代末，主要是为了解决小样本、非线性等问题的方法，能够充分考虑各方面因素后构建良好的模型，实现对数据的有效分析，并进行回归性分析，在实际应用中得到了广泛推广和普及。

3.6 可视化工具的应用

众所周知，基因自身结构具有复杂性特点，且序列模式一般难以在脑海中构建立体图形，对可视化工具提出了更高要求。因此在实践中，我们可以将图、树及方体等多种可视化工具应用其中，促进对模式的理解和掌握。目前，知识发现、数据交互是较为常见的工具[8]。如针对大规模基因表达数据的挖掘，已经能够达到利用简单的图形显示出聚类结果，将原始数据通过可视化途径展示出来，能够为基因表达分析提供更好地支持，从不同的角度观察基因组的变化情况。可见，可视化在生物信息学数据挖掘中占据非常重要的位置，值得我们给予更多关注，并加强对数据挖掘技术的实践应用。

4 结语

根据上文所述，生物信息学作为一项综合性、系统性学科，是计算机技术与生物技术结合的产物。在具体实践中，我们能够为了进一步挖掘其中的规律与特点，应充分利用数据库资源，并将自身已有的检索系统，实现对生物数据信息的探索。随着科学技术不断发展，生物信息学的研究也会朝着深层次发展。庞大的生物信息对于数据挖掘技术提出了巨大的挑战，且带来了更多发展机遇。基于此，我们还应加大对数据挖掘技术的研究，创新更多新技术，加大对生物信息的深度研究，从而促进生物信息学科的积极作用得到最大限度发挥，造福人类。

参考文献：

[1]潘伟.数据仓库技术在生物信息学中的应用研究[J].成都信息工程学院学报，2010（02）：142-145.

[2]张敏辉，高晓玲.计算机技术在生物信息学中的应用研究[J].中国西部科技，2010（32）：93-94.

[3]张赞，刘金定，黄水清，李飞.生物信息学在昆虫学研究中的应用[J].应用昆虫学报，2012（01）：1-11.

[4]谢腾，王升，马炯，郭兰萍.生物信息学在中药资源研究中的应用[J].中国中药杂志，2012（24）：3684-3690.

[5]王洪昌，丁立军，黄宇.生物信息学中模式识别技术应用与发展[J].医学信息学杂志，2013（11）：7-10.

[6]魏子艳，金德才，邓晔.环境微生物宏基因组学研究中的生物信息学方法[J].微生物学通报，2015（05）：890-901.

[7]王可鉴，石乐明，贺林，张永祥，杨仑.中国药物研发的新机遇：基于医药大数据的系统性药物重定位[J].科学通报，2014（18）：1790-1796.

[8]胡瑞峰，邢小燕，孙桂波，孙晓波.大数据时代下生物信息技术在生物医药领域的应用前景[J].药学学报，2014（11）：1512-1519.