APP下载

关于生物特征基因数据的统计学研究

2018-05-14赵万通韩延波张浩男

科技风 2018年10期
关键词:数据挖掘

赵万通 韩延波 张浩男

摘要:本文主要从生物特征基因的提取出发,进而展开对特征基因数据的统计学分析、聚类以及到最终的特征基因表达差异分析,得出结论。本文研究内容的意义在于能够通过比较同种样本在不同时期或不同形态下的基因表达差异来得到对我们人类自身有益的、对科学领域研究有价值的基因信息,从而更好的给生物技术领域提供数据支持。

关键词:生物信息;特征基因;统计学分析;数据挖掘

提及特征基因数据,就不得不说起生物信息学,人类在该领域进行的挖掘、剖析等操作依旧是将计算机作为关键的方式及工具,其探究活动以蛋白质学与基因组学为主。具体来说,它是在分子层面,通过应用数学、计算机科学及统计分析中衍生出的一系列方法,将切入点选择为基因组DNA分子序列,在将蛋白质编码信息数据获悉之后对其展开结构模拟与预估,并以此为据来针对特定蛋白质功能展开药物开发的一类学科。因而,以内容为基准,可对生物信息学做出如下阐述:新兴算法和统计学研究;数据集的转化和分析;开发针对数据管理的新工具。而本文所做的工作,则是简要说明生物特征基因数据分析的过程,包括从最初的样本数据预处理到后期的统计聚类分析等。

一、国内外研究现状

在科技持续精进的大背景下,基因组计划的发展也表现得颇为迅猛,但是相应的数据量也在日益增长,所以我们必须通过生物信息领域的一些相关方法来对这些数据进行收集、整理和分析,然后这些信息才能变成有用的知识和信息。即只有借助生物学手段对此类信息加以处理之后才可以对基因组产生无误的理解与认识。

(一)国外研究现状

在生物信息学发展方面,国外给予了极高的关注,诸多的专业研究组织及企业接二连三的创立,相应的科技企业以及制药工业内部的相应部门也愈来愈多。1993年,欧洲生物信息学研究所EBI开始筹备创建。1995年,日本也建立了信息生物学中心CIB。现如今,大部分核酸及蛋白质数据库都是源自于上述三个国家。而现阶段全球最大的分子生物信息研究、研发及服务组织European Molecular Biology Network是由欧洲国家所创建,其借助计算机网络达成了德、法、英等多国相应资源的共同分享。与此同时,这些国家又各自创设了自有的相应机构及数据库,并且都有自己的核心分析技术,为自己国家在该领域内的发展提供支持,其中一部分也会向全球公开供应。

(二)国内研究现状

近年来,我们国家关于生物信息学的研究也取得了不少的进步,先后建成了北京大学生物信息学中心、中国科学院上海生命科学院生物信息中心等,一些高等院校也已将该学科作为一门专业进行开设。2002年,国家自然科学基金委在生物物理学、生物化学以及生物医学工程学科的基础上创建了生物信息学项目,国家 863计划也特意创设了与其相关的技术主题,以国家需求为内驱力,促使该学科长足发展。不过,由于研究开展的时间较晚加之其他的多个缘由,导致我们国家在该领域的发展与发达国家相比还很落后。由此可见,我国对生物信息学领域的深入研究刻不容缓。

二、特征基因数据的预处理

(一)生物数据特点

细胞在特定条件中的全基因组数据都可借助生物微阵列实验而获取,数百数千个基因在细胞中的绝对或者相对丰度都涵盖在其内,而条件不一样下的相应数据即可构成一个A×B的数据矩阵M,通常状况下A>>B,各个基因HYPERLINK"http://www.bio1000.com/reseach/gene/"\t"http://www.bio1000.com/experiment/fenzi/_blank"在某种条件下的表达水准都可借助其中相应的元素加以代表,而基因在B个条件下的表达则由行向量所代表,某条件下各个基因的表达则由水平列向量所代表。

(二)数据处理方法

在对特征基因数据HYPERLINK"http://www.bio1000.com/zhuanti/product/201308/444070.html"\t"http://www.bio1000.com/experiment/fenzi/_blank"进行整理、剖析和数据挖掘前,经常要按照实际情况对其进行数据预处理,包括对数据遗失的修补、对残缺数据的移除以及对相似数据的捏合等处理方法,按照分析的具体目的而展开过滤,同时依据分析方式来选取相应的数据转换手段。但是在现实之中,时空特异性是生物细胞中的基因表达的一个特别之处,在某一条件下可以真正表达的基因所占据的比例极小。所以,DNA微阵列实验所获取的数据矩阵里出现的绝大多数基因表达谱曲线都较为平缓,即基因表达水平变化很小。生物学研究者对于此类基因通常不会过多关注,然而它们的出现却会导致数据剖析活动变得更加繁杂,并且有碍于结果的客观性,所以对这些数据进行过滤是非常有必要的。基因表达HYPERLINK"http://www.bio1000.com/zt/gene/jiyin.html"\t"http://www.bio1000.com/experiment/fenzi/_blank"谱数据在完成此处理之后,以及在聚类分析等操作开始之前,通常还需完成数据的转换,也就是将其形式加以改变,使其更适于挖掘。由此看来,数据的转换处理离不开数据的标准化。数据的标准化即为把全部数据转换至相同的一个范畴之中,从而使对比及运算都变得较为简单,然而在标准差与0较为相近的时候便会出现极大的噪声,恰是因为如此所以才会必须完成上述的过滤处理。在標准化结束之后,各个基因表达谱的平均值都为0,标准差为1。

三、数据的统计学分析

(一)数据的统计

在大部分现代生物学当中,统计分析是重中之重,是前者的根基。诸多的生物学假说都是借助繁杂的统计学模型拟合而成的。当前,统计学软件的功能已经十分强大,而且使用便捷,任何人都可以借助其完成模型,数据的处理是此方面的关键。在该领域信息分析期间,统计分析的运用从开始到结束都是不可或缺的。数据的统计主要是通过对样本进行相关性分析以及显著性检验来判断表达出不同性状的基因之间的相关性,以便于更好的对其进行聚类和比较分析。

斯皮尔曼相关性分析:可在多个范畴之内加以运用,其等级相关对数据条件的要求的严苛度并不及积差相关系数,仅需两个变量的观测值是匹配的等级评定信息,或者是通过持续变量观测资料转变而获取的等级信息,都可借助斯皮尔曼等级相关展开探究,而对两个变量的整体排列状态等都不存在限制。

肯德尔相关性分析:肯德尔相关系数是用以对两个随机变量相关性的统计值进行测量。一个肯德尔检验即可被视作一个无参数假设验证HYPERLINK"http://www.so.com/s?q=%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C&ie=utf8&src=se_lighten_f"\t"http://blog.sina.com.cn/s/_blank",其借助运算而获取的相关系数来对两个随机变量的统计依赖性加以验证。此系数的数值为1~1,一旦τ=1,则代表两个随机变量的等级相关性完全相同;一旦τ=1时,则结果相反;一旦τ=0,则代表二者间具有单一性。

我们主要通过这两种系数来进行相关性分析,从而能够根据得到的相关性情况更好的对数据进行聚类。

(二)数据的聚类

聚类分析是统计学中极为关键的方法,应用面较为广阔。上文中首先运用统计学中的相关性分析检验如斯皮尔曼相关系数、肯德尔相关系数等对样本数据进行相关性检验,目的是以此来判断表达出不同性状基因之间的相关性,以便于更好的进行聚类。所以,下面将介绍两种常用的聚类方法,主要用来对样本数据进行聚类分析。

Kmeans聚类:指定聚类,也就是指定变量至某一个类,必须使其与这个类中心的间距比其至其它相应中心小。它是一种迭代聚类方法,它要求最接近某一类中心距离的那些变量归为这一类,而再借助每个类中的平均将该类中心值加以代替,所以才会如此命名。这可以由一个交替最小化算法优化过程中给出,因此我们可以获得最优的中心值。算法输入:初始随机选择一个基因作为中心值,对剩余的每个基因比较到每个中心的距离的大小,将其赋给距离最小的那一类,然后重新计算该类的中心值。算法输出:不断重复上述算法,直至符合方差最低标准的聚类。

模糊聚类:此类分析是关系到事物相互间的模糊边界的时候依据相关条件展开对事物的类别划分的数学方法。在数理统计HYPERLINK"https://baike.baidu.com/item/%E6%95%B0%E7%90%86%E7%BB%9F%E8%AE%A1/408183"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"活动当中,经常用到聚类分析HYPERLINK"https://baike.baidu.com/item/%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank",它是一种多元剖析的方式,借助数学手段对样本的关联性加以定量明确,从而使分出的类别具有较强的客观性。事物之间的界限,有些是确切的,有些则是模糊的。譬如天气的阴、晴边界即为模糊。基本过程为:变量或者样本之间的相似系数HYPERLINK"https://baike.baidu.com/item/%E7%9B%B8%E4%BC%BC%E7%B3%BB%E6%95%B0"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"展开运算,创设模糊相似矩阵HYPERLINK"https://baike.baidu.com/item/%E7%9B%B8%E4%BC%BC%E7%9F%A9%E9%98%B5/10369874"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank";借助模糊运算来合成优化相似矩阵,以获取模糊等价矩阵HYPERLINK"https://baike.baidu.com/item/%E7%AD%89%E4%BB%B7%E7%9F%A9%E9%98%B5"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank";最后依照各种的截取水准λ对获取的上述矩阵加以截取类别划分。

通过以上几种方法对所研究样本数据进行聚类分析,并得到相应的分析图形与表格,最后通过分组对比获取的结果可将特征基因在各类样本数据中的表达区别展现出来。

四、总结

本文针对现代生物信息学中的统计学分析方法进行了简单的阐述,伴随前者的高速发展,特定功能基因筛选己经成为了该领域研究的一个重要方向,从海量数据中筛选出对生物遗传性状和生命活动有指导意义的信息已变成当前该领域的全新探索方向。在此过程中,统计学在生物信息分析活动中得到了大量的运用。同时也进行了数据处理方法分析,对待研究的样本数据做预处理和统计分析,包括从相关性分析到聚类分析等。文章的实施目的在于能够从以上分析的基础上提取出一些对科学研究有价值的数据,以便于更好促进对生物信息领域的理解,也能更好的为人类基因组学提供数据支持。

虽然目前针对特征基因数据可以用多种分析方法来分析,但是实际操作中难免会遇到一些客观因素带来的问题,比如:基因有其复杂性,故在对样本进行分析过程中,可能会造成一定的误差;相关性分析的方法都有其使用条件,因而不能涵盖所有类型的数据;当前对基因数据的研究还只是停留在初级阶段,所使用的手段还很有局限性。所以,对于之后要进行的工作以及对最终结果的论证还需要相关技术人员做进一步的基因蛋白数据库比对研究。

参考文献:

[1]郭乐乐.统计聚类在生物信息分析中的應用[D].兰州大学硕士论文,2014.

[2]肖文莉.图形表示在生物信息学中的研究及应用[D].燕山大学硕士论文,2016.

[3]赵屹,谷瑞升,杜生明.生物信息学研究现状及发展趋势[J].医学信息学杂志,2012,(5).

作者简介:[JP2]赵万通(1994),男,辽宁海城人,大连海洋大学理学院在读研究生,研究方向为生物信息处理;张浩男(1994),男,辽宁大连人,大连海洋大学理学院在读研究生,研究方向为生物信息处理。[JP]

*通讯作者:韩延波(1977),男,辽宁营口人,大连海洋大学合作发展办公室主任,硕士,助理研究员,研究方向为教育管理。

猜你喜欢

数据挖掘
近十年国内教育数据挖掘领域的应用技术分析
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘技术在物流企业中的应用
数据挖掘过程模型及创新应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
电子政务中基于云计算模式的数据挖掘研究
数据挖掘创新应用
数据挖掘的系统构成与发展趋势