APP下载

基于互模式熵的DNA序列相似性分析

2019-03-11安相静周小安张静沈冲冲

智能计算机与应用 2019年6期

安相静 周小安 张静 沈冲冲

摘要:随着基因组计划的开展,DNA序列相似性分析成了现代生物学研究不可缺的一部分。本研究以H5N1、H1N1和H2N2等7种病毒的DNA序列作为研究对象,使用整数法将DNA序列编码成时间序列信息,计算时间序列之间的互模式熵(Mutual Mode Entropy.MME)。分析不同DNA序列的MME对序列相似性的表达准确性。实验表明通过整数表示方法的DNA序列的MME能够定性地解释7种DNA序列之间的相似性关系。

关键词:相似性分析;DNA序列;DNA表示方法;互模式熵

0引言

在人类基因组计划(Human Genome Proiect.HGP)实施之前,生物技术比较陈旧,无法获得长的、连续的基因序列,对DNA分子序列的研究只局限在分析相邻碱基对之间的相关性,以及DNA片段中碱基密度的不均匀性讨论。随着HGP顺利实施,生物信息学应运而生,围绕DNA序列和蛋白质序列开展了一系列研究分析。DNA序列的相似性研究就是其中的一个分支。

迄今为止,DNA序列相似性分析方法层出不穷,Bemdt与Clifford提出的动态时间弯曲(DynamicTime Warping.DTW)是把时间序列规划和距离测度相结合的非线性规划技术,用于计算两个时间序列的最大相似性,李梅等将DTW应用到DNA序列相似性研究当中,取得了较好的效果,但DTW距离在本研究中计算时间复杂度较高。样本熵的方法精度较高,能够分析出更为微小复杂的序列之间的变化,但评估的时间尺度比较单一。近似熵算法虽有一定的抗噪性,但因其在度量序列复杂度时引入了自身数据的比较,会造成统计数据不稳定。本研究采用互模式熵(MME)实现对DNA序列相似性估计,MME算法修改了判定矢量相似的准则,不再考虑被比较的2个矢量纵坐标位置是否相同,而通过2个矢量对应的波形片段作为2个矢量相似的判定依据。此判定准则能有效减少判断矢量相似过程中对容限阈值r的依赖,不会因为信号大幅度波动或者信号长度忽然改变影响相似矢量的个数,有效解决了近似熵存在的统计稳定问题。

1 基于MME的序列相似性分析算法原理

模式熵(Mode Entropy.ModEn)算法的概念是宁新宝等人在2005年首次提出的,有效解决了度量短时大幅度缓慢变化的信号其复杂度的问题。互模式熵(Mutual Mode Entropy.MME)是ModEn算法的延伸。用来度量不同序列之间是否存在高度耦合的问题。计算步骤如下:

首先,对于2组包含N个数据的时间序列:{u(i):O≤i≤N-1},{v(j):0≤j≤N-1}从每组数据中连续取m个数据点,分别组成其对应的m维矢量:

x(i)=[u(i),u(i+1),…,u(i+m-1)];Y(j)=[v(j),v(j+1),…,v(j+m-1)],(1)

基准线分别是每一个m维矢量的平均值,其计算公式为:

MME算法是不同序列之间的相似程度的量化。不仅可以用于计算不同DNA序列之间的差异,还可以用于了解同一个序列不同区间段之间的差异,对于DNA序列相似性的分析研究具有十分重要的意义。

2 实验结果及分析

2.1 实验数据

本文实验中采用7种DNA片段序列数据,是由NCBI数据库中下载(详细信息见:http://www.ncbi.nlm.nih.gov),接下来运用ModEn算法及MME法来分析研究这些DNA片段序列。

2.2 DNA序列的整数表示方法

由于7种病毒DNA序列的片段信息都是字符串形式,不利于实验分析研究,因此需要将其转化为时间序列。采用整数表示方法,其映射关系为:

2.3 实验结果

从公式(7)可知,DNA序列之間的MME值是由编码长度m、容限阈值r、序列长度n.3个参数共同决定。依次计算为m=1.2.…,7时,H5N1(1)与其它6种病毒之间的MME值。令R=|0.2*cov(u.v)|,N=900。实验结果见表1。

由表1可知,m=2时,MME最小;m=1.3时,H5N1(1)与H5N1(2)之间的MME值和H5N1(2)与其它5个序列之间的MME值相差1个数量级,m=4.5.7时,MME相差1-2个数量级,m=2.6时,MME相差2个数量级,差异最大。综上所述,当编码长度m=2时最能保证实验陸能和准确性。

令编码长度m=2.r=|0.2*cov(u.v)

分别对7种病毒的DNA序列进行MATLAB仿真,得到7种病毒的DNA序列之间的MME值见表2。

由表2实验结果可知:H5N1(1)与H5N1(2)之间的MME最小,说明其相似程度最高。H5N1(1)与SARS的MME值在表2的第一行中是最大的,也就是说H5N1(1)与SARS之间的相似程度最小。

实验结果及分析证明MME算法在DNA序列之间的相似性研究中,能有效判断出不同DNA序列之间的相似程度。

3 结束语

本研究通过MME算法对7种病毒做DNA序列相似性研究,实验结果的定性分析更加稳定、有效。本研究是MME算法应用的冰山一角还有更多非线性研究领域可以对其展开更深入的研究,对DNA序列相似性进行定量分析是未来的研究方向。