基于样本熵的DNA序列相似性分析

2016-03-02万力超周小安

智能计算机与应用 2016年1期

万力超　周小安

摘要：针对传统方法在分析DNA序列相似性方面的不足，提出了一种基于样本熵的DNA序列相似性分析方法。以五种东亚钳蝎神经毒素的基因序列作为分析对象，首先通过DNA序列的图形表示把DNA序列转换为时间序列，然后运用样本熵算法计算出时间序列的样本熵值，将样本熵的互值大小作为分析序列之间相似性的依据，最后将样本熵方法与DTW（Dynamic Time Warping，动态时间弯曲）方法的实验结果进行比较。实验结果表明，样本熵分析方法能有效分析序列之间的相似性，与DTW分析方法相比较，显示出更强的相似性和区别度，可将其进一步应用于生物序列的分析。

关键词：样本熵；DNA序列；序列相似性；DTW距离

中图分类号： TP391文献标识码： A文章编号：2095-2163（2016）01-

Abstract：This paper studies the application of sample entropy for similarity analysis of DNA sequences. The gene sequences of five kinds of Buthus martensi Karsch neurotoxins are analyzed. The graphical representation of DNA sequences are converted into digital sequences， and their sample entropy are calculated based on sample entropy method. The mutual value between different sample entropy is used to analysis sequence similarity. Analysis result is compared with the method of DTW distance. The analysis result of the proposed method provides good analysis efficiency and higher sensitivity and distinction than the results of DTW distance method. The method of sample entropy can be used for further biological sequences analysis.

Key words： DNA sequence； similarity analysis； sample entropy； DTW distance

0 引言

随着生物序列测序技术的不断进步，人们已经获得了海量的生物序列信息，对于如何提取挖掘生物序列中的有用内容，解读DNA序列中的遗传信息和功能信息，DNA序列的相似性分析即已成为研究关注热点和实施应用亮点。DNA序列的相似性是指两条DNA序列的相似程度，相似程度越高表明两物种“同源”的可能性越大，反之，两物种的结构和功能差别越大。每当得到一个新物种的DNA序列，人们总是想通过比较该物种与其他已知序列的相似性，由此来分析其基因的功能，如果两个基因序列相似程度越高，新物种的结构和功能就与已知物种越相似，对于预测新物种基因信息就越有利，如此将会大大降低基因检测与测序的工程量，这在庞大的基因序列面前即显得尤为重要。

目前国内外有关分析DNA相似性的方法已有很多[ - ]，但其研究的基本思想都是：将DNA序列转化为图形表示，利用图形构造矩阵，再利用矩阵的不变量进行DNA相似性分析，这种方法存在一定缺陷，有的计算过程比较复杂，有的容易丢失结构信息。基于此，后续研究则旨在寻找一种方法简单、具有较高准确性以及更能从相关性角度反映序列的生物特性的相似性度量方法。

文献[9]利用近似熵方法研究了DNA序列的相似性，该方法被证明是一种量化时间序列复杂度的方法，并在现实项目中成功应用于生物序列的相似性分析[ ]。但是，近似熵的值与数据长度有关，而且为防止出现ln（0），计算过程中特别比较了自身数据段，然而比较数据和其自身却毫无关联意义，而且还会产生误差。为了显著提高相似性分析方法的准确度和效率，本文引入了样本熵算法，相比于近似熵算法，样本熵在准确性、效率、以及理论建树上更占独有优势，研究最后则通过与DTW方法[ ]的实验结果进行比较后可知，样本熵方法的分析结果显示出更强的相似性，因而可将其进一步应用在生物序列的研究中。

1 分析方法

Richman等提出了一种有关时间序列复杂度的分析方法——样本熵[ ]，通过对近似熵算法实施一定改进，有效地消除了实验中的误差。样本熵计算的是和的对数，计算过程中不包含自身数据段的比较，同时避免了近似熵算法过程中的ln（0）值的出现，在计算效率上占据明显优势，而且又减少了实验中的误差，其他算法过程两者基本相似[ ]。样本熵的物理意义与近似熵一致，样本熵值越大，序列的复杂程度越高，产生出新模式的概率就越大；样本熵值越小，序列的复杂程度越低，序列的自我相似性越高。样本熵的具体算法实现过程如下：

4 实验结果

4.1 DNA序列动态分析

基因序列可以转换为时间序列，因此分析DNA相似性等同于时间序列相似性的比较，按照上述时间序列转换方法，对各个时间序列采用20点的时间窗口分别计算其样本熵，并将计算结果与序列BMTX1结果展开比对，实验结果如图1所示，由此即可分析DNA序列的动态信息和相似性[9]。

从图1中可以看出，BMTX1和BMTX4的曲线覆盖度较高，表明这两者之间DNA相似度较高。其他图像则表现出较少的覆盖度，由此可知其与BMTX1相似度较低。从生物进化关系看出，分析结果与实际相符，表明样本熵可用于分析DNA相似性。

4.2 样本熵实验结果

利用上述时间序列转换方法，将5种东亚钳蝎神经毒素基因序列转换成时间序列，然后利用样本熵算法分别求出五种时间序列的样本熵，所得样本熵则如表2所示。

观察表4数据，BMTX1和BMTX4所对应的DTW距离较小，亲缘关系非常接近，所得实验结果与样本熵方法基本一致。比较两种方法的实验结果，样本熵方法得到的相对数值差异较大，例如，表3实比表4中的BMTX1与BMTX4、BMCT的相对数据差异明显较大，显示出较高的敏感性和区别度。

5 结束语

本文提出一种基于样本熵算法的DNA相似性分析方法，并通过实例验证了此方法的有效性和准确性，与DTW距离方法比较，样本熵方法的分析结果显示出更强的相似性和准确性。这有助于提高亲缘关系较近的分析对象间的区别度，可将其进一步应用在生物序列的分析中，对更多物种的基因序列进行分析，发现更多未知的物种之间的关系，提高此方法的说服力和应用价值。