基于广义拓扑熵的片段复制分析方法研究
2017-11-08谭仁杰靳水林蒋庆华王亚东
谭仁杰+靳水林+蒋庆华+王亚东
摘要: 片段复制(Segmental Duplication)是一种重要的遗传学现象,在生命进化及基因组变异的形成过程中发挥着重要作用。对片段复制区域的序列分析具有重要的研究意义。然而,通过传统的生物学实验方法对片段复制序列进行分析存在分析成本高、速度慢等缺點。为此,本研究提出基于广义拓扑熵的片段复制分析方法,利用信息熵的理论对这一生物学现象进行分析研究。通过对人类参考基因组数据的实验结果表明,广义拓扑熵的方法可以较好地将片段复制区域与其它随机选取区域进行区分。
关键词:片段复制; 熵; 广义拓扑熵; 人类参考基因组
中图分类号:TP391
文献标志码:A
文章编号:2095-2163(2017)05-0001-04
Research on segmental duplication analysis method based
on generalized topological entrop
TAN Renjie1, JIN Shuilin2, JIANG Qinghua3, WANG Yadong1
(1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;
2 School of Science, Harbin Institute of Technology, Harbin 150001, China;
3 School of Life Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract:
Segmental Duplication (SD) is an important genetic phenomenon It plays an important role in the evolution of life and the formation of genome variationAnalyzing the sequence of SD regions has the important research significance However, analyzing SD regions by traditional methods of biological experiment has many disadvantages, such as high cost and low speed etc Hence, the paper proposes a new generalized topological entropy based segmental duplication analysis method and employs the entropy theory to analyze this biological phenomenon The experimental results of analyzing human reference genome data show that generalized topological entropy can preferably differentiate SD regions from other random selected region
Keywords: segmental duplication; entropy; generalized topological entropy; human reference genome
作者简介:
引言
片段复制(Segmental Duplication,SD)又称低拷贝重复(Low Copy Repeat,LCR),是指DNA序列中的某一段序列在基因组中出现2次及以上的现象[1]。片段复制广泛地分布于基因组的各个区域。同一片段复制的不同拷贝可成串联或分散跳跃形式分布于基因组中。已有研究表明,基因组片段复制与拷贝数多态(Copy Number Polymorphism,CNP)存在紧密的连锁关系[2]。目前,片段复制一般是通过全基因组拼接比较(Whole genome assembly comparison,WGAC)或全基因组鸟枪测序检测(Whole genome shotgun sequence detection,WSSD)等生物学实验方法进行识别和分析,这些传统方法成本高、测序周期长、研究效率较低。
熵是衡量信息复杂程度的一种度量,于1948年由Shannon首次提出。随后,熵的多种形式如度规熵(metric entropy)[3]、拓扑熵(topological entropy)[4]、Kolmogorov-Sinai熵[5]以及Rényi熵[6]等被相继提出。利用信息熵的理论,人们可以根据信息本身的复杂程度进行分类,可以定量描述给定字符序列的复杂性。近年来,Rényi连续熵[7]、Shannon公制熵[8-9]、特殊因子[10]以及语言学复杂度[11-12]等基于熵的基因组DNA序列分析方法取得了一系列的研究成果,但却在实际分析效果以及计算复杂度方面均存在较大的局限。2011年,Koslicki提出了基于拓扑熵的基因组DNA序列分析方法[13],该方法成功地解决了拓扑熵只适用于对无限长度序列分析的局限。2014年,Jin等人提出了广义拓扑熵的概念[14]。广义拓扑熵充分考虑了子串序列对DNA序列整体的影响,可以将人类基因组启动子、外显子和内含子等基因组元件进行了很好的区分[14-15]。在此基础上,本研究利用广义拓扑熵对人类参考基因组片段复制区域的序列进行分析。endprint
1广义拓扑熵的概念及近似计算方法
设ω为无限长度序列,Pωn表示序列ω中长度为n的不同子串个数,则其广义拓扑熵的定义如下:
HGTω=limk→
SymboleB@ αkilog4Pωii[JY](1)
其中,αki=aii≤k0i>k,且∑ki=1ai=1,ai≥0[JY](2)
满足对任意的ε> 0及任意I,存在K使得所有k≥K,满足∑
SymboleB@ i=I+1αki>1-ε。鉴于基因组数据是有限长度的序列,为了能够计算基因组序列的熵,Jin等人提出了基于有限序列长度的广义拓扑熵近似计算方法[14]:
设ω是一个长度为|ω|的有限序列,令nω为正整数且满足4n+n-1≤|ω|≤4n+1+(n+1)-1。用ω4n+n-11表示序列ω的前4n+n-1个字符并且k≤nω,广义拓扑熵的近似计算公式如下:
H(K)nωω=1k∑nωi=nω-k+1log4Pωii[JY](3)
根据公式(3)可知广义拓扑熵具有下列性质:
1)0≤H(k)nωω≤1。
2)当且仅当序列ω高度重复时,H(k)nωω≈0。
3)当且仅当序列ω高度复杂时,H(k)nωω≈1。
4)对不同的长度序列ω,v及k≤min{nω,nv},可以通过广义拓扑熵H(k)nωω和H(k)nvv来进行比较。
无限序列H(k)nωω是广义拓扑熵HGTω的一种特殊表现形式。而且,通过上面的算法改进,可截取序列ω的一部分ω1来对序列整体进行近似计算。这使得广义拓扑熵具有一个重要性质,即对于不同长度的序列ω和v,k≤min{nω,nv},H(k)nωω与H(k)nvv之间具有可比性。
[BT4]2实验结果与分析
本研究利用广义拓扑熵对人类参考基因组数据进行分析。通过UCSC基因组浏览器获取人类参考基因组序列相似度不小于099的片段复制区域,其长度约占参考基因组总长度的三分之一。鉴于基因组片段复制区域的序列长度长短不一,本研究对所有片段复制区域进行计算,并对每一个片段复制区域随机选取与之长度相同的基因组区域用于对照计算,其结果如图1所示。
实验结果表明,各染色体片段复制区域的广义拓扑熵均比随机选取等长区域的广义拓扑熵要小,这说明片段复制区域序列具有较强的规律性。对24条染色体的片段复制区域及随机选取区域进行方差分析,结果显示,在各染色体的方差分析P值均小于005,具有统计学意义,如表1所示。
片段复制区域具有明显的序列结构规律性。同时为检验广义拓扑熵与其他信息熵的实际效果,本研究利用Shannon熵对上述片段复制区域和随机选取区域进行计算。如图2所示,Shannon熵不能将片段复制区域和随机选取区域进行很好的区分。
通过对24条染色体进行的方差分析结果显示(可见表2),广义拓扑熵在每个染色体片段复制区域与随机选取区域的方差分析p值均小于Shannon熵的方差分析p值,具有更好的统计显著性,如图3所示。这表明广义拓扑熵可以更好地将片段复制区域与随机选取区域进行区分。[FL)]
3结束语
本文首次将广义拓扑熵应用于人类参考基因组片段复制的研究中。实验结果表明,片段复制区域序列的广义拓扑熵低于参考基因组中随机选取区域的广义拓扑熵,这说明广义拓扑熵可以有效地将片段复制区域与其他DNA序列区域区分开来。广义拓扑熵可为参考基因组的片段复制区域识别及个人基因组拷贝数复制的精准识别奠定基础并提供新的解决思路。
广义拓扑熵有2个显著的优势:
1)理论上,可以证明广义拓扑熵是拓扑熵的推广,是拓扑熵的完整表达形式。广义拓扑熵可以全面继承拓扑熵在DNA序列分析上的各项优势。
2)广义拓扑熵充分考虑了子串本身的序列复杂度,可以更加全面地分析DNA序列的复杂性。通过广义拓扑熵在人类参考基因组片段复制区域及随机选取区域上的序列对照研究,实验结果表明:广义拓扑熵可以将片段复制区域与随机选取区域进行较好的区分,取得了显著的实验效果。
理論上,基因组拼接方法可以实现个人基因组变异的精准识别。然而,拼接方法目前在拷贝数复制区域尚未取得突破性的进展。虽然广义拓扑熵在参考基因组片段复制的分类方面取得理想效果,但仍然期待更为成熟的测序技术以及更为先进的基因组拼接算法来实现个人基因组在拷贝数复制区域的成功拼接[16-17]。届时,随着高通量测序技术的逐渐成熟以及拼接算法的不断完善,利用广义拓扑熵对个人基因组拷贝数复制进行精准识别和预测将具有广阔的应用前景。
参考文献:
BAILEY J A, EICHLER E E Primate segmental duplications: Crucibles of evolution, diversity and disease[J] Nature reviews Genetics, 2006, 7(7): 552-564
[2] GIRIRAJAN S, CAMPBELL C D, EICHLER E E Human copy number variation and complex genetic disease[J] Annu Rev Genet, 2011, 45:203-226
[3] LORENTZ G G Metric entropy and approximation[J] Bulletin of the American Mathematical Society,1966,72: 903-937
[4] ADLER R L, KONHEIM A G, MCANDREW M H Topological Entropy[J] Transactions of the American Mathematical Society, 1965, 114(2): 309-319endprint
[5] YAKOV S Kolmogorov-Sinai entropy[J] Scholarpedia, 2009,4(3):2034
[6] RENYI A On measures of entropy and information[C]// Procfourth Berkeley Sympon Mathstatist & Probunivof Calif Berkeley, Calif: California Press, 1961: 547-561
[7] [JP3]VINGA S, ALMEIDA J S R[KG-8]e[DD(-1]′[DD)]nyi continuous entropy of DNA sequences[J] Journal of theoretical biology, 2004, 231(3): 377-388[JP]
[8] KIRILLOVA O V Entropy concepts and DNA investigations[J] Physics Letters A, 2000, 274(5/6): 247-253
[9] FARACH M, NOORDEWIER M, SAVARI S, et al On the entropy of DNA: Algorithms and measurements based on memory and rapid convergence[J] Proceedings of the Sixth Annual Acm-Siam Symposium on Discrete AlgorithmsSan Francisco, California, USA:ACM, 1995: 48-57
[10]COLOSIMO A, DE LUCA A Special factors in biological strings[J] Journal of theoretical biology, 2000, 204(1): 29-46
[11]TROYANSKAYA O G, ARBELL O, KOREN Y, et al Sequence complexity profiles of prokaryotic genomic sequences: A fast algorithm for calculating linguistic complexity[J] Bioinformatics, 2002, 18(5): 679-688
[12]GABRIELIAN A, BOLSHOY A Sequence complexity and DNA curvature[J] Computers & chemistry, 1999, 23(3/4): 263-274
[13]KOSLICKI D Topological entropy of DNA sequences[J] Bioinformatics, 2011, 27(8): 1061-1067
[14]JIN S, TAN R, JIANG Q, et al A generalized topological entropy for analyzing the complexity of DNA sequences[J] PloS One, 2014, 9(2): e88519
[15]JIN Shuilin, WANG Zhou, LIN Junyu, et al The complexity of promoter regions based on a vector topological entropy[J] Current Bioinformatics, 2016, 11:1-4
[16]MAGI A, TATTINI L, PIPPUCCI T, et al Read count approach for DNA copy number variants detection[J] Bioinformatics, 2012, 28(4): 470-478
[17]ALKAN C, COE B P, EICHLER E E Genome structural variation discovery and genotyping[J] Nature reviews Genetics, 2011, 12(5): 363-376endprint