APP下载

DNA差异甲基化识别的统计学方法的分析与研究

2014-10-10王冬

电脑知识与技术 2014年24期
关键词:识别差异统计学

王冬

摘要:DNA甲基化(DNA methylation)是最早发现的表观遗传修饰途径之一,差异甲基化的研究与单亲遗传病、肿瘤的发生、组织的老化等生物过程密切相关。DNA差异区域的识别研究可分为两类:针对芯片测序数据的定长区域研究和亚硫酸氢盐高通量测序数据的不定长区域研究,后者的研究因其所求区域精度较高,近年来更受关注。该文给出了基于统计学的一些现有的定长与不定长区域识别方法,简述各种方法的原理和步骤,并作出一定的分析。

关键词:DNA甲基化;差异;识别;统计学

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)24-5744-02

1 生物背景

生物信息学(Bioinformatics)是研究生物信息的收集、处理、存储、分析、解释等各方面的学科,利用应用数学、信息学、统计学以及计算机技术等方法研究生物学的问题。当前的生物信息学主要是分子生物学和信息技术(尤其是互联网技术)的结合。DNA是组成染色体的主要化学成分,同时也是组成基因的材料。DNA也被称为“遗传分子”。 表观遗传是指DNA序列不发生变化,但基因表达却发生了可遗传的改变。这种改变是细胞内除了遗传信息以外的其他可遗传物质发生的改变,且这种改变在发育和细胞增殖过程中能稳定遗传。DNA甲基化(DNA methylation)是最早发现的表观遗传修饰途径之一,DNA的甲基化可引起基因的失活。

DNA甲基化在各类生物体个体、组织、细胞中是普遍存在的,但在不同个体、组织、细胞之间,甲基化水平也是具有差异性的。即便是针对同一个体的同一段DNA区域,不同的组织和细胞间的DNA甲基化水平也存在着大量的差异。

一般来讲,我们所说的DNA差异甲基化区域即是指这样的DNA区域:同一个体的同一段DNA碱基序列上,不同样本(器官、组织、细胞等)之间的DNA甲基化程度存在较大差异的DNA序列。而DNA差异甲基化与单亲遗传病、肿瘤的发生、个体的老化、细胞的分化密切相关。深入研究DNA差异甲基化,与有性生殖、衰老、恶性肿瘤的发生的关系,不但有助于阐明基因印迹调控的内在机制, 同时也将提高相关疾病的临床诊断和治疗水平。

根据原始实验数据测序方法的不同,DNA甲基化差异区域的识别大致可分为针对芯片测序的基于定长区域的方法和针对二代测序的基于定长区域的方法。

2 基于定长区域的方法研究

芯片测序数据的特点是出现较早,成本较低,非单碱基精度等。基于定长区域的方法主要针对芯片测序数据,首先将芯片测序数据进行预处理为如下形式(图1) ,再使用下文所述方法进行差异分析。

Hansen等人提出了曲线平滑的方法,其基本原理为对甲基化水平曲线进行平滑,来降低实验数据由测序深度造成的误差,然后在修正曲线的基础上进行差异统计量的计算。而平滑的基本思路是取一定比例的局部数据,在这部分点中拟合多项式回归曲线。而局部数据的每个点有不同的权值,离要拟合的点越近,权重就越高,相反,权重就越低。

苏建忠等人提出了热点延展的方法,是利用延展思路针对计数法思想的改进。基本思路是对每个样本寻找连续的高甲基化或低甲基化位点,将甲基化模式相似的那些相邻位点连接成热点区域,并对热点区域进行延伸,得到所求的差异区域。其热点的寻找方式为寻找长度至少大于100个有效CG碱基对的连续区域,区域内所有位点都是属于高甲基化类或者低甲基化类的。

通过实际试验分析,三种方法中,泵猎取和热点延展的方法表现了更好的统计差异特征,

而利用曲线平滑的过程可以有效地降低测序深度不足带来的误差。

4 结束语

通过上面的介绍,我们分析了一些现有的定长与不定长区域DNA甲基化差异区域识别方法,明确了DNA甲基化差异区域的基本研究流程,简单介绍了各方法分析差异的基本思路和原理。针对现有的方法,仍旧有某些方面可以进行改进,比如如何更有效地降低原始试验数据的误差,如何对所求得的区域进行有价值的筛选等等,这值得进一步的探讨。

参考文献:

[1] 薛京伦.表观遗传学——原理、技术与实践[M].上海:上海科学技术出版社, 2006.

[2] 李巍.生物信息学导论[M].郑州大学出版社,2004:170.

[3] 王翼飞,史定华.生物信息学—智能化算法及其应用[M].化学工业出版社,2006.

[4] 董玉玮,侯进慧,朱必才,等表观遗传学的相关概念和研究进展[J].生物学杂志, 2005,22(1):1-3.

[5] Rakyan V K, Down T A, Thorne N P,et al. An integrated resource for genome-wide identification and analysis of human tissue-specific differentially methylated regions (tDMRs). Genome Res., 2008(18):1518—1529.

[6] Fan S, Zhang X. CpG island methylation pattern in different human tissues and its correlation with gene expression.Biochem. Biophys. Res. Commun, 2009( 383):421-425.

[7] Eckhardt F, Lewin J, Cortese R. et al.DNA methylation profiling of human chromosomes 6, 20 and 22. Nat. Genet, 2006(38):1378-1385.

[8] Zhang Y, Liu H, et al. QDMR: a quantitative method for identification of differentially methylated regions by entropy. Nucleic Acids Res , 2011,39(9): 58.

[9] Lister R, Pelizzola M, Dowen R H,et al.Human DNA methylomes at base resolution show widespread epigenomic differences.Nature, 2009(462):315-322.

[10] Serre D, Lee B H, Ting A H.MBD-isolated Genome sequencing provides a high-throughput and comprehensive survey of DNA methylation in the human genome. Nucleic Acids Res., 2010(38):391-399.

猜你喜欢

识别差异统计学
关于投稿的统计学要求
相似与差异
统计学符号使用的说明
统计学符号使用的说明
本刊对来稿中统计学处理的有关要求
找句子差异
生物为什么会有差异?
青岛市中山公园园林树木易混淆品种识别
论犯罪危险人格的识别
M1型、M2型巨噬细胞及肿瘤相关巨噬细胞中miR-146a表达的差异