APP下载

大鼠Pten和Runx3基因5'端非编码区序列的生物信息学分析

2014-06-14杨晋翔贺梅娟彭继升贾雪晴

山东医药 2014年12期
关键词:外显子甲基化位点

安 静,杨晋翔,贺梅娟,彭继升,魏 玥,贾雪晴

(1北京中医药大学,北京100029;2北京中医药大学第三附属医院;3中华中医药学会)

Pten基因作为第一个被发现的具有双重特异性磷酸酶活性的抑癌基因,在细胞生长发育、凋亡、移动、信号传递等方面发挥重要的调控作用,它的正常表达可抑制肿瘤细胞生长,促进细胞凋亡,参与细胞周期的调控以及抑制肿瘤的转移。研究发现,Pten基因启动子的甲基化与胃癌的发生有关,Pten甲基化是胃癌患者诊断及预后的候选标志物之一[1]。近几年发现,Runx3是胃癌特异性很高的一个抑癌基因[2]。Runx3在胃黏膜上皮细胞生长及分化调控等方面发挥重要作用[3],其有望成为胃癌诊断的一个特异性生物学标志物和基因治疗靶点。2013年10~12月,我们采用DNA序列分析法对大鼠Pten和 Runx3基因5'端非编码区(5'-UTR)序列的CpG岛、启动子及其转录因子结合位点进行预测,旨在为下一步大鼠Pten和Runx3基因甲基化实验上下游引物设计奠定基础。

1 材料与方法

1.1 大鼠Pten和Runx3基因全长序列、转录本信息获得 通过美国国立生物技术信息中心(http://www.ncbi.nlm.nih.gov)搜索 Genebank 获得大鼠Pten、Runx3基因的登陆号、全长序列及转录本信息。

1.2 大鼠Runx3和Pten基因外显子、内显子及上游5'-UTR信息获得 通过序列比对,利用美国国立生物技术信息中心Blast中的可读框(ORF)(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)查找分析确定外显子和内显子及5'-UTR,也可通过Ensemble查找外显子、内显子及5'-UTR,取翻译起始点(ATG)前2 kb、后1 kb的区域序列做后续分析。

1.3 大鼠Pten和Runx3基因5'-UTR上游CpG岛、启动子区域及其转录结合位点预测 采用序列分析。

1.3.1 CpG岛分析 应用开放CpG island searcher软件(http://cpgislands.usc.edu/)、在线 CpGPlot工具(http://www.ebi.ac.uk/Tools/emboss/)、Methprimer2.0 工具(http://www.urogene.org/methprimer/)预测CpG岛。①Pten基因CpG岛分析:CpG island searcher设定条件:选择低限%GC(G、C百分比)=50,CpG岛实测值/预期值(ObsCpG/ExpCpG)=0.65,长度(Length)=200,距离(Distance)=100。CpGPlot设定条件:实测值/预期值(Obs/Exp)>0.60,Percent C+Percent G >50.00,Length > 200。Methprimer2.0设定条件:CpG岛长度(Island size)>200,GC Percent>50.0,Obs/Exp >0.60。②Runx3基因CpG岛分析:CpG island searcher设定条件:选择低限%GC=50,ObsCpG/ExpCpG=0.65,Length=200,Distance=100。CpGPlot设定条件:Obs/Exp >0.60,Percent C+Percent G > 50.00,Length > 200。Methprimer2.0设定条件:Island size>200,GC Percent>50.0。

1.3.2 启动子信息预测 应用开放软件NNPP工具(http://www.fruitfly.org/seq_tools/promoter.html)、Promoter scan 工具(http://www-bimas.cit.nih.gov/molbio/proscan/)、FirstEF 工 具 (http://rulai.cshl.org/tools/FirstEF)预测启动子。

1.3.3 启动子区域转录结合位点预测 应用开放在线工具/软件 Matlspector(http://www.genomatix.de/)、Match(http://www.gene-regulation.com)和Consite(http://consite.genereg.net)预测启动子区域转录结合位点。

2 结果

2.1 大鼠Pten和Runx3基因全长序列及其转录本序列 大鼠Pten基因位于染色体1q41~q43,全长65 kb,登陆号:50557;有 3个转录本:AF455569、AF017185、NM_031606,均为 1 212 bp。大鼠 Runx3基因位于染色体5q36,全长73 kb,登陆号:156726;有2 个转录本:AF421886.1、NM_130425.1,均为1 230 bp。

2.2 大鼠Pten和Runx3基因外显子、内显子及上游5'-UTR信息 通过BLAST序列比对,发现所报道的Runx3和Pten基因其转录本5'-UTR长度均相等,且转录本序列高度一致。通过Ensemble查找外显子和内显子及5'-UTR显示,Runx3基因第1外显子(起始外显子)长度为285 bp,Pten基因第1外显子(起始外显子)长度为79 bp。两个基因取5'端翻译起始密码子(ATG)前2 kb、后1 kb序列进行后续分析。

2.3 Pten基因和Runx3基因CpG岛的分析结果

2.3.1 Pten基因 CpG island searcher软件分析结果:CpG岛(-1 952~ -70),ObsCpG/ExpCpG=0.808,Length=1 883。CpGPlot工具分析结果:CpG岛1(-1 872~ -1 599),274 bp;CpG 岛 2(-1 493~-144),1 290 bp。Methprimer2.0 工具预测结果:CpG岛1(-1 872~ -1 599),274 bp;CpG 岛2(-1 493~-144),1 290 bp 。

2.3.2 Runx3基因 CpG island searcher软件分析结果,见表 1;CpGPlot工具分析结果,见表 2。Methprimer2.0工具分析结果与CpGPlot工具分析结果相同。

表1 Runx3基因CpG island searcher软件分析结果

表2 Runx3基因CpGPlot工具分析结果

2.4 Pten基因和 Runx3基因启动子预测结果NNPP工具预测结果,见表3。Pten基因FirstEF工具显示CpG岛的-1 253~-684 bp是1个启动子序列,第1外显子序列为-753~691 bp;Runx3基因FirstEF工具序列-690~-121 bp是1个启动子序列,第1外显子序列为-108~41 bp。Promoter scan工具预测结果,见表4。

2.5 转录因子结合位点 Pten基因转录因子结合位点分析软件分别显示CpG岛启动子区上有100、68和107个转录因子结合位点,包含有109种转录因子;在这109种转录因子中,被≥2种软件共同预测有结合位点的转录因子有6种。Runx3基因转录因子结合位点分析软件分别显示,CpG岛启动子区上有138、71和97个转录因子结合位点,包含有94种转录因子;在这94种转录因子中,被≥2种软件共同预测有结合位点的转录因子有9种。见表5。

表3 Pten基因和Runx3基因NNPP工具启动子预测结果

表4 Pten基因和Runx3基因Promoter scan工具启动子预测结果

3 讨论

有研究发现,在多种肿瘤组织或恶性细胞系中存在Pten基因低表达或缺失,并且大部分与其启动子区甲基化相关。目前认为,突变、杂和性缺失(LOH)及异常甲基化是导致Pten基因失活的主要机制。Runx3在正常胃黏膜上皮细胞广泛表达,对胃癌高发区大样本人群的研究证明,Runx3蛋白表达与胃黏膜病变的严重程度呈明显负相关[4]。胃癌组织中Runx3 mRNA和蛋白的表达明显低于相应正常组织,在不同进展和分化程度的胃癌组织中,Runx3表达也明显下调,表明Runx3基因与胃癌的进展密切相关[5]。目前发现有多种机制,包括LOH、高甲基化和点突变等参与了Runx3基因在胃癌中的表达缺失或下调,其中Runx3启动子区域CpG岛的甲基化是导致其在胃癌中失活的主要机制。

表5 Pten基因和Runx3基因转录因子结合位点分析预测结果

本研究发现,大鼠Pten基因和Runx3基因的转录本5'端及其上游序列完全位于CpG岛内,表明该基因属于CpG岛关联基因,适合利用FirstEF进行第1外显子分析。同时,对于CpG相关基因FirstEF软件对启动子和第1外显子预测的敏感性与特异性均高达90%以上。所以,初步确定大鼠Pten基因和Runx3基因核心启动子可能分别位于-1 253~-684 bp和-690~-121 bp,为进一步基因调控甲基化实验验证奠定了基础。

近几年,随着实验技术的发展,基因组DNA和蛋白质测序数据总量正在以指数倍的速度增长。如何挖掘利用现有海量数据来预测有关基因的CpG岛、启动子和转录因子结合位点是生物信息学研究热点。

CpG岛指一段200 bp或更长序列的DNA序列,G+C含量较高[6]。CpG岛通常位于基因的5'端,尤其是启动子和第1外显子附近,人类基因概率达60%~80%,也是发生甲基化的区域[7]。本研究中所应用软件在ATG上游均检测到典型的CpG岛结构,相关基因CpG岛与启动子和第1外显子高度重合,因此查找CpG岛能对基因启动子预测有重要意义。

预测有关基因的启动子及转录因子结合位点有许多算法,而且还有很多软件和工具提供在线分析。本研究预测启动子分别基于信号的预测方法和基于内容的预测方法。Promtor Scan属于基于信号方法识别核心启动子TATA-box、CAAT-box和TSS等一些重要的启动子调控元件;NNPP工具预测启动子是基于信号内容的神经网络识别TATA-box、CAAT-box、加帽位点和GC框的位置和距离,使用4个结构相同的人工神经网络分别识别以上4种元件来区别启动子和非启动子。另外,基于相关基因CpG岛高关联性,还可采用CpG岛关联性的预测方法。FirstEF是基于二次判别析分析技术[8],先判断是否为CpG岛相关,然后通过搜索第1外显子数据库,识别RNA聚合酶酶切点,最后结合CpG岛信息,确定启动子区。因使用了3种不同的二次判别函数,使该方法预测含CpG岛的启动子的敏感性和特异性都高于0.90[9],预测不含CpG岛的启动子的精确性相对略低。尽管目前预测工具很多,但对启动子识别精度都不高[10]。本研究发现,相关基因与CpG岛关联明显,结合其他算法对相关基因启动子重要调控元件进行预测,为下一步的研究奠定了基础。

由于转录因子结合位点是一段包含在基因启动子中的DNA序列,研究基因启动子和转录因子结合位点是密不可分的。本研究选取相关基因预测的启动子区域DNA序列进行相关基因数据分析,同样也有很多方法和软件/工具可供选择。MatIspector[11]和Match是基于位置权重矩阵(PWN)来描述转录因子结合位点的在线工具,根据已知的转录因子结合位点,构建矩阵来描述转录因子结合位点的各个位点的碱基组成[12]。该工具可以迅速识别转录因子结合位点;缺点是由于背景噪音的干扰,出现许多无功能的假阳性转录因子结合位点[13]。Consite是基于进化发育足迹法,通过多物种间基因同源性进行交叉比对查找启动子区保守区共同存在的转录因子结合部位,降低了假阳性率,使预测结果更为准确[14]。值得注意的是,转录因子长度较短,无论同源匹配还是模式识别,其假阳性比例都会很高[15],因此,启动子区域识别最好基于外显子/内显子以及CpG岛预测的结果做综合判断。本研究综合基于外显子/内显子以及CpG岛预测的结果,采用3种不同数据库来源的在线软件/工具并利用两种序列分析预测方法来预测转录因子结合位点,可有效降低假阳性率,但仍然不能排除无实际功能的结合位点,需要进一步的实验来验证。

通过DNA和蛋白质序列分析预测技术,生物信息数据应用到系统进化发育预测、基因结构功能预测等方面,结果得到进一步应用和认可,同时也存在着诸多不足之处,但随着基因组序列信息的日益丰富,计算方法和数据库的不断完善,可以指导实验方向和进一步完善实验技术,基因表达的调控机制也将逐步得到阐明。

[1]刘嵩,于皆平,刘浩,等.胃癌中PTEN基因异常甲基化的检测[J].中华医学杂志,2005,29(4):263-264.

[2]Bernal C,Aguayo F,Villarroel C,et al.Reprimo as a potential biomarker for early detection in gastric cancer[J].Clin Cancer Res,2008,14(19):6264-6269.

[3]李岩,李卉.DNA甲基化与胃癌相关性的研究进展[J].胃肠病学,2008,13(11):645-650.

[4]Li WQ,Pan KF,Zhang Y,et al.RUNX3 methylation and expression associated with advanced precancerous gastric lesions in a Chinese population[J].Carcinogenesis,2011,32(3):406-410.

[5]王卫政,何长华,蔡晓美,等.胃癌组织Runx3基因甲基化的检测及意义[J].山东医药,2009,49(32):53-54.

[6]Takai D,Jones PA.The CpG island searcher:a new WWW resource[J].In Silico Biol,2003,3(3):235-240.

[7]Ushijima T.Detection and interpretation of altered methylation patterns in cancer cells[J].Nat Rev Cancer,2005,5(3):223-231.

[8]何克抗.计算机辅助教学研究与发展[M].北京:高等教育出版社,1996:56.

[9]Davuluri RV,Grosse I,Zhang MQ.Computational identification of promoters and first exons in the human genome[J].Nat Genet,2001,29(4):412-417.

[10]孙吉贵,韩霄松,卢欣华,等.真核生物启动子的预测技术[J].计算机科学,2009,36(1):5-9.

[11]Cartharius K,Frech K,Grote K,et al.MatInspector and beyond:promoter analysis based on transcription factor binding sites[J].Bioinformatics,2005,21(13):2933-2942.

[12]杨科利,许强.基于碱基关联二联体位置权重矩阵预测酵母转录因子结合位点[J].生命科学研究,2008,12(02):115-120.

[13]李婷婷,蒋博,汪小我,等.转录因子结合位点的计算分析方法[J].生物物理学报,2008,24(5):334-347.

[14]Sandelin A,Wasserman WW,Lenhard B.ConSite:web-based prediction of regulatory elements using cross-species comparison[J].Nucleic Acids Res,2004,32(suppl 2):249-252.

[15]薛庆中.DNA和蛋白质序列数据分析工具[M].2版.北京:科学出版社,2010:45.

猜你喜欢

外显子甲基化位点
外显子跳跃模式中组蛋白修饰的组合模式分析
镍基单晶高温合金多组元置换的第一性原理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
外显子组测序助力产前诊断胎儿骨骼发育不良
二项式通项公式在遗传学计算中的运用*
外显子组测序助力产前诊断胎儿骨骼发育不良
鼻咽癌组织中SYK基因启动子区的甲基化分析
胃癌DNA甲基化研究进展
人类组成型和可变外显子的密码子偏性及聚类分析
基因组DNA甲基化及组蛋白甲基化