人TERT基因启动子区生物信息学分析*
2020-05-13夏得淳雷子贤赵娟李婷婷赵娟康晓静
夏得淳,雷子贤,赵娟,李婷婷,赵娟,康晓静
832000 新疆 石河子,石河子大学 医学院(夏得淳);830001 乌鲁木齐,新疆维吾尔自治区人民医院 皮肤性病科(雷子贤、赵娟、李婷婷、赵娟、康晓静)
端粒酶是一种由催化亚基、端粒酶逆转录酶(telomerase reverse transcriptase,TERT)和RNA组分(telomerase RNA component,TERC)组成的核糖核蛋白复合物,通过维持端粒稳态和染色体完整性而发挥作用。TERT基因编码端粒酶的限速催化亚单位,可维持基因组的完整性。除了生殖干细胞和造血干细胞外,人端粒酶逆转录酶(human telomerase reverse transcriptase,hTERT)基因在人体正常细胞中不表达,但在肿瘤组织中高表达[1]。有研究表明,hTERT基因参与多种肿瘤的进展,在80%~90%的恶性肿瘤中均可检测上调的hTERT基因,其启动子区突变与肿瘤的增殖和侵袭也有密切的联系[2]。除调控端粒酶转录活性之外,TERT基因也可通过与P65、β-catenin等转录因子相互作用等方式调控除端粒酶之外的其他相关基因的表达,并可调控核转录因子 (nuclear transcription factor-κB, NF-κB)信号通路和canonical Wnt/β-catenin pathway通路中的某些基因转录程序[3]。然而目前对于hTERT基因自身的转录调控机制尚未完全清楚,进一步研究其转录调控机制可为hTERT基因在肿瘤发生、发展中的作用提供思路。本研究利用生物信息学分析的方法,使用不同的生物信息学软件对hTERT基因序列及其启动子区进行分析,预测hTERT基因启动子区CpG岛的位置以及转录因子结合位点,旨在为hTERT基因的转录调控机制及其生物学功能的探索提供理论基础。
1 材料与方法
1.1 hTERT基因组及其启动子区序列
hTERT基因Gene ID为7015,定位于5号染色体短臂(5p15.33),基因全长41 881 bp。hTERT基因启动子区genbank编码:AF098956.1,长度为2 043 bp。
1.2 数据库和程序
美国国立生物信息中心数据库(National Center for Biotechnology Information,NCBI):(https://www.ncbi.nlm.nih.gov/genbank/)。CpG岛预测软件:EMBOSS 6.6.0(https://www.ebi.ac.uk/Tools/emboss/),CpG finder 1.0(http://linux1.softberry.com/berry.phtml?topic=cpgfinder&group=programs& subgroup=promoter),MethPrimer 1.0(http://www.urogene.org/methprimer/)。转录因子结合位点预测软件:Patch 1.0(http://gene-regulation.com/cgi-bin/pub/programs/patch/bin/patch.cgi),PROMO 3.0.2(http://alggen.lsi.upc.es/)。
1.3 方法
1.3.1hTERT基因序列及其启动子序列的获取 在NCBI数据库中检索hTERT基因,得到其基因ID为7015,采用FASTA格式对基因序列信息进行储存。在https://www.ncbi.nlm.nih.gov/nuccore/?term数据库中检索hTERT基因及其启动子序列,得到hTERT基因mRNA序列的登录号为NM_198253.2,启动子区序列genbank号为:AF098956.1,长度共2 043bp,采用FASTA格式对启动子区序列信息进行储存。
1.3.2hTERT基因启动子区cpG岛分析 将获得的hTERT基因启动子区序列分别上传至EMBOSS 6.6.0,CpG finder 1.0,MethPrimer 1.0三个在线预测软件中,按照默认条件(CpG岛最短长度200 bp,GC含量最低为50%,最小观测值为0.6等)进行预测分析。
1.3.3hTERT基因启动子区转录因子结合位点预测 登录gene-regulation网站后,将hTERT启动子序列上传至Patch 1.0预测软件,设置参数为set of site选择vertebrates,Lower score boundary设置为90,其余按默认设置进行检索。PROMO 3.0.2在线软件参数设置:“Selectspecies”中均选择为“Only human factors”,“SearchSites”中“Maximum matrix dissimilarity rate”设为5%,将TERT启动子序列上传并进行预测。
2 结 果
2.1 hTERT基因及其启动子特征
hTERT基因在genbank中的登录号为NC_000005.10,基因组序列全长为41 881 bp(chromosome 5: 1253167.. 1295047),由15个内含子和16个外显子组成。其转录的mRNA全长4 018 bp,编码1 132个氨基酸组成。hTERT基因启动子区GC含量较高,无TATA盒和CAAT盒,启动子区序列全长2 043 bp(chromosome 5: 1294667.. 1296709),其核心启动子区位于翻译起始位点上游330 bp至第二外显子37 bp内。
2.2 hTERT基因CpG岛预测
2.2.1 EMBOSS预测结果 使用EMBOSS 6.6.0在线预测软件对启动子区序列进行预测,预测条件设定为观察值/预期值>0.60,(G+C)%>50.00%,长度>200 bp。结果共发现两个CpG岛,第一个位于974~1 223 bp之间,长度为250 bp;第二个位于1 242~1 987 bp之间,长度为746 bp(图1)。
2.2.2 CpG finder预测结果 按照上述预测标准使用CpG finder 1.0在线预测软件对TERT基因启动子序列进行预测,共发现一个CpG岛,位于1 353~1 965bp之间,CpG岛的(G+C)=79.3%,观察值/预期值=0.854,长度为613 bp(图2)。
图1 EMBOSS 6.6.0软件预测的甲基化CpG岛图谱
Figure 1. Methylated-CpG Islands Predicted by EMBOSS 6.6.0
图2 CpG finder 1.0软件预测的甲基化CpG岛图谱
Figure 2. Methylated-CpG Islands Predicted by CpG Finder 1.0
2.2.3 MethPrimer预测结果 使用MethPrimer 1.0在线预测软件在默认条件下进行检索,结果共发现3个CpG岛,第一个位于807~959 bp之间,长度为153 bp,第二个位于974~1 223 bp之间,长度为250 bp;第三个位于1 242~1 987 bp之间,长度为746 bp(图3)。因CpG岛的片段长度一般大于200 bp,故结果中长度为153 bp的CpG岛不被纳入。
综合以上三种预测软件分析,在相同的预测标准下,EMBOSS与MethPrimer的结果较为相似,预测出的部分CpG岛位置相同,而CpG finder虽然只预测出了一个CpG岛,但此CpG岛所在的位置与其他两种软件所预测的基本一致。
2.3 hTERT基因转录因子及结合位点预测
2.3.1 Patch程序预测结果 利用Patch 1.0程序搜索TRANSFAC数据库,共获得1 769个转录因子结合位点(包括小鼠和人类),经筛选后共得到911个人类的转录因子结合位点,手工汇总去重后共得到95个转录因子,主要包括AP-1、AP-2、CTCF、FOR1、GATA-1、P58、PXR-1、RAR-alpha1、Sp1、TCF-1A、TCF-4等(表1)。
图3 MethPrimer 1.0软件预测的甲基化CpG岛图谱
Figure 3. Methylated CpG Islands Predicted by MethPrimer 1.0
表1 Patch 1.0预测的95个转录因子
Table 1. 95 Transcription Factors Predicted by Patch 1.0
95 transcription factors predicted by Patch 1.0AML1, AML1a, AML1c, AP-1, mAP-2, AP-2alphaA, AP-4, ARP-1CAR, c-Ets-1, c-Ets-2, c-Fos, c-Jun, c-Myb, c-Myc, CNBP, CP1, CREB, Crx, CTCFE12, E2F, E2F+p107, E2F-1, ER-alpha, EZF-2FOR1, FOR2, FXRgammaCAC1, GATA-1, GR, GR-alphaH4TF-1, H4TF-2, HIF-1, HiNF-A, HiNF-C, HNF-1, HNF-1A, HNF-1B, HNF-3alpha, HNF-3B, hnRNP K, Hp55, Hp65ISGF-3, LEF-1, LF-A1, LUN-1, LXR-alphaMax, MAZ, Meis-2a,. Meis-2b, MTF-1, MZF-1NF-1/L, NFAT-1, NF-ATp, NF-E, NF-E3, NIPP58, Pax-2, Pax-5, Pax-8, Pbx-1a, Pbx-1b, PEA3, POU1F1a, PPUR, PXR-1RAR-alpha1, RXR-alphaSMAD-3, SMAD-4, Sp1, Sp2, Sp3, Sp4, SRYT3R, TBP, TCF-1A, TCF-4, TCF-4E, TFIID, TR2-11USF1, USF2VDRWT1YY1ZFX
2.3.2 PROMO预测结果 PROMO 3.0.2在线软件使用TRANSFAC数据库8.3版构建特定的结合位点权重矩阵,共预测出302个转录因子结合位点,手工筛选后共得到48个转录因子(表2)。与Patch 1.0程序预测结果汇总并去重后,共得到118个转录因子,结果如表3所示。
表2 PROMO 3.0.2软件预测的48个转录因子
Table 2. 48 Transcription Factors Predicted by PROMO 3.0.2
NameMatrixWidthNameMatrixWidthRXR-alpha[T01345]7TCF-4E[T02878]7YY1[T00915]4GR[T05076]7GATA-1[T00306]6c-Jun[T00133]7C/EBPbeta[T00581]4E2F-1[T01542]8GR-beta[T01920]5EBF[T05427]11XBP-1[T00902]6GCF[T00320]9AP-2alphaA[T00035]6c-Myc[T00140]6STAT4[T01577]6USF1[T00874]10c-Ets-1[T00112]7ENKTF-1[T00255]8TFIID[T00820]7T3R-beta1[T00851]9HNF-3alpha[T02512]8Ik-1[T02702]13C/EBPalpha[T00105]7MAZ[T00490]13FOXP3[T04280]6Elk-1[T00250]9HNF-1A[T00368]8HIF-1[T01609]9NF-1[T00539]8PPAR-alpha:RXR-alpha[T05221]11NF-AT2[T01945]10NF-kappaB1[T00593]11NF-AT1[T01948]10c-Ets-2[T00113]9Sp1[T00759]10RAR-beta[T00721]10p53[T00671]7PRB[T00696]7Pax-5[T00070]7PRA[T01661]7GR-alpha[T00337]5c-Myb[T00137]8TFII-I[T00824]6HNF-1C[T01951]9NF-AT1[T00550]9HNF-1B[T01950]9ER-alpha[T00261]5TCF-4[T02918]10
表3 Patch 1.0和PROMO 3.0.2软件预测结果汇总
Table 3. Results Predicted by Patch 1.0 and PROMO 3.0.2
118 transcription factorsAML1, AML1a, AML1c, AP-1, AP-2, AP-2alphaA, AP-4, ARP-1C/EBPalpha, C/EBPbeta, CAR, c-Ets-1, c-Ets-2, c-Fos, c-Jun, c-Myb, c-Myc, CNBP, CP1, CREB, Crx, CTCFE12, E2F, E2F+p107, E2F-1, EBF, Elk-1, ENKTF-1, ER-alpha, EZF-2FOR1, FOR2, FOXP3, FXRgammaCAC1, GATA-1, GCF, GR, GR-alpha, GR-betaH4TF-1, H4TF-2, HIF-1, HiNF-A, HiNF-C, HNF-1, HNF-1A, HNF-1B, HNF-1C, HNF-3alpha, HNF-3B, hnRNP K, Hp55, Hp65IK-1, ISGF-3LEF-1, LF-A1, LUN-1, LXR-alphaMax, MAZ, Meis-2a, Meis-2b, MTF-1, MZF-1NF-1, NF-1/L, NFAT-1, NF-AT1, NF-AT2, NF-ATp, NF-E, NF-E3, NF-kappaB1, NIP
(Table 3 continues on next page)
(Continued from previous page)
118 transcription factorsP53, p58, Pax-2, Pax-5, Pax-8, Pbx-1a, Pbx-1b, PEA3, POU1F1a, PPAR-alpha:RXR-alpha, PPUR, PRA, PRB, PXR-1RAR-alpha1, RXR-alpha, RAR-betaSMAD-3, SMAD-4, Sp1, Sp2, Sp3, Sp4, SRY, STAT4T3R, T3R-beta1, TBP, TCF-1A, TCF-4, TCF-4E, TFIID, TFII-I, TR2-11USF1, USF2VDRWT1XBP-1YY1ZFX
3 讨 论
hTERT基因定位于5号染色体短臂(5p15.33),在约90%以上的肿瘤中均可检测到hTERT基因的表达,其表达增加可恢复端粒酶的活性,并可通过基因组重排、启动子突变以及其他表观遗传学机制维持端粒长度,从而调控细胞的衰老和肿瘤的发生[4-5]。已有研究证实,hTERT基因的表达可参与乳腺癌[6]、肺癌[7]、甲状腺癌[8]以及黑素瘤[9]等肿瘤的发生,并且hTERT基因启动子的突变均与这些肿瘤的发生、发展及预后密切相关。
启动子一般位于转录起始位点上游,能够指导RNA聚合酶Ⅱ募集和转录起始,是调控基因表达的重要组成部分,对基因启动子的鉴定及相关研究,对基因的转录调控具有重要意义。有研究者在黑素瘤中发现了非编码TERT基因启动子突变,这些突变是TERT基因核心启动子chr5:1295228(C228T)和chr5:1295250(C250T)处反复发生的C>T突变,从而导致新的ETS转录因子结合位点的发生,这些突变同时导致TERT基因表达成倍增加[10]。C228T和C250T处反复出现的突变表明,hTERT基因启动子突变可能是黑素瘤和其他类型肿瘤发生的早期遗传事件。对hTERT基因启动子区域进行初步预测,可更好的为基因转录调控机制提供理论依据。近年来,随着生物信息学的迅猛发展,多种应用于生物信息分析的软件和方法日渐成熟,通过生物信息学预测启动子相关信息和分析启动子序列及其调控元件,可以为启动子深入研究奠定基础,也可为后续的实验提供理论依据。
DNA甲基化是胞嘧啶的一种表观遗传修饰,哺乳动物DNA甲基化主要出现在CpG二核苷酸的胞嘧啶残基上。正常细胞中DNA甲基化可维持染色质结构的稳定性,并且在基因的表达、胚胎发育、细胞的增殖及衰老等生物学进程的调控中起到重要作用。而在肿瘤细胞中,DNA甲基化的异常变化则可导致基因表达谱的改变,往往表现为抑癌基因CpG岛区域高甲基化、微小RNA(miRNA)、肿瘤抗原以及内源性逆转录病毒等表达缺失,使抑癌基因的表达减少,最终可导致肿瘤发生[11-12]。
正常情况下,DNA高甲基常常导致转录抑制和基因表达降低,低甲基化时则会导致基因表达的增加。然而有研究者发现,在某些肿瘤组织中,如黑素瘤[13]、口腔鳞癌[14]、肝癌[15]和胃癌[16]中,hTERT基因的表达水平增高,且伴随着hTERT基因启动子区高甲基化水平,且hTERT基因启动子区甲基化程度与肿瘤的侵袭程度和更差的预后有关。这种CpG岛高甲基化对应基因高表达,低甲基化对应基因低表达的现象也是近年来的研究热点之一。对hTERT基因启动子区域CpG岛进行预测分析可为后续的相关性研究提供一定理论依据。本研究利用EMBOSS 6.6.0、CpG finder 1.0以及MethPrimer 1.0三种不同预测软件对hTERT基因启动子区CpG岛进行分析,EMBOSS 6.6.0软件和MethPrimer 1.0在线软件预测出的结果较为相似,且两种软件的预测结果中均包含有CpG finder 1.0软件所分析出的CpG岛位点,故综合三种预测软件的结果,hTERT基因启动子区域共含有两个CpG岛,分别位于974~1 223 bp和1 242~1 987 bp之间。Horikawa等研究者在1999年使用GRAIL预测软件得到hTERT基因启动子CpG岛位点位于857~1 995 bp之间,与本次实验所预测出的CpG位点基本相符[17]。但由于生物信息学技术的不断更新,以及各种生物数据库资料的不断完善,CpG岛预测软件得到的结果会更加精确。并且,使用Methprimer预测软件预测CpG岛的同时还可以针对每一个CpG岛设计用于亚硫酸氢盐DNA甲基化分析的PCR引物,可为表观遗传学方面的研究提供高效、便捷的技术手段[18]。
转录因子(transcription factors, TF)是基因调控网络的关键组成部分,可通过特异性结合启动子和其他基因调控区以调控基因表达。每个转录因子通常识别一组相似的DNA序列,这些序列可以使用位置权重矩阵等模型表示为结合位点模序,了解转录因子结合位点模序的特征是掌握转录因子调控功能的的重要步骤[19]。转录因子结合位点长度一般为5~20 bp,随着生物实验验证的转录因子结合位点的不断积累,近几年出现了多个收集转录因子结合位点的数据库,如JASPAR、HOCOMOCO、TRANSFAC等数据库[19]。TRANSFAC数据库收录了有关真核生物的转录因子,转录因子序列及其与真核生物DNA的结合位点等信息。Patch 1.0软件是在TRANSFAC数据库中基于模式匹配的方式在一段序列中发现与模体匹配的位置,并为每一个位置进行赋分以评估匹配的质量[20]。但由于在使用Patch 1.0软件预测时虽然将物种的筛选条件设置为哺乳动物,检索后再次经人工筛选出物种为人类的转录因子,但其预测结果的假阳性仍相对较高。而PROMO 3.0.2软件可从指定的物种或物种组的DNA序列中识别潜在的转录因子结合位点,并且在预测时可直接将物种选择人类作为预测条件,在一定程度上能够降低结果的假阳性率[21]。本实验使用Patch 1.0程序和PROMO 3.0.2程序对hTERT基因启动子区序列在TRANSFAC数据库中进行比对预测,经汇总去重后共得到118个转录因子结合位点。其中多个转录因子结合位点已被相关研究者证实在肿瘤的发病机制、治疗及预后中具有重要作用[22]。如Song等[23]发现,转录因子AP-4可以激活canonical Wnt/β-catenin pathway信号通路及其下游信号靶点,从而增加肝癌细胞的成瘤能力。而转录因子AP-1则在某些自身免疫性疾病及恶性肿瘤中均有重要调节作用[24]。转录因子c-Myc的表达与喉鳞状细胞癌术后肿瘤复查率呈正相关[25]。并且本次预测结果中的多个转录因子结合位点已有相关研究证实可以参与调控hTERT基因的表达,如AP-1、c-Myc、CTCF、HIF-1、SP-1、VDR、WT1等(表4)但由于hTERT基因调控机制较为复杂,其中部分转录因子结合位点只在hTERT基因调控网络中的一小环节中发挥作用,并且另有一部分参与调控hTERT基因表达的转录因子结合位点目前尚未发现。由于目前应用软件只能分析数据库中已知的转录因子结合位点,而对于目的基因启动子区域新的或尚未发现的转录因子结合位点无法预测,故此方法具有一定局限性。生物信息学软件所得到的结果只能为后续研究提供理论依据,但结果的准确性仍需进行实验加以证实。
表4 预测结果中已被报道的转录因子
Table 4. Transcription Factors Reported in Predicted Results
Transcription factorActivator/repressorReferenceAP-1Both[26]c-MycBoth[27]CTCFRepressor[28]E2FRepressor[29]E2F-1Repressor[29]c-Ets-1/ c-Ets-2Both[30]HIF-1Activator[31]hnRNP KActivator[32]MAZRepressor[33]NFAT-1Activator[34]NF-κBActivator[35]NIPRepressor[36]P53Repressor[37]Pax-5Activator[38]Pax-8Activator[39]SP1Both[40]SP3Repressor[40]USF1/ USF2Both[41]VDRRepressor[42]WT1Repressor[43]YY1Repressor[44]
综上所述,本研究首先从NCBI Genbank数据库中获取hTERT基因及其启动子区序列,然后使用多个生物信息学软件对hTERT基因启动子区CpG岛的位置,以及转录因子及其结合位点进行预测分析,可为进一步构建hTERT基因启动子表达载体和检测启动子活性提供理论基础,并可为hTERT基因在肿瘤等相关疾病发病过程中的机制提供一定思路。
作者声明:本文全部作者对于研究和撰写的论文出现的不端行为承担相应责任;并承诺论文中涉及的原始图片、数据资料等已按照有关规定保存,可接受核查。
学术不端:本文在初审、返修及出版前均通过中国知网(CNKI)科技期刊学术不端文献检测系统的学术不端检测。
同行评议:经同行专家双盲外审,达到刊发要求。
利益冲突:所有作者均声明不存在利益冲突。
文章版权:本文出版前已与全体作者签署了论文授权书等协议。