新型冠状病毒关键受体ACE2基因启动子的生物信息学分析
2020-11-24王道,刘丹
王 道,刘 丹
(中南大学湘雅二医院妇产科,中国 长沙 410011)
新型冠状病毒(SARS-CoV-2)属于β-冠状病毒[1,2],2019年12月底在湖北省武汉市华南海鲜市场爆发。截至2020年8月11日,已经造成全国89 383人感染,超过4 000人死亡;世界卫生组织(WHO)报道海外累计确诊20 231 007例,累计死亡735 117人。SARS-CoV-2是继SARS-CoV和MERS-CoV后,引起人类严重呼吸系统疾病和死亡的高致病冠状病毒[3]。SARS-CoV-2基因组是由约30 kb核苷酸组成的单链RNA。经过研究机构早期基因测序,发现其与中华菊头蝠的冠状病毒序列高度相似,推测蝙蝠是SARS-CoV-2的最初天然宿主[4]。SARS-CoV-2主要编码4种结构蛋白:刺突(S)、包膜(E)、膜(M)和核衣壳(N)[5]。SARS-CoV-2刺突蛋白(S)的受体结合域(RBD)与宿主受体血管紧张转换酶2(ACE2)相互作用,促进新型冠状病毒的跨物种和人与人之间的传播[6]。
以往证据[7]表明,ACE2不但是SARS-CoV-2的重要受体,而且在心血管系统中起保护作用。ACE2 是肾素-血管紧张素系统的调节剂,能催化血管紧张素Ⅱ(Ang Ⅱ)转化为血管紧张素1~7 (Angiotensin 1~7)。而且,ACE2在心脏、肾脏、睾丸、结肠、肺以及中枢神经系统等人体器官广泛表达[8,9],特别是在非免疫细胞上,如呼吸道、肠上皮细胞、内皮细胞、肾细胞和肺泡单核细胞等[10,11]。在人体呼吸系统中,研究者发现,ACE,AngⅡ和AT1R是促进肺损伤的因子,但是ACE2却能保护肺部免受损伤[7]。近期有学者称,SARS-CoV-2刺突蛋白与ACE2的亲和力比SARS-CoV高10至20倍[12],暗示这种亲和力的增加使得COVID-19更容易在人群之间传播。因此,ACE2有可能成为预防COVID-19的潜在靶标。
SARS-CoV-2比SARS-CoV更加“狡猾”,易于突变和重组。冠状病毒的变异可能会使某些亚型更容易与受体ACE2结合,从而给各国疫苗研发带来新的挑战。目前,对人ACE2基因的启动子仍然缺乏报道和系统研究,没有针对性的抗病毒策略。所以,本文重点利用生物信息学数据库,预测人ACE2基因核心启动子区,对CpG岛、转录因子结合位点以及SNP位点进行系统分析,这不仅可加快对人类ACE2基因特性和SARS-CoV-2发病机制的研究进程,也可为预防COVID-19和药物治疗提供理论基础。
1 材料与方法
1.1 人类ACE2基因的序列信息来源
本研究从GeneBank数据库(http://www.ncbi.nlm.gov/genbank)中查找人ACE2基因序列信息(Gene ID: 59272),mRNA登录号:NM_001371415。
1.2 重要的生物信息学数据库网站
本研究对人ACE2基因启动子进行预测和分析,运用的重要生物信息数据库网站如表1所示。
表1 生物信息学数据库及网址
1.3 方法
1.3.1 人ACE2基因序列的获取 从GeneBank数据库中检索“ACE2”, 获得人类ACE2基因ID为59272,下载FASTA格式获得基因制表符文件。
1.3.2 人ACE2基因启动子区域序列的获取 从UCSC网站中查找人类ACE2基因,推导出基因组序列(Ch38.p13)及转录起始位点的准确位置。以转录起始点(TSS)为界限,截取基因组序列上游2 000 bp 至下游100 bp共2 100 bp的序列,预测其序列信息中包含ACE2基因可能的启动子序列。
1.3.3 人ACE2基因启动子序列的分析 运用启动子分析软件Promoter 2.0 Prediction Server,对其启动子进行预测。使用Neural Network Promoter Prediction软件时,对 >0.85序列进行分析。
1.3.4 人ACE2基因转录因子结合位点的分析 登录Gene-Regulatiion网站,选择AliBaba 2.1程序,输入ACE2基因启动子区域2 100 bp的DNA序列,联机TRANSFAC 4. 0数据库,得到转录因子与ACE2基因的潜在结合位点。
登录PROMO网站,对人ACE2基因5′调控区转录因子结合位点进行预测,设置参数:Considering factors选择Only human factors;Considering sites选择Only human sites;其它参数选择默认值。
登录JASPAR网站对人ACE2基因5′调控区转录因子结合位点进行预测,设置参数:JASPAR matrix model species选择Homo sapiens;Number of matrices选择200;Type选择Within each matrix;Relative profile score threshold选择80%,85%,90%及95%。
1.3.5 人ACE2基因启动子CpG岛分析 输入人ACE2基因上游至5′侧翼2 100 bp的序列,对CpG岛可能存在位置进行预测。使用EMBOSS,MethPrimer和CpG Finder预测人ACE2基因5′上游2 100 bp序列中甲基化CpG岛。
1.3.6 人ACE2启动子区SNP筛选及其潜在功能预测 利用SNP功能分析软件SNP Function Prediction对人ACE2基因启动子单核苷酸多态性 (SNP)位点进行预测。
2 结果与分析
2.1 人ACE2基因特征以及染色体定位
ACE2基因GeneBank的登录号为NC _000023.11,定位于X号染色体p22.2 (图1)。基因总长107 638 bp(15 494 520~15 602 158 bp),转录产物NM_001371415379.1,编码蛋白质产物ID为NP_001358344.1。人ACE2基因包含18个外显子和17个内含子,蛋白产物由805个氨基酸组成。
图1 人ACE2基因染色体定位图谱Fig. 1 Chromosomal localization of human ACE2 gene
2.2 人ACE2基因的启动子预测
Promoter 2.0 Prediction Server和Neural Network Promoter Prediction预测的结果如表2和表3所示。Promoter 2.0预测的结果提示,ACE2基因上游可能存在1个启动子区,其中临界预测位于800 bp处。Neural Network Promoter Prediction软件预测的结果提示,ACE2基因上游可能存在2个不同的启动子序列,其中第一个序列位于1 417~1 467 bp处,Score值为0.88;第二个序列位于1 964~2 014 bp处,Score值为0.96。
表2 Promoter 2.0 Prediction Server 预测人ACE2基因的启动子
表3 Neural Network Promoter Prediction Server预测人ACE2基因的启动子
运用GeneCopoecia网站对人ACE2基因启动子克隆搜索,产品编号为HPRM50128。HPRM50128全长1 582 bp,TSS位于产品1 282 bp 的G碱基处。将HPRM50128的序列和人ACE2基因5′调控区2 100 bp序列用Blast进行序列比对。结果显示5′调控区2 100 bp序列的809~2 100 bp与HPRM50128的1~1 292 bp完全相同,5′调控区2 100 bp序列的2 090 bp的G碱基与HPRM50128的1 282 bp 的G碱基对应。由此,笔者推测人ACE2基因的核心启动子区域应位于5′调控区2 100 bp序列内。
2.3 人ACE2基因5′调控区转录因子结合位点分析
AliBaba 2.1联合TRANSFAC数据库后,共获得203个转录因子结合位点,主要包括HNF-3,GCN4,Oct-1,TEC1,GR,HNF-1,GATA-1,C/EBPa1p,Hb,Ftz,Sp1,c-Ets-1,E4,GAT,A-1,TBP,NF-1,Egr-1,USF,RXR-beta,COUP,D1,NF-kappaB,NRL,HN,F-1,YY1,NF-muE1,E1,MyoD,REB1,C/EBPde1,Eve,REV-ErbA等(图2);PROMO对人ACE2基因5′调控区的转录因子结合位点进行预测,共获得70个转录因子结合部位(图3);被2种软件共同预测到的结合位点位置相同的转录因子有24种。
图2 AliBaba 2.1对人ACE2基因启动子区域转录结合位点分析的部分结果Fig. 2 Analysis part results of transcription factor binding sites in the promoter region of human ACE2 gene predicted by AliBaba 2.1
图3 PROMO对人ACE2基因启动子区域转录结合位点分析的结果Fig. 3 Analysis results of transcription factor bindin sites in the promoter region of human ACE2 gene predicted by PROMO
运用JASPAR对人ACE2基因5′调控区的转录因子结合位点进行预测,Relative profile score threshold选择80%,85%,90%及95%,获得正负链上转录因子结合位点数依次为137,66,46及20个,其中Relative profile score threshold选择95%转录因子结合位点预测结果见表4。选择转录因子“EOMES”,当设置Relative profile score threshold为95%时,获取7个潜在的转录因子结合位点(表5)。
表4 JASPAR 软件预测人ACE2基因 5′调控区转录因子结合位点的结果
表5 人ACE2基因5′调控区序列上EOMES转录因子结合位点的预测结果
2.4 人ACE2基因启动子区域甲基化CpG岛预测
EMBOSS预测结果显示存在1个CpG岛,其长度是277 bp,位于预测序列282~558 bp处(图4)。MethPrimer预测结果显示1个CpG岛位于282~558 bp处,长度为277 bp(图5)。CpG Finder预测的CpG岛位于290~564 bp,大小为275 bp(图6),与EMBOSS和MethPrimer预测结果高度一致。
图4 人ACE2基因启动子区甲基化CpG岛EMBOSS软件预测图谱Fig. 4 Methylated CpG island map of human ACE2 gene predicted by EMBOSS
图5 人ACE2基因启动子区甲基化CpG岛MethPrimer 预测图谱Fig. 5 Methylated CpG island map of human ACE2 gene predicted by MethPrimer
图6 人ACE2基因启动子区甲基化CpG岛CpG Finder预测图谱Fig. 6 Methylated CpG island map of human ACE2 gene predicted by CpG Finder
2.5 人ACE2基因启动子区SNP预测和分析
运用SNP Function Prediction进行功能预测和种族特异性等位基因频率查询。结果显示, rs12012790,rs4830977,rs4830978,rs4830979,rs5934263,rs5936010和rs997294的保守性极低,在4种人群中rs4830977,rs4830978及rs997294存在种族差别,中国汉族人(CHB)和日本东京人(JPT)的等位基因频率基本相同(表6)。利用此软件进一步筛选出rs4830978,rs5934263和rs5936010存在非同义SNP(nsSNP),其等位基因Allele和临床意义RegPotential得分等信息见表7。
表6 人ACE2基因启动子区SNP功能信息和种族特异等位基因频率预测
3 讨论
众所周知,了解SARS-CoV-2感染过程对研发SARS-CoV-2的药物和疫苗至关重要。Donoghue等[13]研究发现ACE2是羧肽酶(ACE)的同源物,在大多数组织中都有活性。早期研究表明[14],肾素-血管紧张素系统(RAS)参与了SARS的发病过程,ACE2起到羧肽酶的作用,与RAS等其他成分一起在调节急性肺衰竭的严重程度方面起着核心作用。研究者们还发现COVID-19的流行大爆发与ACE2基因编码SARS-CoV-2和SARS-CoV感染人类宿主细胞的受体有密切关系[15]。但与其它冠状病毒感染后引起的普通感冒症状相比,SARS-CoV-2感染可导致致命肺炎。Cheng等[7]证实了ACE2在急性肺损伤中的保护作用,可调节ACE2/Ang 1~7从而减轻冠状病毒造成的组织损伤。而Hoffmann等[16]和Walls等[17]表明ACE2可促进病毒进入肺上皮表面,这些发现都提示在SARS-CoV-2感染致病过程中应该关注ACE2的双重作用。
人类ACE2基因是定位在染色体Xp22.2,全长约107 638 bp,具有单一胞外催化结构域的I型跨膜糖蛋白。许多基因的一个有趣特征是在它们的启动子区域5′端有一个CpG岛,这对转录调控很重要。于是,笔者对ACE2基因5′上游2 100 bp序列运用Promoter 2.0预测,得出该基因可能存在1个启动子区,位于800 bp处;Neural Network Promoter Prediction预测分值>0.8的启动子有2个,特别是1 964~2 014 bp的区域,笔者推测可能是人ACE2基因的核心启动子区。核心启动子是结构和功能特殊的调控序列[18],为转录机制提供高特异性和亲合力的结合位点。我们还需要进一步了解ACE2基因靶心启动子的基因组结构,把转录调节作为靶向干预和新型治疗策略的重点。
然而在过去几十年中,科学家们对ACE2基因启动子的调控研究甚少,在本文中AliBaba 2.1和PROMO在ACE2基因的启动子区域预测到24种转录因子结合位点,包括 HNF-1,IRF,AP-1,YY1,GR,NF-1,GATA-1,C/EBPalpha,USF,SRY及c-Jun 等。HNF-1是可以结合到启动子区且进化上保守的基序[19],SRY通过介导ACE基因启动子,下调ACE2基因启动子的活性[20]。不足的是软件预测到ACE2基因的启动子区域可能存在转录因子潜在的结合位点,但后续还需要进一步结合实验验证。
Fan等[21]推断ACE2启动子的甲基化异常可能与原发性高血压有关,甚至性别还可能影响ACE2甲基化。甲基化修饰对调节人ACE2基因的转录起始发挥重要作用,从而调节基因表达。本研究采用EMBOSS和MethPrimer两个软件对ACE2基因启动子区CpG岛的分析结果高度一致:即人ACE2基因启动子区有1个CpG 岛,位于5′端调控区2 100 bp 序列的282~558 bp。另外,CpG Finder预测CpG岛也位于90~564 bp,大小为275 bp。
目前,在北京、广东、吉林、深圳等地报告无症状者携带SARS-CoV-2,但专家们对其传播的有效性尚不明确,对联防联控工作构成了重大挑战[22,23]。人们普遍认为人类基因组 DNA包含一定水平的多态性,宿主的遗传背景可能是决定SARS-CoV-2感染的易感性和致病性的重要因素。在非编码基因的调控区,笔者研究证实ACE2存在单核苷酸多态性(SNP),特别是可能以等位基因特异方式影响基因表达水平。结果表明,亚洲人属中国汉族人(CHB)和日本东京人(JPT)频率最高,而欧美人(CEU)最低。人ACE2基因启动子区还存在3个非同义SNP(nsSNP): rs4830978,rs5934263和rs5936010,基因型C/T或C/G与nsSNP相关。Zhao等[24]单细胞测序发现亚洲人比欧美人具有更高的ACE2表达细胞比例,推测亚洲人属于易感人群。但Chen等[25]认为ACE2在肺中的表达随年龄增长而增加,与性别无关。此外,亚洲人与其他人群在ACE2基因组中没有独特的遗传多态性。但是,未翻译部分的UTR-SNP如何影响基因功能的生化证据仍然很少,nsSNP是否与基因表达和病毒感染的易感性相关还有待深入研究。
总之,COVID-19不断爆发是全球需要面临的一个严重公共卫生问题,迄今仍然缺乏针对 SARS-CoV-2的任何特定抗病毒治疗。瑞德西韦在国内临床试验中特别是对于重症患者的治疗获益有限[26],不过我国的传统中医药有一定的疗效[27]。本研究中,笔者首次获取ACE2基因的上游序列,预测启动子区域,并且分析了CpG岛分布、转录因子结合位点以及SNP位点分布的特点,为深入探讨ACE2基因启动子在SARS-CoV-2致病机理的关键作用提供了新的线索。