长链非编码RNA lnc-DC的生物信息学分析与验证
2020-10-22胡雪停吴晓凤
胡雪停,吴晓凤,徐 祥
(陆军军医大学大坪医院 干细胞与再生医学科, 创伤、烧伤与复合伤国家重点实验室, 重庆 400042)
长链非编码RNA(long non-coding RNA,lncRNA)是指长度大于200 nt的不编码蛋白的RNA分子。它们虽然不能编码蛋白,但是仍然可以以RNA分子的形式通过与其他的分子(RNA、蛋白质和DNA)相结合来调控一系列的生命活动[1]。目前,许多有重要功能的lncRNA分子被鉴定出来[2],有些lncRNA分子甚至被发现可以编码短肽来发挥作用[3]。lncRNA分子已成为目前的研究热点。
人WFDC21P(WAP four-disulfide core domain 21, pseudogene)基因是不编码蛋白质的长链非编RNA基因,转录产物为LOC645638。2014年,采用转录组芯片以及二代测序高通量筛选方法,鉴定发现LOC645638特异性高表达于DC细胞,并命名为lnc-DC。进一步地,通过RNA-pull down和ChIP-seq等技术发现lnc-DC可通过抑制STAT3的去磷酸化来促进DC细胞的分化。该研究表明人lnc-DC在DC细胞分化中具有重要作用[4]。然而,lnc-DC在其他组织器官及其相关疾病中是否发挥作用及分子调控机制仍然不清楚。
本文使用生物信息学工具,运用在线软件及数据库对人lnc-DC进行分析,预测调控lnc-DC表达的转录因子及其结合蛋白,并进行初步验证。为lnc-DC的研究提供参考,为其他lncRNA研究提供思路。
1 材料与方法
1.1 生物信息学获取lnc-DC相关信息
登陆NCBI数据库(https://www.ncbi.nlm.nih.gov/gene/),输入“WFDC21P”,获取lnc-DC基因的相关信息及正常组织中的表达数据;登陆UCSC数据库(http://genome.ucsc.edu/),获取lnc-DC基因启动子序列,将序列导入转录因子结合位点的motif数据库JASPAR(http://jaspar.genereg.net/),对lnc-DC基因的5′调控区序列上转录因子结合位点进行预测;登录非编码RNA数据库AnnoLnc(http://annolnc.cbi.pku.edu.cn/index.jsp),输入获取的lnc-DC的序列,获取lnc-DC二级结构;登录RNA和蛋白结合预测工具catRAPID(http://service.tartaglialab.com/page/catrapid_group),选择子程序catRAPID omics[transcript VS nucleotide-binding proteome],在RNA sequence框中输入lnc-DC的序列,点击提交获取与lnc-DC相结合的蛋白质分子。
1.2 基础实验研究验证
1.2.1 原位杂交检测皮肤标本中lnc-DC的表达:皮肤标本来源于陆军军医大学大坪医院整形美容科,所有的组织样本均由患者签署知情同意书并获得医院伦理委员会批准。皮肤组织经固定、包埋后切片用于原位杂交检测。lnc-DC杂交探针由广州锐博生物科技有限公司设计合成,杂交方法参照原位杂交检测试剂盒(广州锐博生物)说明书进行操作。
1.2.2 siRNA转染:人永生化皮肤角质形成细胞(HaCaT)(ATCC公司),由本实验室常规保存,培养于DMEM高糖培养基中。转录因子GATA3特异性siRNA(广州锐博生物)由riboFECTTMCP转染试剂(广州锐博生物)导入细胞,具体步骤参照说明书。
1.2.3 实时荧光定量PCR:使用RNA提取试剂盒(Bio-tech公司)提取细胞总RNA,并按照TaKaRa反转录试剂盒说明书将总RNA反转录成cDNA。使用SYBR Premix EX Taq进行qPCR, 反应在Bio-Rad FX96实时荧光定量PCR仪进行,以β-actin作为内参。引物序列如下:GATA3上游引物:5′-CTGG CGCCGTCTTGATACT-3′,下游引物:5′-GGGTCACC TGGGTAGCGAA-3′;lnc-DC上游引物:5′-CCATGA GTGTGTTGCAGGGT-3′,下游引物:5′-TCCAGGAA GGGATGACGATCT-3′;β-actin上游引物:5′-ACAG AGCCTCGCCTTTGCC-3′,下游引物:5′-GATATCATC ATCCATGGTGAGCTGG-3′。反应条件为95 ℃预变性60 s,循环40次;95 ℃变性5 s,60 ℃退火30 s。
1.3 统计学分析
2 结果
2.1 人类WFDC21P基因特征
hWFDC21P基因 Gene ID:645638,定位于17号染色体的长臂(17q23.1),基因组跨越4 902 bp,包含3个外显子和2个内含子。3个外显子分别位于60088467~60088197(271 bp),60085203~60085055(149 bp)和60083766~60083566(201 bp)。转录产物RNA的ID号为NR_030732.1,为不编码蛋白质的长链非编码RNA。
2.2 长链非编码RNA lnc-DC在人类组织器官中的表达
目前的研究发现lnc-DC在分化的DC细胞中显著升高,有促进DC细胞分化成熟的作用。那么,它在其他组织器官中的表达如何?会不会在其他生理病理过程中也发挥重要作用呢?登录NCBI/gene,检索lnc-DC在人类正常组织器官中的表达,结果如图1所示,WFDC21P转录产物lnc-DC高表达于食管(Reads Per Kilobase per Million, RPKM 17.05±4.69)和皮肤(RPKM 14.15±2.03),提示lnc-DC可能参与了食管和皮肤正常功能的维护,在食管和皮肤损伤修复中可能有重要作用。
RPKM: Reads Per Kilobase per Million图1 Lnc-DC在人类正常组织中的表达Fig 1 Expression of lnc-DC in human normal n=95)
2.3 人类lnc-DC基因启动子结合转录因子分析
Relative profile score threshold 设定为100%时,利用在线软件JASPAR预测显示WFDC21P基因启动子区域有11个转录因子结合位点,结果如表1所示,包括转录因子GATA2、GATA3、GATA5、NKX3-1、MZF1、MAX、ZNF345C和VAX1。
表1 人WFDC21P基因启动子区域转录因子结合位点预测结果Table 1 Prediction of transcription factors binding to the promoter of WFDC21P
2.4 人长链非编码RNA lnc-DC RNA的二级结构分析
生物大分子的功能往往是由其结构决定的[5],lncRNA的二级结构及三级结构(空间构象)是其发挥功能的关键[6]。将lnc-DC序列输入非编码RNA数据库AnnoLnc,获得的lnc-DC二级结构如图2所示。
图2 lnc-DC二级结构示意图Fig 2 Secondary structure diagram of lnc-DC
2.5 人长链非编码RNA lnc-DC结合蛋白分析
人lnc-DC不具有直接结合RNA的潜力,主要是与蛋白质分子结合发挥作用。通过RNA和蛋白结合预测工具catRAPID预测了可能与lnc-DC相结合的蛋白质分子。预测显示lnc-DC可与众多蛋白质分子结合,其中得分较高的结合蛋白分子如表2所示。
2.6 lnc-DC结合蛋白富集分析结果
进一步地,采用富集分析工具Enrichr对与lnc-DC结合潜力较强的蛋白进行富集分析。KEGG富集分析(图3)显示这些蛋白与RNA剪接体信号通路相关的可能性较大,GO富集分析(图4)显示这些蛋白主要参与了RNA的剪接、成熟与转运等过程。这些结果表明lnc-DC可能是通过结合RNA剪接相关蛋白,控制RNA的成熟与转运来发挥作用。
图3 lnc-DC结合蛋白KEGG富集分析Fig 3 KEGG analysis of proteins binding to lnc-DC
图4 lnc-DC结合蛋白GO富集分析Fig 4 GO analysis of proteins binding to lnc-DC
2.7 基础实验验证
2.7.1 荧光原位杂交(FISH)检验lnc-DC在皮肤中的表达结果:与NCBI数据库测序数据一致,lnc-DC在皮肤组织中高表达,尤其是表皮层(图5)。
图5 FISH检测lnc-DC在人皮肤组织中的表达Fig 5 Expression of lnc-DC in human skin by FISH(×100)
2.7.2 siRNA结合qPCR检验GATA3对lnc-DC调控作用结果:当使用siRNA干扰人皮肤永生化角质形成细胞HaCaT中的GATA3时,lnc-DC的表达也显著降低(图6),表明转录因子GATA3对lnc-DC确实有转录调控作用。
*P<0.01 compared with si-NC group图6 qPCR检测干扰GATA3后HaCaT细胞中lnc-DC的表达变化Fig 6 Expression of lnc-DC in HaCaT GATA3 RNAi cells by n=3)
3 讨论
皮肤覆盖在身体表面,是人体最大的器官,具有保护、排泄、调节体温和感受外界刺激等作用。皮肤结构的完整对于皮肤维持正常的功能至关重要,超过100种的皮肤系统疾病与皮肤功能异常有关,常见的有慢性及难愈性溃疡、银屑病、皮炎、基底细胞癌和皮肤鳞状细胞癌,这些疾病困扰着超过20%的世界人口[7]。通过搜索数据库发现lnc-DC在皮肤组织中显著高表达,并通过原位杂交验证lnc-DC确实在皮肤组织尤其是表皮层高表达,这些结果表明lnc-DC对于皮肤正常功能的维持可能具有重要作用,为lnc-DC的研究指明了新的方向。
转录因子是能与基因5’端上游启动子区域特定序列结合,并能调控基因在特定时间与空间表达的蛋白质分子。本研究通过在线数据库JASPAR成功预测了能调控lnc-DC转录的转录因子。JASPAR数据库提供了转录因子与DNA结合位点motif最全面的公开数据,共收集了脊椎动物、植物、昆虫、线虫、真菌和尾索动物6大类不同类生物的数据[8]。此外,该数据库是一个不断更新的数据库,最近一次的更新是2018年[9]。JASPAR预测的结果数据质量较为可靠,其预测结果被许多研究采纳[10-12]。本研究通过JASPAR预测发现转录因子GATA3等转录因子可能具有调控lnc-DC表达的作用,结合siRNA干扰实验确证了GATA3对lnc-DC的调控作用,为lnc-DC转录调控研究提供了理论依据。
CatRAPID是一款专门用来计算蛋白质和RNA结合特性的在线工具,该工具通过整合二级结构、氢键和范德华力等数据来预测蛋白与RNA结合的可能性[13],为蛋白质与RNA相互作用研究提供了极大的便利。许多研究者通过使用该工具发现了与某一特定RNA相互作用的蛋白质分子[14-15]。本研究通过catRAPID工具预测lnc-DC可能通过与蛋白U2AF2、HNRDL和HNRPD等结合,并进一步富集分析发现这些蛋白主要参与RNA的剪接、成熟与转运,为lnc-DC的作用机制研究提供了参考。
lncRNA在皮肤系统中的研究才刚刚开始,本研究采用生物信息学的方法对lnc-DC的表达、转录调控因子和结合蛋白进行了分析,通过基础实验进行了初步验证。然而有关lnc-DC的生物学功能、调控因子与分子机制还需相关的实验做进一步的证明。本研究为lnc-DC的相关研究提供了参考,为其他lncRNA研究提供思路。