室间隔缺损相关的长链非编码RNA TUC40- 的生物信息学及表达谱分析
2016-03-23李慧娟余章斌韩树萍刘雪华
李慧娟,蒋 犁,余章斌,韩树萍,刘雪华
1东南大学附属中大医院儿科,南京 210009 2南京医科大学附属南京妇幼保健院儿科,南京 210004
·论著·
室间隔缺损相关的长链非编码RNA TUC40- 的生物信息学及表达谱分析
李慧娟1,蒋犁1,余章斌2,韩树萍2,刘雪华2
1东南大学附属中大医院儿科,南京 2100092南京医科大学附属南京妇幼保健院儿科,南京 210004
摘要:目的探讨TUC40- 在人和小鼠心脏胚胎发育过程中是否发挥作用。方法应用生物信息学网站NCBI、UCSC、Uniprot及软件Clustal、DNAMAN、MEGA 6等,对TUC40- 及其编码片段uc.40- 进行分析;采用链特异性逆转录实时定量聚合酶链反应检测TUC40- 与其正义链产物Pbx1 mRNA在小鼠胚胎心脏发育关键时间点的表达谱。结果Uc.40- 于核苷酸序列、基因组位置及转录因子结合位点3个水平在人和小鼠具有保守性。TUC40- 与Pbx1 mRNA在小鼠心脏胚胎发育过程中呈现负性趋势。结论Uc.40- 的多水平保守性提示了TUC40- 功能的保守性。TUC40- 可能是通过调控Pbx1,在人和小鼠的心脏胚胎发育中发挥作用。
关键词:长链非编码RNA;生物信息学;保守性;表达谱;室间隔缺损
ActaAcadMedSin,2016,38(1):1-8
长链非编码RNA(long non-coding RNA,lncRNA)TUC40- 的全称是transcribed uc.40-,uc.40- 属于一系列被称作超保守片段(ultraconserved elements,UCEs)的DNA片段,这些片段的碱基序列在人、大鼠、小鼠这3个物种中是100%保守的,这种序列的高度保守性暗示了功能的保守性和重要性。本课题组前期收集了孕17周经胎儿心脏超声诊断室间隔缺损(室缺)的流产胎儿心脏标本,与同时间点正常流产标本,每组取3个标本混样,进行lncRNA差异表达谱分析。结果显示,在过表达的lncRNA中,uc.40- 在所有UCEs中过表达的倍数最高,为4.87倍,而其他UCEs的过表达倍数波动于2.11~3.83倍。此外,uc.40- 位于Pbx1的反义链上,以往研究显示,Pbx1敲除小鼠可出现室缺表型[1-2]。uc.40- 与Pbx1呈现正反义关系,正反义基因通常有相互作用,而后者与室缺相关。因此本研究选择uc.40- 为研究对象,拟通过对TUC40- 和uc.40- 进行生物信息学分析,检测Pbx1/TUC40- 在小鼠胚胎发育过程中的表达谱,阐述TUC40- 与人和小鼠胚胎心脏发育的潜在关系。
材料和方法
序列保守性分析——进化树构建进化树构建流程:(1)选择常用于构建进化树的物种,包括:灵长类(人、黑猩猩)、啮齿类(大鼠、小鼠)、其他哺乳动物类(牛、猪、大象)、其他脊柱类(鸡)、两栖类(非洲爪蟾、热带爪蟾)及鱼类(斑马鱼、大长须鲸)共12个物种(表1);(2)在NCBI Blast(http://blast. ncbi.nlm.nih.gov/Blast.cgi)中进行比对,将所得序列及人uc.40- 序列以fasta格式保存于txt文档中;(3)将上述序列导入MEGA 6,利用CLUSTAL X进行多重比对,比对结果利用DNAMAN拼接制图;(4)选择最大简约法(maximum-parsimony,MP;适合用于相似度较高的序列)构建uc.40- 的进化树,采用bootstrap检验法,次数为1000次。
表 1 进化树包含的物种及uc.40- 序列在各个基因组中的比对结果
a:所示两个物种比对结果显示为uc.40,说明这两个物种基因组中已有超保守区域的注释;b:Un表示数据库中显示染色体未知
a:represent that the blast results feedback as uc.40,indicating that the UCE annotation already exist in the two species;b:Un means that the chromosome location is not for sure yet
基因组位置比对采用uc.40-序列在NCBI中应用Blast进行序列比对,获得其在人和小鼠基因组中的位置。
转录因子结合位点分析在UCSC数据库中,利用HMR conserved transcription factor binding site(http://genome.ucsc.edu/)数据库,查找在人和小鼠中保守的转录因子结合位点及转录因子;在Uniprot数据库中(http://www.uniprot.org/)查找转录因子的功能。
TUC40-、Pbx1表达谱检测因小鼠胚胎心脏发育于胚胎10.5 d(E10.5)时完成环化,E14.5时四腔心完全形成,故选择在E10.5、E14.5及生后(neo)3个时间点进行实验。取心脏及肺、脑、肝、胃5个脏器。在E10.5,由于脏器体积小、取材困难,这个时间点心脏和脑的样本数量分别有3个(每个样本由1只孕鼠所有胎鼠的心或脑混合);此外在这个时间点由于肺、胃、肝在实验用光镜下不可见,即便设法取材也难以满足后续实验要求,因此没有取材进行实验。在E14.5,每种脏器的数量为4~6个(每个样本由1只孕鼠所有胎鼠的相应脏器混合)。在neo,每种脏器数量为4~6个,并且来源于单一新生小鼠(1只新生小鼠的某种脏器足够进行后续实验)。
RNA提取:采用Trizol(Life Technologies,美国)法提取总RNA。动物标本取材、清洗后立即加入1 ml Trizol(单个胚胎某个脏器的标本量不足时,将同孕母胎鼠的该脏器混合);超声匀浆机(Uibracell,Sonics and materials,美国)匀浆后加入200 μl三氯甲烷,剧烈摇晃震动15 s以上,室温静止15 min后,12 000×g4℃离心15 min;吸出上清,加入等体积于上清的异丙醇,翻转混匀,稍静置后予12 000×g4℃离心10 min,倒弃上清;加入1 ml 75%冰浴乙醇,尽量吹散团块,7500×g4℃离心5 min(该步骤重复2次);倒掉上清,纸上沥干,加入适量焦碳酸二乙酯(diethy pyrocarbonate,DEPC)水溶解,然后测定RNA浓度及纯度。
链特异性逆转录:逆转录试剂盒选用RevertAid Reverse Transcriptase(Thermo Scientific,美国)。采用Primer 3(http://primer3.ut.ee/)在线引物设计软件,从目标序列的3’端设计,TUC40-、Pbx1、GAPDH的strand-specific引物分别为5’-ACAGCCCCTCAGCTT- GTTAG- 3’、5’-GTCTGTGGGCTCCTCTTCTT- 3’、5’-TC AAGAGAGTAGGGAG GGCT- 3’。先将底物混匀:1 μg模板RNA,2 μl strand-specific primer,DEPC水补齐至12.5 μl;然后继续加入试剂:4 μl反应缓冲液,0.5 μl RNA酶抑制剂,2 μl脱氧核糖核苷三磷酸混合物,1 μl聚合酶。反应流程为:42℃ 60 min,70℃ 10 min。以上反应所得即为TUC40-、Pbx1及GAPDH相应的cDNA模板,用于后续实验[3]。
实时定量PCR:试剂盒采用Power SYBR®Green PCR Master Mix(Life Technologies,美国)。TUC40-、Pbx1、GAPDH的PCR引物分别为5’-TCCTACCAGACTCCCAAGCA,3’-TCTAACAAGCTGAGGGGCTG;5’-CATC GGGGACATTTTACAGCA,3’-CTCCTCTTCTTGGGCTCCC;5’-CTGCGACTTCAACAGCAACT,3’-GAGTTGGGATAGG GCCTCTC。反应体系为预混液(SYBR Green PCR Master Mix)12.5 μl,上游引物0.5 μl,下游引物0.5 μl,cDNA模板1 μl,DEPC水10.5 μl,共20 μl。反应流程为:95℃ 10 min;95℃ 15 s,60℃ 1 min,循环40次。通过熔解曲线及电泳结果确认产物是否正确。相对表达量通过扩增产物所需的循环次数(cycle threshold,CT)值来计算(2-△CT法),其中△CT=CTsample-CTGAPDH。
琼脂糖凝胶电泳:用琼脂糖粉(Biowest,西班牙)制成浓度为1.5%的凝胶(DNA分离范围为0.2~4 kb),将1 μl PCR产物与4 μl上样缓冲液(含核酸染料Gelred,Generay,中国)混匀后加入凝胶的点样孔中,并同时上样DNA marker(含核酸染料Gelred,Generay,中国)。电泳电压为60V,时间为45 min。电泳完毕后在紫外灯下显影。
统计学处理采用SPSS 20.0统计软件,数据以均数±标准差表示,两组间比较采用t检验,多组间比较采用单因素方差分析,组间两两比较采用LSD法,P<0.05为差异有统计学意义。
结果
生物信息学查询结果进化树结果显示,人和小鼠、大长须鲸、大鼠、黑猩猩的uc.40- 之间没有进化距离,分支点处的支持度基本在90以上(图1)。
Uc.40- 在人基因组中位于chr1:164,668,725- 164,668,971(GRCh38/hg19);在小鼠基因组中位于chr1:168,327,865- 168,328,111(GRCm38.p3,C57BL/6J)。Uc.40-(转录方向为3’到5’)在两个物种中全长均为247nt,对应着Pbx1(转录方向为5’到3’)的第2个内含子(图2)。
图左下角的标尺长度代表进化距离为1个核苷酸,uc.40- 在物种之间的进化距离为树枝(横线条)长度之差,节点处(树枝分叉点)的数字代表“支持度”,通过步展法(Bootstrap)计算得来,数字取向为50~100,数字越大表示越支持分支形成
Scale length(left corner) represents one nucleotide/site and difference between the branches(horizontal lines) represents the evolutionary distance between species, numbers under the node(branch bifurcation point) represent the support rate which is calculated by Bootstrap, the numbers vary from 50 to 100,with the higher numbers meaning stronger support for branch formation
图1uc.40- 多重序列比对及进化树
Fig1Multiple alignment of uc.40- and the phylogenetic tree
表达谱检测结果在E10.5时间点,TUC40- 在心脏及脑中的表达量差异无统计学意义(P>0.05)。在E14.5时间点,TUC40- 在5个脏器中的表达量差异有统计学意义(P<0.01);其中,TUC40- 在脑与其他各脏器中的表达量差异均有统计学意义(P<0.01),在肝脏与胃中的表达量差异也有统计学意义(P<0.05)。在neo时间点,TUC40- 在5个脏器中的表达量差异有统计学意义(P<0.01);其中,在心脏与脑、肺、胃的表达量差异均有统计学意义(P<0.01),在脑与肝脏、胃的表达量差异均有统计学意义(P<0.01),在肝脏与肺、胃的表达量差异均有统计学意义(P<0.01)(图4A)。
在小鼠胚胎心脏发育过程中,TUC40- 在E10.5与neo的表达量差异有统计学意义(P<0.05),呈下降趋势,随着TUC40- 表达量的下降,Pbx1呈上升趋势(E10.5比E14.5,P<0.01;E10.5比neo,P<0.01;E14.5比neo,P<0.05;3组间,P<0.01)。在脑中,尽管TUC40- 的表达量在E10.5与E14.5间差异有统计学意义(P<0.05),且Pbx1在E10.5与E14.5(P<0.05)、E10.5与neo(P<0.01)及3组间(P<0.01)差异有统计学意义,但整体并没有明显的正性或负性变化趋势。在肝脏和胃中,无论TUC40- 还是Pbx1,在E14.5和neo间的表达量差异均没有统计学意义(P>0.05)。在肺中,仅Pbx1的表达量在E14.5和neo间差异有统计学意义(P<0.05),TUC40- 的表达量没有明显变化(图4B)。
A.uc.40- 序列在人和小鼠基因组的比对图;B.相应的示意图
A. alignment picture of uc.40- in human and mouse genomes;B. the schematic diagram
图2uc.40- 在人和小鼠基因组的比对结果
Fig2Blast results of uc.40- in human and mouse genomes
图3保守的转录因子结合位点及相应的转录因子
Fig3Conserved transcription factor(TF) binding sites and the corresponding TFs
aP<0.05,bP<0.01
A.3个时间点及不同脏器中TUC40- 及Pbx1的相对表达量;B.胚胎心脏RNA经逆转录及PCR后所得产物的琼脂糖凝胶电泳条带,第1、2、3泳道分别为TUC40-、Pbx1、GAPDH,第4泳道为随机引物逆转录后生成的GAPDH(用于对照产物的准确性),第6泳道为DNA marker
A. expression profile of three time points and the five organs;B. the AGE of PCR product of embryonic heart, lanes 1,2,and 3 represent TUC40-,Pbx1,and GAPDH,respectively,lane 4 represents GAPDH generated from random primers initiated reverse transcription(to show the accuracy of the product),and lane 6 is the DNA marker
图4表达谱及PCR产物琼脂糖凝胶电泳
Fig4Expression profile of TUC40- /Pbx1 and the agarose gel electrophoresis(AGE) of PCR product
讨论
LncRNA是一类编码蛋白质能力弱、长度大于200nt的非编码RNA(non-coding RNA,ncRNA)[4]。UCEs包含481条在人、大鼠、小鼠基因组中100%保守的DNA片段(http://users.soe.ucsc.edu/~jill/ultra. html,http://users.soe.ucsc.edu/~jill/ultra.watson.fa)[5]。 UCEs(包含在ultraconserved regions,UCRs)的转录产物称为transcribed-UCRs,即T-UCRs,这些转录产物组成了超保守lncRNA数据库[6]。生物信息学分析结果显示,lncRNA的保守性相对于microRNA等并不强,因此T-UCRs是lncRNA中非常特殊的一部分[7]。
20世纪60年代以来,随着分子遗传学资料的迅速积累,分子进化逐渐成为生物信息学的重要组成部分。通过比较物种间某一个生物分子的变化,也就是进化分析,来研究其演变,有助于理解其功能[8]。本研究中的多重序列比对及进化树基本能够反映uc.40-在物种之间的高度保守性,且uc.40- 在人及小鼠的基因组位置也相同。Basu等[7]利用小鼠的lncRNA基因组表达谱,在鱼中找到了相应的基因组保守区域,进一步分析发现,这些保守区域周围的蛋白编码基因在GO分析中呈现出相似的作用。与之类似的是,互为反义的一对lncRNA Pldi-AK158810在进化上出现于哺乳动物这一分支中,并且这一基因区域(包括其两端的基因片段)在哺乳动物当中是保守的[9]。结合上述两个例子笔者认为,相同的基因组位置暗示着TUC40-在人和小鼠可能发挥相似的作用。
除外核苷酸序列和基因组位置,uc.40- 在两个物种能够结合的与心脏发育相关的转录因子也是保守的。综合上述不同层次的保守性判断,笔者猜测,与人室缺相关的TUC40- 可能在小鼠胚胎心脏发育过程中也发挥了作用。
LncRNA种类繁多,其中一类是反义lncRNA(antisense lncRNA),即天然反义转录物。Antisense lncRNA能通过影响其正义链基因的转录活性或其产物来发挥作用[10],如著名的BACE1-AS就是通过与其sense基因BACE1(编码致阿尔茨海默病的关键酶)的mRNA形成复合物,增加BACE1 mRNA的稳定性,从而加速阿尔茨海默病的发生发展[11]。
本研究表达谱检测结果显示,TUC40- 在小鼠胚胎发育过程中的表达具有时空特异性,尽管TUC40- 并非心脏特异性表达,且在心脏中的表达量并非最高,但是TUC40- 在小鼠胚心发育过程中呈现下降趋势,这在其他脏器中并没有出现,并且Pbx1/TUC40- 在小鼠胚胎心脏发育过程中呈现负性关系。因此结合Pbx1与室缺的相关性,笔者认为,TUC40- 可能通过调控Pbx1,进而影响小鼠胚心发育。
本研究存在以下不足:(1)文中进化树的构建依据的是比对所得的片段,而非已证实的完整编码lncRNA的片段,故而这个进化树尚不完善;(2)TUC40- 与小鼠心脏发育的相关性只有表达谱这一支持依据,尚没有功能学实验证实。
综上,本研究作为一个探索性实验,通过保守性分析这个桥梁,把人和小鼠的TUC40- 联系起来,推测TUC40- 可能与人和小鼠的胚胎心脏发育及室缺发生有关,并可能是通过调控Pbx1来实现的,但以上推测尚需要进一步功能学实验证明。
参考文献
[1]Stankunas K,Shang C,Twu KY,et al. Pbx/Meis deficiencies demonstrate multigenetic origins of congenital heart disease[J]. Circ Res,2008,103(7):702- 709.
[2]Chang CP,Stankunas K,Shang C,et al. Pbx1 functions in distinct regulatory networks to pattern the great arteries and cardiac outflow tract[J]. Development,2008,135(21):3577- 3586.
[3]Ho ECH,Donaldson ME,Saville BJ. Detection of antisense RNA transcripts by strand-specific RT-PCR[J]. Methods Mol Biol,2010,630:125- 138.
[4]Kung JTY,Colognori D,Lee JT. Long noncoding RNAs:past,present,and future[J]. Genetics,2013,193(3):651- 669.
[5]Bejerano G,Pheasant M,Makunin I,et al. Ultraconserved elements in the human genome[J]. Science,2004,304(5675):1321- 1325.
[6]Calin GA,Liu C,Ferracin M,et al. Ultraconserved regions encoding ncRNAs are altered in human leukemias and carcinomas[J]. Cancer Cell,2007,12(3):215- 229.
[7]Basu S,Muller F,Sanges R. Examples of sequence conservation analyses capture a subset of mouse long non-coding RNAs sharing homology with fish conserved genomic elements[J]. BMC Bioinformatics,2013,14 (Suppl 7):S14.
[8]Belyi VA,Ak P,Markert E,et al. The origins and evolution of the p53 family of genes[J]. Cold Spring Harb Perspect Biol,2010,2(6):a001198. doi:10.1101/cshperspect.a001198.
[9]Dai Y,Li S,Dong X,et al. The de novo sequence origin of two long non-coding genes from an inter-genic region[J]. BMC Genomics,2013,14(Suppl 8):S6. doi:10.1186/1471- 2164- 14-S8-S6.
[10]Werner A. Biological functions of natural antisense transcripts[J]. BMC Biol,2013,11:31. doi:10.1186/1741- 7007- 11- 3.
[11]Faghihi MA,Modarresi F,Khalil AM,et al. Expression of a noncoding RNA is elevated in Alzheimer’s disease and drives rapid feed-forward regulation of beta-secretase[J]. Nat Med,2008, 14(7):723- 730.
Bioinformatic and Expression Analysis of Ventricular Septal Defect-associated Long Non-coding RNA TUC40-
LI Hui-juan1,JIANG Li1,YU Zhang-bin2,HAN Shu-ping2,LIU Xue-hua2
1Department of Pediatrics,Zhongda Hospital,Southeast University,Nanjing 210009,China2Department of Pediatrics,Nanjing Maternity and Child Health Care Hospital, Nanjing Medical University,Nanjing 210004,China Corresponding author:YU Zhang-binTel/Fax:025- 52226561,E-mail:zhangbinyu@njmu.edu.cn
ABSTRACT:ObjectiveTo explore the potential role of TUC40- in human and mouse embryonic heart development. MethodsBioinformatics databases including NCBI,UCSC,and Uniprot and software including Clustal,DNAMAN,and MEGA 6 were used to collect information of TUC40- and uc.40-. The expression profile at key time points of heart development was investigated by strand-specific quantitative real time polymerase chain reaction. ResultsUc.40- was conservative in sequence,genomic location,and transcription factor binding sites across human and mouse. Pbx1/TUC40- showed negative trend during embryonic mouse heart maturation. ConclusionsVarious levels of conservation of uc.40- suggests similar functions of TUC40- in these two species. TUC40- may play its roles in human and mouse embryonic heart development by regulating Pbx1.
Key words:long non-coding RNA;bioinformatics;conservation;expression profile;ventricular septal defect
(收稿日期:2015- 03- 23)
DOI:10.3881/j.issn.1000- 503X.2016.01.001
中图分类号:Q752
文献标志码:A
文章编号:1000- 503X(2016)01- 0001- 08
通信作者:余章斌电话/传真:025- 52226561,电子邮件:zhangbinyu@njmu.edu.cn
基金项目:国家自然科学基金(81470376)、江苏省自然科学基金(BK20141077)和南京市医学科技发展资金(YKK14123)Supported by the National Natural Sciences Foundation of China(81470376),the Natural Science Foundation of Jiangsu Province(BK20141077),and the Medicine and Technology Development Foundation of Nanjing(YKK14123)