牛乳外泌体中miRNA的测序与分析
2024-01-03商静雯柴玉霞曹雪妍岳喜庆
商静雯,柴玉霞,曹雪妍,岳喜庆,杨 梅
(沈阳农业大学食品学院,辽宁 沈阳 110866)
牛乳是我国常见的乳制品之一,具有极高的营养价值和良好的功能特性。牛乳可作为新生儿的食物满足其营养需求并促进婴儿的生长发育,同时也是成人营养的重要来源[1-2]。牛乳主要由水、脂肪、磷脂、蛋白质、乳糖、灰分、非脂肪固体、干物质等化学成分组成[3]。牛乳中蛋白质含量丰富,甚至高于人乳蛋白质[4],酪蛋白作为牛乳蛋白中含量最高的蛋白质具有转运和抗氧化活性,在预防高血压和提高机体免疫力等方面具有重要意义[5]。牛乳中还含有许多功能活性成分,具有抑菌、调节肠道健康、抗癌、提高机体免疫力等作用,且容易被人体吸收利用[6]。因此牛乳作为婴幼儿配方乳粉与功能性补充剂的来源,应进行深入探究。
外泌体是内吞来源的双层纳米囊泡,在生理和病理条件下由多种哺乳动物细胞主动释放,直径约30~150 nm,通过携带细胞特异性货物蛋白质、脂质和RNA等进行细胞交流和物质传递[7-8]。外泌体广泛存在于生物体液中[9]。microRNA(miRNA)是外泌体的主要成分之一,作为调节因子能够抑制或降解mRNA转录从而控制基因表达[10]。乳液是外泌体miRNA的潜在丰富来源,包裹在乳外泌体中的miRNA在恶劣条件下稳定,乳外泌体为miRNA提供保护环境使其能免受降解,穿过肠道屏障到达血液循环以发挥重要作用[11]。迄今为止通过测序技术已经对多个物种乳源miRNA进行鉴定与分析,如小鼠[12]、牛[13]、熊猫[14]、猪[15]、马[16]、骆驼[17]、羊[18]等,并且多种miRNA在不同哺乳动物中表达保守[19]。目前对于牛乳的研究多集中在营养价值方面,对牛乳外泌体miRNA的探索仍处于初级阶段。
本研究采用密度梯度离心法获取牛乳外泌体,从形状、粒径大小对其进行鉴定。构建牛乳外泌体非编码小RNA(sRNA)基因文库,利用Illumina测序技术分析牛乳外泌体miRNA的种类与表达量,在该基础上筛选出高表达及差异表达的miRNA,并对其进行生物信息学分析,对牛乳miRNA的功能性深入了解,旨在为以牛乳为基料的婴幼儿配方乳粉和营养补充剂开发提供更好的理论支持。
1 材料与方法
1.1 材料与试剂
牛乳样品来源于中国辽宁沈阳辉山牧场的45 头荷斯坦奶牛,年龄为2~3 岁,均为首次分娩,体质量250~350 kg,在采样期间喂食相同饲料,收集到的牛乳样品采用干冰进行运输,最后用超低温冰箱(-80 ℃)进行贮存。在实验前将乳汁样本随机分为3 组,每组样本混合均匀,以消除个体差异。
HiSeq X试剂盒、TruseqTMsRNA样品制备试剂盒美国Illumina公司;6% Novex TBE凝胶、TRIzol试剂美国Invitrogen公司。
1.2 仪器与设备
FR-1000型凝胶成像分析系统 上海复日科技有限公司;JY600C型通用电泳仪 北京君意东方电泳设备有限公司;ND-2000型紫外-可见光分光光度计 上海基因公司;wonbio-96型高通量研磨仪 上海万柏生物科技有限公司;2100型生物分析仪 美国安捷伦科技有限公司;5424R型离心机 美国Eppendorf公司。
1.3 方法
1.3.1 乳外泌体的提取
取5 mL乳样1 500×g、4 ℃离10 min,以该条件重复2 次离心除去大部分脂肪和细胞碎片组织。吸取上清液,12 000×g、4 ℃离心30 min处理,用过滤器去除剩余的细胞碎片。吸取上清液12 000×g、4 ℃离心4 h处理,磷酸盐缓冲液(phosphate buffered saline,PBS)溶解沉淀物,100 000×g、4 ℃再次离心1 h处理,收集沉淀物质,使其分散于PBS后用透射电镜进行观察。
1.3.2 总RNA的提取、文库构建以及测序
在研磨仪中放入200 μL外泌体样品,使用液氮在50 Hz、10 s条件下研磨样品,添加1 000 μL预冷TRIzol试剂与样品混合均匀,再添加200 μL氯仿混匀,13 000×g、4 ℃离心15 min处理,使用移液枪将上清液转移到新离心管里面,添加1.2 倍无水乙醇,静置在-20 ℃条件下2~4 h,13 000×g、4 ℃离心5 min,吸出上清液,沉淀用1 000 μL体积分数75%乙醇溶液洗净,13 000×g、4 ℃离心5 min,收集沉淀物质即为RNA。
在测序前对提取的RNA进行质量评估,包括RNA浓度、纯度以及完整性。RNA浓度通过紫外-可见光分光光度计进行测量,RNA纯度与所受污染情况通过1%琼脂糖凝胶评估,最后使用Agilent 2100生物分析仪评估RNA完整性,符合高质量(OD260nm/OD280nm=1.8~2.2,OD260nm/OD230nm≥2.0,RNA完整值≥8,28S/18S≥1.0,>3 μg)标准的RNA样品才能被使用,然后构建测序文库[20-21]。
取3 μg RNA构建基因文库。用TruSeq sRNA样本制备试剂盒连接3′接头,使过量的3′端随机接头与随机引物杂交。连接5′末端,加入M-MuLV逆转录酶合成第1链。随后进行聚合酶链式反应扩增,使用8%聚丙烯酰胺凝胶纯化扩增产物,筛选出长度在140~160 bp范围内片段用于后续研究。评估RNA文库质量,聚类生成后,通过Illumina技术对样品进行测序。
Illumina测序完成后,统计sRNA片段的质量波动与碱基分布情况,分析碱基质量与碱基错误率。使用Fastp软件筛选出纯净序列,分析时去除低质量sRNA序列,统计剩余的sRNA序列数量、碱基分布情况,分析sRNA序列不同位点对碱基的偏好性。
1.3.3 sRNA的注释及序列特征分析
利用Rfam数据库(http://rfam.xfam.org/)对sRNA进行注释,统计比对成功sRNA序列的种类与数量,去除注释后的rRNA、小核RNA(snRNA)、转运RNA(tRNA)等非已知miRNA序列。利用bowtie(http://bowtiebio.sourceforge.net/index.shtml)对照参考基因数据库,比对mirBaSe(http://www.mirbase.org/),完全匹配的序列用于已知miRNA的鉴定与分析。
1.3.4 已知miRNA鉴定和新miRNA预测
在注释后的sRNA序列中筛选出已知miRNA。选取未成功注释的sRNA序列,使用miRDeep2软件探索其二级结构、Dicer酶裂解位点信息、最小自由能等特征,从而预测出新的miRNA。
1.4 统计与生物信息学分析
预测牛乳外泌体miRNA靶基因,对miRNA靶基因进行基因本体论(Gene Ontology,GO)功能注释分析,统计miRNA靶基因在细胞组成、分子功能、生物过程层面的功能注释情况。参考京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)数据库,对miRNA靶基因参与通路进行富集分析,统计靶基因显著富集通路及富集数量。采用Fisher检验统计通路富集的显著性,并通过Holm、Sidak、Bonferroni等方法降低假阳性率。
2 结果与分析
2.1 牛乳外泌体的表征
如图1所示,使用透射电子显微镜观察外泌体,牛乳外泌体是呈椭圆形的囊泡,其大小均匀、形态一致,直径约为100 nm,从前人[22-23]的研究结果可知,本研究的提取物符合外泌体的标准。
2.2 sRNA测序数据及长度分布
为了鉴定牛乳外泌体中miRNA,利用Illumina技术对牛乳外泌体中的sRNA进行测序,结果如表1所示,在牛乳外泌体中共鉴定到12 187 058 条原始序列,碱基数量为914 029 350 bp,Phred数值大于20的碱基占总体碱基的91.19%,Phred数值大于30的碱基占总体碱基的83.68%。对原始序列进行质量控制,除去含有带接头、低质量的序列,结果如表2所示,在牛乳中共鉴定到3 899 629 条纯净序列,占原始序列的32.00%,碱基数量为95 184 252 bp,占原始序列的10.41%,含N序列为460 条,鉴定到长度小于18 nt、大于32 nt的序列共有7 374 585 条。
表1 牛乳sRNA原始测序结果统计Table 1 Statistical analysis of original sequencing results of bovine milk sRNAs
表2 牛乳sRNA序列质量控制后信息统计Table 2 Statistical analysis of information after quality control of bovine milk sRNA sequences
明确sRNA长度分布情况有助于识别sRNA种类,如miRNA长度主要是21~22 nt,siRNA长度主要是24 nt。本研究在质量控制后对sRNA长度分布进行统计,结果如图2所示,牛乳纯净sRNA序列长度分布在18~29 nt之间,长度为28 nt的sRNA序列数量最多,占比为12.85%,牛乳外泌体中sRNA序列长度分布较为均匀。
图2 牛乳中sRNA序列长度分布Fig.2 sRNA sequence length distribution in bovine milk
当前体发育为成熟的miRNA时,miRNA会被Dicer酶特异性切割,因此成熟miRNA序列的碱基具有偏好性。miRNA的碱基偏好会影响miRNA的加工和作用机制,并能准确评估样品质量、基因文库构建情况与测序结果,因此本研究对sRNA序列碱基分布进行统计分析。如图3所示,不同sRNA的首位碱基显著偏好碱基G,其2、4、28、31、32号位点也显著偏好碱基G,其25、26、27号位点显著偏好碱基C。
2.3 sRNA序列的分类注释
使用最新的Rfam数据库对sRNA分类注释。如表3所示,在牛乳外泌体3 899 629 条纯净sRNA序列中,2 814 816 条序列与数据库比对成功,对比成功比例为72.18%。牛乳中sRNA序列包括rRNA、miRNA、核仁小RNA(snoRNAs)、snRNA、tRNA等,rRNA数量是2 459 893 条,所占比例最大,为63.08%。
表3 牛乳外泌体中sRNA序列比对结果Table 3 Comparison of sRNA sequences of exosomes in bovine milk
去除rRNA、snRNA、tRNA等非已知miRNA序列后,剩余的sRNA序列与参考数据库进行比对,将相同序列合并,共有367 822 条能够绘制到染色体上,192 375 条序列比对成功,占比为52.3%。
2.4 已知miRNA的鉴定及新miRNA预测
测序得到的sRNA序列映射到牛基因组,参考已有的基因组序列和数据库,将注释后的牛乳miRNA与miRBase数据库(http://www.mirbase.org/)中牛miRNA前体及成熟体序列进行比对,对牛乳外泌体miRNA进行鉴定。在牛乳外泌体中共鉴定到61 种成熟miRNA,总数量达2 037 条。由表4可知,牛乳外泌体中表达量大于5 000的已知miRNA共有27 种。虽然已知miRNA种类与总数量较高,但一些miRNA占据了miRNA库的主导地位,3 种表达最丰富的miRNA(let-7a、let-7b、miR-1246)数量占总数量的61.46%。
表4 牛乳外泌体中表达量大于5 000的已知miRNA序列统计Table 4 Statistics of known miRNA sequences with expression levels greater than 5 000 in bovine milk exosomes
在已知miRNA中let-7家族显著表达,let-7a、let-7b、let-7c、let-7d、let-7e、let-7f、let-7g均被检测出,特别是let-7a与let-7b,数量分别为641 条与329 条,表达量分别为323 900.96、166 245.58。同一家族成员的差异表达可能归因于其前体的调节[24]。let-7基因是一种高度保守的miRNA,功能与多种动物的细胞命运和发育进程有关[25-26]。Yun等[27]利用Illumina技术对人、牛、羊初乳与成熟乳miRNA进行分析,发现bta-let-7a-5p与bta-let-7f在牛初乳与成熟乳中共有且显著表达。通过对羊乳外泌体中miRNA测序发现let-7家族也显著表达[18],由此得出let-7家族可能与乳的基本功能、生理作用有关。
miRNA来源于具有标志性发夹结构的前体,利用此特点预测新miRNA种类与数量。将未比对上的sRNA与参考数据库比对,新miRNA序列鉴定出346 种,总数量为41 319 条,总表达量为1 422 233.67,有56 种miRNA序列数量超过100 个,新miRNA的预测丰富了牛miRNA序列基因库数据。这些新miRNA可能参与了与哺乳和免疫系统相关的途径,并能协助阐释这些途径,新miRNA生物学功能还需要进一步研究。
2.5 靶基因GO功能性分析
对miRNA靶基因进行GO功能显著性富集分析,可以明确miRNA靶基因的功能富集情况,进一步了解这些miRNA的功能作用。如图4所示,在生物过程层面已知miRNA与新miRNA均参与细胞过程、单一生物体过程、代谢过程、生物调节等条目,且这些条目占比排序一致,不同miRNA靶基因注释到GO条目所占比例也很相似。二者均在细胞过程条目占比最多,4 428 条已知miRNA注释到细胞过程条目,所占比例为16.8%,6 764 条新miRNA注释到细胞过程条目,所占比例为16.9%。
图4 牛乳miRNA靶基因在生物过程层面注释条目统计Fig.4 Statistics of annotation entries of milk miRNA target genes at the biological process level
如图5所示,在分子功能层面已知miRNA与新miRNA均注释到结合、催化活性、转运蛋白活性、信号传感器活性、分子传感器活性等条目。二者均在结合条目占比最多,3 693 条已知miRNA注释到结合条目,所占比例为47.72%,5 610 条新miRNA注释到结合条目,所占比例为47.35%。如图6所示,在细胞组成层面已知miRNA与新miRNA均注释到细胞、细胞部分、细胞器、膜、细胞器部分、大分子复合物等条目。二者均在细胞条目显著富集,4 639 条已知miRNA 注释到细胞条目,所占比例为20.42%,7 036 条新miRNA条注释到细胞条目,所占比例为20.3%。柴玉霞等[28]利用GO功能注释对驴乳与人乳miRNA进行分析,发现驴乳与人乳miRNA主要参与细胞、结合、催化活性、细胞代谢等过程。深入了解乳miRNA的功能可以为日后乳制品的深度研发提供技术支持。
图5 牛乳miRNA靶基因在分子功能层面注释条目统计Fig.5 Statistics of annotation entries of milk miRNA target genes at the molecular function level
图6 牛乳miRNA靶基因在细胞组成层面注释条目统计Fig.6 Statistics of annotation entries of milk miRNA target genes at the level of cell composition
2.6 靶基因通路富集分析
对牛乳外泌体mi RNA 靶基因进行通路富集分析,已知miRNA中共有10 341 个靶基因被注释到310 条通路中,17 条通路获得显著富集(P<0.05)(图7),为内吞作用(KEGG编号ko04144)、百日咳(ko05133)、溶酶体(ko04142)、MAPK信号通路(ko04010)、趋化因子信号通路(ko04062)、弓形体病(ko05145)、胰岛素抵抗(ko04931)、氨基酸的生物合成(ko01230)、幽门螺杆菌感染中的上皮细胞信号(ko05120)、志贺氏菌病(ko05131)、突触囊泡周期(ko04721)、TNF信号通路(ko04668)、精氨酸生物合成(ko00220)、糖尿病并发症中的AGE-RAGE信号通路(ko04933)、囊泡运输中的SNARE相互作用(ko04130)、PI3K-Akt信号通路(ko04151)、2-氧代羧酸代谢(ko01210)。有141 条miRNA靶基因富集到内吞作用通路,且该通路获得极显著富集(P<0.001)。内吞作用主要介导细胞外蛋白、微量营养素和跨膜细胞表面蛋白的摄取[29]。通过产生不同大小的膜结合载体(直径约5~60 nm),与早期内体融合控制细胞表面受体、通道和转运蛋白的数量,不仅能调节细胞对细胞外环境的敏感性,还可以介导突触传递后的突触囊泡循环[30-31]。已知miRNA序列的靶基因富集最多的通路是PI3K-Akt信号通路(ko04151),171 个miRNA序列靶基因富集到该通路。Rani等[32]对水牛乳外泌体miRNA进行KEGG通路分析,发现丰富的水牛乳miRNA靶基因参与PI3K-Akt信号通路。
图7 牛乳外泌体中已知miRNA显著富集通路Fig.7 Known miRNA enrichment pathways in bovine milk exosomes
15 991 个新miRNA靶基因被注释到311 条通路中,有8 条通路显著富集(P<0.05)(图8),为幽门螺杆菌感染的上皮细胞信号转导通路(ko05120)、趋化因子信号通路(ko04062)、糖尿病并发症中的AGE-RAGE信号通路(ko04933)、过氧化物酶体(ko04146)、溶酶体(ko04142)、内吞作用(ko04144)、沙门氏菌感染(ko04151)、百日咳(ko05133)。其中最显著富集的通路是幽门螺杆菌感染的上皮细胞信号转导通路(ko05120),61 个靶基因富集到该通路,幽门螺杆菌不仅能引起胃炎、腺体增生,还与癌症有关。癌症通路(ko05200)是新miRNA序列靶基因富集最多的通路,249 个miRNA序列靶基因富集到该通路。
图8 牛乳外泌体中新miRNA显著富集通路Fig.8 Novel miRNA enrichment pathways in bovine milk exosomes
牛乳外泌体已知miRNA与新miRNA靶基因主要与疾病、免疫通路、代谢、信号转导等通路相关。本研究已知miRNA与新miRNA靶基因均显著富集在百日咳(ko05133)、趋化因子信号通路(ko04062)、溶酶体(ko04142)、内吞作用(ko04144)等通路。百日咳是一种由百日咳杆菌引起的急性呼吸道疾病,传染速度快且恢复期长[33]。趋化因子是沿着浓度梯度触发细胞趋化的小细胞因子,可以由内皮细胞、心肌细胞、炎症细胞等细胞类型表达。它们可以在损伤组织中被检测到,通过调节白细胞向炎症部位的转移控制组织稳态[34-35]。溶酶体是具有酸性和降解管腔的末端细胞器,可以消化内吞、吞噬和自噬接收的大分子,主要通过与目标细胞器融合、与目标细胞器交换这两种途径发挥作用[36]。这些通路的发现表明牛乳外泌体miRNA在特定信号通路中发挥重要作用,不仅与牛自身生理状态息息相关,还可能在子代生长中具有重要意义。本研究结果为牛外泌体中miRNA的功能提供了新的见解,为以牛乳为基料开发婴儿配方乳粉和功能性乳制品提供了新的思路和理论基础。
3 结论
采用密度梯度离心法从牛乳中提取外泌体,通过透射电子显微镜观察到牛乳外泌体呈经典椭圆形。提取外泌体中的RNA并进行质量评价,利用Illumina测序技术对sRNA进行测序,共获得3 899 629 条纯净序列,分类注释后得出sRNA序列中含有rRNA、miRNA、snRNA、tRNA等,rRNA所占比例最大,为63.08%。sRNA序列的长度分布于18~32 nt,在28 nt长度处集中。统计sRNA碱基偏好性发现序列首位显著偏好碱基G,sRNA的2、4、28、31、32号位点也显著偏好碱基G。去除非miRNA之外的全部序列后,在牛外泌体中比对出61 种已知miRNA,预测到346 种新miRNA序列,已知miRNA中表达量占比前3的miRNA(let-7a、let-7b、miR-1246)数量占总数量的61.46%。生物信息学分析表明牛乳外泌体miRNA主要在细胞过程、单一生物体过程、代谢过程等生物过程发挥作用,主要构成细胞、细胞部分、细胞器等细胞组成,主要参与结合、催化活性、转运蛋白活性等分子功能。对miRNA靶基因进行KEGG通路富集分析,发现已知miRNA与新miRNA靶基因主要富集在百日咳、溶酶体、趋化因子信号通路、内吞作用等通路。本研究对牛乳外泌体中的miRNA种类和功能进行了深入研究,为以牛乳为基料的婴幼儿乳粉及功能性乳制品开发提供了理论基础。