野生小鼠群体和实验室小鼠品系线粒体基因组序列的比较分析*
2022-03-02靖美东王有铭姚珂莹
靖美东,王有铭,姚珂莹,黄 玲*
(南通大学生命科学学院基础生物学教研室,南通 226019)
小鼠包含3 个主要的亚种,分别是Mus musculus musculus(M.m.musculus)、M.m.castaneus 和M.m.domesticus[1-2]。现在,小鼠野生群体和几千个实验室品系已成为生物学和生物医学研究中最广泛使用的模式动物[3-4]。经典的小鼠实验室品系培育过程中发生了不同亚种间的交配,导致其基因组混有不同祖先基因组成分[5]。越来越多基因组数据的发布[6-7]让研究者可以比较野生群体和实验室品系基因组的差异,从而筛选和确定与复杂性状相关的功能基因。已有的核基因序列比较发现,由于品系构建过程中使用的奠基群体很小,实验室品系所含的遗传变异只是野生群体的一小部分[8]。对经典实验室自交系及野生衍生自交系线粒体基因组的比较发现:经典实验室自交系的线粒体基因组具有更快地积累替代突变[9],且其蛋白质编码基因的纯化选择有放松趋势[5]。实验室品系与野生衍生品系之间在基因组演化和遗传变异水平上的差异提示:仅针对实验室品系的研究可能会遗漏自然条件下复杂性状相关的重要等位基因,将阻碍研究成果向人类生物医学研究的转移[10]。野生小鼠群体是实验室品系的后备遗传资源库,是生物学和生物医学研究中宝贵的补充实验资源[11]。
线粒体基因组因其母系遗传、没有广泛的重组及较快的核苷酸替代率等特点而被广泛应用于不同类群的系统发育研究[12]。比起单个线粒体基因,线粒体全基因组序列包含更多的演化历史信息,能极大降低随机误差和非同源相似情况对结果的影响。基于线粒体基因组数据的系统发育研究可以更准确地分析小鼠实验室品系的母系来源及其与野生群体的关系[12]。而且,人类和小鼠群体中多种功能失调疾病都与线粒体基因组缺陷有密切关系[13],所以线粒体基因组的研究越来越受重视。虽然已有学者[5,9]对少数经典实验室自交系和野生衍生品系的线粒体基因组进行了初步的比较研究,但是实验室品系与野生小鼠群体的线粒体基因组差异依然不清楚。
本研究对20 只来自中国的野生小鼠样品进行了线粒体全基因组测序,并结合已发布的来自其他国家的野生小鼠样品以及实验室个体的线粒体基因组数据,对18 个国家192 只野生小鼠以及126 只实验室小鼠的线粒体全基因组序列进行比较分析,揭示了野生群体与实验室品系间线粒体基因组的演化及遗传差异。
1 材料与方法
1.1 小鼠样品来源与线粒体基因组扩增 对来自我国18 个地区(漠河、和丰、双辽、乌鲁木齐、朝阳、包头、喀左、大同、延安、临沂、长治、汉中、武汉、萍乡、昆明、台湾、南宁和广州)的20 只小鼠进行线粒体基因组测序。标本鉴定、取材、DNA 提取和聚合酶链式反应(polymerase chain reaction,PCR)扩增方法参照文献[14]的处理方式。用34 对引物对线粒体全基因组进行PCR 扩增,扩增片段长度约1 500 bp,片段间至少有200 bp 的相互重叠。PCR 扩增完成后进行琼脂糖电泳检测,后送至上海生工生物工程有限公司进行DNA 测序。
1.2 序列组装、注释和分析 采用DNASTAR 软件包(Lasergene version 7.1;Madison,WI,USA)进行线粒体基因组组装和注释,注释用小鼠参考序列是NC_005089。软件tRNAscan-SE v1.12(http://lowelab.ucsc.edu/tRNAscan-SE/)进行tRNA 的鉴别。序列组装后投递至GenBank(接受号为:KF781645-KF781664)。
1.3 公共数据库线粒体基因组数据的组装 来自公共数据库的172 只小鼠(71 只M.m.musculus、51 只M.m.castaneus、50 只M.m.domesticus)线粒体基因组被下载,用软件NOVOplasty 2.(https://github.com/ndierckx/NOVOPlasty)在Linux 系统中进行组装。126 只实验室小鼠(8 只M.m.musculus、4 只M.m.castaneus 和114 只M.m.domesticus)的线粒体数据从公共数据库下载,用于后续的比较分析。
1.4 系统发育分析 192 只野生小鼠的线粒体基因组序列和126 只实验室小鼠线粒体基因组的单倍型序列进行系统发育分析,分析中Mus spretus(NC_025952)用作外群,采用贝叶斯法和最大似然法两种方法进行系统树构建。前者分析软件为Mr-Bayes 3.2.7a[15],后 者 为PhyML 3.0(http://www.atgcmontpellier.fr/phyml/)[16]。jModelTest 2.1.7[17]进行最佳模型的选择,GTR+I+G 模式为最佳模型。
1.5 基因组多态性、遗传分化和进化 选择压力分析小鼠3 个亚种的野生群体及实验室群体的线粒体基因组核苷酸多样性(π)、单倍型多样性(Hd)及变异位点数(S)分别进行计算。Mega X[18]用来计算亚种或群体之间的遗传距离。Arlequin v 3.5.2.2[19]用来计算遗传固定指数(Fst)。蛋白质编码基因的三位密码子碱基组成和密码子使用情况也用Mega X[18]计算。进化选择压力分析的指标参数(非同义突变率:Ka,同义突率:Ks 和两者比率Ka/Ks)用软件Arlequin v 3.5.2.2[19]计算。
2 结果
2.1 系统发育关系 两种不同的系统树构建方法得到了具有相同拓扑结构的结果(图1),树中每一分支的支持值都>0.7,说明结果可靠。系统树中,所有样品清楚地聚为3 支(K2P 距离为0.02)。其中一支包括71 个M.m.musculus 亚种的野生个体序列、7 个实验室品系序列单倍型(Hap 1~Hap 7)和12 个来自中国北方地区(漠河、和丰、双辽、乌鲁木齐、朝阳、包头、喀左、大同、临沂、雅安、长治和汉中)的个体序列。另一支包含53 个M.m.musculus 亚种的野生个体序列、2 个实验室品系序列单倍型(Hap 8~Hap 9)和8 个来自中国南方地区(武汉、萍乡、昆明、台湾、南宁和广州)的个体序列。第3 支包含48 个M.m.musculus 亚种的野生个体序列和52 个实验室品系序列单倍型(Hap 10~Hap 61)。
图1 小鼠线粒体基因组系统发育树
2.2 线粒体基因组遗传多态性 分别计算的野生群体和实验室群体的线粒体全基因组及不同功能类型。序列的π、Hd 和S 结果显示,线粒体基因组不同功能类型的序列多态性水平显著不同(表1)。在野生群体中,线粒体基因组非编码区(CR)的多态性最高,而rRNA 基因的多态性最低;总体上,M.m.castaneus亚种的π 最高,M.m.musculus 和M.m.domesticus 的π 水平相近;M.m.musculus 亚种的Hd 最高。
表1 小鼠野生群体和实验室品系线粒体基因组遗传多态性比较
2.3 遗传分歧 小鼠不同亚种间的K2P 距离为0.022~0.025,野生群体和实验室群体间数值差异不大(表2)。亚种内,野生群体和实验室群体间的K2P距离分为0.005(M.m.domesticus)、0.006(M.m.musculus)和0.007(M.m.castaneus)。不同亚种的野生群体间Fst值分别是0.687(castaneus/musculus)、0.779(domesticus/musculus)和0.722(domesticus/castaneus)(表2),同样支持M.m.musculus 和M.m.castaneus 之间更近的亲缘关系。不同亚种的实验室群体之间的Fst 值显著大于野生群体间(castaneus/musculus:0.910;domesticus/musculus:0.912;domesticus/castaneus:0.916)。亚种内,野生群体和实验室群体间的Fst 值分别为0.117(M.m.musculus)、0.189(M.m.castaneus)和0.231(M.m.domesticus)。
表2 小鼠野生群体与实验室品系线粒体基因组K2P 遗传距离(对角线以下)和Fst 值(对角线以上)
进一步分析显示,线粒体基因组不同功能分类序列(蛋白质编码基因、RNA 基因、非编码区序列)在野生群体和实验室群体之间的分歧水平显著不同,而且3 个亚种的分析结果趋势一致(表3)。蛋白质编码基因和RNA 基因积累了分歧水平较高,而非编码区序列积累的分歧很小。
表3 小鼠野生群体与实验室品系线粒体基因组不同功能类型序列间的Fst 值
2.4 线粒体蛋白质编码基因的核苷酸组成、密码子使用和演化模式 对于相同的蛋白质编码基因,第1 位和第2 位密码子的碱基组成在所有6 个分析组中都相同或相近。有4 个基因(ND1、ND2、ND4L 和Cytb)的第3 位密码子碱基含量在不同亚种之间差异明显(附录)。Atp8 基因非常特殊,其第1 位码子(7.0%~7.4%)和第2 位密码子(4.4%)的鸟嘌呤含量特别低。ND6 基因是唯一在轻链上表达的蛋白质编码基因,其碱基组成独特:第1 位密码子的鸟嘌呤含量(1.2%~1.8%)极低;第1 位密码子(49.6%~50.4%)和第2 位密码子(46.8%~47.6%)腺嘌呤的含量非常高。
野生群体中,3 个亚种的同义密码子使用频率差异小,氨基酸使用频率非常相近(图2)。使用频率较高的氨基酸为亮氨酸(Leu)、异亮氨酸(Ile)、丝氨酸(Ser)和苏氨酸(Thr)。在亚种内,野生群体和实验室群体的同义密码子使用频率差异明显,导致氨基酸使用频率的差异显著。有趣的是,3 个亚种的实验室群体密码子使用频率变化趋势一致(图2)。
图2 小鼠3 个亚种12 个线粒体基因组蛋白质编码基因的密码子使用频率
为了检测由重链编码的12 个蛋白质编码基因的演化模式,以M.spretus(NC_025952)为外群计算了Ka、Ks 和Ka/Ks(附录)。总体上,所有分析组12 个基因的Ka/Ks 值均<0.3,甚至绝大多数的值均<0.05。
3 讨论
系统发育树的结果表明:来自中国北方的12 只小鼠样本属于M.m.musculus 亚种,而来自中国南方的8 只小鼠样本属于M.m.castaneus 亚种。该结果与之前中国小鼠亚种组成及分布研究的结论[14]一致。在M.m.musculus 分支中,中国小鼠样本的分布特征支持该亚种从中亚经由中国西北边境进入中国境内,并逐渐向东、向南扩散[14,20]。之前根据线粒体非编码区序列构建的系统树[14]和本文基于线粒体全基因组序列构建的系统树(图1)都提示:台湾的小鼠很可能由不同地区的祖先(如中国大陆地区、东南亚地区)经不同的路线迁入。需要更多来自台湾地区的小鼠基因组数据进一步确定该结论。由系统树确定的小鼠实验室品系的母系来源与公共基因库GenBank中的记录结果一致:绝大多数的品系都是M.m.domesticus 母系祖先的后代(图1)。同时,本研究结果也支持M.m.musculus 和M.m.castaneus 两个亚种之间更近的亲缘关系[21-22]。
由于样本数量增加,本研究检测到M.m.castaneus和M.m.musculus 线粒体基因组的π 比之前的研究结果[20]显著提高。已知小鼠实验室品系的基因组是不同亚种祖先基因组的混合[8,10]。本研究根据线粒体基因组数据构建的系统树(图1)和根据不同类型的单分子标记研究结果[10,23]都表明:实验室品系培育中最主要的贡献者是M.m.domesticus 亚种,之后是M.m.musculus 亚种,而M.m.castaneus 亚种涉及较少。实验室小鼠的遗传变异水平显著低于野生群体(表1),与之前的报道[10,24]一致。所以,仅针对实验室品系进行的遗传学研究确实会遗漏与复杂性状相关的重要遗传信息,野生小鼠群体应该作为生物医学研究的重要补充资源。K2P 距离和Fst 是用来衡量种或亚种内不同群体间遗传分歧的常用参数。根据对Fst值的分类定义[25],以上结果说明小鼠野生群体和实验室群体之间已经积累了显著的遗传分歧。
实验室环境和自然环境的选择压力不同,功能序列(蛋白质编码基因和RNA 基因)要比非编码区序列承受更大的选择压力[26],它们更可能在不同的选择压力下通过固定不同的碱基突变而积累遗传差异。
碱基组成是基因组DNA 的重要特征,碱基突变和突变恢复之间的平衡是核苷酸频率的决定因素,而G/C 碱基比率能反映DNA 序列的总体突变趋势[27]。自然选择压力和突变压力都会影响第1 位和第2 位密码子的碱基组成;第3 位密码子的突变对翻译后氨基酸种类的影响很小,所以受自然选择压力较小,只有突变压力对其发挥作用[9]。
线粒体基因组中12 个重链(H 链)表达的蛋白质编码基因的碱基组成表现出哺乳动物和鸟类线粒体基因组蛋白质编码基因的一般特征。例如,第2 位密码子胸腺嘧啶(T)的含量在3 位密码子中是最高的;第3 位密码子腺嘌呤(A)的含量在3 位密码子中是最高的;第3 位密码子鸟嘌呤(G)的含量在3 位密码子中是最低的;3 位密码子中腺嘌呤和胸腺嘧啶的含量之和(A+T)总是大于胞嘧啶和鸟嘌呤含量之和(C+G)[28]。一个基因的密码子频率与同义密码子的使用频率紧密相关。在演化过程中,同一个物种不同地理群体或不同物种的相同基因可能要承受不同突变压力或自然选择压力[29]。小鼠线粒体基因组中12 个由重链表达的蛋白质编码基因共包含3 626 个密码子(不含终止密码子)。野生群体中,3 个亚种的同义密码子使用频率差异较小,氨基酸使用频率非常相近。在每个亚种内,野生群体和实验室群体的同义密码子使用频率差异明显,导致氨基酸使用频率的显著差异。而且,3 个亚种的实验室群体密码子使用频率变化趋势一致。11 种氨基酸(苯丙氨酸-Phe、亮氨酸-Leu*、异亮氨酸-Ile*、蛋氨酸-Met、缬氨酸-Val、苏氨酸-Thr、丙氨酸-Ala、天冬氨酸-Asn*、半胱氨酸-Cys、精氨酸-Arg 和甘氨酸-Gly)的使用频率在实验室群体中是上升的,而8 种氨基酸(丝氨酸-Ser、脯氨酸-Pro、络氨酸-Tyr*、组氨酸-His*、谷氨酰胺-Gln*、天冬氨酸-Asp、谷氨酸-Glu 和色氨酸-Trp)的使用频率在实验室群体中是下降的。星号标示的氨基酸使用量变化>30。当针对不同的实验室单倍型序列分别计算时,结果没有明显变化。以上结果表明:来自实验室环境和自然环境的不同选择压力明显地影响了线粒体基因组中蛋白质编码基因的密码子使用频率。
选择压力分析(Ka/Ks)表明这些基因在野生群体和实验室群体中都经受纯化选择的影响。对每一个基因来说,3 个亚种的Ka、Ks 和Ka/Ks 值都不同,提示亚种特异性的演化过程。每个基因的相关数值在野生群体中变化范围较大,但是来自相同地区的序列所得数值相同或相近;实验室品系基因序列的数值比较一致,而且与最近亲缘祖先的值非常相近(图1)。相对于野生亲缘祖先,部分实验室单倍型序列的Ka、Ks 和Ka/Ks 值表现出不同程度的上升或下降,提示出所受纯化选择压力的放松或增强[30]。之前的研究[5,9]认为,相比野生亲缘祖先,实验室自交系的线粒体DNA 具有更高的碱基替代率,而且基因纯化选择压力放松。本研究基于大样本量线粒体基因组序列的分析清楚地显示:不同的实验室单倍型序列表现出多样的变化趋势。例如,Cytb 基因的M.m.castaneus 实验室单倍型Hap 8 和Hap 9 相对于野生祖先表现出明显的纯化选择加强,其Ka 值下降、Ks 值上升、Ka/Ks 值下降;在M.m.musculus 实验室单倍型Hap 1~Hap 7 中,该基因表现出纯化选择压力的放松,其Ka 值和Ka/Ks 值都上升;在M.m.domesticus 实验室品系中,有些单倍型呈现纯化选择压力加强,一些单倍型呈现纯化选择压力放松,还有些单倍型的值与野生亲缘祖先相同。这些结果表明,小鼠实验室品系中线粒体基因组蛋白质编码基因的具体演化过程比之前猜想的更加复杂,但是其演化模式与野生群体相比并没有明显不同。
针对小鼠野生群体和实验室品系线粒体基因组进行的比较分析揭示了不同环境下小鼠线粒体基因组变异的特征。研究证明现有实验室品系仅包含小鼠自然遗传多态性的极小部分,有必要利用更大量野生奠基群体培育更多的新品系。野生群体和实验室品系的线粒体基因组已经积累了明显的遗传分歧,而且不同功能分类序列由于承受选择压力不同导致分歧程度不同。虽然野生群体和实验室品系的线粒体基因组蛋白质编码基因的密码子碱基组成很相近,但是密码子使用频率却有明显差异,导致20种氨基酸的使用频率发生明显变化。相对于野生祖先,不同的实验室单倍型序列表现出多样的Ka、Ks和Ka/Ks 值变化趋势,提示不同实验室品系中线粒体基因的演化过程比较复杂。本研究结果有助于更全面了解小鼠实验室品系培育过程中线粒体基因组演化特征及与野生群体的差异。