家犬基因组及表型特征的遗传研究进展
2020-01-16邓卫东席冬梅熊和丽黎立光
李 静 ,岳 锐,陈 超,邓卫东,席冬梅,熊和丽,曹 剑,黎立光
(1.云南农业大学动物科技学院,云南昆明 650201;2.公安部昆明警犬基地,云南昆明 650201;3.公安部警犬技术重点实验室,云南昆明 650201)
犬属于脊椎动物门哺乳纲食肉目犬科犬属,是自然界中种内遗传多样性最为丰富的物种之一。目前,世界家犬品种已超过400 种,总共4 亿多只。家犬(Canis familiaris)是人类最早驯化的家养动物,是人类历史上最广泛的工作、狩猎和宠物动物。家犬丰富的遗传资源以及已公布的基因组序列使其成为研究基因组进化、群体遗传分化、复杂性状分子基础以及人工选择分子机制的重要模式生物。本文就近年来对家犬起源进化、基因组结构、犬表型特征的遗传变异、基因定位等研究进展做一综述,以期为犬遗传育种研究提供理论基础,并为人类疾病的预防、诊断和治疗提供新的思路与方法。
1 家犬的起源
家犬的驯化选育是人类历史上进行得最早、最复杂、涉及地区最广的遗传实验之一,始于距今至少13 000~17 000年前的史前时代,至今仍在延续。
1.1 追溯母系起源 作为稳定的母系遗传标记,线粒体DNA 一直是研究家犬乃至其他家养动物母系起源进化的热点材料。基于线粒体DNA 序列差异度构建的系统发育树,往往将家养动物及其现存野生祖先物种聚在同一个具有很高支持率的进化枝上,表明该家养动物与其野生祖先物种间的亲缘关系最近。比较分布于欧洲、亚洲、北美洲共140 条家犬、162 条灰狼、5 条郊狼和12 条草原胡狼的261 bp 线粒体控制区左侧的序列差异,Vila 等[1]采用不同方法构建的系统发育树均支持家犬起源于灰狼,其他犬科动物并没参与家犬的驯化过程,家犬所有的单倍型分成4 个主要进化枝。然而这个分析凭借的是一个较小范围的家犬样品,更重要的是灰狼具有很强的机动性,其线粒体单倍型没有明显的系统发育地理结构[1],因此,在进化枝上与家犬单倍型相近的灰狼采样地,并不足以推测为家犬驯化的起源地。比较更广泛区域家犬群体的遗传多样性水平才能行之有效地追溯家犬驯化的起源中心。
祖先群体的遗传座位预期会比一个衍生群体具有更高的遗传多样性水平。基于这个假设,Savolainen 等[2]研究了世界范围内的654 条家犬线粒体DNA 控制区的多态性,发现之前归结的4 个进化枝中,有3 个涵盖了95%以上的家犬基因型,且这些基因型在各枝上的出现频率均较为恒定,表明所有家犬应起源于同一中心;其中东亚涵括了最丰富的遗传差异和分子系统地理差异,遂提出了家犬东亚起源说。犬科动物分子系统树如图1所示[3]。
1.2 二段式驯化过程 无论是家犬还是其他家养动物,驯化关键在于对人类的服从性。当灰狼被驯化成家犬能理解并服从人类指示后,在很长一段时间受限于社会生产力的发展,人类并没有过多地追求家犬外形职能的分化及优化,仅仅使其执行简单的任务。然而自维多利亚时代以来,随着工业革命的兴起,社会分工细化,生产力出现剩余,人类开始控制家犬繁殖方向朝2 个方向逐渐细化家犬品系:一方面将家犬不同的职责加以区分,并以此为目标进行人工选择,使其在某一方面的功能更为突出(如敏捷、速度)或更利于行使某种职能(如放牧、警戒、狩猎);另一方面使得一些家犬不需要履行工作职能,仅仅作为伴侣犬或观赏犬融入家庭,因此其外观形态成为主要的选择对象,主要涉及大小、头型、毛色及毛质等。经过强烈的人工选择,家犬形成了400 多种形态各异的现代品系,具有特定的生理行为特征,因此这个过程也被称为家犬的品系形成过程。
1.3 家犬的品种多样性与遗传结构 在最近几个世纪的演化过程中,随着人类社会需要和审美要求的改变,经过有选择的培育,发展出了400 多个具有高矮胖瘦不同表型、忠诚桀骜不同性情的品种,根据各品种犬的警卫性、服从度、狩猎能力等不同功能,担负了警戒、放牧、运输、游水、救助、狩猎等不同任务,甚至还可根据人类不同的狩猎方式,表现出指示、跟踪、追击、围捕、惊飞、寻回等特异行为。
犬品种的变异包括大范围的大小、形状、颜色和行为。归为7 个主要类别:单猎犬(Gundogs)、群猎犬(Hounds)、牧羊犬(Herding Dog)、梗犬(Terrier)、工作犬(Working Dog)和玩赏犬(Companion Dog)。驯化很有可能改变犬的生活环境和食物来源,这可能改变其能量、消费以及行为模式,使其在缺少人类保护的荒野条件下为繁衍繁殖做好准备。此外,闭锁繁育、迁移、杂交、入侵和抽取或同化种群,人类群体会通过选择对犬的多样性产生极大的影响[4]。
2 犬的基因组结构和序列
Kirkness[5]等对一只纯种雄性标准贵宾犬的1.5 倍覆盖率的基因组序列测序和比对分析,该序列覆盖了77% 的基因组,并含有6.22 亿的读取;结果表明超过650 万碱基对的犬序列独特地与人类基因组同源,并且包括24 567 个带注释的人类基因中的18 473 个片段。对犬的全基因组大小的估计范围在23.1 亿~24.7 亿碱基对,略小于人类(2.9 Gb),与小鼠基因组长度(2.5 Gb)相似;通过对犬1.5 X 覆盖深度的序列与更完整的8 X覆盖深度鼠的序列和人类基因组的基因组片段比较其基因含量和转录本,发现小鼠的序列与人类基因组的比对同源性高达80%(29 529),和所有人类转录本覆盖了75%(18 311);犬的序列覆盖量与人类相似,在29 673 份人类转录本记录中与犬的序列一致,83% 的人超过50%的长度对齐,犬的覆盖值分布广泛,峰值为70%到80%的记录与犬存在一致转录本序列(29 673)和基因(18 473)。
Derrien 等[6]利用人类、黑猩猩、老鼠和狗之间的14 000 多个同源基因比对,检测了400 个缺失基因,他们对同源基因进行比较并建立了多个配对的同步图,使其能够推断出短的同源间隔期,而这些间隔期的目标是一个假想缺失的犬基因。用辐射杂交图谱对人和犬的基因组进行比较,发现有85 个保守区。已知的犬的遗传疾病与人类的情况及其病因在很多方面相似,犬和人基因组的同源性、遗传的同质性和家犬表型多样性也为了解人类疾病遗传基础的许多复杂的发展过程提供了一个机会[7]。
2.1 纯合子区域 在对拳狮犬序列的分析中,Lindblad-Toh 等[3]指出犬存在的广泛性高度杂合区域的纯合子区域染色体(图2)。纯合子区域是长杂合子区域6 倍,纯合子覆盖了拳击基因组的62%。仔细检查表明广泛的纯合性存在于所有家犬基因组结构中,不同品种具有不同模式。通过对约70 万个SNP 的检测来评估基因组每个重叠群的杂合或纯合状态。图中大纯合子(浅色,占基因组的62%;N50 大小为6.9 Mb)和大杂合子(深色,占基因组的38%;N50 大小为1.1 Mb)区块的交替模式表明了拳击手基因组中的大而相同的常染色体单倍型,白色指示着丝粒序列。仔细检查表明广泛的纯合性存在于所有不同品种狗中,这也是犬基因组的一个特点。
2.2 连锁不平衡 品种建立改变了犬的基因组结构,影响了连锁不平衡(LD)、单倍型结构、杂合性或突变。连锁程度是评估基因组结构的常用参数,驯化过程中经历的瓶颈效应会延长连锁区域,而连锁长度又会随繁殖世代的增加而逐渐缩短。在家犬基因组中观察到相对短范围和长范围两类特征的LD,分别对应了第一次由灰狼到家犬的驯化,以及第二次强力选择下的品系形成过程[3]。而在品系化形成过程中,不同品系经历了不同的群体演化历史,因此品系间LD 的差异亦有十倍之巨。这说明了影响杂交后代形成的复杂因素,包括杂交、迁移和进化选择压力。
Sutter 等[8]从20 个不相关的5 个品种中,从5 个连锁位点中筛选出189 个SNPs,发现黄金猎犬的LD值下降到其最大值的一半左右,为0.48 mb,但在其他品种的LD 变化范围更为广泛,北京犬和拉布拉多猎犬中LD 值增加到0.9 mb,伯纳斯山犬只有2.2 mb,秋田犬为3.8 mb,其LD 值比金毛犬大10 倍。金毛猎犬的选育背景与这些观测结果吻合得很好。有记录的品种历史表明黄金犬和拉布拉多猎犬是最受欢迎的品种之一,2 个品种都没有经历过显著的瓶颈效应。通过比较,北京犬LD 值更大,因为这些狗的品种繁育量少来自中国,LD 测定值在日本秋田犬是最极端的表现。首先,家养动物中只有犬品种间的LD 能相差10 倍。第二,狗的LD 是人类的20~50 倍。因为GWAS 标记量与LD 衰减距离成反比,这2 项研究表明,狗的全基因组关联研究(GWAS)只需要数以万计的标记,而人类需百万左右研究[6,8-10]。
2.3 单倍型 在家犬品系形成过程中,分析纯系家犬的基因组微卫星多样度,亦发现同一类群的品系往往共享较多单倍型[11]。而各品系形成后,其后代的繁殖均遵循严格的血系要求(要注册为某一品系的家犬,其父母必须是已注册的该品系家犬),使品系间形成了稳定的基因隔离,例如很多家犬品系通过微卫星的基因型就可以完全区分开来[12-15],而品系间差异则愈发显著,达到总体差异的27%(人类群体中不同人种间的差异只占总体的5%~10%)[16-17]。LD 分析与犬的单倍体结构也有对应关系。拉布拉多和金毛寻回犬的单倍型数量最多,而日本秋田犬和瑞典伯恩山犬的单倍型数量最少[8]。这对利用具有共同起源特征的品种组合精细地绘制感兴趣的位点具有很强的意义。
3 犬基因组研究在医学领域的应用
在15 000 到10 000 年的驯化过程中,人类培育出了形态、行为差异很大且用途不同的犬品种。为了保持某一品种的相对稳定性,犬的繁育被严格控制,许多品种都是为了得到某种特征从几个祖先培育而来[18]。现有品种间表型虽然差异很大,但在基因型上具有较高的同质性,仅有少数关键基因决定品种之间的表型差异。因此,犬的特殊群体结构使其成为研究形态、行为等的多样性和哺乳动物进化遗传基础的良好模型。
由于严格的繁殖计划和周期性的种群瓶颈(如在世界大战期间),400 个现代犬种中有许多表现出高度与人类相似的遗传疾病,包括癌症、失明、心脏病、白内障、癫痫、髋关节发育不良和耳聋,这些疾病大多在人类和临床人群中很常见[19]。除了人类,犬是在医学实践中研究最多的动物,其家族史和病理资料都很详细,寻找决定这些疾病的基因、了解疾病发生的遗传基础并建立预防疾病基因诊断方法也是研究犬基因组的一个重要目标。
4 犬表型特征遗传学基础的研究进展
传统遗传育种中,犬的品种改良和行为性状选育工作主要是观察后代的表型,通过表型差异进行选育。自从分子生物技术手段在动物遗传育种中的研究和实践中得到广泛使用以来,很多决定经济动物重要经济性状的注销基因和连锁分子标记被发现,极大促进了动物育种工作的开展。随着犬基因组测序完成和大量分子标记和基因的定位完成,以分子标记辅助选择技术为解决犬形态性状的遗传改良提供了新的方向和手段。
目前对家犬的行为性状的定位研究进展缓慢,但对于表型性状已有较多了解,这主要归功于表型性状的易观察性,使得人类在繁殖家犬时能把某种独特性状固定在一个品系里,成为研究基因型-表型关联分析的最好材料,另外一些平行表型性状在其他模式生物诸如鼠、牛、羊、人类中的深入研究,也为探索家犬的性质控制基因提供了思路和素材。更进一步的,得利于家犬的基因组序列以及相关的基因组信息,可将QTL 与高密度的单核苷酸多态位点图谱联系起来,更精确地定位到决定性状的基因。受搭乘效应(Hitchhiking Effect)影响的区域性多样度、单位点的群体分化度(Fst)、以及扩展单倍型同质度(EHH)等参数均是检测这些控制位点的常用信号。目前利用这种策略,已发现了很多影响躯体大小以及毛发差异等性状的基因。
4.1 利用候选基因法对犬形态特征的研究 Chase 等[20]第一次努力找到与葡萄牙水犬(PWD)品种身体大小相关的位点,采集了DNA 和5 组500 只狗的X 线照片,从X 射线照片中得到一组92 个骨骼用于建立连锁研究的表型的指标。其成功的关键是主成分分析(PCA)用于鉴定被调节的性状的组,其中最强的定位在15 号染色体(CFA15)犬的4 MB QTL 区域控制着身体大 小。
类胰岛素生长因子1(IGF-1)是控制身体大小的主效基因,在鼠和人类中均发现和身体大小相关。通过比较不同大小犬种在这一区域的单倍型类型,最终定位到IGF-1基因上的一个单核苷酸多态位点——所有小型犬来源于同一个古老的寡核苷酸单点突变,共享一个IGF-1 单倍型,大型犬则有2 个突出的单倍型[21]。IGF-1 的研究结果令人兴奋,首先,它证明了犬作为良好的模型确实有资格来对性状的遗传学原理进行揭示,在人类则难以实现。第二,证明狗可以架起对人类研究的桥梁,而小鼠研究难以实现。
纤维原细胞生长因子4(FGF4)反转座基因是影响身体大小的附效基因,通过多个具有矮腿性状和不具有矮腿性状的家犬品系的基因组多态位点分析,发现所有矮腿品系的18 号染色体上均有1 个FGF4反转座基因的插入,而非矮腿品系没有这段插入,该基因在软骨细胞中的特异表达决定了短肢性状及骨头的长宽比例[22];通过SNP 等位基因频率和表型性状的关联分析,发现至少还有5 个位点影响着骨骼大小、形状、以及身体胖瘦[23];基于葡萄牙水犬体型的组成分分析发现,12 号染色体上一段26 Mb 的片段与腿长宽比例关联,进一步的多品系基因型和单倍型比较最终定位到两个顺式调控的胶原质基因[24]。
R 型细胞黏连蛋白2(RSPO2)、纤维原细胞生长因子5(FGF5)、角蛋白71(KRT7)作为毛发调控基因[25],家犬的毛发性状千姿百态,即使同一品系也有长短、曲直、糙滑之分,在多品系性状关联对比校正的基础上,通过单品系中2 个相对性状的遗传关联分析发现家犬毛发的诸多差异由这3 个基因(RSPO2、FGF5、KRT71)联合调控,其中RSPO2基因3′端167 个碱基的缺失产生了硬卷毛及长眉、胡须等性状,FGF5基因单碱基突变造成第95 位氨基酸由Cys 变成Phe,使短毛或硬卷毛性状被长毛性状所替代,KRT71基因第151 位氨基酸的异义突变影响了卷毛与直毛性状。FOX 转录因子家族成员I3(FOXI3)[26],基于中国冠毛犬毛发有无性状的遗传关联分析,寻找到17 号染色体上一段区域,再通过秘鲁无毛犬、墨西哥无毛犬毛发有无性状对比,精确定位到该基因,发现其第一外显子上产生了7 碱基的重复突变,从而使编码序列移码产生了1 个提前终止子,该等位基因杂合子在外胚层毛发、牙齿发育时期特异表达,形成了无毛性状。
小眼相关转录因子(MITF)作为色斑调控基因[27],与鼠和人类的色素沉积紊乱相关。分析纯深色、纯白色、以及白斑拳狮犬基因组范围内的SNP,发现该基因影响了黑素细胞分布,结合纯深色、纯白色、以及白斑牛头梗的关联区域,最终找到MITF基因上游一个SINE 片段的插入突变,该突变减弱了对黑素细胞分布的控制,突变的纯合子即形成了纯白色个体;SILV 色素沉积基因是在鼠、人类中控制隐性黑色毛发性状的基因[28],以微卫星为标记,分析正常毛色、蓝色默尔斑纹(Merle Coat Pattern)、白色默尔斑纹的设德兰牧羊犬,发现家犬中发生了一个位于第十内含子和第十一外显子交界处的SINE 片段插入,这个半显性的突变决定了默尔斑纹的表现程度。
背脊逆毛性状基因——纤维原细胞生长因子(FGFs)重复子[29],对比罗德西亚背脊犬逆毛性状与非逆毛性状,发现18 号染色体上一段涵盖了FGF3、FGF4、FGF193 个基因的133 kb 片段重复突变与之关联,结合泰国背脊犬逆毛与非逆毛性状的关联分析,得出重复缺失型不产生逆毛背脊,重复杂合型产生无皮窦逆毛背脊,重复纯合型产生有皮窦逆毛背脊的结论。
皮肤皱褶控制基因——透明质酸合成酶2(HAS2)[30],基于基因组SNP 数据分析沙皮犬和其它品种犬的群体差异,发现HAS2基因很可能决定了沙皮犬表皮的褶皱程度,深入检测褶皱沙皮犬和滑皮沙皮犬HAS2基因的序列差异,认为该基因上游的突变可能改变了其表达量,并在连锁不平衡的作用下,形成了非编码区5 个SNP和第二外显子上2 碱基缺失的高群体差异。
一些性状控制基因在各物种的进化过程中保留了相似的功能,参照这些基因在其他模式生物的平行研究,同样在家犬中发现了有趣的结果:肌抑素(Myostatin)基因与肌肉大小有关,是肉牛、肉羊等产肉性状的控制基因。以惠比特犬为代表,对比肌肉过度忿张、肌肉忿张、以及正常个体发现,肌抑素基因在肌肉忿张个体中其第三外显子发生了两碱基的缺失突变,产生了一个提前终止子。该突变表现为半显性,控制着肌肉的发达程度,直接影响了惠比特犬的竞跑速度[31]。
另一个典型例子是MC1R 通路:大多数哺乳动物的MC1R 毛色控制通路包含MC1R 受体基因和AGOUTI配体基因,通过受体、配体的拮抗作用调控真黑素和褐黑素的生成,从而控制毛色。真黑素表现为黑色毛发,褐黑素表现为黄色毛发。当MC1R基因发生突变而没有功能时,无法产生真黑素,毛色由褐黑素控制[32];当AGOUTI基因发生突变没有功能时,真黑素表现出隐性黑色毛发[33]。然而仅凭这2 个控制基因并不能解释所有的家犬毛色差异。通过拉布拉多犬和灵缇杂交子一代的性状分离分析发现,家犬的MC1R 通路还有另一个控制基因——CBD103(β-defensin 103)[34],当CBD103 蛋白完全抑制AGOUTI 蛋白时,真黑素表现出显性黑色毛发[35-36]。
4.2 利用全基因组测序揭示选择和变异下的基因组区域对形态的影响 随着测序技术不断发展,利用全基因组重测序和全基因组关联分析可以扩大伴生动物系统在哺乳动物生长和生物学研究中的应用范围。Jocelyn 等[37]分析了722 条犬的全基因组序列(WGS),记录了超过9 100 万个单核苷酸和小吲哚,创建了一个大的基因组变异目录,包含了172 115 个SNP。通过选择性扫描分析和基因组广泛关联研究(GWAS)包括144 多个现代家犬品种,54 只野狗和100 只乡村狗,结果确定了强影响的基因突变与16 种表型相关,其中包括体重变化、腿长短、耳形状、胡须蜷曲平直等表型性状。通过对犬的形态学特征进行GWAS 分析,结果显示(图4)犬胡子和眉毛的存在与否、犬毛发长度以及身高都是多基因形状;LCORL、HMGA2、IGF1 和CFA26 基因座与犬的体型、寿命显著相关[37]。这些结果支持了先前报道的体重与寿命之间的相关性,大型品种家犬(体重>30 kg)平均寿命(8~10 年) 较短,微型和玩具品种犬(体重≈12.7 kg)的寿命≥18 岁[38-39],其中HMGA2基因存在最显著关联。
5 小 结
目前对于家犬驯化选择过程中所产生的独特性状的遗传学基础研究,仍然处于初级阶段。由于表型性状的易衡量性、易观察性、易操作性,目前的研究都比较集中在通过不同品种犬的基因组结构差异比较以及一些独特性状在不同品种内的关联分析,从而找出可能与某些品种特异表型特征相关的候选基因和区域。犬的表型性状由遗传因素和环境因素共同决定,不仅受到微效多基因的控制,还受一个或几个主基因的影响。因此有必要从分子水平上对犬性状的遗传机理进行研究,找到与犬品系生理形态、行为性状连锁的分子标记,为以后的遗传育种提供理论基础。