高通量测序在种群遗传学中的分析方法
2021-05-25王政昆朱万龙
任 月,王政昆,朱万龙
(云南省高校西南山地生态系统动植物生态适应进化及保护重点实验室,云南师范大学 生命科学学院, 生物能源持续开发利用教育部工程研究中心,云南省生物质能与环境生物技术重点实验室,云南 昆明 650500)
1 引言
测序技术能够提供大量的遗传信息资源,可以描述个体基因组、转录信息和群体疾病中的遗传变异, 随着基因组分析、基因组操作技术和高通量分子生物学的进一步突破,基因型和表型之间的关联研究也越来越受重视。在2004年,虽采用毛细管测序仪,获得人类30亿碱基基因组序列的原始数据[1],但成本较贵,随后发展出通量高、成本低的高通量测序技术[2],其能够提取高生物学价值的遗传信息,成为分析种群内、种群间以及不同类群的遗传多样性和遗传分化程度的基因组学研究的重要方法之一[3,4],本研究综述了高通量测序技术在动物种群遗传学究中的主要分析方法,希望为种群遗传学研究奠定一定的基础。
2 高通量测序的发展
1977年,DNA链末端合成终止法作为第一代测序技术,即Sanger法[5]。其操作步骤简单、准确度高,广泛应用于各个领域,但其成本高,通量低,因此,2006年发展出高通量测序,别称新一代测序(next-generation sequencing, NGS)。NGS是边合成边测序技术,具有通量高、成本低、速度快和后期数据分析处理成熟等优点,且能够对单个物种的基因组和转录组进行深入研究,使其广泛应用到科学研究和医疗方面[6]。NGS常用的平台包括三种,分别为使用桥式 PCR进行扩增的Illumina的基因组分析仪[2]、使用微乳滴PCR进行扩增Roche454基因组测序仪[7]以及使用微球和微乳滴方法进行扩增的ABLifeTechnologies的SOLiD系统[8]。因NGS具有局域扩增偏好性和读长短的缺点,产生以PacBio的SMART的技术,半导体测序技术和纳米孔单分子测序技术为代表的第三代测序[9]。测序技术的发展历程见图1。
3 利用高通量测序对种群遗传学的分析方法
1966年,首次对果蝇[10]和人类[11]的遗传变异的研究认为生物进化是种内的遗传变异转化为种间遗传变异成新群体的过程,但由于技术上的局限,仅能检测并分析少量基因座的差异性,随着重测序技术的发展,大量的模式动物和野生动物种群遗传学原始数据被挖掘[12],对种群遗传学进一步拓展和深化,有利于对动物多样性的保护和生物资源的可持续利用。
3.1 种群遗传结构分析
根据表型或基因型的变异性可以推断出不同群体的亲缘关系[13],利用重测序获得生物DNA序列构建的系统进化树是以分支图或树的形式来描述种群内和种群间进化顺序,来分析生物进化过程,一般通过NJ法和ML法构建群体的进化树[14]。主成分分析(PCA)是一种纯数学的运算方法,可以将多个相关变量经过线形转换选出较少个数的重要变量,减少数据的维数,同时保留数据集中的大部分变化,它通过识别主成分来实现这种减少,沿着主成分数据的变化,通过使用几个组件,每个样本可以用相对较少的数字来表示,而不是用数千个变量的值。然后,样本以图形可视化,从而可以直观地评估样本之间的相似性和差异性,并确定样本是否可以分组[15]。
3.2 选择信号检测
3.2.1 选择性消除主要包括几种表现形式
(1)在宏观进化水平上检测选择:在宏观进化水平上检测选择的方法通常在相关分类群中的同源特征或序列的比较上进行铰链,可能是保守的功能性的序列,然后以进化速率搜索谱系特异性的加速度。
(2)基于基因组的方法:用于检测选择的已知统计信息是Ka/KS,也称为dn/ds或ω[16]。该统计量将每个位点的非同义替换率与每个位点同义替换的速率进行比较。由于同义变化假定为功能沉默,它们的取代率提供了能够解释氨基酸改变的速率的基线。相对过量的非同义替换表明正在进行积极选择,有利于新的蛋白质结构的阴性选择。
(3)基于频谱的方法:基于群体内等位基因频率分布的中性检验,即用中性理论作为零假设,Tajima’s D是第一个,也是最常用的检测信号的测试[17]。
(4)在微观进化水平上检测选择:正向选择使有利的等位基因在种群中迅速传播至固定。
3.2.2 微进化水平上检测包括
(1)有益的突变使附近的搭便车者变异频率高,导致所选位点周围的遗传多样性在全群体范围内减少。
(2)有益的突变使附近的衍生等位基因频率较高。
(3)选择性扫描导致延伸的单倍型纯合性,在包含所选等位基因的单倍型上升。
(4)等位基因频率的差异反映群体特定的选择作用,导致两个群体之间赖特固定指数增加;将来自多个选择信号的信息综合起来的综合方法可以提供更好的分辨率,并有助于查明因果变量[18]。
(5)连锁不平衡的方法:指群体内不同座位等位基因间的非随机关联,即等位基因关联,连锁不平衡水平越高,表明连锁紧密。
(6)基于种群分化方法:不同种群受到不同的环境压力导致种群的适应特性不同。比较群体内和群体间等位基因频率的差异的群体分化指标是Wright 固定指数[19]。Fst值相对较大,表明种群间存在显著差异,意味该位点在定向选择。相对较小的Fst值表明被比较的种群是同质的。
图1 测序技术发展历程
3.3 种群历史动态的重建和研究方法
种群历史动态以有效种群大小对时间发生变化为参考标准,通过结合个体基因组的杂合位点的局部密度变化和种群的多态性位点或者系统发生树来反映种群和物种的进化历程[14, 19],有助于对濒危物种制定合理有效的保护策略。种群不同历史时期有效群体大小的方法主要采用成对序列马可夫溯祖分析(pairwise sequential Markovian coulescent,PSMC)和多序列马尔科夫溯祖分析(multiple sequential Markoisn cosledcent analysis,MSMC)[21]。
PSMC方法是采用马尔科夫溯祖模型为二倍体个体的全基因组数据重建有效种群大小变化过程[20],其可推断出每个相关DNA片段的最新共同祖先,基于合并事件速率和TMRCA的分布,推断出在给定时间纪元的祖先的有效种群大小[22],来物种保护提供非常重要的遗传学信息。PSMC分析广泛应用于多个种群历史动态研究中。但PSMC方法预测种群历史范围有限,无法估计近期的种群历史状态,进而发展出MSMC方法[21],通过MSMC计算相对交联率可获得20000年内的种群遗传变化,并详细模拟两种群之间遗传分化的历史。结合MSMC和PSMC两种方法能扩大时间尺度去获得种群历史动态。
综上所述,通过高通量测序和生物信息学分析结合,研究物种,尤其是濒危物种的遗传变异和分布规律来推测种群历遗传进化,为物种的保护奠定了遗传学基础。
4 展望
物种形成过程中经过自然选择,出现表型分化,进而影响基因频率变化。通过对相关DNA的测序来筛选整个基因组中的数千个位点。按顺序进行基因分型,如SNP基因分型,甚至全基因组测序能够识别群体或生态类型之间差异极高位点,认为这些是适应进化和生殖孤立的迹象。但是如何将基因组学方法与其他生态学方法结合来解决问题,特别是那些直接解决从基因到表型到环境的联系,把基因组学和生态学联系起来的方法,建立从基因型到表型,从表型到适应和生殖分离的功能联系还有待探究。