基于AIM-InDels位点复合扩增体系检测乌鲁木齐蒙古族祖先信息

2019-12-27沈春梅解通梅书燕方雅婷兰琼刘艳芳朱波峰邰发道

法医学杂志 2019年5期

沈春梅，解通，梅书燕，方雅婷，兰琼，刘艳芳，朱波峰，3，邰发道

（1.陕西师范大学生命科学学院，陕西西安 710062；2.南方医科大学法医学院，广东广州 510515；3.西安交通大学口腔医院陕西省颅颌面精准医学研究重点实验室，陕西西安 710004）

近年来，祖先信息标记（ancestry informative marker，AIM）已经引起人类学、群体遗传学以及法医物证学研究者的广泛关注，这类分子遗传标记在不同地域的群体间等位基因频率存在较大差异。群体遗传学研究结果[1-4]表明：生活在不同地域的人群，因其地理距离相隔较远，人群间的基因交流也相对较少；而生活在同一或邻近区域内的人群，往往存在较多的基因交流，因此，其基因构成也会较为相似，通常认为他们具有共同的祖先来源。祖先信息推断是利用AIM推断未知个体可能的生物地理祖先起源或某一群体祖先信息成分构成比例。祖先信息推断研究在法医学、人类学等领域已被广泛应用，其研究有助于现场检材来源人的生物地理祖先推断和犯罪嫌疑人表型特征刻画，能够缩小侦察范围，为案件的侦破提供指向性线索[5-9]。

新疆位于我国西北地区，地处欧亚大陆腹地，是我国少数民族主要聚居地区之一。新疆地区因其地域广阔、少数民族众多，从而引起人类学、群体遗传学和法医物证学研究者的广泛关注。蒙古族是我国人口数量较多的少数民族之一。根据2010年第六次人口普查结果[10]，蒙古族人口约为650万，主要分布在内蒙古、东北、新疆、青海以及河北等地，对其遗传背景和遗传结构进行深入研究具有重要的法医学实践意义。

插入/缺失（insertion/deletion，InDel）多态性是指人类基因组中插入或缺失不同长度的DNA片段所形成的遗传多态性[11]。InDel多表现为二等位基因，其扩增片段较短，适用于陈旧、降解检材的DNA检测分析[12]，因而在法医学中应用较为广泛。本研究应用课题组前期构建的39个AIM-InDels位点荧光复合扩增检测体系[13]，以新疆维吾尔自治区乌鲁木齐市的常住蒙古族群体为研究对象，进行蒙古族的祖先信息和遗传背景初探。

1 对象与方法

1.1 样本的采集

采集乌鲁木齐市145名蒙古族无关健康志愿者的全血样本。样本纳入原则：（1）世居在新疆维吾尔自治区乌鲁木齐市；（2）个体相互间无血缘关系、身体健康的成年个体；（3）家族成员在三代内无与其他民族通婚及迁居史。本研究获得南方医科大学和西安交通大学医学部伦理委员会的批准，并严格遵照国家生物伦理的相关规定和要求，所有志愿者在纳入本研究前均知悉并同意，并在书面知情同意书上签名确认。

1.2 PCR-InDels复合扩增与基因分型

本研究利用课题组前期构建的39个AIM-InDels位点复合扩增检测体系[13]，对145名乌鲁木齐蒙古族个体的血样，采用9700型PCR仪（美国AB公司）进行扩增，反应总体积为25μL，包括1mm×1mm血痕卡一片，12.5 μL的2×反应混合物，2.5 μL的引物混合物，并用超纯水补足至25 μL。39个InDels位点的复合PCR条件：95℃变性5 min；94℃变性45 s，56℃退火1min，72℃延伸1min，共35个循环；60℃延伸60min。随后，取1 μL的PCR产物、0.5 μL内标和8.5 μL去离子甲酰胺混匀；混合物95℃变性3min，立即置冰上冷却3min；然后放入3500xL基因分析仪（美国AB公司）进行电泳。最后，采用GeneMapper®ID-X软件v1.5（美国Thermo Fisher Scientific公司）对39个InDels位点进行基因分型。选取女性标准品F312（北京阅微基因技术有限公司）作为阳性对照，以超纯水作为阴性对照。

1.3 统计学分析

参考群体选自千人基因组计划第三期（1000 Genome ProjectⅢ）数据中三个洲际（非洲、东亚及欧洲）的17个不同群体（表1），包含了1668个健康无关个体的原始分型数据[14]。基于这些参考群体，对乌鲁木齐蒙古族样本分型数据与17个群体进行系统的比较分析。

表1 千人基因组计划中三个主要洲际人群详细信息

（1）应用Powerstates v1.2软件（美国Promega公司）对所有位点的等位基因频率及其群体遗传学参数进行计算，其中各位点的期望杂合度采用Arlequin v3.5[15]进行计算，随后，应用R软件包绘制18个群体的38个位点（因位点rs3034941在千人基因组计划中缺乏群体数据而未参与后续的比较分析）的插入等位基因频率热图。（2）基于不同群体38个InDels位点的基因型数据，应用Genepop v4.0软件[16]计算乌鲁木齐蒙古族和参考群体间配对的遗传分化指数（fixation index，Fst）值。此外，群体间遗传距离（Nei’sDAdistance，DA）值采用DISPAN软件（宾夕法尼亚州大学）进行计算，基于获得的DA距离应用MEGA v7.0.14软件（分子进化遗传学研究所）构建系统发育树[17]。（3）基于38个InDels位点的基因型数据，应用Structure v2.3.4软件（斯坦福大学普里查德实验室）分析群体的遗传结构，并利用 Distruct 1.1（设置参数K=2～7，run=15，10000 burn-in，10000 MCMC）（斯坦福大学罗森博格实验室）将计算得到的每个群体的祖先信息成分比例，可视化成条形图。将Structure 2.3.4分析结果上传于线上软件Structure Harvester（http://taylor0.biology.ucla.edu/structureHarvester/）确定最适宜K值，并应用Structure 2.3.4输出三角聚类图。（4）基于38个InDels位点的基因型数据，采用Snipper软件（http://mathgene.usc.es/snipper/）进行个体水平上的主成分分析（principal component analysis，PCA）[18]。

2 结果

2.1 蒙古族InDels位点的群体遗传学参数以及群体间差异比较

乌鲁木齐蒙古族39个InDels位点的插入等位基因频率分布和群体遗传学参数见表2。所有39个位点均符合Hardy-Weinberg平衡。群体遗传学参数期望杂合度（expected heterozygosity，He）、多态信息含量（polymorphism information content，PIC）、个体识别率（discrimination power，DP）、非父排除率（probability of paternity exclusion，PE）、匹配概率（probability of match，MP）、典型父权指数（typical paternity index，TPI）分别在0.1108～0.5009、0.1043～0.3746、0.1880～0.645 2、0.006 8～0.259 1、0.354 8～0.812 0 及 0.259 1～1.0662。所有18个群体在38个相同InDels位点插入等位基因频率热图和聚类结果见图1。聚类结果显示：18个群体共形成三个大的聚类，分别是非洲群体聚类支、欧洲群体聚类支以及蒙古族和东亚群体聚类支。整体而言，不同洲际群体间具有较大的等位基因频率分布差异，同一洲际群体间具有相似的等位基因频率分布，乌鲁木齐蒙古族各位点的插入等位基因频率分布与东亚群体大体一致。

表2 乌鲁木齐蒙古族39个InDels位点的插入等位基因频率及群体遗传学参数（n=145）

续表2

图1 18个群体在38个相同InDels位点的插入等位基因频率分布热图（热图中等位基因的频率从低到高，依次由绿色过渡到粉色）

2.2 群体间的Fst和DA分析

两两配对的群体间Fst和DA值见图2。结果显示：同一洲际内配对群体间具有较小的Fst值（≤0.04）和DA值（＜0.01）；不同洲际配对群体间具有较大的Fst值与DA值。其中，非洲与东亚群体间遗传分化程度最大（Fst＞0.35），其次是欧洲与东亚（Fst＞0.29），最后是欧洲与非洲群体（Fst＞0.17）。乌鲁木齐蒙古族与非洲群体间Fst值相对较大（Fst＞0.28），欧洲群体（Fst＞0.23）与东亚群体间的Fst相对小（Fst＜0.03）。对于DA值，东亚群体与非洲群体显示出最大的遗传距离（DA＞0.12），其次是东亚与欧洲（DA＞0.09），最后是非洲与欧洲（DA＞0.04）。乌鲁木齐蒙古族与东亚群体遗传距离最近（DA=0.01），其次是欧洲（DA＞0.06），与非洲群体遗传距离最大（DA＞0.09）。进一步对乌鲁木齐蒙古族与17个群体配对的DA与Fst值进行了分析，其中乌鲁木齐蒙古族与CHB、JPT、KHV、CHS及CDX这些东亚群体具有较小的DA值与Fst值，其中乌鲁木齐蒙古族与CHB群体的DA值（0.007 2）和Fst值（0.018 7）最小。相反，乌鲁木齐蒙古族群体与ESN群体显示出最大的DA值（0.1344），与YRI群体显示出最大的Fst值（0.3808）。

图2 18个群体两两配对的Fst值与DA距离分布热图

2.3 主成分分析与系统发育树的构建

基于38个相同的InDels位点的等位基因频率，对乌鲁木齐蒙古族与17个参考群体在个体水平上进行PCA分析（图3）。结果显示：来自三个洲际群体的1 668个个体形成三个主要的聚类簇，即欧洲聚类簇（蓝色）、东亚聚类簇（粉色）和非洲聚类簇（橙色）。乌鲁木齐蒙古族（绿色）个体大部分散落在东亚簇上，有个别样本散落在东亚与欧洲之间，但靠近东亚。同时，基于配对群体间DA值构建18个群体的系统发育树（图4）。图中显示两个大的分支：一支为东亚人群，另一支为非洲与欧洲人群。乌鲁木齐蒙古族群体位于东亚分支上。

图3 18个群体在个体水平上的PCA分析图；图4基于DA距离构建的18个群体的系统发育树

2.4 群体遗传结构分析

应用Structure 2.3.4软件，对乌鲁木齐蒙古族和参考群体进行群体遗传结构分析，在K=3时显示出最大值，表明K=3时最适宜（图5）。同时，随机抽取K=3时的一次运算结果，进行遗传结构分析。图6显示乌鲁木齐蒙古族样本主要散落在东亚聚类（集合Ⅱ）中，有个别样本散布在欧洲群体的聚类里（集合Ⅲ）。为进一步明晰18个群体在个体水平的祖先信息成分构成比例，应用Distruct 1.1软件直观展示了1813个样本（其中蒙古族样本145个，参考群体样本1 668个）估计的祖先信息成分比例，结果见图7A。在群体水平上对乌鲁木齐蒙古族的祖先信息成分进行分析，结果见图7B。以上结果表明：无论从个体水平或群体水平上分析，乌鲁木齐蒙古族样本的祖先信息成分比例与东亚人群最为接近。乌鲁木齐蒙古族源于东亚、欧洲和非洲群体的祖先信息成分比例分别为89%、7%和3%。

图5 ΔK在不同K值条件下的数值折线图

图6 利用Structure 2.3.4软件构建的三个洲际18个群体三角聚类图

图7 18个群体祖先信息成分比例条形图

3 讨论

揭示某一群体的祖先信息构成，明晰群体遗传结构，探索群体间遗传关系，以及推断现场检材来源人的生物地理祖先，不仅有利于全基因组关联分析研究时，避免群体分层的影响，而且在法医学实践中亦可为案件的侦破提供指向性的线索。

近年来，虽然有不少基于SNP分子遗传标记构建的用于祖先信息推断的分型检测体系[19-21]，但鉴于InDel标记同时兼具STR与SNP标记的优势，同时表现为长度多态性，可以利用毛细管电泳平台进行分型检测，易于在基层法医DNA实验室应用推广的特点，本研究使用课题组前期构建的39个AIM-InDels的祖先信息推断体系[13]对乌鲁木齐蒙古族进行祖先信息探索研究。根据LAN等[13]对该体系的研究，证实了该体系在非洲、欧洲及东亚人群间有良好的祖先信息推断区分效能。为了进一步验证该体系在我国其他人群的祖先信息推断效能，本次以乌鲁木齐蒙古族为研究对象，初步探明其祖先信息构成，进一步揭示其遗传背景。

首先，我们应用多种群体遗传学参数和生物信息学分析方法，包括Fst值、DA值、系统发育树的构建以及PCA分析，结果显示乌鲁木齐蒙古族与东亚人群的遗传距离较近。其次，本研究利用基于贝叶斯模型算法的Structure 2.3.4软件对乌鲁木齐蒙古族祖先信息成分比例进行了预测。该分析是在设定不同的K值条件下对群体进行聚类分析，其中K值指的是在运行Structure软件进行祖先信息成分聚类时，假定的全部群体可分为几个亚群。最优K值的选择是基于所有样本原始分型数据的分析结果以及比较群体遗传结构的综合考量，本研究中确定最优K值为3。群体遗传结构分析结果表明，乌鲁木齐蒙古族在东亚、欧洲、非洲群体中的祖先信息成分占比分别为89%、7%、3%。既往有学者基于不同分子遗传标记对蒙古族的遗传多态性进行了研究，例如：JIANG等[22]分析了21个插入/缺失多态性遗传标记在中国7个群体中的遗传分布，结果表明这些群体（包括内蒙古蒙古族）具有相似的遗传多样性分布；CHEN等[23]在基于X染色体的11个相同的STR遗传标记对新疆蒙古族的研究中指出，新疆蒙古族群体和亚洲群体，包括内蒙古的蒙古族显示出一定的遗传差异；WEI等[24]基于19个常染色体STR对新疆蒙古族调查研究中指出，新疆蒙古族与新疆维吾尔族以及其他中国群体之间存在较近的遗传关系。本次研究与上述基于不同分子遗传标记对蒙古族和其他民族的群体遗传关系的研究结果基本一致。

本研究基于既往研发的39个AIM-InDels荧光标记复合扩增检测体系，通过和不同洲际群体进行比较分析，探讨了乌鲁木齐蒙古族群体的祖先信息成分比例以及遗传背景。群体遗传结构分析揭示了乌鲁木齐蒙古族在东亚、欧洲和非洲群体中的祖先信息成分占比分别为89%、7%、3%，其他群体遗传学分析的结果也表明乌鲁木齐蒙古族和东亚群体具有较近的遗传关系。