人类身高推断的分子生物学研究进展
2023-05-11王中华李淑瑾
王中华,李淑瑾
河北医科大学法医学院,河北 石家庄 050017
法医DNA 表型推断是近年来法医物证学领域的研究热点之一,通过对遗传信息和人体表型特征进行关联分析,在特定表型与相应的遗传标记之间建立对应关系,进而通过分析生物样本的遗传信息进行表型特征刻画,为案件侦查提供线索,具有重要的法医学意义。这些人体表型特征包括容貌、身高、发色、肤色、年龄等,其中对于色素特征(发色、肤色、虹膜颜色)以及年龄的法医DNA 表型研究相对较多,推断的准确性相对较高,而对于身高和容貌的法医DNA 表型研究相对较少,推断的准确性也较低[1]。
人类身高是法医表型刻画的重要特征之一,是一种高度遗传的多基因性状,据估计,成年人身高的遗传力为80%[2]。一方面,为了揭示影响身高的遗传因素,已有很多大规模的研究探索身高的遗传变异,且正在深入研究其群体遗传学规律。另一方面,表观遗传学也是重要的生物遗传机制,代表了基因-环境的相互作用[3],对身高会产生影响。本文主要从遗传变异与表观遗传两方面介绍人类身高的遗传学研究进展,分析目前已有的身高推断模型,并对未来关于身高的法医DNA 表型研究进行展望。
1 身高与遗传变异
遗传变异包括基因突变、基因重组和染色体变异。SNP 是最常见的人类遗传变异之一,目前绝大多数身高相关研究都是在此基础上进行的,同样也是法医学研究的热点。除此之外,拷贝数变异(copy number variants,CNV)与可变数目串联重复序列(variable number of tandem repeats,VNTR)也与身高有关。
1.1 SNP
1.1.1 全基因组关联分析
2014 年,人体性状遗传研究(Genetic Investigation of Anthropometric Traits,GIANT)协会将人类身高的全基因组关联分析(genome-wide association study,GWAS)推向了新的高度[4],该研究汇总了79 项GWAS 数据进行Meta 分析,研究对象来自欧洲各地,超过25 万人,最终发现697 个身高相关SNP 位点。2018 年,GIANT 协会在更大的一组欧洲人群中进行了Meta 分析,达到70 万人,鉴别出3 290 个身高相关SNP 位点[5]。上述两项研究都对群体分层进行了校正,但是后续研究[6-7]发现,仍有残余的分层因素,导致这些SNP 位点中可能存在假阳性信号,至少GWAS估计的SNP 效应大小是有偏差的。然而CHEN 等[6-7]证实,欧洲人群的身高存在多基因适应现象,说明分层因素产生的影响有限,大多数身高相关SNP 位点是真实的。由于许多人类复杂性状的高度多基因性,通常认为多基因适应是人类表型进化的重要机制,受到自然选择位点的等位基因频率会产生微小却又相互协调的变化[8]。除此之外,GIANT 协会还探索了外显子SNP 位点[9],样本量同样超过70 万人,发现了606 个身高相关编码变异,包括83 个罕见或低频变异,其次要等位基因频率(minor allele frequency,MAF)和效应大小之间存在强烈的反比关系,其中4 个罕见变异的效应超过2 cm。AKIYAMA 等[10]也观察到了同样的现象。
在欧洲,除了上述几项大型研究外,研究者还对一些人口结构较为单一的国家或地区进行了分析。BENONISDOTTIR 等[11]将一组独立样本的全基因组测序数据作为参照基因组,对约9 万名冰岛人的SNP 芯片分型结果进行插补,发现了4 个位于印记区域的SNP 位点,其次要等位基因根据父母来源不同而产生不同的效应。目前,根据局部的连锁不平衡(linkage disequilibrium,LD)通过检测的SNP 位点推算全基因组SNP 位点的基因型(即插补)已成为人类遗传学研究的常规步骤[5,12],通常使用的参照数据库有Haplotype Reference Consortium、the Phase 3 of the 1000 Genomes Project(1KGP3)。而使用针对特定人群建立的参照数据,无疑能够极大提高插补的准确性。类似地,AKIYAMA 等[10]使用日本人的全基因组测序数据和1KGP3 也构建了参照数据。
身高相关GWAS 研究大多以欧洲人群为中心,对于其他人群的研究近年来也在陆续开展。HE 等[13]在超过9 万人的东亚群体中进行了Meta 分析,确定了98 个身高相关SNP 位点。LIN 等[12]在中国台湾省进行了身高相关研究,样本量约3.5 万人,发现了416 个身高相关SNP 位点。GRAFF 等[14]对5 万名非洲血统的参与者进行分析,发现了45 个显著性SNP 位点。AKIYAMA 等[10]使用了来自日本生物银行(Biobank Japan,BBJ)超过19 万人的数据,鉴别出573 个身高相关SNP 位点,其中40 个是东亚人群特异性SNP 位点。CHO 等[15]对6 万多名韩国人进行GWAS,确定了59 个身高相关SNP 位点,9 个新发现位点都只在女性中发现。WOJCIK 等[16]对包括西班牙裔、非裔、亚裔、夏威夷原住民、美洲原住民和其他血统的混合人群进行分析,最终发现了65 个新的身高相关位点,证明多元化分析的价值。YENGO 等[17]进行了迄今为止最大的Meta 分析,研究对象约540 万人,对欧洲血统(75.8%)、东亚血统(8.8%)、西班牙裔混血(8.5%)、非裔美国人(5.5%)和南亚血统(1.4%)5 种人群进行综合分析,确定了12 111个显著性SNP位点,位于7 209个基因座(长度70~711 kb),占基因组的21%。这些基因座(包含超过100 万个SNP 位点)解释了欧洲群体几乎全部的SNP 遗传力和非欧洲血统群体中大于90%的SNP 遗传力。
上述不同研究之间发现的SNP 位点数量差异很大,造成这种差异的原因可能有3 点:(1)样本群体的差异。(2)样本量的差异,YENGO 等[17]发现SNP 位点的数量与样本量几乎呈线性关系。(3)控制混淆因素的理念和方法存在差异,如YENGO 等[5]为了尽可能多地检测出身高相关位点,使用连锁不平衡分数回归分析(linkage disequilibrium score regression,LDSC)校正人群分层;GRAFF等[14]为了控制一类错误使用2次基因组控制(genomic control,GC)校正。单次GC 校正较LDSC 更为严格。因此,在身高推断的法医学实践中,应重点关注位点与身高间的数学关系,尽可能多地发现相关位点,通过适当的特征选择方法筛选出合适数量的位点。
除了使用SNP 芯片,还有一些研究者使用低覆盖度的全基因组测序来发现新的身高相关位点。TACHMAZIDOU 等[18]使用全基因组测序结果和深度插补的芯片测序数据进行综合分析,发现了64 个新的SNP 位点。来自华大基因的研究者使用无创产前检测的测序数据来分析遗传关联、病毒的感染模式和中国人群的遗传历史[19]。由于测序覆盖度较低(测序深度0.06×~0.1×),LIU 等[19]通过一系列生物信息学流程,得到了200 多万个插补准确度较高的SNP 位点,从中筛选出48 个身高相关SNP 位点。
1.1.2 遗传差异与遗传相关性
上述GWAS 研究中,由不同人群发现的身高相关位点既有差异又具有相似性,这与人群之间的遗传差异和遗传相关性有关。人类进化是一部基因分化和交流的历史,正是这些影响形成了人类的遗传多样性[20-21]。
可转移性,定义为发现人群鉴别出的SNP 位点在验证人群中具有统计显著性且效应方向一致。有研究者[10,12,14,16]尝试验证身高相关SNP 位点的可转移性,发现可转移的SNP 位点较少。此外,使用欧洲人群中发现的SNP 位点在其他人群中进行身高推断的准确性也出现了不同程度的下降[22],造成这种现象的原因主要是因果变异的人群特异性[10,16]和人群间连锁不平衡的差异[14,23]。因果变异,是指真正引起表型变化的遗传因素。在数万年的基因分化过程中,某些因果变异对身高的影响力可能发生变化甚至不再影响身高。使用基因芯片不能检测到基因组中所有的SNP 位点,但有可能发现与因果变异处于连锁不平衡的位点,这些显著性SNP 位点与身高具有相关性,但可能并不具备生物学意义。
遗传相关性(rg)指种群中2 个性状的加性遗传力之间的相关性。GUO 等[24]将其重新定义为2 个种群中同一性状因果变异的加性效应之间的相关性,发现欧洲群体和非洲群体间全部SNP 位点和显著性SNP位点的遗传相关性分别为0.75 和0.82。YENGO 等[17]发现超过83% 的non-EUR SNP 位点与至少一个EUR SNP 位点存在强烈的连锁不平衡,显著性SNP位点的等位基因替代效应在不同人群间的相关性为0.64~0.99,强调了不同种群间的遗传相关性。
种群间的遗传差异与遗传相关性表明了鉴别因果变异的重要性。最近,对于因果变异的寻找主要通过精细映射方法[14,16,18]进行研究。WU 等[25]基于全基因组测序数据进行的模拟表明,至少80%的显著性SNP位点与因果变异的距离小于33.5 kbp,且至少77.3%与因果变异的LDr2>0.8。
通过分析上述文献,发现不同人群间身高相关的因果变异大部分是相同的,只是目前多数研究使用的芯片测序技术难以覆盖这些因果变异。虽然高覆盖度的全基因组测序依然较为昂贵,但是研究者们已经积累了相当数量的测序数据,效仿GIANT 协会的合作模式,使用全基因组测序数据可以更好地发现因果变异,不仅有助于减小种群间遗传差异对身高推断的影响,还可以通过后续的通路分析探索这些基因影响生长发育的分子机制。
1.2 拷贝数变异
MACÉ 等[26]针对人体测量学特征进行了大规模的CNV 关联Meta 分析,发现了身高相关CNV。16p11.2 区域的600 kb BP4-BP5 缺失会导致身高降低(β=5.2 cm),并且此前发现的FLJ25404 附近的身高相关SNP 位点位于此600 kb 区域。1q21.1 远端重排与身高有关(β=3.6 cm),且该区域的SNP 位点rs6658763 与身高相关。11 号染色体26.97~27.19 Mb的220 kb 区域与身高相关(β=2.43 cm),此区域覆盖的基因FIBIN对身高的影响已被证实[9]。3q29 的一个212 kb 区域重排对身高具有剧烈影响(β=13.3 cm)。虽然这些CNV 的频率很低(0.01%~0.2%),对身高却有强烈的影响,这与低频和罕见SNP 位点的表现一致,并且基因的大片段缺失更加剧了对表型的影响。因此,对于罕见变异的检测可以进一步增加身高推断的准确性,尤其对于误差较大的样本。
1.3 可变数目串联重复序列
MUKAMEL 等[27]与BEYTER 等[28]分别通过全外显子组测序和牛津纳米孔测序发现了人类基因组中的VNTR,并且分别证实了ACAN基因中的VNTR 的基序数量与身高呈近似线性关系,且单个基序的效应大小相近(约0.11 cm)。此外,MUKAMEL 等[27]还发现,TENT5A基因中的VNTR 也与身高相关。由于VNTR通常较长,使用二代测序难以识别,需要开发特定算法,而目前的两种长读长测序在错误率和读长方面各有优缺点,因此需要技术手段的进一步发展来检测基因组中的结构变异。
2 身高与表观遗传修饰
表观遗传修饰包括DNA 甲基化、组蛋白修饰、染色质重塑和microRNA,他们在不改变碱基的情况下影响基因表达,DNA 甲基化是目前研究最充分的表观遗传标记之一[3]。近年来有研究发现了身高与DNA 甲基化和组蛋白修饰之间存在一定的联系,这些证据表明表观遗传可能是身高的影响因素之一。
2.1 DNA 甲基化
DNA 甲基化数量性状位点指与CpG 位点的甲基化水平相关的SNP 位点。迄今为止最大的1 项DNA甲基化数量性状位点研究发现了超过27 万个独立位点,其中包括身高相关位点[29]。
RELTON 等[30]发现,脐带血中ALPL基因的甲基化水平与儿童期身高有关。SIMEONE 等[31]发现87 个身高相关基因中的72 个在其转录起始点上游2 kb 内存在CpG 岛,且转录起始点位于CpG 岛内,这是DNA甲基化参与基因调控的信号。OUNI 等[32-34]的系列研究表明,IGF1基因的P2 启动子的甲基化水平会影响血清中生长激素的浓度以及身高。
Silver-Russell 综合征(Silver-Russell syndrome,SRS)是一种基因印记疾病,其特征是严重的生长发育迟缓和典型的临床症状。MUURINEN 等[35]在SRS患者HOXA4基因的启动子中发现了一个低甲基化区域,该区域中多个CpG 位点在健康儿童中与身高有关。cg11908057 在4、8 和16 岁时均与身高相关,而cg04317399、cg19142026、cg04321618、cg14359292 和cg25952581 只在16 岁时与身高相关,说明某些位点在整个发育过程中对身高有持续影响,而另外的位点只与成年身高相关。同时,在健康儿童中对一些身高相关SNP 位点进行了验证,未发现显著关联,可能是由于发现样本和验证样本的数量都比较少,不过也说明了DNA 甲基化可能比某些SNP 位点更好地解释了身高差异。
此外,TATTON-BROWN 等[36-37]发现,DNMT3A基因突变会导致过度生长综合征。DNMT3A基因编码一种胚胎发育过程中建立DNA 甲基化模式不可或缺的甲基转移酶[38],为DNA 甲基化影响身高提供了又一证据。
以上研究表明,DNA 甲基化与身高关联,DNA 甲基化对生长发育的影响可以只涉及身高,相关蛋白酶缺陷导致的全局改变又可以造成多种表型变化。DNA 甲基化在样本量较小时仍表现出显著相关,而GWAS 研究中采用的测试样本和验证样本通常在万人以上,这也说明DNA 甲基化相较于SNP 可能与身高具有更高的相关性。
2.2 组蛋白修饰
KDM5C基因编码组蛋白H3K4 去甲基化酶,携带该基因突变的男性表现为轻度至重度智力障碍、癫痫、身材矮小、反射亢进。GRAFODATSKAYA 等[39]在携带KDM5C突变的男性中,发现了特定基因位点的DNA甲基化水平显著降低,证明了H3K4去甲基化酶的活性不足使H3K4甲基化升高,从而使下游靶基因避免从头甲基化。UCHIYAMA等[40]在发育迟缓儿童中发现转录起始点附近的H3K4甲基化显著降低。
韦费综合征(Weaver syndrome)是一种过度生长的疾病,特征是身材高大、特殊面容和学习障碍等,其可能的发病机制为EZH2基因突变[41-43]。EZH2基因突变个体的临床症状以身高增加最为突出,研究中所有病例的身高都比平均值高2个标准差,部分超过4个标准差[41]。EZH2基因编码多梳抑制复合物2(PRC2)的催化成分,通过H3K27 的三甲基化和募集DNA 甲基转移酶,在表观遗传水平调节染色质结构和基因表达,二者都起到抑制转录的作用[44-45]。
组蛋白修饰与身高相关的证据多见于综合征的机制研究,说明组蛋白修饰的改变对基因表达起宏观调控的作用。结合DNA 甲基化对身高的影响可以发现,这种遗传信息的大范围改变通常会影响多个系统的发育,似乎身高与神经系统的发育具有密切联系,这种关系还有待进一步探索。通过检测这些生物标志物可能有助于多种法医DNA 表型的推断。
3 身高预测模型
目前多数研究使用多基因评分(polygenic scores,PGS)进行身高推断。然而多基因评分计算为基因型的加权和,权重是GWAS 给出的效应大小。这种线性模型过于简单,导致其预测准确性普遍较低,预测值与真实值的相关指数一般不超过0.2[4-5,22]。研究者们致力于改进多基因评分的性能,不过效果有限。PARÉ 等[46]开发了一种基于机器学习的方法Gra-BLD,通过梯度提升回归树和连锁不平衡调整SNP 位点的效应大小,在使用约40 万个SNP 位点时达到了最佳预测准确度,R2为0.239。LLOYD-JONES 等[47]开发了SBayesR 模型,使用约90 万个SNP 位点时R2为0.326,使用280 万个SNP 位点时R2达到0.352。LELLO 等[48]使用机器学习算法进行身高推断,模型中使用2 万个SNP 位点时基本达到最佳结果,R2约为0.4。使用深度学习技术开发精准预测模型将是今后研究的重要方向。YENGO 等[17]的最新研究显示,使用12 111 个SNP 位点的PGS 在欧洲人群、南亚人群、东亚人群、拉丁裔人群和非洲人群中预测准确性分别达到0.401、0.214、0.202、0.185 和0.123,可见提高预测准确性的最佳方法是提高测试样本量,然而目前非欧洲血统的可用数量与所需数量相去甚远。多数SNP 位点只有3 种基因型,属于分类变量,而身高属于连续变量,使用分类变量预测连续变量可能是SNP推断身高的固有限制。在法医学应用中,使用几百个位点得到的结果误差太大,不具备实际使用价值;使用数万个位点所需要的检材质量很高,同样受到很大的限制。因此,有必要开展对于其他遗传标记的研究,使用多种标志物建立预测模型。
4 总结与展望
综上所述,有关人类身高的分子生物学研究大部分集中在SNP,然而SNP 只能解释身高方差的40%,仅为推测的身高遗传力的一半。因此,探索影响身高的其他遗传标记是非常必要的。遗传与表观遗传相互影响,共同决定生物体的表型。然而,目前对于影响身高的表观遗传因素尚有很多未知,等待研究者去探索。因此,在未来的研究中,寻找影响身高的表观遗传因素,探索其影响机制和所产生的遗传力,以及决定身高的表观遗传与遗传变异因素之间的关系,是重要的发展方向之一。
此外,已有的研究对于身高推断大多使用过于简单的线性模型,导致推断的准确性很低。目前的研究对象大多为欧洲人群,对于亚洲和非洲人群的研究无论在数量还是规模上都远不及欧洲人群,这种不平衡导致了在亚洲和非洲人群中身高推断的准确性更低。因此,未来可研究更多欧洲以外的人群,获得更多人群的数据,并可通过不同人群之间的比较,深入挖掘更多的信息。同时,使用多种身高相关性较高的遗传标记及表观遗传标记,建立适用于法医检材的检验方法,基于机器学习算法建立更加精准的身高推断模型,提高推断的准确性,更好地应用于法医学实践,是未来的重要发展方向。