APP下载

中国人群N-乙酰基转移酶2基因型分布特征及不同基因分型方法的比较

2022-05-31王宁郑璐瑶孟秀娟刘海婷丁杨明姚蓉郭少晨陆宇

中国防痨杂志 2022年6期
关键词:等位基因多态性基因型

王宁 郑璐瑶 孟秀娟 刘海婷 丁杨明 姚蓉 郭少晨 陆宇

【Fundprogram】 Beijing Municipal Science and Technology Commission (Z191100006619090); Special Program for Clinical Medicine Development of Beijing Hospital Management Center (ZYLX202123)

N-乙酰基转移酶2(N-acetyltransferase-2,NAT2)是人体内一种重要的Ⅱ相代谢酶,主要在肝脏及肠道上皮中表达,参与体内多种物质的代谢过程[1]。由于基因多态性的存在,个体NAT2代谢能力存在明显差异,可分为NAT2快、中间及慢代谢型[2]。研究证实,人群中不同NAT2代谢型与肿瘤、帕金森病等多种疾病及药物不良反应的发生和发展相关,发病机制考虑与NAT2慢乙酰化导致的机体毒性物质蓄积有关[3-7]。2021年11月发布的《结核病患者N-乙酰基转移酶2编码基因多态性检测与异烟肼合理用药专家共识》明确指出NAT2代谢型与抗结核药物异烟肼的疗效与不良反应有关,在患者接受异烟肼抗结核治疗时确定其NAT2基因型对患者的精准化治疗至关重要[8]。

不同种族、地区人群NAT2基因型、单体型分布存在明显差异[2,9]。例如,在欧洲人群中NAT2*5等位基因携带率约为50%左右,但该等位基因在东亚人群中携带率仅为5%;在东亚人群中携带率约为20%的NAT2*7等位基因,在欧洲人群中携带率却不足5%;NAT2*14等位基因在非洲及美洲人群中携带率约为10%,但在欧洲及亚洲人群中基本不携带此等位基因。因此,明确中国人群NAT2基因型及等位基因分布至关重要。

目前国内外结核病研究领域NAT2基因多态性研究中大多以检测NAT2中特定单核苷酸多态性(single nucleotide polymorphism,SNP)位点作为确定NAT2基因型的依据,常见的检测位点为341T→C(或481C→T)、590G/A、857G/A,分别对应*5、*6、*7等位基因,上述3种等位基因可解释中国人群中大部分的慢乙酰化代谢类型[10]。3SNP法采用341T→C、590G→A、857G→A等3个SNP位点对NAT2基因型进行推断,2SNP法利用2个SNP位点(282C→T、341T→C)推断NAT2基因型。Hein和Doll[11]报道4SNP法(191G→A、341T→C、590G→A、857G→A)推断NAT2基因型的准确性与7SNP法相当,优于tagSNP(rs1495741)、2SNP(282C→T和341T→C)及3SNP法(341T→C、590G→A、857G→A)。由于rs180127919(191G→A)位点突变仅存在于非洲人群中,因此,其研究中4SNP法在中国人群NAT2基因型推断时实质上等同于3SNP法。Selinski等[12]发现2SNP法推断NAT2基因型的效能与经典的7SNP法相当,优于tagSNP法。在中国人群中NAT2不同推断方法效能的比较研究尚未见报道,笔者对已发表的包含中国人群NAT2基因型信息的文献进行了检索,构建了中国人群NAT2基因型数据库,并对不同NAT2基因型推断方法的效能进行评价。

材料和方法

1.文献检索:对包含中国人群NAT2基因多态性数据的文献进行检索,检索范围包括Medline、PubMed、Embase、维普中文科技期刊数据库、中国知网和万方医学网等数据库,检索时限为数据库建库至2021年12月1日,同时对纳入文献的参考文献进一步手工检索。英文检索词:NAT2、N-acetyltransferase、polymorphism、China或Chinese,以及这些词的同义词或扩展词;中文检索词:NAT2、基因多态性、中国,以及这些词的同义词或扩展词。

2.文献纳入及排除标准:(1)纳入标准:①NAT2 基因多态性检测方法为PCR直接测序法或至少检测NAT2基因第2外显子6个SNP位点(rs1041983、rs1801280、rs1799929、rs1799930、rs1208、rs1799931);②研究结果NAT2基因多态性数据中包含亚型(如*6A、*7B等)信息及对应频数信息;③如遇同一项研究阶段结果发表在不同期刊的情况,则对数据进行合并、整理,选择包含内容详细、数据广泛的研究。(2)排除标准:①文献结果只报道NAT2快、慢代谢基因型而未报道具体NAT2基因型(双体型)及亚型数据;②研究人群不在中国境内。

3.文献数据评价及处理:使用Newcastle-Ottawa Scale(NOS)评分表对纳入的文献进行质量评价和风险评估。提取文献中NAT2基因型及等位基因信息,重建单项研究NAT2基因型数据库并利用Phase 2.1软件[13-15]进行单体型和双体型重建及验证,对于文献中与软件基因型推测不符的数据进行分析和修正。NAT2等位基因和基因型分型标准参考人类NAT2等位基因库(http://nat.mbg.duth.gr/Human%20NAT2%20alleles_2013.htm)。提取文献中对照组人群NAT2基因型数据构建中国人群NAT2基因型分布数据库,比较和分析不同地区NAT2等位基因和基因型分布特点。SNP位点信息及人群分布数据通过美国国家生物信息中心SNP数据(https://www.ncbi.nlm.nih.gov/)及中国汉族基因组数据库(https://www.biosino.org/pgghan2/index)查询。基于构建的NAT2基因型数据库,评估不同NAT2基因型分型方法的准确性。

4.统计学处理:不同研究的NAT2基因型及等位基因分布以“频数和频率(%)”描述,通过WPS电子表格整理数据。不同NAT2基因型推断方法(3SNP法及2SNP法[11])性能评价指标包括敏感度、特异度、阳性预测值、阴性预测值、准确度,推断方法效能的比较采用McNemar检验和Kappa一致性检验,以P<0.05为差异有统计学意义。

结 果

1.文献筛选结果:经过文献检索及筛选,最终纳入10项研究[4-5,16-23]。具体文献筛选过程及文献基本信息见图1及表1。

表1 纳入研究文献信息汇总

图1 文献筛选流程图

2.纳入文献风险偏倚评价:使用NOS评分表对纳入的文献进行质量评价和风险评估。量表共分为3个主要评价指标,分别为研究对象选择、组间可比性、暴露因素测量。每项下分别有4、2、3个小项,根据文献内容是否符合分别赋值,最高为9★,得分越高,文献质量越高,纳入文献评价情况见表2。

表2 纳入文献的偏差风险和质量评估

3.文献中NAT2基因型及等位基因信息提取及整理:10篇文献中3篇文献NAT2基因型分型采用直接测序法,7篇采用间接方法检测至少6个SNP位点的多态性并对个体的NAT2基因型进行推断。利用7篇文献中个体的NAT2基因型(双体型)信息重建各自单项研究NAT2基因型数据,并使用Phase 2.1软件验证原文献的推测结果。

在上海-2012研究[20]中检测到*14A等位基因,查询美国国家生物技术信息中心SNP数据库及中国汉族人群基因组数据库,*14A等位基因对应的rs1801279位点仅在非洲裔人群具有多态性,中国人群此位点全部为GG型,在整理数据时将该研究中的这2例删除。

在上海-2016研究[5]中,共有477例中间代谢型,根据Phase 2.1基因型推断结果,分别将477例推断为*4/*5B(31例)、*4/*6A(261例)及*4/*7B(185例)。该研究中有12例未能明确基因亚型,仅能判断为快代谢及慢代谢等位基因杂合个体,在计算人群NAT2基因型分布时纳入这12例,由于不能确定SNP位点多态性信息,评估不同NAT2分型方法及统计不同等位基因频率时未纳入这12例中间代谢型个体。

在长沙-2006研究[4]中,NAT2分型结果汇总表中,共有3种基因型无法确定基因亚型,分别是NAT2*6A/282.481、NAT2*6B/282.481及NAT2*6E/282.481,通过查询人类NAT2基因数据库(最后更新2016年4月18日),未查询到同时携带282C→T与481C→T的NAT2等位基因,且即使理论上存在282C→T与481C→T共同突变的等位基因,由于此2个位点都是同义突变,带有282C→T与481C→T的等位基因也应该是NAT2快代谢等位基因。利用Phase 2.1软件对该研究NAT2基因型数据进行单体型及双体型重建,上述3种基因型重新推断为*13/*6N、*4/*6N、*11/*6N。由于3种基因型都是快代谢及慢代谢等位基因杂合子,3种基因型均推断为NAT2中间代谢基因型。

剩余4项研究中,经Phase 2.1软件推断结果与研究汇报推断结果一致。

4.纳入文献中对照组NAT2基因型及等位基因信息汇总:对上述整理后的数据进行汇总,提取单个研究中对照组NAT2基因型及等位基因数据(广州-2011研究为结核病患者,该研究所有数据纳入汇总)构建中国人群NAT2基因型数据库,数据库包含4010例个体的基因型数据汇总信息。(1)汇总数据中NAT2快代谢基因型、中间代谢基因型、慢代谢基因型总体频率分别为25.79%(1034/4010)、50.87%(2040/4010)、23.34%(936/4010),NAT2非慢代谢基因型总体频率为76.66%(3074/4010),具体见表3。(2)汇总数据中NAT2快代谢等位基因包括*4、*13、*11A、*12A、*12B、*12C,NAT2快代谢等位基因总体携带频率为51.19%(4096/8002)。其中,*4等位基因占全部快代谢等位基因的96.92%(3970/4096);汇总数据中慢代谢等位基因包括*5、*6、*7、*10、*19,NAT2慢代谢等位基因总体携带频率为48.81%(3906/8002),其中*5、*6、*7等位基因占所有慢代谢等位基因的99.90%(3902/3906),具体见表4。北京-2012研究[16]在北方人群中检测到*10及*19等位基因,在该研究人群中的携带率均为0.93%(2/214)。

表3 纳入研究文献中NAT2基因型分布情况

表4 纳入研究文献中NAT2等位基因分布情况

5.不同方法推断NAT2基因型效能:基于10篇文献的所有能够获得精确基因型(双体型)的NAT2多态性数据,重建包含5448例NAT2基因型信息数据库(表5),基于此数据库,对3SNP及2SNP法推断NAT2代谢基因型的效能进行评价。

表5 3SNP法及2SNP法推断NAT2基因型结果

续表5

3SNP法采用341T→C、590G→A、857G→A等3个SNP位点对NAT2基因型进行推断。借鉴文献报道中采用的积分法,每个位点如果为野生型纯合子,则积0分,如果为杂合子则积1分,突变纯合子则积2分,将上述3个位点所得积分相加,如果总分为0分,则推断为NAT2快代谢型,如果总分为1分,则推断为NAT2中间代谢型,积分≥2分,则推断为NAT2慢代谢型。3SNP法推断NAT2基因型共有4种基因型出现错误,分别是*4/*6J、*4/*10、*4/*19、*6A/*19,总体推断错误率为0.22%(12/5448)。3SNP法推断NAT2慢代谢基因型的敏感度、特异度、阳性预测值、阴性预测值、准确度分别为99.92%、99.81%、99.36%、99.98%、99.83%;推断NAT2快代谢基因型的敏感度、特异度、阳性预测值、阴性预测值、准确度分别为100.00%、99.92%、99.80%、100.00%、99.94%(表6,7)。

表6 3SNP法推断NAT2慢代谢基因型效能分析

表7 3SNP法推断NAT2快代谢基因型效能分析

2SNP法利用2个SNP位点(282C→T、341T→C)推断NAT2基因型。每个位点如果为野生型纯合子,则积0分,如果为杂合子则积1分,突变纯合子则积2分,将上述3个位点所得积分相加,总分为0分推断为NAT2快代谢基因型,总分为1分推断为NAT2中间代谢基因型,积分≥2分推断为NAT2慢代谢基因型。2SNP法推断NAT2基因型共有19种基因型出现推断错误,总体推断错误率为6.74%(367/5448)。2SNP法推断NAT2慢代谢基因型的敏感度、特异度、阳性预测值、阴性预测值、准确度分别为99.52%、98.36%、94.54%、98.66%、97.71%;推断NAT2快代谢基因型的敏感度、特异度、阳性预测值、阴性预测值、准确度分别为93.19%、96.01%、89.75%、97.41%、95.25%(表8,9)。

表8 2SNP法推断NAT2慢代谢基因型效能分析

表9 2SNP法推断NAT2快代谢基因型效能分析

将3SNP法及2SNP法推断NAT2快、慢代谢基因型的效能进行对比。经McNemer检验,两种方法推断NAT2慢代谢基因型敏感度的差异无统计学意义(χ2=0.189,P=0.664),具有较高的一致性(Kappa=0.932,P<0.01)。两种方法推断NAT2快代谢基因型敏感度的差异有统计学意义(χ2=10.973,P=0.001),3SNP法推断NAT2快代谢基因型时优于2SNP法。

讨 论

本研究纳入10项研究,重建的NAT2数据库在一定程度上可以反映中国人群NAT2基因型构成情况。10项研究中对照组共4010例,非慢代谢基因型占到了所有人群的76.7%,快、慢等位基因分别占51.19%及48.81%。在中国人群中,NAT2基因型分布以非慢代谢型为主。

除了常见的NAT2慢代谢等位基因*5、*6、*7外,在北京-2012[16]研究中检测到*10及*19等位基因。*19等位基因最早由日本学者发现[24],190C→T(rs1805158)突变使NAT2基因第64位的精氨酸变成了色氨酸,导致NAT2酶活性的下降。通过在中国汉族基因组数据库查询,rs1805158位点在我国汉族人群中碱基T总体携带率为0.146%,在北京、河南、江苏、贵州、陕西5个地市均检测到碱基T携带者,携带率分别为0.12%、0.089%、0.209%、2.08%、0.059%。*10等位基因对应的是rs72554617(499G→A),该突变使NAT2基因第167位的谷氨酸变成了赖氨酸,导致NAT2酶活性的下降。rs72554617位点在我国汉族人群中碱基A总体携带率为0.049%,在北京、上海、陕西、陕西、河南等9个地市均检测到碱基A携带者,以安徽省携带率最高(0.45%),其余地市携带率均低于0.15%。

采用既往文献中报道的3SNP积分法对重建数据库中的样本进行推断,所有46种NAT2基因型中,共有4种基因型推断错误,分别是*4/*6J、*4/*10、*4/*19、*6A/*19,总体推断错误率为0.22%。错误原因分为2类,其中,*10、*19等位基因存在499G→A和190C→T突变,这使得在使用3SNP方法对*4/*10、*4/*19基因型推断时,将中间代谢型错误地推断为快代谢型,而*6A/*19慢代谢型推断为中间代谢型。另一类推断错误是由于*6J等位基因的存在,基因型为*4/*6J的个体3SNP推断法积分为2分,3SNP法将该种基因型推断为慢代谢型。针对此种情况,如果受检者通过3SNP法检测结果为TT、AG、AG,则该个体可能的基因型为*4/*6J或者*6/*7,其抗结核治疗异烟肼用量可根据异烟肼血药浓度检测结果进行调整。

当SNP检测对341T→C、590G→A、857G→A等3个位点检测结果为CT、AG、GG或CT、GG、AG或TT、AG、AG或CT、AG、AG等4种情况时,理论上可能NAT2基因型为中间代谢型或者慢代谢型。但在本研究构建的数据库中仅出现*4/*6J这一种基因型,其他理论上存在的3种检测结果在纳入的3项研究中并未检测到。另外,笔者进一步查询了人类NAT2等位基因库,并未发现341T→C、590G→A、857G→A等3个位点同时为突变位点的NAT2等位基因。因此,如果样本检测为CT、AG、AG,3SNP法计算得分为3分,则按照目前人类NAT2等位基因库的数据推断该个体可确定为NAT2慢代谢型。

采用既往文献中报道的2SNP积分法对数据库中的样本进行推断,所有46种NAT2基因型中,共有19种基因型出现错误,总体推断错误率为6.74%,远高于3SNP法的推断错误率(0.22%)。2SNP法推断NAT2基因型的基础是SNP位点590G→A和857G→A与282C→T存在连锁不平衡,人群中282C→T一般伴随590G→A或857G→A中的一种出现。因此,当个体中检测到282C→T时,可以认为该个体携带590G→A或857G→A,此2种突变与*6及*7相对应。但在中国人群中,根据本研究结果看,282C→T与590G→A或857G→A之间的关联强度并不高,282C→T也与*12或*13 相关联。因此,2SNP法会将携带*13或*12等位基因的个体错误推断为携带*6或*7等位基因,导致了较高的推断错误率。2SNP法推断性能在不同人群中存在较大差异,考虑与不同人群*13或*12等位基因携带比例有关,在*12及*13等位基因携带比例较高的人群中,2SNP法推断NAT2基因型效能较差。

笔者对3SNP及2SNP法推断NAT2基因型的效能进行了比较。在中国人群中推断NAT慢代谢基因型时,3SNP法与2SNP法推断结果一致性较好;但推断NAT2快代谢基因型时,3SNP法推断NAT2基因型总体效能优于2SNP法。

本次纳入研究中有3项研究的NAT2基因多态性检测采用PCR直接测序法,7项研究基于有限SNP检测的结果进行NAT2基因型推断。为了确保数据的准确性,本文在7项研究结果NAT2基因型数据的基础上采用Phase 2.1软件进行了验证,最大限度保证了NAT2基因型推断结果的正确性。个别研究中部分样本未能明确汇报NAT2基因亚型信息,因此,在对NAT2推断方法进行评价时,删除了这部分数据。尽管本研究纳入了5448例样本构建数据库,研究群体涉及北京、上海、广州等多个地区,但相对于我国庞大的人口数量,纳入的样本数据仍不能完全反映中国人群NAT2基因多态性特点。因此,本研究的结论需更大样本的研究验证。另外,纳入研究中研究人群大部分以汉族为主,故尚需明确少数民族人群的NAT2基因型分布情况。

综上所述,本研究中NAT2基因型数据库的建立能够为临床工作中NAT2基因分型工作提供参考。由于不同人群NAT2基因型分布和构成具有地域性差异,在*10、*19等罕见等位基因携带率较高地区,增加对190C→T和499G→A位点的检测可以提高NAT2基因型推断的准确性。综合考虑3SNP法与2SNP法推断NAT2基因分型效能的差异,建议在中国人群中采用3SNP法推断NAT2基因型。

利益冲突所有作者均声明不存在利益冲突

作者贡献王宁:酝酿和设计实验、实施研究、采集数据、分析/解释数据、起草文章、统计分析;郑璐瑶:实施研究、采集数据、分析/解释数据、起草文章、统计分析;孟秀娟:分析/解释数据、对文章的知识性内容作批评性审阅、统计分析、指导;刘海婷:实施研究、采集数据、支持性贡献;丁杨明:采集数据、分析/解释数据、对文章的知识性内容作批评性审阅、统计分析;姚蓉:实施研究、采集数据;郭少晨:实施研究、分析/解释数据、对文章的知识性内容作批评性审阅;陆宇:酝酿和设计实验、实施研究、对文章的知识性内容作批评性审阅、获取研究经费、行政和技术及材料支持、指导

猜你喜欢

等位基因多态性基因型
HBV基因型的研究现状与发展趋势探讨
PAI-1基因多态性与缺血性脑卒中rt-PA静脉溶栓后出血性转化和血管再闭塞的相关性
APOE基因多态性与老年动脉粥样硬化性脑梗死严重程度及预后相关性分析
成熟度和生长调节剂对不同基因型观赏向日葵种子休眠期的影响
MTHFR C677T基因多态性与颈动脉狭窄及其侧支循环形成的关系
用数学思维分析遗传的基本规律
浅谈分枝法在解决遗传学题目中的应用
Goldeneye 20A试剂盒检测发现TPOX基因座三等位基因一例
从一道高考题看自交与自由交配的相关计算
爱笑不爱笑,基因早知道