APP下载

双向孟德尔随机化分析总胆固醇升高风险与胆石症发生风险的关系

2024-03-28赵伟伟杜晓旭戈宏焱

临床肝胆病杂志 2024年3期
关键词:遗传变异胆石症异质性

赵伟伟, 杜晓旭, 戈宏焱

1 内蒙古民族大学临床医学院, 内蒙古 通辽 028000

2 兴平市汤坊镇卫生院, 陕西 兴平 713100

3 内蒙古民族大学医学院, 内蒙古 通辽 028000

胆石症发病率在中西方国家都比较高,在西方国家一些大城市的医院中,大约有10%的成年人患有胆石症[1]。目前关于胆石症的风险因素有很多研究,但在这些研究中存在互相矛盾的地方,如有的研究[2]认为较低的总胆固醇水平是胆石症的危险因素,但有的研究[3]认为较低胆固醇水平是胆石症的保护性因素。关于胆石症对总胆固醇水平的影响和因果关系尚未得到证实。已有的研究大多依靠传统的观察性研究得出关联结论。传统的观察性研究由于本身的缺陷,受到大量混杂因素的干扰,因此本研究引入孟德尔随机化(MR)来进行因果推断,MR利用等位基因在减数分裂时随机分配到子代的原理模拟随机对照试验,从而规避了不同混杂因素对暴露和对照的影响[4]。MR在观察性研究中使用遗传变异作为工具变量来检测和量化因果关系。本研究使用双向孟德尔随机化(bidirectional MR)来探索总胆固醇水平和胆石症之间的风险关系和因果推断。

1 资料与方法

1.1 数据来源与研究设计 通过搜索open gwas(https://gwas.mrcieu.ac.uk/datasets)数据库中有关总胆固醇水平和胆石症相关的全基因组相关联研究(GWAS)汇总数据,得到两组样本量相对较大和单核苷酸多态性(SNP)个数比较多的GWAS数据,具体信息见表1~2。将其中一组数据中的任意一个GWAS数据和另外一组数据中的任意一个GWAS数据进行组合,得到四种不同的暴露和结局的组合。利用设计的bidirectional MR模型来评估暴露和结局(总胆固醇和胆石症)之间的风险关系和因果推断(图1)。

表1 总胆固醇GWAS数据汇总信息Table 1 Summary of the GWAS data for total cholesterol

图1 bidirectional MR的模型图Figure 1 Model diagram of bidirectional Mendelian randomization

1.2 工具变量的选择 从全基因组(GWAS)上获得P<5×10-8水平的与暴露相关的遗传变异。该遗传变异必须满足MR分析的三大假设:(1)关联性假设,SNP与暴露强相关;(2)独立性假设,遗传变异与影响“暴露和结局”的混杂因素相独立;(3)排他性假设,遗传变异只能通过暴露对结局发生作用,而不通过其他途径。设置连锁不平衡参数(r²<0.001),即两个SNP之间是完全连锁平衡的(这两个SNP的分配是完全随机的),遗传距离设定为10 000 kb以选择SNP,从而确保其独立性,并排除连锁不平衡(linkage disequilibrium,LD)对结果的影响。通过GWAS提取满足MR三大假设的SNP,合并暴露与结局的数据集,并删除回文SNP。最后剩余的SNP即为指代暴露的最佳工具变量。

1.3 bidirectional MR方案 本研究分为两部分,第一部分分别以表1总胆固醇GWAS数据为暴露、表2胆石症GWAS数据为结局,应用MR分析方法中的Egger回归法、中位数加权法、逆方差加权法随机效应模型和固定效应模型等主要方法来初步计算因果效应值(b值)、OR值及95%CI等。然后将上述暴露和结局调换,以胆石症GWAS数据为暴露、以总胆固醇水平GWAS为结局进行MR分析。第二部分将第一部分的数据去除异质性后做同样分析。

表2 胆石症GWAS数据汇总信息Table 2 Summary of the GWAS data for cholelithiasis

1.4 敏感性分析 用MR分析R包对所涉及的SNP进行Cochran’s Q检验,用于评估个体遗传变异之间的异质性。如果Cochran’s Q检验的P<0.05,代表基因间存在异质性可能。一般来说当异质性很大(P<0.001)的时候,需要使用随机效应模型,当异质性小的时候,使用固定效应模型。检测SNP的水平多效性,当P<0.05代表存在水平多效性,即所挑选的工具变量通过暴露以外的途径影响结局,违反了MR三大假设。计算MR-Egger法的截距值,Egger回归中的截距估计值可以解释为遗传变异间的平均多效效应的估计值[5]。当截距值与零相差较大代表存在总体方向多效性[6],可能导致有偏差的MR估计值,所以本研究中列出MR-Egger方法的截距项。用MR-PRESSO检验去除离群的SNP后再进行上述步骤,得到最终的因果效应b值和OR值。

1.5 工具变量的评价 利用计算公式:R2=2×(1-MAF)(MAF)×其中,MAF为暴露的次要等位基因频率,β为暴露的等位基因效应值,SD为标准差。注意,参与F值计算的R2为所有SNP的R2相加之和,表示最终工具变量指代了暴露的比率。再利用公式:F=其中N为暴露的总样本数,K为SNP个数,R2同上;F>10即为强工具变量,F<10为弱工具变量。在两样本MR研究中,I2GX统计量比传统F统计量更合适MR-Egger回归方法,用MR-Egger方法计算I2GX。对于Egger回归法来说,I2GX值越高,检测定向多效性和因果效应的能力越强,弱工具变量偏差可能性越小[7]。以上所有方法学及可视化图形均采用R 4.2.3版本获得。

2 结果

2.1 总胆固醇水平和胆石症之间因果关系的初步分析 以表1中GLGC或met的总胆固醇GWAS数据为暴露,用R软件选择P<5×10-8的遗传变异SNP位点进行汇集,去除连锁不平衡后,筛选出满足MR三大假设的SNP。用这些筛选出的SNP提取表2中ukb或finn的胆石症SNP为结局。以Egger回归法、加权中位数法、逆方差加权法(IVW)随机效应模型、IVW固定效应模型做两样本MR(图2),结果均显示因果效应值b为负数,代表总胆固醇水平和胆石症是负相关的,除了部分Egger方法P>0.05外,大部分P<0.05,具有统计学意义。总体OR<1,其95%CI<1,可知总胆固醇对胆石症具有负向因果关系。

图2 以总胆固醇为暴露、胆石症为结局的MR结果图Figure 2 MR results of 4 methods with TC as the exposure and cholelithiasis as the outcome

2.2 胆石症和总胆固醇水平之间因果关系的初步分析以表2中ukb或finn的胆石症GWAS数据为暴露,表1中GLGC或met的总胆固醇GWAS数据为结局得到MR结果(图3),显示因果效应b值为负,代表胆石症和总胆固醇是负相关,大部分P<0.05,具有统计学意义。总体OR<1,其95%CI<1,可知胆石症对总胆固醇具有负向因果关系。

图3 以胆石症为暴露、总胆固醇为结局的MR结果图Figure 3 MR results of 4 methods with cholelithiasis as the exposure and TC as the outcome

2.3 删除离群SNP前的工具变量评价以及异质性分析利用R2及F值的计算公式,分别计算出每对暴露-结局数据的总R²值和F值。F值均>10(表3),证明本次研究所选取的所有工具变量均为强工具变量。由表2可见全部数据都存在异质性(P值均<0.05),可能会对MR分析结果产生偏差,因此需要去除异质性后(即删除离群SNP后)再进行分析。虽然全部数据均不存在水平多效性(P值均>0.05),但小部分数据MR-Egger截距值与零相差较大,也不排除总体方向多效性的存在,可能会导致这部分MR分析结果的偏差,待去除离群SNP后观察能否消除这部分数据的偏倚。

表3 去除离群SNP前每对暴露-结局数据的工具变量评价及异质性分析结果Table 3 Results of R²,F and heterogeneity analysis for each pair of expose-outcome data before removing outlier SNP

2.4 总胆固醇和胆石症之间去除异质性后因果分析将以总胆固醇为暴露、胆石症为结局所得到的SNP用MR-PRESSO方法去除离群SNP后再重复分析,可得MR结果(图4),nSNP个数较前减少,b值均<0,代表总胆固醇和胆石症是负相关,大部分P<0.05,具有统计学意义。总体OR<1,其95%CI<1,可知去除异质性后总胆固醇水平对胆石症仍具有负向因果关系。

图4 以总胆固醇为暴露、胆石症为结局去除异质性后的MR结果图Figure 4 MR results of 4 methods after removing heterogeneity with TC as the exposure and cholelithiasis as the outcome

2.5 胆石症和总胆固醇之间去除异质性后因果分析将以胆石症为暴露、总胆固醇为结局所得到的SNP用MR-PRESSO方法去除离群SNP后再重复分析,可得MR结果(图5),SNP个数较前减少,b值均<0,代表胆石症和总胆固醇是负相关的,大部分P<0.05,具有统计学意义。总体OR<1,其95%CI<1,可知去除异质性后胆石症对总胆固醇仍具有负向因果关系。

图5 以胆石症为暴露、总胆固醇为结局去除异质性后的MR结果图Figure 5 MR results of 4 methods after romoving heterogeneity with cholelithiasis as the exposure and TC as the outcome

2.6 删除离群SNP后工具变量评价以及异质性分析可见去除异质性后,所有工具变量的F值仍然>10,P值得到很大提升,除了GLGC-finn和met-ukb这两对暴露-结局数据的异质性较大(P<0.05),其他的数据均不存在异质性;多效性检验显示P值均>0.05,提示均不存在水平多效性。ukb-GLGC和ukb-met存在I²GX等于0的情况,表明这两组数据MR分析结果可能会产生弱工具偏差。ukb-GLGC这组数据的截距值与零相差较大(0.029),进一步证明了其可能存在总体方向多效性,从而导致结果有偏差的可能(表4)。但大部分数据既排除了多效性和异质性,也非弱工具变量,因此确保了结果的可靠性。

表4 去除离群SNP后每对暴露-结局数据的工具变量评价及异质性Table 4 Results of R²,F and heterogeneity analysis for each pair of expose-outcome data after removing outlier SNP

2.7 去除异质性前后四种MR方法的统计学意义 可见无论是否去除异质性,IVW固定效应模型均具有统计学意义(P<0.05)。对于IVW随机效应模型,去除异质性后P值均<0.05。说明总胆固醇和胆石症之间具有双向因果效应的结论具有统计学意义(图6)。

图6 去除异质性前、后4种MR方法的P值改变Figure 6 The change of P values of MR before and after the removal of heterogeneity

3 讨论

胆石症影响着全世界10%~20%的成年人,是造成经济负担最重的疾病之一[8]。Lammert等[9]确定了几个外源性的危险因素,包括代谢综合征、饮食因素、胆囊功能低下、肠肝胆红素循环和药物,其中代谢因素的影响可能最大,因为环境因素可能通过调节代谢影响胆石症。这些代谢性因素中,胆固醇水平与胆结石之间的相关性研究比较少。本研究基于bidirectional MR研究,探究总胆固醇水平和胆石症之间的相互影响。

本次研究中所涉及到的GWAS数据均来自open gwas数据库,涉及到的人群除了GLGC为混合人群外,其余均来自欧洲人群,最大程度降低人群分层给本研究带来的影响。本研究所用数据研究不区分性别,但有研究[10]表明雌激素是胆石症明显的危险因素,女性更容易患胆结石,下一步可研究不同性别的总胆固醇水平GWAS数据与胆石症GWAS数据之间的关系。

本研究分为两部分,一部分为未去除异质性探究暴露与结局的关系,另一部分为去除异质性后探究暴露与结局的关系。以met和finn这组数据为例,其IVW_fe方法所得b<0,OR=0.74,P=0.06。而去除异质性后可得b<0,OR=0.83,P=0.000 38,说明去除异质性后,既能得出总胆固醇和胆石症之间负相关,又有统计学意义。此外,本研究中可以看到去除异质性后MR-Egger方法并没有之前有效的情况。以ukb-GLGC这组数据为例,去除异质性后的MR-Egger方法P=0.095,其I2GX值为0,而未去除异质性时P=0.038,I2GX值为97.4%。说明此组暴露-结局数据未去除异质性的MR-Egger方法P值更有意义且检出多效性的能力更强,这也可能是由于去除异质性后SNP个数较少导致。本研究中还可以看到无论是否去除异质性,MR-Egger方法都存在无效的情况。以met-finn数据为例,去除异质性前后,MR-Eggr方法均无统计学意义。这可能由于MR-Egger估计值的精确度并不取决于遗传变异可以解释的暴露比例(比如IVW方法),而是取决于与暴露有关的遗传关联之间的差异所导致[11]。如果这些关联都很相似,那么MR-Egger估计值的置信区间就会很大,这会导致MR-Egger估计值的精确度总是会低于IVW估计值[11]。从去除异质性前后4种MR方法的统计学意义分析中也可以看到各组暴露-结局数据间MR-Egger方法的P值差异性也是最大。总之,MR-Egger方法的精确度没有IVW随机效应模型和IVW固定模型高。也就是说,MR-Egger方法特别容易出现偏差[12],这也是本研究MR-Egger方法有统计学意义的P值不多的原因。

本研究证实随着总胆固醇水平暴露的增加,胆石症发病风险是降低的,其机制有待进一步研究,有研究表明胆汁中会形成简单胶束,能够溶解胆固醇、磷脂等其他类型的脂质,所以可能是由于使总胆固醇水平增高的基因能增加胆汁中可以溶解胆固醇的简单胶束的形成,从而使胆汁中的胆固醇结晶减少,抑制胆结石的形成[2]。也可能是由于基因导致的肝脏从血浆脂蛋白和从头合成的胆固醇中摄取的胆固醇减少,而使得转化为胆汁的胆固醇减少来抑制胆结石的形成。但并不意味着高胆固醇饮食或者其他提高血总胆固醇水平的方法都可以使得胆石症发病风险下降。因为这是两种不同的机制,MR是从基因水平上做出的因果推断[13],与暴露有关的遗传变异在出生前就已经确定[14],而中途施加的干预可能不通过暴露-结局的直接途径,而通过其他混杂因素影响结果。对于随着胆石症发病风险增加,总胆固醇水平是降低的这一结论,可能是由于胆石症影响了胆固醇的吸收,或者增加了肝脏胆固醇分泌进入胆汁的去路[15],亦或者胆石症相关基因抑制了胆固醇形成相关酶的活性,其机制有待进一步研究。同样,MR分析中与胆石症有关的遗传变异,并不总是和实际的干预措施有相同的作用机制。

本次研究存在一些局限性。首先,本研究所用数据来自open gwas公共数据库里的汇总数据,部分数据距今时间较长,当和新近数据进行联合分析时,后来新增的遗传位点可能分析不到。但这可能只会影响到分析的精确性,并不会影响分析的真实性。其次,数据集包括欧洲人群,这限制了结果对非欧洲人群的使用性。未来需要更多的研究来验证这些结果在其他人群和其他种族中的适用性。对于亚洲人群,只有少量日本数据库有关于总胆固醇水平相关GWAS数据,对于胆石症的全基因研究还是空白。本研究结果是否可以作为亚洲人群的适用参考还有待考证;再次,从本研究可以看到,以总胆固醇水平为暴露、胆石症为结局的SNP个数比以胆石症为暴露、总胆固醇水平为结局的SNP个数多,后者在去除异质性后SNP的数量更少,即研究胆石症为暴露变量的数据集样本量较少,后者的统计效能比前者低,所以需增加样本量后进一步分析,但并不影响研究结果的有效性。从本研究可以看到基于不同数据集产生的结果有些许偏差,可能有如下原因:(1)不同数据集筛选入组的患者可能有种族差异,本研究纳入的大多为欧洲人群,也有混合人群,这为结果带来偏倚,具有明显的人群效应可能。(2)不同数据集的纳入排除标准不一致,比如本研究部分采用的是2021年的GWAS数据,无法明确该数据的纳入排除标准与2017年的GWAS数据集是否一致。(3)样本量不足,尤其是以胆石症为暴露、总胆固醇水平为结局的数据集。(4)遗传变异的方向性,尤其是MREgger方法要求与暴露的遗传关联具有相同的符号[16],而本研究数据,大部分与暴露的遗传关联的符号不一致,这可能也是导致MR-Egger方法差异性较大的因素之一。

总之,本研究在一定程度上证实了总胆固醇水平与胆石症之间的双向因果关系,随着遗传上有关能使总胆固醇水平升高的等位基因的增加,发生胆石症的风险降低。反之,随着遗传上有关能使胆石症发病增高的等位基因的增加,总胆固醇水平降低。这为下一步完善高胆固醇血症和胆石症之间关系的研究指出了方向。

利益冲突声明:本文不存在任何利益冲突。

作者贡献声明:赵伟伟负责课题设计,搜集资料,统计分析,论文撰写等;杜晓旭负责数据搜集和整理资料;戈宏焱负责写作思路的制订,论文的写作指导,修稿以及最终定稿等工作。

致谢:感谢open gwas网站、英国生物银行、芬兰生物银行、代谢组学研究、全球脂质遗传协会等公开数据集及有关工作人员的努力。

数据可用性声明:本研究所用数据均来自公共数据库,可从文中提及的PMID或数据链接进行下载。

猜你喜欢

遗传变异胆石症异质性
基于可持续发展的异质性债务治理与制度完善
教您如何防治胆石症
先导编辑技术可编辑近90%的人类遗传变异
基于改进遗传变异算子的海岛算法
胆石症预防有对策
胆石症术后T管引流蛔虫堵塞2例
火力楠子代遗传变异分析及优良家系选择
现代社区异质性的变迁与启示
GABABR2基因遗传变异与肥胖及代谢相关表型的关系
1949年前译本的民族性和异质性追考