两样本孟德尔随机化研究应用于心血管疾病的教学与思考
2023-12-09汪汉路克宁
汪汉 路克宁
(1.成都市第三人民医院心内科,四川 成都 610031; 2.南京农业大学,江苏 南京 210095)
孟德尔随机化(Mendelian randomization,MR)正成为一种跨学科的因果推断方法。它是一种利用与可改变的暴露相关的遗传变异来评估其与被解释变量的因果关系的方法[1]。在MR中,遗传变体通常是单核苷酸多态性(single nucleotide polymorphism, SNP),这些SNP与潜在的暴露有密切联系,但与传统的观察性研究中可能混杂的生活方式或社会经济因素无关。MR可提供较高水平的循证医学证据,虽然低于多中心、大样本的随机对照试验和系统评价,但相较于后者更易实施且高效,另外,与传统的观察性研究相比,MR也不太可能受反向因果关系的影响,因此,MR对于判断“暴露”和“结局”的因果关系意义重大[1-2]。
两样本MR在MR中最为常见,已广泛应用于心血管疾病的研究中。大量研究通过MR重新定义了传统心血管疾病和其他可能的危险因素[3]。然而,目前已发表的MR中方法学介绍不全,部分研究存在一些缺陷,这使MR的可信度受到怀疑。更重要的是,与其他分析方法一样,MR的可信度取决于假设,因而评估这些假设的合理性尤为重要。
在目前的教学中,多数学生对MR的理解局限于跑程序,“程序为王”或“发文为王”的思想不在少数。如何深入理解MR,从而进一步转化,在教学上值得深思熟虑。现从MR的概念、基本要求与执行、应用于心血管疾病的现况、在心血管疾病教学中的学习应用以及在教学中的困惑与思考方面进行阐述,以期为初入手MR的学生提供一定的参考。
1 MR的概念
MR是一种使用遗传变异来估计“暴露”和“结局”之间因果关系的方法。“暴露”通常指任何可能影响结果的危险因素,包括生物学指标、实验室数据或群体特征,而“结局”一般是疾病,但往往不限于疾病。
MR的核心是利用孟德尔自由组合规律,这一过程类似于随机对照试验中的随机分组[1]。它主要用于确定变量的因果关系。确定因果关系对于制定干预措施极其重要,然而,由于反向因果关系、双向因果关系以及混杂因素的干扰,这种关系常难以肯定。与随机对照试验类似,MR将等位基因随机分离,其中,暴露组分配等位基因而对照组则无,进一步比较两组的结局。
MR的优势很多,首先,“暴露”一般与行为、社会、心理等因素相关,可能造成偏倚,但遗传变异则不受混杂影响;其次,遗传变异与其效应的测量误差较小;最后,近年来全基因组关联分析(genome wide association study,GWAS)相对容易获取,这为判断“暴露”和“结局”之间的因果关系提供了极大的便利。
2 MR的基本要求与执行
MR在统计学上的本质是利用工具变量来研究因果关系。最常见的两种统计学模型是两阶段最小二乘法以及两样本MR。后者可利用两个独立的GWAS 的汇总统计量来计算“暴露”和“结局”的关联比值。在两样本MR中,需要遵守关联性、排他性以及独立性假设等3个原则,即:遗传变异必须与“暴露”因素强相关;遗传变异不能与“结局”直接相关;遗传变异不能与任何可能的混淆因素相关。这3个原则是MR的基石,同时也反映在MR的执行流程中[3]。
两样本MR的基本流程如下:选取汇总数据,确定工具变量,MR分析操作,进行敏感性和异质性分析。操作非常简单,但规范更重要。为此,STROBE-MR工作组[4]制订了一个包含20个条目的MR研究报告规范清单,旨在帮助作者撰写MR研究报告、协助编辑和同行评审人决定该论文可否发表,以及协助读者评价已发表的MR论文,全文发表在2021年的JAMA杂志上,随后该工作组也在BMJ杂志上提出MR写作的规范解读[5]。该规范清单包括题目和摘要部分(标题和摘要)、引言部分(研究背景和目标)、方法部分(研究设计和数据来源、假设、统计学分析、假设的评估、敏感性分析和附加分析、软件和预注册)、结果部分(描述性分析、MR主要结果、对假设的评估、敏感性分析和附加分析)、讨论部分(主要结果、局限性、解释和普适性)、其他信息(资助、数据和数据共享、利益冲突)等六个部分。具体信息详见网站(https://www.strobe-mr.org/)。
3 MR应用于心血管疾病的现况
心血管疾病相关的GWAS较多,因此,MR广泛应用于心血管疾病领域。最近的研究[6]发现:MR研究已证实了主要的心血管疾病危险因素(饮酒、吸烟、肥胖、高血压、2型糖尿病、高脂血症和炎症)对动脉粥样硬化性心血管疾病的影响,这些研究的结果与现有的队列研究结果基本相同,同时也被进一步的随机对照试验所证实。多数研究主要是探索心血管疾病的危险因素,因此可以采用两样本MR进行,进一步的分析可采用中介MR、多变量MR以及贝叶斯模型操作。当然,探讨“暴露”与“结局”的遗传多效性关联还可以采用连锁不平衡分数回归、基因共定位、基于汇总数据的MR等方法[3]。
在心血管领域,开发靶向药物是一个热门话题。如何寻找有效的分子靶标是科学家们孜孜追求的重大问题。药理学家们更喜欢通过研究作用机制,例如通过靶向受体或分子对接的方法来寻找药物的靶蛋白。但常消耗了大量时间及金钱,却只能找到一个无效的靶标。由此,用于药物开发与效应预测的药物MR应运而生。它基于靶蛋白下游产物的生物标志物,以靶蛋白编码基因附近的对生物标志物有显著效应的SNP(pQTL或eQTL)作为工具变量,以生物标志物浓度作为暴露,以疾病作为结局进行MR,以验证蛋白靶点对所研究疾病的影响[7]。目前,针对心血管疾病的药物MR才刚刚起步,有极大的应用前景。
总之,目前MR在心血管领域的应用主要表现为探索疾病的因果关系、开发药物靶点。此外,MR也可进一步探讨遗传多效性,这些可为进一步研究多种疾病的机制奠定基础。
4 MR在心血管疾病教学中的学习应用
部分学生在学习MR时,常会觉得既简单又困难。简单的是,MR只需在R软件中不断地点击代码,就可得出想要的数值和图片,以此为基础,似乎就可以出不错的文章了,所谓“一键成文”。另一部分同学可能觉得困难,原因在于MR的应用软件为R软件,甚或使用Linux系统,而这些语言的学习难以一蹴而就。那么,该如何引导学生进行学习呢?大体上需要把握三个关键环节:(1)熟悉GWAS的基本概念以及MR的基本原理,这些可为操作、解释MR提供便利。(2)明确MR中的一些基本概念,例如工具变量,弱工具变量偏倚、F值、效应量,敏感性分析以及异质性分析。(3)基本会操作R语言。目前关于两样本MR的编程语言较多,但主要还是以R语言为主,其他的Linux以及Python在进阶分析中有更多的作用。
以2022年笔者发表的一篇文章[8]为例,在这项研究中,笔者使用两样本MR来揭示三甲胺N-氧化物(trimethylamine N-oxide,TMAO)及其前体(胆碱、甜菜碱和肉碱)对收缩压/舒张压的因果效应。TMAO及其前体的汇总数据来自弗雷明汉心脏研究的2 076例欧洲参与者的人类代谢组汇总数据。血压的数据来自于国际血压全基因组协会研究联盟。MR分析采用逆方差加权法、MR-Egger回归、最大似然比、加权中位数、MR多效性残差和异常值检验等方法。MR结果表明,TMAO增加1个单位与收缩压增加相关(β=0.390,SE=0.720,P=0.201)。此外,笔者的研究结果还表明,肉碱增加1个单位与收缩压增加相关(β=0.550,SE=0.750,P=0.390)。这一结果也得到了敏感性分析方法的证实。这项研究提供了TMAO及其前体与血压因果关系的证据,表明介导TMAO的产生可能有利于降低血压。
该研究手稿提交后,同时有7个审稿人参与审稿。在提出的问题中,最关键的一点是选题的创新性和临床的实用性,其余的大部分问题集中在方法学部分,主要表现在以下方面:(1)研究数据的基本特征。该部分常会被忽略,这要求研究者穷尽全文,回溯追查。(2)假设的评估。作者是否使用了足够的MR统计学方法?比值比以及95%可信区间过大或过小如何解释?弱工具变量偏倚如何处理?(3)基因的多效性如何解决?作者是否使用了最新的一些统计学方法解决基因多效性问题?(4)如何看待本文的局限性,包括但不限于数据的局限性、统计学的误差。(5)对该数据进行验证也是需要着重强调的问题。(6)其他的问题还表现在引文的准确、图表的精美以及书写的逻辑完整等方面。
5 MR在教学中的困惑与思考
MR对于解构疾病、开发药物靶点有益,目前发文方兴未艾。据统计,2022年已发表MR相关论文2 000余篇。然而,对临床有指导意义的MR论文好像并不多见,推动临床进展的研究更是少之又少,这似乎陷入了几年前如火如荼的生物信息学分析的类似怪圈。
因此,客观上,选择一个好的题目尤为重要。很多学生都存在两个误导性的观点:(1)无人做过的MR肯定可以发表;(2)阳性结果的MR肯定可以发表。然而,在实际中,文献没有认真查阅而直接重复别人做过的MR不在少数;另外,已有大量高质量随机对照试验证实的结论也不宜重复进行MR研究。
此外,普通的教学形式可能难以满足当前的学习情况,大数据的实际场景操作可能更适合目前的教学形式。实际上,进行eQTL、基于汇总数据的MR方法或基因共定位等操作时,对电脑的要求会更高一些,普通配置的电脑可能难以满足计算的要求,因此,云服务器可能是一个比较好的选择。
在描述MR的局限性时常会陈述以下几个方面:人群缺陷、样本缺陷以及无法获得原始数据从而进一步分析。尽管如此,以下几个方面必须注意:(1)必须严格执行MR研究的假设。MR中关联性、排他性以及独立性假设条件的执行需严格而谨慎。在这个环节中,为了尽可能删除回文SNP,避免混杂,需在Catalog和PhenoScanner中详细查询SNP位点。(2)样本重叠似乎是一个难以解决的问题。部分学者认为样本量小的因素与样本量大的因素的比值即是可能的最大样本重叠率。也有人认为样本的来源、国别不同就说明两样本之间不存在样本重叠率。然而,实际上,根据MR lap包计算两样本重叠率也是一个可行的方法[9]。(3)在MR中,结果往往较之于观察性研究结果更好,因此对MR结果的解释需更谨慎,因和果并不是一成不变的,随着年龄、环境以及伴随疾病的出现,因和果的联系也可能增强或者减弱[3]。另外,在观察性研究中有意义的关联也可能在MR中无意义,这与人群、样本量、伴随疾病以及基因多效性相关。此外,由于遗传变异仅解释了暴露变量方差的一小部分,因而可能无法从MR研究中推断出临床应用的结果[2]。由于无法真正验证所有的假设,MR研究可用于判断因果关系,但不能用于效应量的外推。最后,MR作为检验“暴露”和“结局”是否有因果关系具有相当大的优势,然而,当使用MR反驳因果关系时,统计效能较低,可能需非常大的样本量估计基因型-表型效应的精确性。(4)在实际操作中,还有一个重要问题值得注意,即基因的遗传多效性[10]。大牌杂志常会强调这个问题。常规的两样本MR一般依据常规的数学检验统计,然而,潜在的遗传多效性位点常不可避免。目前有多个新的统计学方法对遗传多效性进行检测,如CAUSE(Causal Analysis Using Summary Effect estimates)等,然而,CAUSE却经常得出阴性结果。另外一个方法是剔除“暴露”和“结局”可能共享的遗传多效性位点,然后再进行两样本MR计算,但后者在实际操作中也存在诸多问题。
总之,两样本MR在心血管领域的用途越来越广,在教学中的疑难点也颇多。只有立足于对基础知识的理解、基本操作的练习以及基本环节的剖析,才会熟练掌握这门强大的武器。