基于贝叶斯网络的典型关节炎代谢谱研究
2019-08-24李忆涛梁丹丹陈天璐
李忆涛,桑 潮,梁丹丹,陈天璐
慢性炎症及关节功能的丧失是关节炎的最主要特点。目前关节炎种类超过了100种,对社会及家庭造成了巨大的负担。类风湿性关节炎(rheumatoid arthritis,RA)是一种常见的自身免疫性疾病,其特点是关节组织慢性炎症[1]。痛风性关节炎(gout arthritis,GA)则是当血液中尿酸水平升高,尿酸会以结晶的形式沉积于关节处,造成一系列的炎症反应。两种关节炎在病因、临床表现、实验室指标及治疗方案等均有着明显差异。但是部分RA患者发病于手指和足趾等小关节,常表现为关节红肿、疼痛、活动障碍等症状,严重者可导致患者关节畸形,因此临床上常与GA混淆导致误诊。不同类型的关节炎发病年龄及好发性别也有着显著的差异。其中RA好发于中老年女性,而GA常见于中老年男性[2]。目前基于两类关节炎患者性别和年龄差异的代谢异同的相关研究成果相对较少。
多年前,本研究组采用传统的代谢组学方法对RA、GA、强直性脊柱炎和骨关节炎的代谢异同进行了初步的统计和分析[3]。由于研究设计的不同以及样本间年龄和性别的差异,尚未针对RA和GA进行深入的研究。本研究利用超高效液相色谱-四级杆飞行时间质谱联用仪(ultra-high performance liquid chromatography quadrupole time of flight mass spectrometry,UPLC-QTOF MS)和气相色谱-飞行时间质谱联用仪(gas chromatography time of flight mass spectrometry,GC-TOF MS)两种代谢组学平台,对两种关节炎患者血清进行全谱分析,通过与正常人对照,采用本研究组开发的代谢组学混杂变量影响消除策略(metabolic confounding effect elimination,MCEE)[4]消除年龄及性别所带来的偏倚,观察RA和GA对体内内源性代谢物的影响,寻找出两种关节炎共有和特有的生物标志物;并采用贝叶斯网络揭示不同代谢物之间存在的潜在的关系。
1 材料与方法
1.1 研究对象 收集北京中日友好医院和安徽中医药大学附属第一医院收治的RA和GA患者。其中RA组,女性27例,年龄(53±8)岁;GA组,男性34例,年龄(51±12)岁;正常对照组,男性30例,女性30例,年龄(36±12)岁。RA患者符合1987年美国风湿病协会(American College of Rheumatology,ACR)修订的RA诊断标准[5];GA患者符合1977年ACR的GA诊断标准。所有受试者在早餐1 h后静脉采血3 mL,立即离心(3 500 r/min,4 ℃,10 min),离心后取上清液保存于-80 ℃冰箱,具体样本收取和处理方法见本课题组先前研究[3]。
1.2 试剂与仪器 仪器为UPLC-QTOF MS(Waters公司,美国)和GC-TOF MS(Agilent公司,美国);Milli-Q超纯水仪(Millipore,Bedford MA,美国)。试剂采用色谱纯的甲醇和乙醇(Fisher Scientific Worldwide公司,美国);分析纯的吡啶、甲酸、甲氧基胺盐酸盐、L-2-氯苯丙氨酸、十七烷酸和N,O-双-三甲基硅烷基-三氟乙酰胺(Sigma-Aldrich公司,美国)。
1.3 样本分析
1.3.1 GC-TOF MS样本分析 100 μL血浆样本加入1 mg/mL的十七烷酸10 μL和0.1 mg/mL的L-2-氯苯丙氨酸水溶液10 μL,随后加入氯仿:甲醛(1∶3)的混合液300 μL,震荡30 s后放入-20 ℃的冰箱静置10 min,接着离心(12 000 r/min,4 ℃,10 min)取上清液300 μL真空干燥处理。GC-TOF MS为不分流进样模式,进样量为1 μL,色谱柱采用DB-5MS(30 mm×0.25 mm×0.25 μm);载气为流速1.0 mL/mim的氦气。色谱柱温度设置为80 ℃持续2 min,随后会缓慢逐步加热到295 ℃,保持该温度8 min。进样口、离子源和接口的温度分别为:270 ℃、220 ℃和270 ℃,采用EI模式电离,70 eV电子能量,扫描范围是50~500 m/z,采集的速率是20光谱/s。
1.3.2 UPLC-QTOF MS的样本分析 100 μL的血浆样本加入0.03 mg/mL的L-2-氯苯丙氨酸20 μL和水∶甲醇∶乙腈(1∶2∶7)混合液500 μL,震荡2 min后放入在-20 ℃的冰箱静置10 min,离心(12 000 r/min,4 ℃,10 min)取上清液200 μL后真空干燥。色谱柱采用ACQUITYBEH C18柱(2.1 mm×100 mm×1.7μm)。流动相为A和B两相,正离子和负离子的A相分别为0.1%甲酸水溶液和纯水,B相分别为乙腈:甲醇(95∶5,含0.1%甲酸)和乙腈:甲醇(95∶5)。采用梯度洗脱。流动相的速度为0.4 mL/min,柱子温度40 ℃,进样的体积为5 μL。质谱仪采用的是电喷雾离子源,正负离子模式。正负离子模式设置及具体实验步骤详见先前研究[3]。
1.4 统计分析与方法
1.4.1 数据预处理 所获得的数据通过ChromaTOF软件(V3.30,Leco Co.,加拿大)和MarkerLynx App-lications Manager软件(V4.1,Waters,Manchester,英国)进行处理、分析和整合。采用公共数据库和自建的标准品库进行物质鉴定和确认。采用自主研发的软件MCEE[4]进行基本的预处理并消除年龄、性别等混杂因素对代谢谱的影响。
1.4.2 差异代谢物的寻找 采用SIMCA-P 12.0软件(Umetrics,Umea,瑞典)和SPSS软件(V19,IBM,New York,美国)进行单维和多维的统计学分析。差异代谢物的筛选联合采用Mann-WitneyU检验的P值(P<0.05)和正交偏最小二乘法判别分析(orthogonal partial least squares discriminant analysis,OPLS-DA)模型的变量权重值(variable importance projection,VIP)≥1两个指标。
1.4.3 贝叶斯网络 贝叶斯网络是基于概率的不确定的一种推理方法,运用条件概率和有向无环图(directed acyclic graph,DAG),描述了变量之间潜在的独立和依赖关系。当条件信息不完整、确实、数量有限的情况下,贝叶斯网络能合理的进行学习和推理,运用条件概率描述节点及其与父节点之间的关系,因此更加科学的解释了网络节点变量之间所存在的因果关系和条件相关关系。贝叶斯网络利用网络图形结构和网络条件参数确定了随机变量x={x1,x2,…,xn}的一个联合概率分布[6],即:
1.4.4 贪婪搜索算法 本研究采用的是贪婪搜索算法[7],贪婪搜索算法的特点是每次搜索仅变动一个向量即贝叶斯网络中的箭头,其具体的过程如下:①构建初始的DAG,并以其中节点D0作为贪婪搜索的出发点;②计算结构D0与所有与该结构相差一个向量的贝叶斯评分;③在所有潜在结构中,选择一个贝叶斯评分增加量最大的结构;④如果贝叶斯评分不再增加即停止搜索,否则让③中所选择的结构重复步骤②。
典型关节炎的贝叶斯网络构建采用的是基于R软件的DEAL程序包,该程序包的最大优势在于可以同时处理连续性变量和分类变量,因此可以应用于代谢组学数据。运用DEAL程序包选择贪婪搜索算法构建出差异代谢物和疾病的贝叶斯网络图。
2 结果
2.1 代谢组学轮廓分析 运用GC-TOF MS和UPLC-QTOF MS平台,对27例RA患者、34例GA患者和60例正常对照组的血浆样本进行全谱分析,气相平台共获得308个特征谱,液相平台ES+和ES-分别获得1 371和6 169个特征谱,将其分子量和其质谱信息分别与标准品库进行比对,鉴定出175个代谢物。采用有监督的OPLS-DA来表征3组间的差异,建模后可观察到明显的分离趋势(图1)。
图1 基于OPLS-DA构建的典型关节炎与对照组模型的血浆代谢物轮廓散点图
2.2 差异代谢物的筛选 采用Mann-WitneyU检验的P<0.05和OPLS-DA模型的VIP值≥1,筛选两疾病组与对照组的差异代谢物,其中RA组34个,GA组41个,两组共有的差异代谢物14个,代谢物主要涉及氨基酸代谢、糖代谢、脂类代谢等多种代谢途径,具体的代谢物及其变化倍数(fold change,FC)见表1。
注:#FC=疾病组代谢物平均值/正常组代谢物平均值,*两个代谢物虽然为同一种,但两组FC值不同
2.3 代谢物贝叶斯网络图的构建 由DEAL程序包所构建的贝叶斯网络如图2,RA组由35个节点和若干条向量构建的贝叶斯网络图,RA与代谢物色氨酸、顺乌头酸、谷氨酸、甘油醛、苏氨酸、肌苷等代谢物存在直接相关关系。GA组由42个节点和若干个向量组成贝叶斯网络图,GA与天冬氨酸、肌酸、磷酸果糖、甘油醛、组胺、尿酸等代谢物存在直接相关关系。RA和GA共有的差异代谢物14个,组成一个包含15个节点的贝叶斯网络图,说明两种典型的关节炎发病可能与天冬氨酸、甘油醛、二羟基富马酸存在直接关系,同时揭示了一些潜在的代谢物之间的相互影响。比如,乳酸可以影响天冬氨酸的代谢,而天冬氨酸可以影响高丝氨酸的代谢;二羟基富马酸可以影响乳酸的代谢,甘油醛可影响高丝氨酸的代谢,这些潜在的代谢物之间的影响也可能与关节炎的发病密切相关。
图2 RA和GA差异代谢物的贝叶斯网络图
3 讨论
在前期研究中,由于年龄和性别的组间差异,未能比较RA和GA的代谢差异。本研究采用研究组近期开发的MCEE算法[4],消除了性别和年龄带来的偏倚。通过差异和网络研究可揭示差异代谢物和关节炎之间以及不同关节炎状态下差异代谢物之间潜在的因果关系,为不同类型关节炎发病机制和治疗靶点的研究提供生物信息学支持。
免疫紊乱是RA发病的主要原因,活化的T细胞及抗原提呈细胞浸润关节滑膜,同时抗原刺激巨噬细胞活化从而产生了大量炎症因子如IL-1、IL-6、TNF-α等[8]。T细胞糖代谢如图3,静息的T细胞利用葡萄糖的有氧氧化供能,而活化的T细胞主要供能途径为糖的无氧氧化途径[9-10]。大量T细胞的活化,需要消耗大量的葡萄糖通过无氧呼吸进行供能,因此糖酵解途径活跃,产生大量中间代谢产物,甘油醛含量增加。活化的T细胞进行无氧呼吸的增强影响了其三羧酸循环,从而使类风湿患者血液中顺乌头酸含量下降。而三羧酸循环可以抑制糖酵解途径,因此顺乌头酸可以影响甘油醛的代谢。色氨酸是维持细胞增值和活化的重要氨基酸,在人体重要的代谢途径是分解为犬尿酸,该途径的限速酶是吲哚酸2,3-双加氧酶(indoleamine 2,3-dioxygenase,IDO),IDO主要表达于树突细胞、巨噬细胞和上皮细胞等细胞[11]。因此RA促进大量巨噬细胞和树突细胞活化,引起色氨酸代谢增加,体内色氨酸含量降低[12]。有研究表明,谷氨酸与RA的发病有关,RA患者滑囊液中谷氨酸含量升高,主要是通过滑膜的成纤维细胞上的谷氨酸受体和转运体转运,增加RA患者骨破坏[13]。
图3 未活化及活化的T细胞代谢差异
GA是各种原因导致的嘌呤代谢障碍,血液中尿酸含量增多,尿酸沉积于关节、滑囊、软骨等组织中,导致反复发作的关节炎。人体内产生尿酸有两条途径,一条是通过外源性食物摄入代谢,占约总量20%;另一条是通过内源性自身合成的嘌呤分解代谢,约占总量80%[14]。嘌呤在人体内主要包含两条合成途径,从头合成和补救合成。从头合成途径利用天冬氨酸、谷氨酰胺、甘氨酸等原料合成嘌呤,同时从头合成的速率受到代谢物的负反馈调节。GA患者从头合成途径速率降低,因此血液中的天冬氨酸含量增加。同时,GA也能刺激炎症反应的发生,有研究表明尿酸盐受体通过刺激托尔样受体-2(Toll-2)和托尔样受体-4(Toll-4)而激活和活化T细胞等多种受体,激发炎症反应[15],导致糖代谢的异常,从而引起血液中磷酸果糖和甘油醛含量的改变,同时糖的无氧代谢增强,产生大量乳酸。RA和GA均可引起体内的炎症反应,从而活化T细胞、巨噬细胞等细胞,引起无氧呼吸链上代谢物的含量异常。
传统的代谢组学方法只能找出疾病与正常对照组之间的差异代谢物,而对于疾病与代谢物之间的因果关系以及代谢物与代谢物之间关系的研究一直是代谢组学数据分析领域的关键问题。贝叶斯网络是基于条件概率和有向无环图来揭示节点间的潜在的因果关系。将贝叶斯网络与传统的代谢组学差异分析方法结合起来,有利于获得疾病和代谢物之间更多且更可靠的关联,为后续的分子实验提供更多信息和支持。
贝叶斯网络是通过数学概率来推测代谢物之间的关系,因此得出来的网络并不是每一条向量都有其生物学意义;其次,样本量越高,贝叶斯网络节点越少,所构建出来的网络可信度越大,而代谢组学数据集中样本数量往往小于变量数量,网络可信度的合理控制是研究的难点之一;最后,本研究的贝叶斯网络模型采用的是贪婪搜索算法,还有许多构建贝叶斯网络的算法如启发式搜索算法等,不同算法构建的网络也有一定的差距。