肺纤维化风险预测的临床生物化学模型
2019-12-23李桂芹黄骁舾
冷 冬 李桂芹 王 颖 缪 冉 陈 铎 黄骁舾*
(1.首都医科大学附属北京朝阳医院检验科, 北京 100020;2.首都医科大学附属北京朝阳医院疾病预防控制处, 北京 100020;3. 首都医科大学附属北京朝阳医院医学研究中心, 北京 100020;4. 首都医科大学附属北京朝阳医院呼吸与危重症医学科, 北京 100020)
肺纤维化(pulmonary fibrosis,PF)是一类相对罕见的致死间质性肺疾病。这类疾病的临床表现主要包括呼吸急促、肺功能受限、肺损伤以及X线胸片上广泛的阴影等[1]。大约三分之一的间质性肺疾病与环境和工作因素相关,如吸烟和粉尘或特殊化学品的吸入,其余三分之二的病因尚不清楚[2]。寻找有效的预测指标显得尤为关键和紧迫。
能够预测 PF 风险的指标包括血清生物标志物、肺功能及影像学特征。代表性的标志物包括表面活性蛋白A和D,肺泡细胞表面抗原KL6和乳酸脱氢酶[2]。这些标志物在间质性肺疾病患者血中的含量上升,由于可重复性差、偏倚以及特异性不高等问题它们很难作为有效的生物标志物。乳酸脱氢酶(lactic dehydrogenase,LDH)是一种常用的临床生物化学检测指标,它是一种分泌到细胞外的胞质蛋白酶类,可以用来提示因损伤、细菌毒素暴露以及饥饿引起的细胞死亡,因此也常被用于监测肺损伤和炎性反应。α-羟丁酸脱氢酶(α-hydroxybutyric dehydrogenase,HBDH)是存在于心脏的LDH的同工酶,曾被报道[3]可以用于提示肺部炎性反应。对血浆中LDH、HBDH、白介素-8的含量及白介素-6/白介素-10比值的联合检测可以用于肺孢子菌肺炎艾滋病患者的死亡风险评估。尽管目前采用单独检测血清中LDH或者其同工酶很难有效预测间质性肺疾病,但联合检测LDH和其他血清生物化学指标,将会对从血清学角度预测肺纤维化产生积极影响。
临床血清生物化学检测可为呼吸系统疾病的诊断提供有关代谢相关的一般信息[4]。与基因表达数据相类似,生物化学检测数据也具有高维度特点,并可以进行数据挖掘分析。基因芯片数据分析已经在呼吸系统疾病的研究中成功应用,但目前还没有对临床生物化学检测数据进行挖掘分析的报道。本研究收集PF患者和健康对照组的血清生物化学检测数据,采用数据挖掘的方法进行数据建模分析。研究结果将为PF的早期诊断提供有益线索。
1 资料与方法
1.1 肺纤维化及对照组血清生化数据选取
从首都医科大学附属北京朝阳医院检验科临床实验室报告系统搜集到临床诊断为肺纤维化的患者生物化学检测结果29份(患者年龄39~92岁)和健康对照组生物化学检测结果55份(患者年龄50~87岁)。PF的临床诊断符合美国胸科学会诊断标准[5],其中包括特发性肺纤维化、结缔组织病相关PF、风湿类疾病相关PF、干燥综合征相关PF、血管炎相关PF和PF类病例。由于样本数量限制,本研究仅将各类PF病例作为一大类样本与健康对照进行比较分析。首都医科大学附属北京朝阳医院医学伦理委员会通过了关于采集患者检查结果用于临床研究的申请(2017-Science-10)。
1.2 数据准备与预处理
所有血清样本均检测34个常用的生物化学指标,采用Z-计分指数化方法将数据进行归一化处理,该方法已被成功用于基因芯片数据分析。在数据归一化处理过程中,各变量与该指标的算术平均数的差值与标准差的比值被作为该样本归一化处理后的数据。与原始数据相比,数据经过归一化处理后转变为无量纲化数据,变量中位数处于同一水平,这使得样本间各检测指标可进行直接比较。处理后的数据加上一个最小正整数可使所有数据为非负数,再将转变后的数据可以通过Log2转换,使数据趋于正态分布并使随机变量趋于恒定,方便图形展示。
1.3 主成分分析与贝叶斯回归分析
PF与对照组样本的生物化学检测数据是一组高维度数据,每一个生物化学检测指标与其他检测指标可能存在一定的联系。主成分分析可以对数据进行降维处理,可计算出用于鉴别PF与对照组样本数据的主成分。同时也可计算出检测指标在主成分上的荷载。贝叶斯回归分析可进一步分析各主成分的显著程度。本研究采用Students’ttest(美国微软 http://products.office.com/)分析PF与对照组样本间的差异有统计学意义生物化学指标(P<0.05),累计贡献率>80%的主成分被定义为可描述肺纤维化与对照组样本分类的主成分,而样本分类中的差异有统计学意义主成分可通过贝叶斯回归分析进行判定(P<0.05)。荷载系数大于0.6的生物化学指标被定义为PF特征性生物化学检测指标。本研究中的数据分析是采用在R语言3.2.3环境下的pr和arm数据包完成的(http://www/r-project.org/,http://www.bioconductor.org/)[6]。PF特征性生物化学指标的鉴别效果通过双向聚类分析软件Cluster3.0(http://bonsai.hgc.jp/~mdehoon/software/cluster/software.htm)和Java Treeview(http://jtreeview.sourceforget.net)进行展示,该软件是基于欧氏距离相似性度量与完全连锁算法运行的。
1.4 判别分析与受试者操作特征分析
为了验证特征性生物化学指标的判别能力,本研究采用贝叶斯判别方法对数据进行深入分析。本研究中的特征性生物化学指标被用于构建样本类型鉴别方程,采用SPSS 20.0软件构建具有特殊鉴别系数的PF与对照组样本类型函数。随机的血清样本可根据该方程来判断倾向于PF或者倾向于非PF健康对照类样本属性。如果血清样本的PF方程函数值高于其健康对照函数值,则判定该血清样本的患者属于PF血清生物化学判别高风险人群。本研究同时进行受试者操作特征(receiver operating characteristic,ROC)曲线分析,判断PF特征性生物化学指标的敏感度与特异度。具有较大ROC曲线下面积的生物化学指标被认定为更有效的PF诊断指标。
1.5 统计学方法
采用Students’ttest方法(微软Excel软件)对PF病例组和正常对照组生物化学检验数据进行差异分析,P<0.05的生物化学检测指标为差异有统计学意义指标。采用主成分分析和贝叶斯回归分析的方法(R命令,R3.2.3版本软件)提取可显著区分PF病例组和正常对照组样本的主成分,P<0.05的主成分为显著主成分,荷载系数>0.6的生物化学指标为特征性生物化学指标。采用SPSS 20.0软件进行ROC分析,具有较大ROC曲线下面积的生物化学指标被认定为更有效的PF诊断指标,计算其敏感度与特异度。
2 结果
2.1 生物化学检测数据的整合和特征性生物化学指标
从临床报告系统中搜集到临床诊断为PF与正常对照组的生物化学检验报告,正常对照组样本的各生物化学检测值均不超出报告参考区间。整合后的数据经过对数转换,数据中各检验指标的中位数差异从0~300放缩到2.0~2.5(表1)。各样本生物化学检测数据可以直接比较。经过Students’ttest分析,PF与正常对照组样本比较,34个常用的生物化学指标中有12个差异有统计学意义(P<0.05)(表2)。
表1 临床生物化学检测数据归一化处理前、后中位数Tab. 1 Median of clinical biochemistry test data before and after normalization
表2 肺纤维化与正常对照间特征性生物化学指标Tab.2 Serum biochemistry parameters differing between patients with PF and healthy controls
2.2 数据降维与特征参数选取
经过主成分分析结合贝叶斯回归分析,在有12个特征性生化指标的数据中,前7个主成分的累计贡献率>80%,其中显著主成分包括PC1(P<0.001),PC2(P<0.01)和PC5(P<0.05)。PF患者血清样本与正常对照组血清样本可以在以这3个差异有统计学意义的主成分为坐标的图中明显区分开(图1)。
图1 各样本在3个显著主成分上的定位Fig.1 Locations of samples on the three significantly altered principle components
12个特征性生物化学指标在3个显著主成分上的荷载系数见表3。其中有6个特征性生物化学指标在PC1上的荷载系数的绝对值>0.6,分别为荷载系数为正的白蛋白 (albumin,ALB),钙 (calcium,Ca),前白蛋白 (pre-albumin,PAB),白蛋白与球蛋白之比(albumin to globulin ratio,A∶G),其中荷载系数为负的有HBDH和LDH。HBDH、LDH和总胆固醇在PC2上的荷载系数的绝对值>0.6。PC5上没有荷载系数绝对值大于0.6的特征性生物化学指标。非监督性聚类分析显示,6个特征性生物化学指标构成血清生物化学检测数据中,PF样本与正常对照组样本能够较明显的区分开,PF样本的分辨率为93.10%(27/29),正常对照组样本的分辨率为72.73%(40/55)(图2)。
表3 12个特征性生物化学指标在前3个显著主成分上的荷载系数Tab.3 Loading coefficients of the twelve significant changed indexes on the first three principle components
图2 样本根据6个特征性生物化学指标数据的双向聚类热图Fig.2 Two-way clustering heat map of the six significantly altered biochemistry parameter data
2.3 特征性生物化学指标的判别能力
用PC1的6个特征性生物化学指标构建了PF和正常对照血清生物化学判别函数。FPF=-117.423 + 63.601×HBDH + 12.166×ALB-11.059 × LDH + 17.867 × PAB + 5.776 × A:G + 12.790 ×Ca;FHealthy=-116.557 + 58.243 × HBDH + 13.468 × ALB-10.819 × LDH + 19.623 × PAB + 7.674 × A:G + 12.771 × Ca。其中具有较大贝叶斯判别系数绝对值的特征性生物化学指标具有相对较强的判别能力。HBDH的贝叶斯判别系数绝对值,具有将PF从正常对照组样本中区分开的判别能力。特征性生物化学指标的ROC曲线见图3。在6个特征生物化学指标ROC曲线下面积分别为: HBDH=0.794(敏感度为0.759,特异度为0.818),LDH=0.769(敏感度为0.724,特异度为0.764),Ca=0.405,A:G=0.291,PAB=0.284,ALB=0.217。
图3 受试者操作特征曲线分析Fig.3 Receiver operating characteristic (ROC) curve analysis
3 讨论
本研究以临床生物化学检验数据为依据,运用生物信息学技术成功构建了用于预测PF风险的生物化学检验数据模型。基于该模型,血清生物化学检测可用于监测PF引起的体内血液成分的改变。发现了区分PF和正常对照组样本的特征性生物化学指标,将为PF诊断提供数据支持。
LDH和HBDH是两个具有较强特异性诊断意义的生物化学指标。LDH是无氧糖酵解和糖异生过程中的氢转移酶,其5种LDH的同工酶(LDH-1-LDH-5)构成的同型模式可用于肺部疾病的诊断[7]。有研究[8]显示,血清中LDH-3水平的升高出现在肺损伤之后,因此常被认为是急性肺损伤的判断指标。而又有研究[9]显示支气管肺泡灌洗液中的LDH水平能够用于鉴别肺结节病的良性与恶性。尽管LDH曾被报道是多种间质性肺疾病的潜在生物标志物[10],但最终因特异性差的原因而没有被广泛应用。本研究结果仍然显示LDH区分肺纤维化与正常对照血清的能力较低,这是由于和细胞损伤相关的许多因素可能引起血清中LDH的改变,如过热或者过冷条件下的局部缺血,饥饿或者化学品中毒等[3]。
HBDH是LDH的同工酶,它与α-酮丁酸具有高亲和性,并在心肌组织中含量丰富,尤其在患有心肌疾病患者的血清中含量明显偏高。有研究[11]显示,肺心病患者血清中HBDH与LDH的比值能够作为心肌组织损伤的标记性指标。也有研究[12]显示,呼吸衰竭患者血清中的LDH和HBDH缓慢上升,主要是由于细胞损伤造成了血碳酸过高及线粒体功能不全,ATP合成下降,钠离子泵功能紊乱和细胞肿胀,由此引发的膜通透性增加及最终的酶渗出。另外,HBDH与LDH也可作为预测艾滋病患者发生卡氏肺孢子菌肺炎严重程度及病死率的潜在标志物[3],但因特异性不强而没有被进一步应用。本研究结果与之前的结果类似,但通过对血清生物化学数据进行挖掘分析,从数据模型角度揭示了HBDH和LDH与PF的相关性。
本研究从临床生物化学检测数据中提取PF的一般特征。基于更多不同类型PF样本的研究将会在准确甄别各类PF方面取得新的突破。本研究结果显示,HBDH是将PF血清样本从正常对照中区分开的最有效常用生物化学检测指标。更多关于HBDH在PF诊断方面的研究(如质谱学),或者与其他血清标志物(如LDH)的联合应用,将进一步明确其在PF诊断方面的价值。