基于机器学习的脓毒血症诊断模型研究
2019-07-30陈莹徐俊南王志翊翁杰周小明王贤川
陈莹 徐俊南 王志翊 翁杰 周小明 王贤川*
代谢组学是对生物体体液(如血液、唾液、尿液等)内的一切代谢物进行定性和定量分析的学科[1]。代谢组学利用核磁共振(NMR)、气相色谱-质谱联用法(GC-MS)和液相色谱-质谱联用法(LC-MS)等主要技术,通过测量生物样品中的小分子物质,发现疾病标志以及提示疾病发病机制[2-4]。近年来对脓毒血症的研究不断进展,代谢组学作为一门新兴学科,为脓毒血症的研究提供了新的思路和方法[5]。由于机体中毒后代谢组学改变信息量庞大,用智能的算法挖掘多变量的相互作用至关重要。当前在大数据挖掘处理中,有多种机器学习算法,其中支持向量机(SVM)是基于统计学理论的方法[6]。本文首先通过GC-MS代谢组学检测脓毒血症组、健康对照组血液成分的变化,形成代谢数据集,然后通过reliefF特征评估方法筛选出脓毒血症患者血液中的特异度差异代谢物,再利用机器学习中的SVM分类算法构建分类识别模型,并使用测试数据进行预测性能评估,根据评估结果优化算法参数,最后形成最优识别模型。
1 材料与方法
1.1 基于机器学习的脓毒血症诊断流程 见图1。
1.2 脓毒血症样品收集 收集2014年1月至2015年1月温州医科大学附属第二医院急诊科脓毒血症患者16例。其中男9例,女7例,平均年龄(50.6±7.7)岁。健康组在温州医科大学附属第二医院体检中心随机抽取。其中男8例,女8例,平均年龄(48.1±8.3)岁。该研究经温州医科大学附属第二医院伦理委员会批准,所有患者均签署知情同意书。两组患者在性别、年龄等一般资料上比较,差异无统计学意义(P>0.05)。分别从健康对照组和脓毒血症组收集血液,然后4℃以4000g离心10min,取上层血清储存在-80℃直至测量。1.3 GC-MS数据采集 Agilent 6890N-5975B GC/MS,HP-5MS(0.25mm×30m×0.25μm)来自安捷伦公司(Santa Clara,California,USA)。GC柱温箱最初设定在80℃,并保持在该温度5min。然后以10℃/min的速度逐渐升温至260℃,然后在260℃保温10min。电子能量为70eV,EI模式下进行检测,全扫描模式扫描,范围为m/z 50-550。GC-MS采集的数据导出至Microsoft Excel中。本实验数据集包含了32个实例(健康组16个,脓毒血症组16个),其中前177例为检测到的峰值,属性名为检测时间,最后1例为分类属性,属性名为class,其中D和M分别代表健康组和脓毒血症组。
图1 基于机器学习的脓毒血症诊断流程
1.4 机器学习环境 Weka[7]是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。其可以运行于几乎所有操作平台,是一款免费、非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。本实验SVM算法采用LIBSVM软件包[8]实现,LIBSVM是台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包。
1.5 数据预处理 原始数据中部分数据为空,采用0补充。另外,原始数据数值差异较大,需要进行归一化处理。采用weka平台规范化(Nomalize)方法,对原始数据进行归一化处理,将峰值数据归一化到[0,1]。
2 结果
2.1 属性评估 本实验数据具有维度大的特点,共计160个属性,为了对检测点以及检测到的物质进行预测价值分析,需要对这160个属性的重要性进行评估,本实验采用WEKA中的reliefF算法[9],该算法根据特征对近距离样本的区分能力来评估特征,即相关特征应该使同类的样本接近,而使异类的样本之间远离。使用该算法评估得到排名靠前的13个属性如表1所示。
表1 属性评估结果
2.2 SVM算法分类实验结果及参数优化分析 WEKA提供了一些参数优化工具可以优化基分类器参数,本实验中采用CVParameterSelection,该方法采用交叉验证的方法,可以优化任意多个参数的基分类器。实验中选择CVParameterSelection为分类器,LibSVM为CVParameterSelection的基分类器,并设置CVParameterSelection的交叉验证参数为G 0.01 0.1 10即设置参数G从0.01至0.1迭代(10步),经过实验得到最佳G参数值为0.08,分类结果如下表所示。从表2可以看出,敏感度即真阳性率TP =12/(4+12)=75%,特异度即真阴性率TN=11/(11+5)=68.75%,识别率=(11+12)/(16+16)=71.875%。从表3中可以看出,经过reliefF评估方法进行特征选择后,敏感度、特异度和识别率分别提高至75%、100%和87.5%。
表2 预测结果混淆矩阵
表3 reliefF特征选择对分类结果产生的影响(%)
2.3 两组患者血液主要标志物峰面积比较 见表4。
表4 两组患者血液主要标志物峰面积比较(x±s)
3 讨论
代谢组学数据常存在维度高的特点,本实验数据属性个数达160个,采用reliefF评估方法进行特征降维使诊断模型敏感度、特异度和识别率分别提高至75%、100%和87.5%,另外本研究对如何寻找分类器最优参数进行了探讨,本文提供了一种快速有效的参数寻找方法,即采用交叉验证参数选择法,实验利用CVParameterSelection方法快速确定SVM最优参数。
本研究中健康组和脓毒血症组共有13个生物标志物被筛选出,分别是丙三醇、十六酸、十四酸、β-D-呋喃半乳糖苷、丙氨酸、β-D-吡喃葡萄糖苷糖醛酸、十二酸、油酸、d-半乳糖、甘氨酸、d-葡萄糖、d-甘露糖、β-DL-阿拉伯呱喃糖,其中丙三醇、十四酸、β-D-吡喃葡萄糖苷糖醛酸和甘氨酸在两组间有显著差异。丙三醇和β-D-吡喃葡萄糖苷糖醛酸在脓毒血症组患者中显著升高,而十四酸和甘氨酸在脓毒血症组患者中显著下降。这些基于基于代谢组学结合reliefF评估方法筛选出来的代谢标志物有助于对脓毒血症患者进行诊断及鉴别诊断。
Goossens等[10]研究表明,脓毒血症大鼠体内丙三醇含量降低,可能与脓毒血症大鼠体内促进甘油转化为葡萄糖途径的限速酶活性升高有关。而本研究中脓毒血症患者体内甘油含量呈增加趋势,可能因为脓毒血症患者体内脂肪酸分解代谢增加,而脂肪酸分解过程中将会产生大量甘油,从而导致脓毒血症患者体内甘油总体呈升高趋势。β-D-吡喃葡萄糖苷糖醛酸在本研究中同样呈升高趋势,有望成为脓毒血症新型代谢标志物,但目前尚无该代谢标志物在脓毒血症方面的研究报道,其对脓毒血症的诊断意义需进一步研究。
十四酸又称肉豆蔻酸,是一种饱和脂肪酸,可以通过脂肪酸β-氧化途径进行分解代谢。最近关于脓毒血症患者体内脂肪酸代谢变化的研究不断增加。Kauppi AM等[11]采用代谢组学的方法研究脓毒血症患者体内代谢物的变化,共发现包括十四酸在内的6种代谢物显著变化,其中十四酸是最具预测性的代谢物,对诊断脓毒血症的敏感度高达91%,特异度达70%,准确性显著优于当前的C-反应蛋白、白细胞等指标。甘氨酸又名氨基乙酸,小分子量氨基酸,属于人体非必需氨基酸,能够合成DNA,磷脂以及胶原蛋白等。在本研究中脓毒血症患者甘氨酸含量较正常对照组显著下降,提示甘氨酸水平对脓毒血症患者具有诊断意义。外源性补充甘氨酸降低脓毒血症患者病死率,但需要更多临床研究证实。
综上所述,本研究筛选出脓毒血症患者血液中的四种特异度差异代谢物,为脓毒血症机制研究进一步提供理论依据,所建立的识别模型,能够有效预测脓毒血症。