基于支持向量机的类风湿关节炎早期诊断模型构建及其效果评价
2015-03-10何蛟贾治林
何蛟,贾治林
(大连医科大学附属第一医院,辽宁大连116011)
类风湿关节炎(RA)是一种以关节滑膜炎症为特征的慢性自身免疫性疾病,其可造成骨侵蚀和关节破坏,最终导致关节畸形[1]。该病目前诊断基于关节病变、血清抗体检测、滑膜炎及急性期反应物等指标,不利于疾病的早期诊断。支持向量机(SVM)是由Vapnik提出的一种基于统计学习理论和线性分类思想的学习方法[2],该方法已经在图像识别、信息处理和基因图谱识别等方面[3,4]显示了其良好的应用效果。近年来,SVM已经开始应用于临床预测诊断方面的研究。例如,在胎儿体质量的预测[5]、鼻咽癌患者生存状态的预测[6]、乳腺癌预后的预测[7]、人体血液微量元素含量辅助癌症诊断[8]、脑梗死的预测[9]、非小细胞肺癌[10]以及肝细胞癌诊断中的研究[11]。本研究构建基于SVM的RA早期诊断模型,并对其预测效果进行评价。
1 资料与方法
1.1 研究对象 收集2011年12月~2013年4月住院的RA患者240例(RA组)、其他风湿免疫病患者180例(非RA组)作为研究对象。RA组男94例、女146例,年龄(54.8±14.6)岁,均符合1987年美国风湿协会(ACR)修订的RA诊断标准。非RA组男89例、女91例,年龄(49.2±11.8)岁。
1.2 方法
1.2.1 早期诊断模型构建方法 采用ELISA法测定抗环瓜氨酸多肽(CCP)抗体,采用免疫比浊法测定类风湿因子(RF)。支持向量机采用不同的内积核函数将形成不同的算法,核函数主要有线性核函数、多项式核函数、高斯径向基核函数、Sigmoid核函数等,本研究采用高斯径向基核函数,其形式为K (‖x-xc‖)=exp{-‖x-xc‖2/(2×σ)2)},其中xc为核函数中心,σ为函数的宽度参数。根据以上原理,采用SVM对RA进行分类预测,分别将训练集和测试集中患者的RF和抗CCP抗体值及其所属类别输入LIBSVM(http://www.csie.ntu.edu.tw/~cjlin/),对训练集训练并构造决策平面,对每个患者进行判别归类。
1.2.2 诊断模型效果检验方法 采用五次交叉验证法。将420个样本数据,随机分为5组,每次取出1组作为预测样本,其余的作为训练样本。采用灵敏度(Sen)、特异度(Spe)和总准确率(Q)来评价分类器的性能,其计算公式分别为Sen=TP/(TP+ FN)、Spe=TN/(TN+FP)、Q=(TP+TN)/(TP+ FN+TN+FP)。式中,TP表示在测试集中被正确判断的患者个数,FN表示在测试集中被错判为非患者的患者个数,TN表示在测试集中被正确判断的非患者个数,FP表示在测试集中被错判为患者的非患者个数。Sen越大,表明对患者的识别能力越强;Spe越大,则表明其对非患者的判别效果越好。采用Matthews相关系数(MCC)来评价此分类器模型的平衡性能。MCC公式:
其范围为[-1,1],值越大,则分类器模型的性能越好。采用SPSS17.0统计软件。RF、抗CCP抗体和SVM的Q、Sen、Spe比较,采用χ2检验。P≤0.05为差异具有统计学意义。
2 结果
SVM仿真诊断Q为85.48%,高于RF(70.71%)和抗CCP抗体(84.05%)。
五次交叉验证结果显示,SVM仿真诊断实验的Sen为88.33%、Spe为81.67%,MCC值为0.702 65,说明模型性能较好。RF诊断结果显示其Sen为74.17%、Spe为66.11%,抗CCP抗体诊断结果显示其Sen为78.75%、Spe为91.11%。三者Sen、Spe比较,P均<0.01。见表1。
表1 SVM五次交叉验证结果及RF、抗CCP抗体诊断结果
3 讨论
3.1 SVM算法原理 SVM建立在统计学习理论的VC维理论以及结构风险最小原理基础之上,针对模式识别中的两类线性可分问题,即几条分割线都能正确地将两类样本分开,都能保证使经验风险为最小,这样的分割线有无限多条。为使统计学习理论得出的置信范围最小,就必须找到一条最优分类线使两类样本的间隙最大,在更高维的空间中称为最优分类平面(见图1),其中H1、H2分别为各类中离分类线(平面)最近的样本且平行于分类线(平面)的直线(平面),它们之间的距离叫做分类间隔(Margin)。
图1 SVM最优分类平面模式图
在低维的空间里(如二维空间)无法将各数据进行先行分类,如将其映射到更高维的空间(如三维空间),就可以找到一个分类面,实现线性可分。SVM的核心思想是通过一个非线性映射,将一个线性不可分的空间映射到一个高维的线性可分的空间。通过内积核函数定义的非线性变换,将输入空间变换到一个高维空间,并在这个空间中求最优分类超平面,形成样本分类的决策规则,如图2。
图2 SVM的基本原理
3.2 基于VSM的RA早期诊断模型的构建 本研究结果显示,SVM仿真诊断实验的Q为85.48%,Sen为88.33%,Spe为81.67%,整体预测准确程度较单独测定RF和抗CCP抗体时高,且差异具有统计学意义。目前,RA的诊断采用1987年或2009年ACR修订的诊断标准,并不利于疾病的早期诊断。本研究结果显示,单独测定 RA诊断的 Q为70.71%,这与夏文娟等[12]的研究相近。但由于其他风湿病也可检测出RA阳性,导致其Spe较差。抗CCP抗体诊断的Q为84.05%,高于RF,且其Spe明显高于RF,这与Sun等[13]的结果一致。目前,临床上常采用联合检测RF和抗CCP抗体的方法提高早期诊断准确率,多项研究[12~15]都表明该方法具有较好的敏感度和特异度,对降低漏诊率和改善预后具有较高价值。
郭宙等[9]采用了7种常用的模式分类器预测脑梗死的结果显示,SVM分类器的效果较人工神经网络(ANN)、贝叶斯(Bays)和K邻近法(K-NN)等其他分类器稳定,模型推广能力较强。本研究显示,VSM仿真诊断实验的预测正确率较高,且MCC值较大,说明模型推广效果较好,具有一定的使用价值。但是,还需要进一步增加特征属性(如家族史、不良生活习惯和潮湿环境等常见危险因素),逐步完善RA早期诊断模型,提高其预测能力。
[1]Schneider M,Krüger K.Rheumatoid arthritis--early diagnosis and disease management[J].Dtsch Arztebl Int,2013,110(27): 477-484.
[2]Vapnik VN.Statistical Learning Theroy[M].New York:Wiley interscience,1998:70-80.
[3]Rezatofighi SH,Soltanian-Zadeh H.Automatic recognition of five types of white blood cells in peripheral blood[J].Comput Med Imaging Graph,2011,35(4):333-343.
[4]Zhou B,Cheema AK,Ressom HW.SVM-based spectral matching for metabolite identification[J].Conf Proc IEEE Eng Med Biol Soc,2012,8(13):756-759.
[5]宋晓峰,韩平,邹丽等.基于支持向量机的足月胎儿体重预测新方法[J].中国生物医学工程学报,2004,23(6):516-522.
[6]Hua YJ,Yu S,Hong MH,et al.Application of support vector machine to predict 5-year survivial status of patients with nasopharyngeal carcinoma after treatment[J].Chine Ger J Clin Oncol,2006,5(1):8-12.
[7]袁前飞,蔡从中,肖汉光,等.基于支持向量机的乳腺癌预后状态预测和疗效评估[J].北京生物医学工程,2007,26(4): 372-376.
[8]袁前飞,蔡从中,肖汉光,等.基于人体血液常/微量元素含量的SVM癌症辅助诊断[J].生物医学工程学杂志,2007,24(3): 513-518.
[9]郭宙,杨学智,司银楚,等.常用分类算法在脑梗死预测中的比较研究[J].世界科学技术,2010,112(2):185-187.
[10]Zhu ZH,Sun BY,Ma Y,et al.Three Immunomarker support vector machines-based prognostic classifiers for stage ib non-small-cell lung cancer[J].J Clin Oncol,2009,27(7):1091-1099.
[11]付婷婷,刘毅慧,刘强,等.基于支持向量机的31P磁共振波谱肝细胞癌诊断[J].生物信息学,2010,8(1):20-22.
[12]夏文娟,刘月秋,丛玲,等.抗环瓜氨酸肽抗体(Anti-CCP)与类风湿因子(RF)在类风湿性关节炎诊断中的探讨[J].中外医疗,2010(4):9-10.
[13]Sun J,Zhang Y,Liu L,et al.Diagnostic accuracy of combined tests of anti cyclic citrullinated peptide antibody and rheumatoid factor for rheumatoid arthritis:a meta-analysis[J].Clin Exp Rheumatol,2014,32(1):11-21.
[14]张秀莲,江峰.抗CCP抗体和RF的联合检测在类风湿性关节炎诊断中的应用[J].北方药学,2013,10(11):76.
[15]张园,崔丽艳,张捷.类风湿关节炎早期诊断指标的研究进展[J].山东医药,2014,54(19):91-94.