APP下载

基于K最近邻法的类风湿关节炎诊断模型*

2011-05-23李立奇何仁颖王开发

中国卫生统计 2011年4期
关键词:风湿性训练样本准确率

李立奇 张 瑗 周 跃△ 何仁颖 王开发

K最近邻(k-nearest neighbor,KNN)分类算法是一种基于实例的分类算法〔1〕,在解决二类分类的实例问题中表现出良好的分类性能,故现已被广泛应用于各个领域。在医药学领域中,如疾病诊断〔2〕、医学影像〔3〕、临床用药〔4〕等方面也有相关报道。但是基于KNN算法的类风湿关节炎(RA)诊断模型尚未有人提出。本文建立了KNN模型用于RA的诊断,说明其在本病诊断中的运用效果。

对象和方法

1.标本来源 RA患者100例,非RA风湿性疾病患者50例,病例取自2009年6月至2010年5月在本院就诊的住院患者。所有RA病例均符合1987年美国风湿病协会(ARA)诊断标准〔5〕。非RA风湿性疾病也均符合相应诊断标准。分别检测150名患者血清中的anti-CCP和RF两项指标。

2.KNN 的原理

KNN的基本思想是将各类别中的全部训练样本点都作为代表点〔6〕。对于一个测试样本点x,需要计算它与训练样本集中每个样本点的相似度,依据样本点相似度找出k个最相似的训练样本点;再根据这k个样本点所属类别判断样本点 x的所属类别,在x的k个最近邻点中依次计算每类的权重;最后将样本点x判定给权重最大的类别。

3.KNN的算法步骤

(1)将本资料中150例研究对象分为训练样本集和测试样本集。

(2)分别输入训练集和测试集中每名患者的anti-CCP和RF值及其所属类别。

(3)用KNN方法对测试集中每名患者的所属类别进行判别。

(4)输出判别结果。

结 果

本文采用两种常用的标准检验方法对RA诊断的KNN模型进行检验。

(1)5维交叉验证法:将150例患者随机分为5组,每组包含20例RA患者和10例其他风湿性疾病患者。每次从5组中轮流抽取1组作为测试样本集,其余4组作为训练样本集。共作5次KNN算法仿真诊断。由于KNN算法中的参数k取值不同,利用5维交叉验证法检验得到的平均诊断准确率也不同。初步测试发现当k=4时,平均诊断准确率最高(见图1)。图1中符号X表示利用5维交叉验证法检验得到的平均诊断准确率。图2列出了k=4时的5组患者仿真诊断准确数。

图1 两种检验方法15次诊断结果

图2 KNN法5维交叉验证结果

(2)Jackknife检验法:每次从150例患者中轮流抽取1例作为测试样本,其余149例作为训练样本集。共作150次KNN算法仿真诊断。同样地当参数k取不同值时,利用Jackknife检验法检验得到的诊断准确率也不同。初步测试发现当k=7时,诊断准确率最高(见图1)。图1中符号O表示利用Jackknife检验法检验得到的诊断准确率。

讨 论

本研究分别检测了100例RA患者和50例非RA风湿性疾病患者血清中的anti-CCP和RF两项指标。结果发现,anti-CCP和RF对RA诊断的敏感性分别为64%和76%,特异性分别为94%和82%。其结果与Schellekens等〔7〕报道的 anti-CCP的敏感性和特异性(68%和98%)以及人民卫生出版社出版的《内科学》第7版教材中有关RF的敏感性(70% ~80%)的描述接近。虽然RF是RA诊断的唯一的血清标准,且敏感性较高,但在少数健康老年人、某些慢性感染者和自身免疫性疾病患者中也可呈阳性。故RF对RA诊断的特异性不高,诊断价值有限。而采用ELISA方法检测的anti-CCP对RA诊断有较高的特异性,尤其对早期RA具有很高的诊断价值。因此联合检测anti-CCP和RF这两项指标有利于提高RA诊断的准确率。

本文基于KNN算法的最优二分类方法,建立了RA诊断的KNN模型。对100例RA患者和50例其他风湿性疾病患者的anti-CCP和RF两项指标进行训练和模拟诊断。结果发现:利用5维交叉验证法和Jackknife检验法检测样本的诊断准确率分别为92%和91.3%,高于单独检测anti-CCP或RF对RA的诊断准确率(74%和78%)。

综上所述,anti-CCP和RF这两项指标的检测在RA的早期诊断过程中都有一定的临床意义。对于新近发生的诊断不明的关节炎,二者联合应用能更好地帮助临床医生实现对RA的早期检出,提高早期诊断准确率。

1.Nasibov E,Kandemir-Cavas C.Efficiency analysis of KNN and minimum distance-based classifiers in enzyme family prediction.Comput Biol Chem,2009,33(6):461-464.

2.Xiao Y,Griffin MP,Lake DE,et al.Nearest-neighbor and logistic regression analyses of clinical and heart rate characteristics in the early diagnosis of neonatal sepsis.Med Decis Making,2009,30(2):258-266.

3.Mayerhoefer ME,Szomolanyi P,Jirak D,et al.Effects of MRI acquisition parameter variations and protocol heterogeneity on the results of texture analysis and pattern discrimination:an application-oriented study.Med Phys,2009,36(4):1236-1243.

4.Ivanisevic I,Bates S,Chen P.Novel methods for the assessment of miscibility of amorphous drug-polymer dispersions.J Pharm Sci,2009,98(9):3373-3386.

5.Arnett FC,Edworthy SM,Bloch DA,et al.The American Rheumatism Association 1987 revised criteria for the classification of rheumatoid arthritis.Arthritis Rheum,1988,31(3):315-324.

6.Sohn S,Kim W,Comeau DC,et al.Optimal training sets for Bayesian prediction of MeSH assignment.J Am Med Inform Assoc,2008,15(4):546-553.

7.Schellekens GA,Visser H,de Jong BA,et al.The diagnostic properties of rheumatoid arthritis antibodies recognizing a cyclic citrullinated peptide.Arthritis Rheum,2000,43(1):155-163.

猜你喜欢

风湿性训练样本准确率
慢性风湿性心脏病瓣膜的超声特征及其临床诊断分析
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
人工智能
高速公路车牌识别标识站准确率验证法
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
蒙药治疗风湿性心脏病101例疗效观察
蒙药治疗风湿性心脏病疗效观察