基于KNN核函数聚类方法在医学指标分类诊断中的应用
2018-05-07单春宇徐梅
单春宇 徐梅
【摘 要】目的:探讨基于KNN(K-Nearest Neighbors, KNN)核函数聚类方法在乙肝病毒分类诊断中的临床医学意义和其他疾病诊断的适用性。方法:将收集来自于医院的93例乙肝患病采用基于KNN核函数分类算法进行聚类,通过SPSS数据初处理和MATLAB编程实现。揭示基于K近邻核函数在乙肝病毒分类诊断中有重大的意义。结果:通过核函数聚类方法将93例乙肝患者聚成四类,不仅划分出急性乙肝和慢性乙肝,而且发现HBC IGM也是划分急慢性乙肝的一个不可缺少的参数。结论:基于K近邻核函数的分类方法,在诊断对急慢性乙肝疾病划分有一定帮助,对后期实现计算机辅助分类诊断具有一定的意义。
【关键词】核函数;非参数聚类;K近邻算法;聚类;乙肝病毒
中图分类号: R512.62;R735.7 文献标识码: A 文章编号:2095-2457(2018)05-0027-003
【Abstract】Objective: To explore the clinical significance of KNN (K-Nearest Neighbors, KNN) clustering method in the diagnosis of hepatitis B virus classification and the applicability of other disease diagnosis. Methods: The collection of 93 patients with hepatitis B from the hospital was clustered based on KNN kernel function classification algorithm. The data was processed by SPSS data processing and MATLAB programming. It is of great significance to reveal the classification diagnosis of hepatitis B virus based on K-nearest neighbor kernel function. Results: 93 cases of hepatitis B patients were clustered into four groups by kernel function clustering method. Not only acute hepatitis B and chronic hepatitis B were classified, but also HBC IGM was found to be an indispensable parameter for the classification of acute and chronic hepatitis B. Conclusion: The classification method based on the K-nearest neighbor kernel function is helpful in the diagnosis of acute and chronic hepatitis B disease, and it has certain significance for the later computer-assisted classification diagnosis.
【Key words】Kernel function; Non-parametric clustering; K-nearest neighbor algorithm; Clustering; Hepatitis B virus
乙肝病毒是一种DNA病毒,非遗传疾病,主要通过血液和母液等传播,其中免疫低的人群易被感染。乙肝病毒是我国高发的感染疾病之一,仅次于我国的排名第一的肺结核疾病,死亡率位于狂犬病、艾滋病、肺结核排名位于第四。我国因乙肝导致的肝硬化、肝癌死亡人数约为1.2万,占全球每年新增乙肝病例人数的一半左右。患有乙肝的患者,没有特定的药物治疗,增加了家庭的经济的负担,在生活中易受到歧视。本文的研究主要使用基于K近邻核函数聚类,对乙肝患者进行分类,此次分类不仅判断是否有患有乙肝疾病,还能进一步的对急性乙肝和慢性乙肝进行划分,并且对后期的乙肝病毒医学研究提供了许多有用的信息。
1 资料来源
1.1 研究对象
收集于2012年12月之2016年12月某三甲医院就诊含有乙肝病毒93列患者的数据资料。
1.2 检测指标
抽出患者静脉血液通过分离血清来检测,检测血液中乙肝病毒的血清学标志,包括乙肝表面抗原(HBSAg)、乙肝表面抗体(HBSAb/抗HBs)、e抗原(HBeAg)、e抗体(HBeAb/抗-HBe)、核心抗体(HBcAb/抗-HBc)。其中的乙肝表面抗原(HBSAg)采用ELISA检测法,检测仪为瑞士公司生产的,选用上海科华生物有限公司生产的试剂。
2 方法
2.1 原始数据处理
研究对象的数据来自于临床医学人工统计的并非电子版本,存在人为的信息登记错误导致的或者,以及检验过程判断不够精准度的地方,为让最终分析的结果有意义,确保实验的准确性,要进行必要的采用科学的方法进行初步预处理。预处理包含查错纠错、标志数据中的异常案例、转换、填补缺失值等。
2.2 SPSS具体操作流程如下
2.2.1 对数据进行无量纲化的处理
因为数据量纲不同将影响聚类分析的结果,所以在分析之前要对数据进行无量纲化处理,无量纲化处理的方法有很多种,我们可以根据自己的实际需要進行选择。