基于深K近邻和朴素贝叶斯分类算法的肿瘤诊断

2020-12-08申淑逸

数码设计 2020年16期

摘要：本文试图将深k近邻和朴素叶贝斯分类算法来解决肿瘤诊断的问题。肿瘤现在已经成为我国乃至世界范围内的常见病和多发病，尽早诊断和治疗对肿瘤患者的未来至关重要。异型性是肿瘤异常分化在形态上的表现。肿瘤细胞异型性小，与正常组织相似，分化和低恶性。肿瘤细胞异型性大，与正常组织相似度小，分化程度低，恶性程度高。区别这种异型性的大小是诊断肿瘤，确定其良性、恶性的主要组织学依据，但最大的问题在于准确诊断存在困难。本文从概率的角度，结合深K近邻与朴素贝叶斯分类算法开展研究，对尽可能准确的诊断提出合理的算法。

关键词：K最近邻分类算法;朴素贝叶斯分类算法;深度学习;机器学习

中图分类号：TP391.41 文献标识码：A 文章编号：1672-9129（2020）16-0067-01

1 深K最近邻算法肿瘤诊断的原理

K最近邻（Deep-k-Nearest Neighbor，DNN）分类算法是最简单的机器学习算法之一。该方法的思路是：在特征空间中，如果一个样本附近的k个最近样本的大多数属于某一个类别，则该样本也属于这个类别。

本文建立在深度神经网络上，索引为λ的层将前一层fλ-1的输出作为其输入，并应用非线性变换来计算其自己的输出fλ。这些非线性行为通过一组参数θλ来控制，这些θλ是每个层的特定参数，这些参数将给定层的神经元链接到其前面的层的神经元。因此，对于给定输入x，神经网络f执行以下计算以预测其类：

fθ，x=fl-1（θl-1，fl-2（θl-2，…f0（θ0，x）））

2 朴素贝叶斯分类算法原理

设w为肿瘤组织与正常组织异型性的特征向量，表示组织异型性数值大小是否达到恶性肿瘤的值，1表示异型性达到，0表示未达到。用ci表示肿瘤的类别，分为良性肿瘤和恶性肿瘤，1表示恶性肿瘤，0表示良性肿瘤，则核心公式如下：

pci|w=p（w|ci）p（ci）p（w）

由于对肿瘤组织与正常组织异型性的诊断需要对多个节点进行测试，可以进一步将w扩展为多个属性节点Xi，令每个属性节点相互独立，只与该节点的相应组织C相关。那么各属性节点与组织C的关系就可表示为一个离散随机变量的有限集X1，X2，…，Xn，C，条件属性值xi是属性Xi的取值，条件属性值ci是属性C的取值，则本组织属于ci类肿瘤的概率由贝叶斯定理可表示为：

pci|w=p（x1，x2，…，xn|ci）p（ci）p（x1，x2，…，xn）

3 基于K最近邻算法和朴素贝叶斯分类算法的肿瘤诊断流程

DNN分类算法的主要思想是：首先算出待分类样本与已知样本之间的距离，进而找到距离与待分类样本数据最接近的K个样本，再根据这些样本所属的类别来判断待分类样本数据类别的分类。因为同时使用多个参数值不同的DNN算法对待同一特征数据分类得到的结果相互独立，符合朴素贝叶斯算法中所有属性相互独立的假设，所以结合朴素贝叶斯算法可以提高DNN分类的性能。

组合算法构造算法步骤如下：

Step 1：设样本集

D={（x11，x12，…，x1n，C1），（x21，x22，…，x2n，C2），…，（xm1，xm2，…，xmn，Cm）}为提取的组织C和该属性的属性节点特征向量的集合，其中Ci（i=1，2，…m）表示样本类别，取值为c1，c2，…，cn。

Step 2：将样本集D分为训练集Dtrain和测试集Dtext两部分。

Step 3：分别对属于Di的子样本集进行计算，计算出其中特征Xi=ai的概率，p=（Xi=ai|C=Ci）

Step4：计算训练集样本数据和测试集样本数据的距离，为测试集样本数据选择若干个与其距离最小的样本，对每个测试样本统计出最邻近若干個样本中大多数样本所属的分类。

Step5：针对测试集Dtext，得到C（C1，C2，…，Cn）对每个特征属性计算所有划分的概率PC=Ci|X=xtext=p（C=Ci）Πnj=1p（Xj=xtextj|C=Ci）。

4 结论

本文实现了将朴素贝叶斯分类算法合并到k深度近邻算法之中，以便提高它的效率，提高诊断的准确率，为抽象的据概率分类的算法整合出具体的步骤。虽然肿瘤诊断需要考虑的因素更加复杂，本文中形成的简单系统总体上可能不如更加复杂的系统有效。尽管如此，考虑到明显简化而达成的算法，可以认为这种简化的系统是有效的。

参考文献：

[1]李双杰，张开翔，王士栋，王淑琴.基于加权K近邻的特征选择方法[J].天津师范大学学报（自然科学版），2020，40（02）：63-67.

[2]何伟. 基于朴素贝叶斯的文本分类算法研究[D].南京邮电大学，2018.