一种图像分类识别算法的研究

2020-02-02钟彩彭春富杜微杨兴耀

电子技术与软件工程 2020年18期

钟彩彭春富杜微杨兴耀

（常德职业技术学院湖南省常德市 415000）

所谓图像分割，是根据相似性准确原理，把图像分面若干个性质独特区域，每一个区域有相似甚至是相同性质，把感兴趣的目标区域从复杂背景区域中有效提取[1]。任何分割算法都不能保证准确无误地分割性能，通过细胞圆心法则把尿液红细胞定位、分割，可明确一个圆。但分割时会连同掺入一引起杂质，这些均不计于红细胞内，为了有效识别红细胞以及非红细胞，将细胞特征提取、分析[2]。

基于此背景，文章主要分析尿液内的红细胞，对红细胞定位、分割，同时摄取特征图像，由于不同的模式特点，判决决策方法也是不一样的。文章运用NNC-最近邻距离分类器，对样本进行识别、分类处理。该方法传统运用至分类器中，其将模式判别和其最近样本同类，性能和各模式在子空间分布特点相关，可有效增强各模式子空间的分布特点，提升分类器性能，本系统在传统邻分类算法的基础上进行了适当改进，通过分类判别函数和分类规则，进行匹配判别，实现全自动统计分类计数。

1 最近邻分类算法

在数据挖掘领域中，分类是一项极重要的技术，根据已构建的分类模型数据库，预测需要分类的数据类别。最近邻分类算法，也叫K 最近邻分类(kNNc，k-Nearest Neighbor Classification)算法，具有二次方的时间复杂度，这是以实例学习为基础的分类算法。其分类是以需要分类样本特点空间的K 个最近邻样本多数类别开展，其优势在于容易实现、分类准确度高，可广泛运用各种领域，如模式识别、特征选择、异常点检测等等[3]。

在传统的算法过程中，需要需要检测的样本和数据集中每一个样本，计算其距离，所以所花的时间非常长。同时，在分类识别过程中，传统算法默认了训练集中各个样本每一个特点对于分类结果权重影响是相同的，但在很多运用场合训练集中各特点，对分类结果影响也是不一样的。本系统在原有的算法基础上进行了适当修改，而在实际识别中，运用附加权值法对临近点的结果影响放大，对原已知样本点去权衡，对于分类作用不大的样本行剔除处理[4]。

文章选用NNC-最近邻距离分类器，对样本进行识别分类。凭单两特征距阵：

这两者距离定义如下：

图1：实验所需原始图像

机器学习是通过计算机手段，利用经验改善系统自身性能，系统运用监督机器学习，输入红细胞的样本集（已知），根据样本集中红细胞特点计算机判断目标样本，行推演、判断，得出目标样本结果机器学习法。在整个过程中其内容是在计算机中，由已知数据产生模型算法，也就是说，可以根据已知的红细胞特征样本，来判断目标集中红细胞和非红细胞。根据红细胞在尿液的特点，与KNNC 分类法相结合，在算法编程前已设定本算法识别法，将红细胞、非细胞，在算法分别规定成：红细胞-1、非红细胞-0，根据分类的规则，依次对尿液中的非红细胞以及红细胞进行识别。

表1：学习、测试结果实验图

图2：测试训练过程图

图3：识别结果图

2 实验结果及分析

本次实验库中，共有1680 个样本，200 个图，其中1060 个样本，即120 幅为训练集。620 个样本，即80 个图为测试集。样本提取过程如图1。

于测试集提取280 个样本为测试样本，分别进行学习、测试，形成实验图44 个。以下只简单罗列几个为参考分析，图2 中所示的Rs 值意思是识别率，以%表示。

测试样本固定为280 时，采用训练集中样本测试，形成学习、测试结果，数据如表1所示。

测试过程中，对应的Rs(识别率)变化曲线图形如图3。

图1 是采集到的原始尿液中红细胞图像，图2 是在学习和测试过程中得到的实验图，实验下得到的图像较多，本文只取一个样例，表1 是学习样本和测试样本训练过程实验数据，图3 是在最近邻分类算法下得到的识别结果图。由图3 可明显看出，学习样本少的情况结果理想，增加学习样本时，其复杂性也不断增加，因此学习过程较难，学习结果识别率也会不断减少。学习样本70 前其识别率有上升的情况，也有下降的形势，变化未有规律可寻，但学习样本从70 开始测试识别率呈现的是上升变化的形势。测试时保持平衡变化。但总体分析，学习样本增加其识别率基本也是上升变化的，学习样本150 后识别率可在85%以上，最高识别率可达93%,当学习样本更多的情况下，识别率将会更高。本项目基于卷积神经网络模型基础上，小样本情况其分布高斯性分高通常不成立。为提升算法特征的提取力，对样本数据有一些要求。从实验图形可看出，学习样本在开始增加时偶见少许偏差，主要是由于在小训练样本条件下受到若干影响[5]。而训练样本充足时，因为其分布已接近高斯性假设，此时基于卷积神经网络模型特征提取能力还是能让人满意的，所以在训练样本多情况下，该模型也是较为有效的摄取法[6]。

3 结论

综上，文章研究了尿液中的红细胞自动分类，依照分类规则算法判断细胞是红细胞还是非红细胞。在实验研究中发现了NNC 算法仍有一定局限性，识别率失真大，对于判断是不是为目标细胞而言，较为困难，且此算法合适样本容易大的区域自动分类，而样本容量小的区域运用该算法容易有分歧。且形成分中目标复杂而且类型多，即同类细胞在形态、纹理上特征不同。尿沉渣中也有很多成分未能识别，特别是一些不规则形态的细胞，或是和已识别成分非常相近的成本等，容易误识别。这些均是未来需要解决的。在今后研究需要不断完善此算法，不断挖掘细细胞新特点进行深入分析，达到最有效的识别效果。