基于主成分分析法和极限学习机的尿沉渣图像识别算法研究
2019-06-19秦传波冯宝谌瑶
秦传波 冯宝 谌瑶
摘 要: 针对尿沉渣中的有形成分进行检测和分析,提出结合主成分分析(PCA)和极限学习机(ELM)的识别和统计方法。该方法通过PCA对样本进行特征提取和降维后输入到ELM进行训练,根据训练得出的模型与未经PCA处理的样本训练的模型进行检测效果对比。实验结果表明,使用PCA处理后的样本训练得出的模型具有更高的识别准确度和稳定性,同时训练时间大幅减少。
关键词: 尿沉渣检测; 尿沉渣成分分类; 极限学习机; 主成分分析; 图像识别; 特征提取; 医学显微图像
中图分类号: TN911.73?34; TP183 文献标识码: A 文章编号: 1004?373X(2019)11?0045?05
Abstract: The recognition and statistics method combining principal component analysis (PCA) and extreme learning machine (ELM) is proposed to detect and analyze the visible components in urine sediment. The features of the sample are extracted by means of PCA and then input to extreme learning machine (ELM) for training after dimensionality reduction. The detection effects of the trained model got by training and sample training model without PCA processing are compared. The experimental result shows that the model obtained by sample training after PCA processing has higher recognition accuracy and stability, and its training time is greatly reduced.
Keywords: urine sediment detection; urine sediment component classification; extreme learning machine; principal component analysis; image recognition; feature extraction; medical microscopic image
0 引 言
尿沉渣檢测是对原尿经过离心处理得到的有形成分进行分析,分析尿沉渣的成分对人体肾脏、泌尿系统疾病有重要意义[1]。例如,检测尿沉渣中红细胞数量可以作为泌尿系统的炎症、肿瘤、结石性等疾病的诊断依据;检测白细胞的数量主要作为泌尿系统感染的诊断依据;上皮细胞和管型检测可判断是否出现肾实质损害等。
尿沉渣的主要成分有红白细胞、上皮细胞、管型、粘液丝、各类细菌、各类结晶和杂质等。本文主要对以上成分进行研究和检测。其需要解决的关键难题有:
1) 由于尿沉渣成分形状结构复杂,获取图片的显微镜图像的途径也各不相同,导致尿沉渣有形成分的形状和轮廓也多种多样[2]。其中一些细胞,例如白细胞团、管型和杂质相似度高,极易混淆。因此目前的识别器难以对不同形态下的细胞进行识别和分类。
2) 不同细胞样本图片的背景和目标的灰度存在差异,样本图片中目标有形成分的边缘模糊,使图像分割存在困难,影响识别的准确度。
3) 由于尿沉渣有形成分结构复杂,样本信息量大,因而相应神经网络模型的训练、识别时间也会大幅度增加,影响检测的实时性。
以上难题都是目前尿沉渣图像检测分析的难点,而且对识别准确率和识别效率都有很大影响。本文结合主成分分析法(Principle Component Analysis,PCA)和极限学习机(Extreme Learning Machine,ELM),对红白细胞、上皮细胞、管型、粘液丝、各类细菌、各类结晶和杂质的样本图片进行降维和训练[3],再使用训练好的模型对尿沉渣图像进行识别检测。
1 概 述
1.1 研究现状
1.1.1 传统尿沉渣检测方法
制片镜检是传统尿沉渣检测方法中最普遍和最有代表性的方法。主要使用显微镜对尿液进行观察,或者将离心处理后的尿液注入专用的计数板中,使用显微镜计数,通过每个计数室中的细胞数量计算出细胞总量。这种方法虽然实现的技术较为成熟,而且识别准确率高,但也存在以下缺点[4]:
1) 检测所需时间较长,效率较低,当需要快速的临床诊断时,不适合使用这种方法。
2) 在制片观察之前需要经过多次预处理,操作步骤较繁琐,容易引入许多干扰因素。
3) 人工检测存在主观影响,结果正确率难以保证。
4) 单次检测难以完成所有参数的检测。
1.1.2 基于影像分析的尿沉渣自动分析仪
由于传统检测方法存在许多缺点,研究一种快速、准确率高的尿沉渣自动分析仪具有重要意义。目前对于尿沉渣自动分析仪的检测大多基于数字图像处理结合机器学习来实现[5]。这种方法的主要实现过程是通过电子显微镜采集到细胞图像,在计算机中对图像进行预处理,由尿沉渣成分识别系统进行细胞检测分类,最后通过计算机统计得出分析结果。其中,尿沉渣成分识别系统是影像分析的核心。其利用特别训练的神经网络和图像处理算法对尿沉渣有形成分进行识别和分类,使用的算法和训练的神经网络模型都将影响识别准确度和效率[6?9]。本文使用PCA对获得的尿沉渣显微图像进行降维处理,提取其特征信息,消除向量相关性,再使用ELM进行训练[10],最后通过训练集以外的样本进行检测验证。本文列举了几类原始的尿沉渣显微图像,如图1所示。
图1 尿沉渣显微图像
基于影像分析的尿沉渣自动分析仪具有以下优点[11?13]:
1) 全自动化运行,节省很多人力,避免了许多由于高强度工作导致的疲倦等人为因素对检测结果造成的不良影响。
2) 自动化检测设备对所有样本具有统一的检测标准,避免人工检测的主观因素对检测结果造成影响。
3) 使用计算机对图像进行检测和统计,效率比传统的人工检测高很多。避免尿液样本因等待检测时间过长而变质。
4) 自动化检测设备在检测的同时还可以结合计算机技术,自动将检测结果输入到病人电子档案中,以便随时查阅。
2 PCA与ELM原理
2.1 PCA原理
PCA是多元统计学中的一种降维技术和特征提取法[2]。PCA能用少量数据表示原始数据的绝大部分信息[3],通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。其实现步骤如下:
1) 对样本图片矩阵进行标准化处理。设[xij]为第[j]个样本的第[i]个特征的值,[x*ij]为第[j]个样本第[i]个特征的标准值。
2.2 ELM原理
ELM是一种单隐层前馈神经网络,一种兼顾简单和高效的无监督学习算法[3]。与其他神经网络算法相比,ELM具有较好的训练效率和精度。在训练前,只需要對网络隐层节点个数和激励函数进行设置,不需要对网络参数进行设置。ELM通过求解线性方程组的最小范数和最小二乘解参数唯一最优解来完成训练。
综上所述,ELM算法的训练过程可归结为:
1) 设定激励函数[f]和隐层节点数[L];
2) 计算隐层输出矩阵[H];
3) 计算权值[ω]。
3 基于PCA和ELM的尿沉渣图像识别算法设计
本文使用已去除敏感信息的尿沉渣显微图像为例,该图像样本以细胞大小为依据分为大细胞和小细胞两大类。
1) 由PCA原理可知,当经过PCA处理的样本数据的主成分贡献率达到85%~95%时,可以使用处理后的数据代替原数据进行学习。因此,需要寻找到一个既能减少原数据维度又能保存具有代表性成分的主成分数。通过重复实验得到结果如图2,图3所示,大细胞取最佳主成分数为100,此时主成分贡献率达到85.2%,小细胞取最佳主成分数为26,此时主成分贡献率达到85.0%,符合本文需求。
图2 大细胞主成分数与贡献率的关系
图3 小细胞主成分数与贡献率的关系
2) 由ELM原理可知,在使用ELM进行学习之前,需要对它的激励函数和隐层节点数目进行设置。本文使用Sigmoid函数作为激励函数,为了使ELM的学习成功率达到最大化,需要寻找到最优的隐层节点数。本文迭代隐层数,然后每个隐层数训练10次,计算10次训练的平均值,以此来寻找识别率最高的隐层数。
3) 使用PCA降维处理过的数据代替原始数据进行训练,迭代隐层节点数,寻找识别率最高的隐层数。并与步骤2)的结果作对比。对于小细胞,在隐层数目大约为2 000时,检测成功率达到最大值。对于大细胞,隐层数目大约为1 500时,检测成功率达到最大值。
图4和图5的数据表明,无论是大细胞还是小细胞显微图像样本经过PCA处理后再输入ELM进行训练,其平均成功率与步骤1)得出的模型相比,随着隐层数目增大,经过PCA处理样本训练出来的模型测试准确率越来越高。其中,经过PCA处理的小细胞样本识别准确率平均比未处理的高出10%。经过PCA处理的大细胞样本识别准确率增加18%。同时,经过PCA处理的小细胞样本只需隐层数目为2 500即可达到最大识别准确度,比未处理的减少500。经过PCA处理的大细胞样本需要隐层数目为850,比未处理的减少1 250。
图4 PCA处理前后的小细胞数据识别平均成功率对比
图5 PCA处理前后的大细胞识别平均成功率对比
图6,图7数据表明,使用PCA处理后的样本数据进行训练得出模型,其训练时间比步骤1)中的训练大幅减少。而且随着隐层数目的增加,经过PCA处理的样本训练时间增长较缓,未经处理的训练时间增长较快。
如图8,图9数据所示,随着隐层数目的增加,方差都呈现递减趋势。其中,经过PCA处理的小细胞和大细胞都比未经处理的波动更小。这意味着使用PCA对图片进行处理可以使检测准确率更加稳定。
图6 PCA处理前后的小细胞训练时间对比
图7 PCA处理前后大细胞训练时间对比
图8 PCA处理前后的小细胞方差对比
4 结 语
本文通过显微图像对尿沉渣有形成分的检测展开研究。利用降维技术和神经网络对图像样本进行处理和检测,使训练时间大幅减少,训练效率和测试成功率大幅提升,形成了一套高效的尿沉渣有形成分检测算法。
图9 PCA处理前后的大细胞方差对比
本文存在一些尚未解决的问题,这些问题将成为下一步研究的方向。
1) 不同尿沉渣显微图像间存在灰度差异,大多数是由于光线差异导致的。如果能将与训练无关的背景去除,将对训练效果有积极影响。
2) 本文没有研究对尿沉渣细胞图像的分割算法。使用高效而准确的分割算法可以准确地提取出每个细胞,突出显示其关键特征,并去除不必要的特征,大幅提高训练和测试的准确率。
参考文献
[1] 刘睿.尿沉渣图像分割与识别算法研究[D].重庆:重庆大学,2017.
LIU Rui. Study on the image segmentation and recognition algorithm of urine sediment [D]. Chongqing: Chongqing University, 2017.
[2] 周江嫚.基于PCA?ELM的模拟电路故障诊断[J].电子科技,2017,30(5):72?75.
ZHOU Jiangman. Analog circuit fault diagnosis based on PCA?ELM [J]. Electronic technology, 2017, 30(5): 72?75.
[3] 陈绍炜,吴敏华,赵帅.基于PCA和ELM的模拟电路故障诊断[J].计算机工程与应用,2015(11):248?251.
CHEN Shaowei, WU Minhua, ZHAO Shuai. Analog circuit fault diagnosis based on PCA and ELM [J]. Computer enginee?ring and applications, 2015(11): 248?251.
[4] 廖建勇.尿沉渣显微图像中的管型分割与识别[D].长沙:湖南大学,2009.
LIAO Jianyong. Tube segmentation and identification in microscopic image of urine sediment [D]. Changsha: Hunan University, 2009.
[5] 付华,王馨蕊,王志军,等.基于PCA和PSO?ELM的煤与瓦斯突出软测量研究[J].传感技术学报,2014(12):1710?1715.
FU Hua, WANG Xinrui, WANG Zhijun, et al. Research on the soft sensor of coal and gas outburst based on PCA and PSO?ELM [J]. Chinese journal of sensors and actuators, 2014(12): 1710?1715.
[6] 裘日辉,刘康玲,谭海龙,等.基于极限学习机的分类算法及在故障识别中的应用[J].浙江大学学报(工学版),2016(10):1965?1972.
QIU Rihui, LIU Kangling, TAN Hailong, et al. Classification algorithm based on extreme learning machine and its application in fault recognition [J]. Journal of Zhejiang University (Engineering Edition), 2016(10): 1965?1972.
[7] 于林杰.尿沉渣显微图像有形成分分割与特征提取方法研究[D].重庆:重庆大学,2016.
YU Linjie. Study on the segmentation and feature extraction of visible components of urine sediment microscopic images [D]. Chongqing: Chongqing University, 2016.
[8] IOSIFIDIS A, TEFAS A, PITAS I. Approximate kernel extreme learning machine for large scale data classification [J]. Neurocomputing, 2017, 219: 210?220.
[9] AVCI D, LEBLEBICIOGLU M K, POYRAZ M, et al. A new method based on adaptive discrete wavelet entropy energy and neural network classifier (ADWEENN) for recognition of urine cells from microscopic images independent of rotation and sca?ling [J]. Journal of medical systems, 2014, 38(2): 1?9.
[10] LI Y M, ZENG X P. A new strategy for urinary sediment segmentation based on wavelet, morphology and combination method [J]. Computer methods & programs in biomedicine, 2006, 84(2/3): 162?173.
[11] HUANG G B, BAI Z, KASUN L L C, et al. Local receptive fields based extreme learning machine [J]. IEEE computational intelligence magazine, 2015, 10(2): 18?29.
[12] 李伟红,于林杰,龚卫国.基于非参数变换的尿沉渣细胞图像识别方法[J].仪器仪表学报,2015,36(12):2722?2730.
LI Weihong, YU Linjie, GONG Weiguo. Urine sediment cell image recognition method based on non?parametric transformation [J]. Chinese journal of scientific instrument, 2015, 36(12): 2722?2730.
[13] CHEN Kai, L? Qi, LU Yao, et al. Robust regularized extreme learning machine for regression using iteratively reweighted least squares [J]. Neurocomputing, 2017, 230: 345?358.