APP下载

基于主成分分析的活性污泥中生物相识别技术的研究

2019-12-18韩美林程峻杰杨阳

价值工程 2019年34期
关键词:主成分分析污水处理

韩美林 程峻杰 杨阳

摘要:生物相分析是污水厂运行管理的重要手段,但目前以人工分析为主,原因在于图像背景多变、目标物类型较多,不同阶段、不同环境下的生物特征多变[1]。本文借助图像处理的知识对活性污泥中生物相进行识别,通过PCA算法降低生物相图像特征的维度,再利用支持向量机(SVM)对降维后的生物相图像进行分类识别,最后使用MATLAB软件对已知生物相数据库进行仿真。数据结果表明,该方法能够较为准确的识别出活性污泥中的生物相。

Abstract: Biological phase analysis is an important means of operation and management of wastewater treatment plants. However, it is mainly based on manual analysis. The reason is that the background of the image is variable and the types of targets are many. The biological characteristics in different stages and environments are variable. In this paper, the bio-phase of activated sludge is identified by the knowledge of image processing. The dimension of bio-image features is reduced by PCA algorithm. Then, the support vector machine (SVM) is used to classify and identify the reduced-phase bio-phase images. Finally, MATLAB is used to simulate a known bio-phase database. The data show that the method can accurately identify the biological phase in the activated sludge.

關键词:污水处理;生物相识别;主成分分析

Key words: sewage treatment;biological phase identification;principal component analysis

中图分类号:X703                                        文献标识码:A                                  文章编号:1006-4311(2019)34-0184-02

1  绪论

在传统的污水处理厂运行管理中,生物相分析是污水处理厂运行管理的重要手段,但传统的生物相分析依赖于人的经验,对从业人员的专业知识要求高,这显然无法在我国大量小微污水处理厂(站)得到推广应用。图像处理技术的飞速发展为解决上述问题提供了新的思路,然而目前生物相自动分析并不成熟,主要问题在于:镜检图像背景多变、目标物类型较多;现场条件较差,获得的图像质量太差。基于以上分析,本文借助图像处理的知识对活性污泥中生物相进行识别,从而为污水厂采用智能化手段进行管理提供理论与技术基础[2]。

2  主成分分析算法原理

主成分分析算法主要作用是用于在多变量统计分析中对数据进行分析,目标是尽量用最少数量的维度,尽可能精确地描述数据[3]。PCA的本质实际上是K-L变换,K-L变换将会使得向量的值发生变化,但是所存在的向量数目是不会改变的,即使数值发生改变也会变成小数值,所以能够一边减少向量的维数一边对向量的主要特性进行保留[4],因此经常被应用于特征的提取。

3  生物相识别过程

3.1 构建特征空间

经过基本简单的预处理后,将库中每个对象的前五张图像载入作为训练集,后五张载入作为测试集。将生物相图像设置为矩阵得到训练样本集[5]。接着对训练样本的均值进行求取,为了将差异性表现出来,在减掉均值之后,就得到了N幅差异图像。然后在去掉均值。再对协方差矩阵进行求取和特征分解,但是考虑到矩阵很大的矩阵,所以我们需要先转换然后对其进行分解。最后对其进行归一化处理,得到归一化特征向量,从而达到了减少本实验中高特征维数的目的[7]。

3.2 特征提取

特征提取就是提取出生物相图像中差异性最大的特征,接下来进行有序识别工作。为了得到训练集坐标系数,需要将训练集生物相图像和测试集图像在特征子空间进行投影,从而得到的这组系数就可以作为生物相识别的依据[8]。

3.3 SVM分类算法介绍

3.3.1 SVM算法原理简介

要完成生物相的识别,在PCA算法完成特征提取之后还需要结合支持向量机法对特征提取后的生物相用进行识别。支持向量机(support vector machine)是通过将结构化的风险控制在最小限度来改善机器学习的泛化能力,在统计的样本量很少的时候将经验风险和置信范围抑制到最小限度的分类算法[9]。

3.3.2 SVM算法重要参数

C与gamma在SVM模型中是两个相对来说比较重要的参数。其中C表示的是惩罚系数,通俗的来讲就是对误差的容忍程度。C太大或太小,都会导致泛化能力变差。gamma是一个参数,在选择作为核心的RBF函数后与函数一同出现。它在将数据分配到一个新的特征空间之后,隐含地确定了数据的分配,影响到训练与预測的速度[10]。

3.3.3 SVM训练函数和测试函数

选取两组图片来利用SVM算法进行训练测试处理,其中一组图片作为训练数据来使用,另外一组图片作为测试数据。除了选取训练测试数据之外,还需要做的就是利用MATLAB软件提供的svmtrain函数和svmclassify函数编写训练函数与测试函数。

4  生物相识别系统结果与分析

本文是利用MATLAB R2017a软件设计的生物相识别系统,主要实现的功能是在MATLAB GUI界面中点击“读取库”时,系统会得到降维后的主成分特征图;点击“打开”时,系统会输入一张生物相图片;点击“识别”时,系统会准确识别出训练集中的图片。

主成分分析法可以起到降低维度的作用,可以去除图像像素之间的相关性,可以把多指标合成为几个相互无关的主成分,每个主成分都反映了原始变量的大部分信息,并且所含的信息互不重复。对训练集中的全体样本进行规格化,对训练集中的生物相图像利用SVM进行训练,通过一对一投票决定其最终类别归属来实现生物相的识别。通过利用MATLAB软件仿真得到如图1、图2所示实验结果。

本文利用图像处理技术生物相的特征,通过系统设计实现了生物相的识别。为了本系统的可行性,采集了800张的生物相图像样本,分为8组,每组100张图像。实验结果如表1所示。

从表1可以看出,整个实验的检测时间为59秒,单幅生物相检测识别时间为59/800=0.074s,因此该程序的检测识别速度较快。由表统计,检测结果的误判数为71,检测识别系统的准确率(800-71)/800×100%=91.125%。

5  结论

在实验中,利用PCA算法将图像样本的特征向量从10304维降到20维,在之后运用SVM算法进行分类的时候,使得数据简化,极大的减少了系统运行时间。同时,对数据进行降维之后,识别率并没有随着维数的降低而降低,而是依旧保持着非常高的识别率,足以证明了经过PCA处理后图像特征向量具有舍弃区分能力弱,相对一致的特征。最后使用MATLAB软件对已知生物相数据库进行仿真。仿真结果表明,该方法能够准确识别出活性污泥中的生物相,从而为污水厂采用智能化手段进行管理提供理论与技术基础。

参考文献:

[1]任勇.活性污泥法在污水处理中常见的问题探讨[J].建材与装饰,2019(15):286-287.

[2]刘惠娜.城市污水SBR处理生物相种群与处理效率相关性研究[D].广东工业大学,2005.

[3]宋金晶.基于子空间几何特征分析的人脸识别方法研究[D].同济大学,2006.

[4]李琳琳.一种改进的基于主成分分析的人脸识别技术[J].电信快报,2016(7):39-42.

[5]刘卫凯,郝雅倩,郑晗,齐立萍.人脸识别综述[J].信息记录材料,2018,19(07):13-14.

[6]李宜清,程武山.融合PCA的支持向量机人脸检测研究[J].计算机测量与控制,2019,27(03):49-54.

[7]付康,陈中举,杜友福.基于PCA和SVM的人脸识别研究[J].电脑知识与技术,2019,15(07):209-211.

[8]杨博雄,杨雨绮.利用PCA进行深度学习图像特征提取后的降维研究[J].计算机系统应用,2019,28(01):279-283.

[9]张持健,刘雪,张贺,张燕习.基于PCA和非线性SVC的小数据人脸识别[J].无线电通信技术,2019,45(01):73-77.

[10]刘惠娜.城市污水SBR处理生物相种群与处理效率相关性研究[D].广东工业大学,2005.

猜你喜欢

主成分分析污水处理
太原市61个村要建污水处理设施严禁直排入河
浅谈医疗污水处理要求
涌浪机在污水处理中的应用
工业污水处理的再利用
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
三亚加快污水处理工程建设