基于机器学习的农村水质水色分类研究
2022-04-13高佳颀吴芳
高佳颀,吴芳
(天津农学院 计算机与信息工程学院,天津 300392)
随着我国现代化水平的提升,农村经济快速发展,水资源的污染状况也随之加剧。在农村经济快速发展下,许多工厂建立在农村周围,工业废水排放对农村的水资源带来了极大的污染与危害。除此之外,农村生产生活带来的生活废水以及农药残留等也对农村水质造成了污染,对农村人民的身体健康造成了威胁。十八大以来,习近平总书记反复强调:“绿水青山就是金山银山”;2018年中共中央、国务院印发了《乡村振兴战略规划(2018-2022年)》,其中第六篇指出建设生态宜居的美丽乡村;2021年中央1号文件关于农村人居环境整治提升五年行动等政策的提出与实施,体现了国家对于农村环境治理的重视,但目前对农村水质的研究较少,因此对农村水质资源状况进行预测预警、实时监测农村水质变化、检测是否有污水排放、为管理者及时采取措施改善水质提供依据,已成为我国农村水环境治理亟待解决的问题。
1 国内外研究现状
根据国家现行水质检测标准[1],水质检测指标主要包括9项,作为颜色体现的色度也是一项指标,一些学者通过水质检测传感器检测水质参数的变化来进行水质污染的判断。AKHTER F等[2]提出了一种用于水产养殖的新型硝酸盐传感器。KOMARUDIN M等[3]使用多节点传感器来精准监测养殖水质。岛津公司[4]的TNP-4110水质分析仪,可以实时在线检测各类水体中的总氮、总氧,还具有浑浊溶液预处理系统和计量分配系统。崔梦丹等[5]在基于浊度传感器的自动清水设计中通过浊度传感器检测水质状况,从而驱动净水装置,保持水质稳定。李瑞环等[6]设计了一种对养殖水环境进行检测的系统,对养殖所用水的要素进行检测分析,从而对养殖水环境进行治理。钟涛等[7]在基于无线网络的多参数原位水质监测系统设计中集成蓝藻荧光传感器、水温传感器及水体浊度传感器等,实现长时间的现场水质监测。郑杰[8]通过研发多参数水质传感器模组设计了一款无线微型多参数水质监测系统。张泽彤等[9]基于STM32单片机、无线控制模块、传感器模块以及无线模块通信技术设计的机器人,可实现长距离智能化操控以及对水质的实时检测。贺旭博等[10]在基于LabVIEW的水质多参数检测系统中,通过传感器采集水中的pH、温度、浑浊度等数据,将数据发送给上位LabVIEW进行水质参数的检测。李昂[11]提出了一套水质浊度检测系统,该系统的准确度在92%左右,验证了图像识别技术用于水质浊度检测的可行性。张良均等[12]使用图像处理技术对水质图像进行处理,并对水质进行了自动评价。陈喜胜[13]进行了基于图像处理的污水排放色度检测方法研究,验证了卷积神经网络在水质色度识别方面的可行性。
这些学者大多通过水质传感器来检测水质参数的变化,进而判断水质是否受到污染,而在水质参数采集的过程中传感器的探头可能会受到污染,进而影响水质参数的采集结果,并且国外的传感器价格和维护成本较高,不易推广,国内的传感器技术不太成熟,可能出现问题,造成更大的损失。这种方法虽然检测精确度高,但是对人力物力的消耗也较大。由此,采取一种更为快速、廉价的水质污染分类检测方法尤为重要。
由于水体的颜色会因水中的物质变化而变化,比如:硬水为浅蓝色,低价铁会使水成为灰蓝色,高价铁会使水成为黄褐色,硫化氢会使水成为翠绿色,硫细菌会使水成为红色,腐植酸盐会使水成为暗黄或灰黑色等。由此本文提出直接通过水质图像的颜色进行水质分类。通过采集农村水资源图像,并提取水质图像的颜色特征数据,基于决策树和支持向量机分别建立水质分类预测模型,根据分类预测结果判断水质是否受到污染继而提出预警,为监测农村水质变化和提高农村水资源环境提供帮助。
2 数据采集
对农村周边水源进行取样,采集图像,选取高清工业摄像机(图1)作为图像采集设备。它是一款高速USB2.0数字相机,使用高速2.0接口、传输速度480 Mb/s,可与PC对接实时显示图像,并支持静态图像捕捉拍照保存。为了最大限度保证图像数据不受外部环境影响,将所有水样放置在相同容器内,在相同光线下进行拍照,共采集203张水源图像数据。
图1 工业摄像机
3 数据预处理
3.1 图像切割
由于拍摄的原始水质图像(图2)包含了盛水的器具,需要去除器具的干扰。具体方法为提取水质图像中央的图像,设拍摄的水质图像的大小是I×J,对图像的第fix(I/2)-50个像素点到第fix(I/2)+50个像素点,第fix(J/2)-50个像素点到第fix(J/2)+50个像素点进行切割获取中央部分的图像[14],为后续特征数据的提取进行准备。切割后的图像如图3所示。
图3 切割后图像
3.2 特征提取
本文的分类目标为根据水质图像的颜色来进行分类,所以选用最能反映水色图像特征的颜色特征进行特征提取。颜色矩是由Stricker和Orengo提出的,他们指出可以用颜色矩来对图像颜色的分布状况进行表示。因此本文选用颜色矩特征提取方法来提取水质图像的特征。在提取颜色矩特征前,先将图片转化为可以体现颜色特征的数据,将图片数据划分为RGB三个颜色通道,分别将三个通道的图片数据转换为像素值矩阵,再计算各个水质图像的一阶矩、二阶矩和三阶矩。公式 如下[15]。
一阶矩:
二阶矩:
三阶矩:
分类模型训练和测试流程如图4所示。
图4 分类模型训练和测试流程图
4 模型构建
4.1 决策树
决策树是一种在分类结果已知的情况下进行监督学习的分类算法,使用ID3、C4.5和CART等生成算法进行决策。决策树的内部节点用来对属性进行判断,根据判断结果选择进入哪一个分支,叶节点代表分类结果(本文中叶节点代表对水质颜色进行分类的结果)。本文通过对水质分类样本进行学习得到一个可对水质颜色进行分类的决策树,对新的水质图像的颜色进行分类。
决策树进行学习的关键是如何使划分的样本属于同一个类别,用信息熵来表示样本划分的度,假如样本集F中第i类样本所占的比例为pi(i=1,2,3,…|i|),i为分类类别的总类数(对于二分类问题,i=2)。则样本集的信息熵为:
本文中水质样本共分为5类,分类见表1。
表1 水质颜色分类表
在水质颜色分类的决策树构建过程中,根据提取的水质图像的颜色矩特征值来决定决策树的分类规则,根据分类规则进行决策树的构建。
4.2 支持向量机
支持向量机是一种有监督的机器学习的分类方法,目标是找到一个能最大程度正确划分训练集数据的最大边距超平面。支持向量机自被提出以来经过快速发展已衍生出一系列改进和扩展的算法,在人像识别、文本分类等模式识别问题中得到广泛应用。
在指定的样本空间{(ci,di)|i=1,2,…k}中,ci∈R1为给定的输入样本,di∈R1为样本的目标输出,即分类标签,i为输入的样本个数,多分类支持向量机的目标是找到一个决策函数(f(c)=ωc+b)来对新样本数据进行分类。
支持向量机用核函数来解决线性支持向量机模型不擅于解决多分类问题以及支持向量机的一些不能进行线性分类的情况,核函数是将数据用一个函数进行转换,包括:线性核函数、多项式核函数、高斯核函数、Sigmoid核函数、自定义核函数等,在本文中主要解决特征不多的多分类问题,使用高斯核函数,将低维度数据映射到高维度。高斯核函数公式如下:
其中xv为高斯核函数的中心,α为函数的宽度参数,表示高斯核函数的径向作用范围。
本文主要用到支持向量机的多分类模型。提取图像的中心区域后,分别计算水质图像的颜色矩作为分类的特征依据。
4.3 构建模型
首先进行训练集和测试集数据划分,将颜色矩特征提取后的数据集按8∶2的比例划分为训练样本和测试样本,另外选取一些水质图像数据进行模型测试,进行水质分类评价检测(图5)。
图5 水质水色分类流程图
根据训练集数据分别用决策树和支持向量机进行模型构建,用测试集数据进行模型测试,用混淆矩阵查看模型的分类准确率(图6)。
图6 决策树和支持向量机实现主要程序
根据决策树和支持向量机的混淆矩阵(图7、图8)和分类性能报告(表2、表3)可以看出,支持向量机的模型准确率为96 %,决策树的模型准确率为83 %,支持向量机的识别准确率要高于决策树,表明对水质颜色进行分类的问题可以用支持向量机解决。
表3 支持向量机的分类性能报告
图7 决策树的混淆矩阵
图8 支持向量机的混淆矩阵
表2 决策树的分类性能报告
由于用于水质水色分类模型训练和预测的数据是随机划分的,所以每次训练完成的结果可能不相同,但差别不是很大。
5 结论与展望
基于机器学习算法的农村水质水色分类研究表明,水质水色的颜色矩可以很好体现水质的颜色特征,帮助进行水质水色的分类。本文通过切割水质图像并提取颜色矩特征,基于决策树和支持向量机分别构建水质分类模型,进行水质水色分类,来判断水质是否受到污染。
利用本文对农村水质资源的水色图像进行分类的方法,可以将自动摄像头用于水质图像采集,通过对水质图像进行处理,并比较短时间内前后6幅图片的水色分类结果,帮助判断水资源是否受到污染,监测附近工厂是否排放污水及是否有生产生活污染物排放。此外,本文采集的水质数据不充足,且对水质分类并不全面,后续可采集更多的水质数据并对水质分类进行细化。本文只对两种机器学习算法进行了水质分类比较,后续可采用其他算法进行模型构建,并可对模型进行 优化。