APP下载

面向预测的水产养殖物联网数据预处理方法

2018-06-29邸玉琦成艳君程倩倩袁明波曹丽英

江苏农业科学 2018年11期
关键词:氨态水产预处理

高 霞, 邸玉琦, 成艳君, 程倩倩, 袁明波, 曹丽英

(1.山东电子职业技术学院自动化工程系,山东济南 250200; 2.吉林农业大学信息技术学院,吉林长春 130118;3.中国农业大学信息与电气工程学院,北京 100083; 4.山东电子职业技术学院电子工程系,山东济南 250200)

准确高效的水质预测对于研究水产养殖水质的变化规律,防范水体恶化以及病害危险具有十分重要的现实意义和经济价值,目前国内外关于水产养殖水质预测模型的研究已经日趋成熟,并取得了一系列的实际应用成果。而水质预测模型的建立离不开大量的实测数据,与物联网结合的数据采集可以大大提升其工作效率和数据质量[1],但冗余较多和数据缺失的问题会严重导致预测模型准确性的降低。作为预测模型的基础,数据质量直接影响最终的建模效果,因此试验数据的预处理显得尤为重要。

但目前关于水质预测模型的研究主要集中在水质预测核心阶段,着力于预测算法的选择和优化而忽视了对水质数据预处理的研究,针对预测模型的数据预处理方法研究相对较少。姚亚利用线性插值法和均值法对水产养殖水质数据进行修复,但未涉及数据的结构化处理以及冗余消除等方面[2]。在特征识别与提取方面多采用聚类分析的方法[3],而未涉及其他数据质量问题方面的研究。

水产养殖物联网数据受传感器本身和传输环境影响,易发生数据的缺失和异常,因此数据修复必不可少。另外,水质预测模型需要环境因子作为输入,而水产养殖环境因子之间关系复杂,存在着非线性、非稳定性等特点[4],且各个影响因子之间存在一定的冗余,给水质预测模型的建立带来了很大的困难。数据初步修复后,利用数据归约技术对数据进行特征选择[5],在尽可能保持数据原始状态的前提下,最大限度地精简数据。其中,系统聚类法和主成分分析法因其高效性和准确性而备受研究人员青睐。此外,由于系统误差、随机误差和人为误差等情况,试验数据都不可避免地含有噪声污染,而噪声影响会使得模型预测效果大大降低。郑勋烨指出,20世纪80年代初由格罗斯曼提出了小波理论[6],由于它可以成功区分噪声和有用信号,因而在信号处理中得到了广泛应用[7-8]。与其他传统降噪方法相比,小波分析在时域和频域上同时具有良好的局部化性质[9],在降噪的同时可以很好地保留原数据的时间信息和频率信息,且误差较小。因此,本研究选择小波分析的方法对数据进行降噪处理。

基于上述内容,本研究提出一种水产养殖数据预处理方法,分别利用系统聚类法和主成分分析法处理修复后的水产养殖水质数据,并对结果进行对比分析,筛选预测模型的关键影响因子,最后利用小波分析方法对主要影响因子进行降噪。同时采用该预处理方法对天津市宁河县天祥水产有限责任公司银鳕鱼养殖池塘的水产养殖数据进行实证分析,验证该预处理方法的有效性。

1 数据获取

水产养殖样本数据主要来源于天津市宁河县天祥水产有限责任公司银鳕鱼养殖池塘。该池塘面积为666.7 m2,水深3 m,温度适宜时为露天养殖,温度较低时为大棚温室养殖,安装有3个增氧机,为集约化养殖模式。

以天津市宁河县天祥水产有限责任公司银鳕鱼养殖池塘水质为研究对象,利用物联网技术进行数据采集,采集氨态氮含量、水温、溶解氧浓度、pH值等4项水质因素数据,以及降水量、风速、风向、太阳辐射强度、空气温度、空气湿度、大气压强等7项气象因子水产养殖数据。其中水质氨态氮含量使用 DZ-A 型水产养殖水质分析仪进行检测,水温、溶解氧浓度、pH值使用哈希HQ40d双路输入多参数数字化分析仪进行检测。各因子数据检测如图1所示。

为保障数据准确性,在池塘中固定一点(岸边中点距离岸边1 m、水深1 m处)测量水温、溶解氧浓度、pH值等水质参数,并采集水样检测水质氨态氮含量;将小型气象站放置在试验池塘旁边,采集水质氨态氮含量检测期间的气象数据。

2 数据预处理方法设计

2.1 数据修复

在水产养殖数据采集过程中,由于使用便携式仪器、传感器或气象站测量数据时的人为失误、设备故障、网络中断等原因,会产生有缺失和异常等情况的“脏数据”。脏数据会带来数据处理成本的增加和响应时间的延长,最终还会影响预测模型的正确性[10],因此在预处理阶段必须对数据进行修复。

2.1.1 数据缺失修复处理 在单点数据缺失或缺失数据时间间隔很小的条件下,可由线性插值法对其进行修复,具体计算公式为

(1)

式中:xk、xk+j分别表示k、k+j时采集的实际水质参数值;yk表示k时水质参数取值;yk+i表示k+i时缺失水质参数取值,如果是少量多点连续数据丢失,可以采用气象状况相似的日期中同时刻的数据对其进行填补修复;而如果是大量多点连续数据丢失,难以填补,则弃用该日数据。

2.1.2 异常数据修复处理 池塘水质数据具有时序性和延续性[11],变化较为平稳,不会出现剧烈变化的情况。通常情况下,如果在测量时发现某时刻水质数据急剧变化,且范围超过其前后水质监测值的±10%,则认为该数据测量有误,为异常数据。在使用便携式仪器采集数据过程中,应时时与历史测量数据进行比较,发现异常数据则立即删除后重新测量。未及时删除的异常数据可采用均值平滑法进行水平处理,计算公式为

(2)

式中:yk+1、yk-1分别表示k+1、k-1时采集的水质参数值;yk表示k时补充的水质参数取值。

2.2 特征选择

采用数据归约方法[12]定性分析水产养殖生态环境因子之间的相互作用关系,进而选择数据特征集,该方法可以消除数据间的多重共线性,筛选出水质预测模型的关键影响因子,为合理选择水质预测模型的输入参数提供有效建议。利用数据归约方法中的系统聚类法和主成分分析法选择数据特征的方式已经在实际生活中有了很好的应用[13-15],有些研究者还将两者结合使用[16-18]。考虑到水产养殖环境错综复杂,水质因子受其他环境生态因子以及人为因素影响较多,同时使用2种方法进行筛选,并对结果进行综合对比分析,可增加筛选因子的可靠性,因此本研究利用系统聚类法和主成分分析法同时对数据进行归约处理。

利用系统聚类法筛选水质因子变化的关键影响因子,步骤如下:(1)修复试验数据中的缺失值,删除替换异常值,并对数据进行标准化处理。(2)利用相关系数法度量水质因子变化相关因子变量的相似性。(3)使用类平均法对水质因子变化的相关因子变量进行聚类分析,根据需要确定类别数量。(4)从划分的类别中筛选出代表性因子,作为影响水质因子变化的主要影响因子。

与基于相似性或距离的系统聚类分析方法不同,主成分分析法通过计算数据矩阵来分析数据间的线性关系并进行数据的筛选和压缩。筛选步骤如下:(1)数据预处理包括修复缺失值、删除或替换异常值,并对数据进行标准化处理。(2)使用下列公式计算各个因子的相关系数矩阵。

(3)

(3)计算相关矩阵的特征值。

|A-λIp|=0;

(4)

(λpIp-A)X=b。

(5)

式中:A是数据域P上的一个n阶矩阵;λ表示特征值;Ip表示单位矩阵;λp表示数据域P上的一个特征值;X为A的对应子特征值λp的特征向量;b为特征根。

(4)使用公式(6)、(7)计算贡献率和累计贡献率。

(6)

(7)

式中:贡献率bj是单个因子分析中抽取出的因子特征值与所有因子特征值之和的比值,累计贡献率αp是因子分析中抽取出的因子特征值之和与所有因子特征值之和的比值,其中λ表示特征值,p为因子分析中抽取出的因子特征值数量,m为所有因子特征值数量,主成分贡献率越大,说明该主成分越能够更好地保留原始数据的特征信息。

(5)计算主成分载荷矩阵,筛选水质因子变化的关键影响因子。计算公式为

(8)

式中:αji表示第j个变量对第i个因子的累积贡献率;lji表示其标准正交化特征向量。

2.3 小波降噪

在构建水产养殖因子预测模型时,从传感器上获取或直接采集的数据都会因仪器等问题出现噪声污染,影响数据分析和最终模型的精确性,因此去除数据噪声是预测模型构建的基础之一[19]。传统的信号降噪方法包括傅里叶变换等,只能描述信号在频率域中的变化情况[20],而无法分辨出信号在时间轴上的突变,有着“一刀切”的缺点,在提高空间分辨率和信噪比上存在矛盾。而小波变换可以同时在频率域和时间域内对信号进行分析,具有优越的局部化性能,在降噪的同时较好地保留信号中的有用信息。本研究利用小波降噪技术处理得到的预测模型关键影响因子数据,在保留真实数据特征信息的同时,保证数据精度,提高最终预测模型的正确性。小波降噪的基本过程为:(1)选择haar、dmey、dbN(N=2~10)、symN(N=1~10)、coifN(N=1~5)小波基对原始数据进行如图2所示的3层小波分解。

(2)分别对5种小波基选择rigrsure阈值,对第1层至第3层的高频系数进行软阈值量化处理。

(3)将小波分解得到的第3层低频信号和经过阈值量化后的高频系数进行信号重构。

(4)计算小波降噪后每个因子的均方根误差(RMSE)和信噪比(SNR),具体计算公式为

(9)

(10)

2.4 基于特征选择与小波降噪的数据预处理方法

对水质预测模型的生态环境因子数据进行特征选择,剔除对水质预测模型影响较小的生态环境因子,降低数据维度,减少数据复杂度以及数据冗余,最终提高水质预测模型输入的准确性和预测效率。然后再将小波降噪技术应用于水质预测模型来处理关键影响因子。作为水质预测模型的输入参数数据,关键影响因子数据的降噪可以减少噪声对预测模型性能的干扰,提升预测精度,缩短预测时间。

基于特征选择和小波降噪数据预处理方法的具体实现步骤如下:(1)对数据进行修复处理,利用线性插值法填补缺失数据,剔除或采用均值平滑法修改异常数据。(2)利用系统聚类法对数据进行归约处理。数据标准化处理后,计算相关因子变量的相似性,确定关键影响因子个数后根据聚类分析划分类别,然后从中选取关键影响因子。(3)利用主成分分析法处理数据。利用(1)中修复后的数据计算相关系数矩阵、特征值以及各因子贡献率,最终根据载荷矩阵筛选关键影响因子。(4)对(2)和(3)中分别得到的关键影响因子进行分析评价,综合对比之后得到最终结果。如果两者差距较大,则计算有误,返回(2)、(3)重新计算。(5)将(4)中得到的关键影响因子数据输入到小波降噪模型中,进行小波分解,然后根据相应去噪规则对关键影响因子数据进行噪声消除。(6)将降噪后的关键影响因子数据作为水质因子预测模型的训练或测试输入数据。基于特征选择和小波降噪的预处理方法流程如图3所示。

3 结果与分析

3.1 试验数据

采集天津市宁河县天祥水产有限责任公司银鳕鱼养殖池塘2015年9月29日至10月10日共12 d的数据,每天从 00:00 开始,每隔4 h采集1次水质氨态氮含量、水温、溶解氧浓度、pH值等数据,小型气象站数据采集间隔为10 min。

3.2 数据预处理方法实现

本研究以采集的池塘水质氨态氮含量作为研究对象进行实证分析:首先对试验采集的氨态氮含量进行数据修复,修补缺失数据,剔除或更正异常数据,并进行氨态氮含量的数据初步筛选。然后对氨态氮含量进行数据归约处理,选择有效特征。按照系统聚类分析步骤对试验采集的数据进行聚类分析,把影响水质氨态氮含量变化的水质因子和气象因子划分为5类,结果如图4、表1所示。从图4、表1可知,第1类因子为溶解氧浓度、pH值,第2类因子为风速、太阳辐射强度,第3类因子为风向,第4类因子为水温、空气温度,第5类因子为空气湿度、大气压强。从第1类中选择溶解氧浓度、第2类中选择太阳辐射强度、第3类中选择风向、第4类中选择水温、第5类中选择空气湿度作为水质氨态氮含量变化的主要影响因子。同时利用主成分分析法对氨态氮含量进行数据降维,通过对试验采集的水质因素数据和气象因子水产养殖数据进行主成分分析计算生态环境因子的特征根和贡献率,结果如表2所示。按照累计贡献率达到85%以上作为提取主成分的原则较为合适,因此选取5个有效成分。

表1 系统聚类分析结果

由表3可知,氨态氮含量、水温对主因子1影响较大,太阳辐射强度对主因子2贡献最大,溶解氧浓度对主因子3有最大贡献,风向对主因子4贡献最大,太阳辐射强度对主因子5贡献最大。因此,选择水质氨态氮含量、水温、太阳辐射强度、溶解氧浓度、风向为主要因子,其中水温、太阳辐射强度、溶解氧浓度、风向为氨态氮含量变化的主要影响因子。

表2 水产养殖氨态氮含量生态环境因子的特征根与贡献率

表3 水产养殖水质氨态氮影响因子载荷矩阵

从表4可以看出,系统聚类分析法和主成分分析法选出的关键影响因子相似,最后根据调研情况和专家评分综合分析,筛选出水温、溶解氧浓度、风向、太阳辐射等4项因子为影响水质氨态氮含量变化的关键影响因子。

最后对氨态氮含量按照小波降噪步骤进行数据小波降噪分析。由表5可知,小波基dmey对氨态氮含量的数据降噪信噪比最大,为25.888 6,均方根最小,为0.044 8,因此对氨态氮含量来说,小波基dmey的数据降噪效果最好。

表4 关键因子筛选

表5 不同小波基水质氨态氮含量的数据降噪情况

同时,对筛选得到的预测模型影响因子数据进行小波降噪分析。在氨态氮含量预测中,对水温、溶解氧浓度、风向和太阳辐射强度等的数据进行小波降噪,采用小波基coif2对水温和溶解氧浓度进行数据降噪处理(表6),采用小波基haar对风向和太阳辐射强度进行数据降噪。

3.3 试验结果

利用特征选择和小波降噪相结合的方法对采集的氨态氮含量进行数据预处理,具体筛选结果如表7所示,将水质氨态氮含量变化的关键影响因子降为4个,降低了预测模型输入参数选择的复杂度。

由表6可知,氨态氮含量的RMSE、信噪比分别为0.044 8、25.888 6,降噪效果良好。另外,由图5至图9可知,数据进行小波降噪处理后,变化曲线变得光滑,消除了噪声和杂峰的影响。

表6 水产养殖氨态氮含量关键影响因子小波降噪情况

表7 关键影响因子筛选结果

4 结论

为提高水产养殖水质因子预测模型的精度和准确性,本研究针对水产养殖环境错综复杂、各环境因子之间相互作用影响、数据冗余严重的特点,提出利用数据修复、特征选择以及小波降噪对水产养殖数据进行组合处理的预处理方法,并以天津市银鳕鱼养殖池塘氨态氮含量为例,利用该方法进行预处理。最终将氨态氮含量变化的关键影响因子个数降为4个,减少氨态氮含量预测模型输入参数的个数,同时降噪后氨态氮含量的RMSE降低为0.044 8,信噪比达到25.888 6。结果表明,该方法可以剔除脏数据,降低数据复杂度,减少噪声干扰,能够较好地满足水产养殖环境中氨态氮含量数据精度需要,为后续氨态氮含量预测模型的构建提供数据基础。

参考文献:

[1]辛金国,龚 恺. 基于物联网技术统计数据采集的影响因素[J]. 统计与决策,2015(23):34-37.

[2]姚 亚. 数据预处理和直方图时间序列在水质预测中的应用[D]. 杭州:浙江大学,2013.

[3]杨争光. 养殖水质数据处理与预测技术研究[D]. 太原:太原科技大学,2015.

[4]刘双印,徐龙琴,李振波,等. 基于PCA-MCAFA-LSSVM的养殖水质pH值预测模型[J]. 农业机械学报,2014,45(5):239-246.

[5]游 欣,罗念龙,王映雪. 教学决策支持系统中数据预处理的方法研究[J]. 计算机工程与设计,2007,28(16):3985-3988,3993.

[6]郑勋烨. 经典与新型小波理论及其在图像处理中的应用[D]. 北京:中国地质大学(北京),2014.

[7]Grossmann A,Morlet J. Decomposition of hardy functions into square integrable wavelets of constant shape[J]. SIAM Journal on Mathematical Analysis,2006,15(4):723-736.

[8]Dökmen F,Aslan Z. Evaluation of the parameters of water quality with wavelet techniques[J]. Water Resources Management,2013,27(14):4977-4988.

[9]李 衡,赵毅强,杨瑞霞,等. 基于小波降噪数据预处理的硬件木马检测优化[J]. 计算机工程与应用,2017(1):49-53.

[10]姚李孝,薛美娟,冯继安. 基于人工神经网络的负荷数据预处理[J]. 西安理工大学学报,2007,23(3):277-281.

[11]赵 英. 地表水源水质预测模型数据挖掘技术及其适用性研究[D]. 哈尔滨:哈尔滨工业大学,2008.

[12]康睿智,郝文宁. 数据归约效果评估方法研究[J]. 计算机工程与应用,2016(15):93-96.

[13]de Morsier F,Tuia D,Borgeaud M,et al. Cluster validity measure and merging system for hierarchical clustering considering outliers[J]. Pattern Recognition,2015,48(4):1478-1489.

[14]袁晓庆,李奇峰,李 琳,等. 基于主成分分析法的农业信息化评价研究[J]. 江苏农业科学,2015,43(3):398-402.

[15]Gazzah M,Jaouachi B,Schacher L,et al. Study of the influential inputs on the bagged denim fabric behaviors using the principal component analysis method[J]. International Journal of Clothing Science and Technology,2015,27(6):922-939.

[16]Zhang J,Tuo X,Yuan Z,et al. Analysis of FMRI data using an integrated principal component analysis and supervised affinity propagation clustering approach[J]. IEEE Transactions on Biomedical Engineering,2011,58(11):3184-3196.

[18]邓爱林,朱扬勇,施伯乐. 基于项目评分预测的协同过滤推荐算法[J]. 软件学报,2003,14(9):1621-1628.

[19]赵恒平,俞金寿. 化工数据预处理及其在建模中的应用[J]. 华东理工大学学报(自然科学版),2005,31(2):223-226.

[20]刘守道,张来斌,王朝晖. 小波降噪技术在柴油机故障诊断中的应用[J]. 机械强度,2001,23(2):134-137.

猜你喜欢

氨态水产预处理
天津滨海湿地一株高效异养硝化细菌的分离鉴定及脱氮特性研究
搞养殖,我们都看《当代水产》
加油!水产人!
大咖点评:2020年水产动保谁主沉浮?
氨态氮对湖泊沉水植物的影响及应对策略
读懂“水产人十二时辰”,你就懂了水产人的一天
基于预处理MUSIC算法的分布式阵列DOA估计
无机碳源浓度对厌氧氨氧化的影响研究
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法