基于物联网系统的甘蔗田间环境数据聚类分析与评价
2019-06-24李修华张云皓温标堂叶志鹏农梦玲
李 婉,李修华,张云皓,温标堂,叶志鹏,农梦玲
(1.广西大学电气工程学院,南宁 530004;2. 广西捷佳润农业科技有限公司,南宁 530004;3. 广西大学农学院,南宁 530004)
0 引 言
传统的农业监测系统往往采用有线组网技术,但由于农业现代化迅速发展以及采集节点数目大幅增加,所以布线的难度和成本也不断地增加[1]。随着农业物联网概念的深入,无线传感器网络技术也开始在畜牧业、种植业等领域有了广泛应用。
在国外,Kim等人通过无线传感器网络、差分全球定位等技术设计了一种可远程监测农田现场数据并可实时控制的精密变量灌溉系统,同时定点6个农场的田间土壤参数,并以无线方式发送到基站以进行科学决策和精确控制[2]。Duncan Waga等人重点研究了利用云计算分析工具分析环境条件,期望其能为农民提供有意义的信息[3]。在国内,上海交通大学与中科院南京土壤研究所共同提出了基于“3S”技术的农田墒情监测系统框架[4]。龙腾芳分析了数据挖掘在农业上的应用,建设了针对温室作物的生长决策系统,解决了温室作物生长智能决策过程中推理困难的问题[5]。刘春玲分析了农业的特点,系统阐述了聚类算法,决策树,关联规则等数据挖掘算法在农业中的应用发展[6]。
随着农业物联网的急速发展与大量应用,大量的农田环境信息被收集,但对农田数据的挖掘及应用方面的研究还不够深入,无法充分体现出物联网对作物科学管理的价值。农田环境数据具有数据量大、结构复杂、类型繁多、价值密度低、产生数据快等特点[7],如何对这些数据进行有效分析和挖掘是非常重要的。
广西是我国最大的甘蔗产区,是保证我国蔗糖供应的重点区域。甘蔗生长与天气气候关系密切,天气气候条件是制约区域某种农作物是否正常完成其生长周期的主要因素。如何对田间采集的大量环境数据进行有意义的处理和分析,使其更好地为农业生产提供服务仍是急需解决的问题。本文通过在广西一甘蔗基地安装农田物联网监测系统,对田间的空气温湿度,光照强度,土壤湿度等数据进行远程监测,并将采集到甘蔗萌芽期、幼苗期、分蘖期和伸长期四个时期的环境数据运用差值法预处理后,再利用层次聚类法进行聚类,最终再依据甘蔗不同时期生长适宜条件对各类进行了优劣评价,管理者可以根据聚类结果更好地管理甘蔗的生长,对指导甘蔗的种植和稳定收入具有重要的意义。
1 农田物联网监测系统设计
农田物联网监测系统主要是将农田环境传感器,短距离无线局域网和GPRS网关等关键技术进行集成,以实现对田间主要环境参数进行多点与实时采集,并远程发送及存储到监测中心服务器,进行远程监测。
本系统主要由感知层、网络层和应用层组成。①感知层。主要由若干传感器节点组成,这些节点通过五种传感器采集空气温湿度、CO2浓度、光照强度、土壤水分含量和土壤温度参数,并将这些参数传递给网关节点(网关节点由协调器节点与GPRS模块通过串口RS232连接组成)。②网络层。主要负责接收数据采集层采集的数据,并将这些数据通过网络上传到服务器。本设计采用NXP公司的JN5168无线模块构建无线传感器网络,该模块的最佳工作电流为15 mA、具有低至0.6 μA的睡眠定时模式、深度睡眠时电流仅为0.12 μA(IO唤醒),通讯距离最高可达1 000 m,满足低功耗远距离的通讯要求。③应用层。主要实现传感器数据的查询和处理。上位机服务器对从网络层接收的数据进行处理,最后以网页发布的形式实现数据的查看与共享。
根据ZigBee的组网特点,传感器节点可以自动组成星型网络、链状网络或树状网络。考虑到田间可能存在网络状况不好、数据传输不稳定等问题,而在树状网络中,JenNet-IP传输协议提供了自动路由修复机制[8],提高了数据传输的稳定性,为此本设计组建树状网络监测农作物生长的环境数据。
图1 系统拓扑结构图Fig.1 System topology diagram
系统拓扑结构图如图1所示。图中传感器节点将传感器采集的数据通过无线传感器网络上传给协调器节点,之后再通过GPRS模块上传给服务器。最终用户只需要通过电脑或者手机等终端设备访问发布的网页即可获取田间环境的数据表以及折线图。突破了地域和时间的限制,实现对田间环境的远程监测。
传感器用来采集田间农作物的环境数据,将采集的环境物理量转化为相应的电信号。根据农作物的生长需要,本系统主要集成了空气温湿度、CO2浓度、光照强度、土壤水分、土壤温度等传感器,选型信息见表1。
表1 传感器信息Tab.1 Sensor information
2 数据的处理与分析
为了对物联网采集到的数据进行有效分析,更好地指导作物种植与管理,在广西一甘蔗种植地安装了传感器节点,采集了空气温度、空气湿度、光照强度、CO2浓度、土壤温度和土壤水分6种环境数据,采集间隔为10 min。本研究选取了2017年3月15日到11月8日这一时间段,即甘蔗的萌芽期、幼苗期、分蘖期和伸长期的环境数据来进行分析。
2.1 数据预处理
由于获得的6种传感器数据中存在一定的数据随机误差,所以需要对这些噪声数据进行过滤。常用的噪声过滤方法有回归法、均值平滑法、离群点分析以及小波去噪。离群点分析、小波去噪和均值平滑法虽然也对噪声数据进行了过滤,但针对本文中的数据过滤效果不够理想,考虑到传感器数据具有连续性的特点,故本文选用差值法对原始数据中的噪声进行过滤。差值法是通过计算连续数据间差值绝对值的大小,比较是否超出了正常数据的振荡幅度,若超出则说明这两个连续数据间存在一个异常点,分别再将这两个数据与相邻的其他数据做差,若差值的绝对值超出正常数据的振荡幅度,则说明这个数据为异常数据,直接剔除[9]。
以4月2日的光照强度数据为例,图2显示了差值法对原始数据进行去噪前后的对比效果图。从图2(a)可以看出,处理前的光照强度曲线上有很多毛刺,数据稳定性较差,通过差值法处理后,曲线变得更加平滑,数据更加稳定。
通过对甘蔗萌芽期(3月15日至3月31日)、幼苗期(4月1日至4月30日)、分蘖期(5月1日至6月15日)和伸长期(6月16日至11月8日)四个时期数据进行差值法处理,得到各个时期去除噪声数据后的样本个数分别为1 896、4 120、6 047和13 115。
图2 4月2日光照强度曲线预处理前后对比图Fig.2 The illuminance curves on April 2 before and after preprocessing
2.2 层次聚类的聚类分析及结果
从甘蔗基地获得的传感器数据数量庞大且繁杂,需要对这些数据进行挖掘,从而得到对管理者有意义的数据和结论。聚类分析是根据数据本身的性质自动将数据分为若干类,并且通过每一类的聚类中心清晰地反映整体数据的特点。层次聚类是聚类算法中的一种,通过计算不同类别数据点间的相似度将数据分为若干组并形成一个相应的树来进行聚类。根据层次是自上而下还是自下而上形成,层次聚类算法可分为分裂聚类算法和凝聚聚类算法。由于大部分的层次聚类算法都属于凝聚层次聚类,故本文选用凝聚层次聚类算法对环境数据进行聚类。
凝聚层次聚类算法流程图如图3所示,初始化主要是设置目标聚类个数,并载入样本点数据。聚类之初,每个样本都被视为一个独立的类,计算每两个类间的spearman距离(相似度),并将间距离最近的两个类合并为一个新的类;接着按同样的方法继续计算新生成的类之间的spearman距离,并进一步进行合并,直到新产生的类的数量与目标聚类个数相等,此时聚类结束。
图3 凝聚层次聚类算法流程图Fig.3 Flow chart of condensed hierarchical clustering algorithm
评价聚类算法结果的好坏有外部评价法和内部评价法。对于层次聚类算法来说,常用内部评价法来评价聚类结果的好坏。本文则采用内部评价法中最常用的CPCC(Cophenetic correlation coefficient)这一系数来进行评价。CPCC指的是聚类树信息与原始数据距离之间的线性相关系数,是对聚类树在多大程度上代表了样本之间相异性的度量。该系数的范围为[-1, 1],越接近1说明聚类效果越好,越接近-1说明聚类越不合理。
甘蔗的生长受空气温湿度、CO2浓度、光照强度和土壤水分等因素的影响,由于甘蔗在空气温度低于13 ℃时会生长极慢或者停止生长,超过40 ℃生长被抑制;空气湿度影响甘蔗的蒸腾和光合作用,过低或者过高都会导致甘蔗气孔阻力增加,光合作用受到限制,影响甘蔗的生长;土壤水分过高会造成甘蔗根系缺氧从而抑制生长,过低使甘蔗生长所需的水分得不到满足。因此,本研究选取空气温度、空气湿度和土壤水分3种环境数据作为凝聚层次聚类算法的输入数据。
图4为空气温度、空气湿度和土壤水分每天的平均值、最大值和最小值。可以看出,空气温度最低13 ℃,最高37 ℃,大部分数据分布在25~35 ℃之间;空气湿度在生长前期主要分布在50%~100%之间,中后期有所降低;土壤水分含量则主要分布在20%~25%之间,其主要原因是该地块采用了滴灌方式,在没有降雨的情况下,土壤水分含量保持比较稳定。
由于这3种输入数据的单位和数量级不尽相同,因此在聚类前,对数据进行了归一化。通过对各生长期的样本归一化数据进行凝聚式层次聚类,得到不同时期的聚类效果图与簇间相似程度图分别如图5、图6所示。
图4 原始数据统计结果Fig.4 Raw data statistics
图5 各生长期数据的聚类效果图Fig.5 Clustering effect diagram of each growth period data
图6 各生长期数据聚类后的簇间相似程度图Fig.6 Cluster similarity graph after clustering of each growth period data
簇间相似程度图是将所有样本点之间的spearman距离以颜色的形式呈现,颜色越接近深蓝色就表示数据点间的距离就越近。该图也能在一定程度上反映聚类效果的好坏,图中3个类别的轮廓越清晰说明聚成3类的效果越好,反之效果越差。这4个生长期数据聚类的CPCC分别为0.849 1、0.835 5、0.823 9和0.817 5。综合图5~6中所示的层次聚类效果图、簇间相似程度图及CPCC值,可以看出,数据的层次聚类效果还是较好的。
层次聚类算法只对数据进行分类,并没有直接给出数据对甘蔗作物生长的影响。为了进一步对各簇数据进行评价,本研究求取了各簇数据的平均值作为其聚类中心,并根据甘蔗生长的适宜性条件[10-11](如表2所示),将生长环境数据用好、中、差3个等级来进行分级。
由于这4个生长期的土壤水分含量差别不大,且空气温度对甘蔗生长的影响要大于空气湿度的影响,因此在对聚类结果进行分级时,主要采用了空气温度、空气湿度、土壤水分含量这样的优先级顺序。即,当有两类的空气温度值相差不大,则考虑下一优先级空气湿度的值,越接近空气湿度的适宜值越倾向于往更好的一级划分。依据上述原则,将4个生长期的数据聚类后,各类的聚类中心(平均值)统计结果及评价等级如表3所示。
表2 甘蔗生长的适宜性条件Tab.2 Suitability conditions for sugarcane growth
表3 甘蔗各生长期数据的聚类中心统计结果Tab.3 The statistical results of the cluster centers of sugarcane growth stages
本方法明确地对作物生长的环境数据进行了分析与分类,并根据作物生长的适宜性条件对各类数据的优劣进行了分级,实现了对不同生长期环境数据的宏观评价,可以有效地为甘蔗作物的科学管理提供数据支持。另外,本方法可进一步结合土壤肥力、施肥量、空间变异信息等其他主要因素来对甘蔗的品质及产量进行更准确的预测,为优化甘蔗种植提供指导意见。
3 结 论
本文设计了一套基于JN5168无线传输模块的农田物联网监测系统,实现了将空气温湿度、土壤水分和光照强度等田间环境数据定时采集并上传至终端服务器的功能,并对服务器的数据实现了网络发布,以达到随时随地通过网络访问的目的。为了对田间环境数据进行有效阐释,本文进一步对广西一甘蔗试验田的生长环境参数进行了连续监测,收集了甘蔗作物萌芽期、幼苗期、分蘖期和伸长期这4个生长期的环境数据,重点介绍了对环境数据进行层次聚类分析的方法,并结合甘蔗生长的适宜性条件对聚类后的数据进行了优劣分级。数据聚类结果显示,层次聚类法对环境数据的分类结果较好(各生长期分类的CPCC值分别达到了0.849 1、0.835 5、0.823 9和0.817 5)。本研究采用的方法实现了对作物不同生长期环境数据的宏观评价,可以更有效指导作物种植与管理;本方法还可进一步结合土壤肥力、施肥量等其他主要因素来对甘蔗的品质及产量进行更准确的预测,为优化甘蔗种植提供指导意见。