(2020年度“华苏杯”获奖论文三等奖)基于主成分分析与聚类分析的智慧农业优生区规划方法
2022-03-24沈树豪伍向阳
沈树豪 伍向阳
中通服节能技术服务有限公司
0 引言
现有关于优生区的划分主要是针对种植规模和产量进行研究的,划分标准主要是气象指标。若想达到“提质增效”的目标,优生区划分应更多考虑对所在片区种植物品质的需求。现有甜橘内部品质主要包括:果重、果形指数、出汁率、囊瓣数、化渣度、可溶性糖、可滴定酸、维生素C、可溶性固化物等。本项目拟综合考虑甜橘的内部品质指标,对某地区多个采样点所采集的某类甜橘品质数据进行主成分分析,提取品质指标中的主要成分,并据此设计某类甜橘的品质综合评价指标。在此基础上,本项目拟基于甜橘品质综合评价指标,结合地理信息系统(GIS)技术对该地种植区进行优生区划分,从而优化该类甜橘的种植布局。
1 材料与方法
1.1 材料
项目拟收集某地区多个采样点的成熟期甜橘作为研究对象。
1.2 方法
1.2.1 品质的测定
项目拟对甜橘的内部品质进行检测。甜橘内部品质包括:果重、果形指数、出汁率、囊瓣数、化渣度、可溶性糖、可滴定酸、维生素C、可溶性固化物。
1.2.2 甜橘样本品质主成分分析
项目拟在甜橘样本品质数据的基础上,对其内部品质指标进行主成分分析,提取其中贡献率较大的作为主要的品质评价指标,并在此基础上提出甜橘的品质综合评价指标。
1.2.3 甜橘样本品质聚类分析
本文在进行果品主成分分析后,选定对果品质量有较大贡献率的影响因子,将其所代表的特征向量进行聚类处理,完成大影响因子的分类,从而进行更好的分析。
2 数据处理
2.1 主成分分析法
利用主成分分析(PCA)算法,确定这一类甜橘的果实品质评价的指标类别个数。
影响甜橘的品质指标有很多,本文中甜橘品质包括:果重、果形指数、出汁率、囊瓣数、化渣度、可溶性糖、可滴定酸、维生素C、可溶性固化物。但是很多指标的贡献率很小,造成数据冗余,通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。同时,本项目将所测定的甜橘品质数据进行数据处理时,将采用线性化方法代替传统主成分分析法的0均值化数据标准,加强各项数据之间的线性化关联,还能包括原始数据的全部信息。在构造品质指标相关矩阵时,将进一步对数据进行降维变换,加强变量间的相关性表达。
2.2 聚类分析法
聚类分析是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。可以将主成分进行聚类得分矩阵分析,得到对样品的聚类分析结果,接着计算各类样品中第一主成分得分的平均值以确定类间排序,然后根据类中样品第一主成分的平均得分,确定每类中样品的排序,最后得到综合评价。
3 结果与分析
3.1 原始主成分方法分析与结果
通过原始的主成分分析算法可得到图1与表1,可以看出样本9个主成分的贡献率及累计贡献率,图1代表的是分析后的主成分二维模型,该模型杂乱无章,并不符合实际的分析需求(蓝色部分代表降维后的样本数据,红色代表数据的二维特征)。
图1 原始主成分分析法二维结果图
从表1可以看出,原始主成分算法所分析的9个主成分中,第一个主成分的贡献率高达98.23%,另外8个主成分贡献率统计只有1.77%。由此可见,9个主成分中,能够反映果品优良品质的只需要第一个主成分,即单果重量,这不符合分析的需求,需要对该算法进行优化。
表1 原始PCA法贡献率、累计贡献率分析表
3.2 线性化主成分方法分析与结果
由图1与表1可以得出,现有样本的主成分之间存在相关性不够强的情况。因此,本文将主成分分析法进行了改进与优化,采用了线性化主成分分析法。利用“线性”方法,进行样本矩阵的对数变换与对数中心化变换,将样本矩阵所代表的主成分数据进行降维分析。表2列出了本次计算后样本的特征向量、贡献率、累计贡献率。通过观察表2,可以看到,前五个主成分贡献率增长情况符合主成分分析法所期望的增长预期。因此,决定甜橘优良品质的影响因子主要由前五个主成分决定,即:单果质量、果形指数、出汁率、囊瓣数、化渣度。其累计贡献率为93.78%。其中,单果质量决定第一主成分,果形指数决定第二主成分、出汁率决定第三主成分、囊瓣数决定第四主成分、化渣度决定第五主成分。
表2 线性化PCA法特征向量、贡献率、累计贡献率分析表
?
图2代表的是线性化主成分分析法的二维结果图,该图清晰地反映了本次分析后的降维集散效果(蓝色部分代表降维后的样本数据,红色代表数据的二维特征)。
图2 线性化主成分分析法二维结果图
3.3 聚类分析
由于单纯的主成分分析法并不能很好地消除智慧农业中种植产物影响因子的数量,因此,本文将表2前5个主成分所代表的特征向量进行了矩阵化后的聚类分析。
经过聚类分析下的多次迭代,发现划分为3个类别效果最好。通过迭代次数与迭代形成的新中心点可判断,第一次迭代前五个主成分当作1类寻找第一个中心点,第二次迭代剔除了果形指数与出汁率,此时果形指数、出汁率为一类,留下单果质量、化渣度、囊瓣数3个主成分为一类,开始进行第三次迭代,从图3、图4、图5可看出,第三次迭代后,将单果质量分为一类,化渣度、囊瓣数分为一类。至此,该类甜橘样本的9个决定果实优质品质的决定因子,可简化为3个因子。分别为:单果质量为一类、果形指数与出汁率为一类、化渣度、可溶性糖为一类。此3类作为新的决定因子可最大程度决定甜橘的品质。
图3 聚类分析迭代结果图
图4 聚类分析二维结果图
图5 聚类分析三维结果图
3.4 优生区划分
通过改良后的主成分分析算法结合聚类分析算法,可以得出针对于智慧农业中所种植产物的影响因子的优化与分类。但这只能解决部分智慧农业中关于优生区的划分问题。因此仍需借助地理信息系统技术(GIS),利用其描绘出的地理模型图与各项地理指标,与所种植产物经过主成分分析算法结合聚类分析算法后的结果,再进行二次结合,从而最终确定“何地种何物”,以达到“增产增质”的最终目标。
4 结束语
本文在当代智慧农业需求新型优化种植区域方案的背景下,脱离原本智慧农业基于气象条件的优生区规划方案,从另一角度研究了地区内可种植产物的主成分影响因子,并对其进行了线性化主成分分析与聚类分析,最终获得了影响种植产物的主要影响因素,从而确定了该类种植产物最应注重的影响条件。最后结合地理信息系统(GIS)技术,结合所计算出的影响矩阵,进行二次分析,随着时间的增长,仪器的测算精度将会不断提高,最终可实现精准定区定点下的智慧农业优生区划分与各类种植产物的增产增质。