APP下载

一种混合模糊聚类算法在农业上的应用

2018-09-25袁桂蓉

农家科技 2018年7期
关键词:原始数据聚类农业产业

袁桂蓉

摘 要:本文将一种混合模糊聚类算法应用于农业产业分析,表明这种混合模糊聚类法比传统FCM方法更切合实际,收敛速度更快,且不用人为给定聚类类别数,不容易受初始化的影响。

关键词:混合模糊聚类;F-统计量

现有的模糊聚类算法都是以某种准则来评价一个已给定划分的特性的,有些聚类算法只能对某种分布数据聚类效果较好,对其它分布的数据聚类效果则很差。许多聚类算法是根据欧氏距离和Manhattan距离来进行聚类的,基于这类距离的聚类方法一般只能发现具有类似大小和密度的圆形或球状聚类,既需要提供参数—聚类数目,而且对非球状或椭球型分布的数据集聚类效果不理想。本文将提出的一种混合模糊聚类算法应用于我国的农业产业分析,以此证明因而需要设计一种好的聚类算法来提高算法的自主性和适应性,减少用户的参与。

一、农业生产值的混合模糊聚类分析

根据衡量农业生产值的指标体系:农业、林业、牧业、渔业,以我国31个省市自治区作为研究对象,对这31个省市自治区2007年农业各生产值的数据进行混合模糊聚类分析,以此来研究我国农业发展情况。

设论域,每一对象,于是可以得到原始数据矩阵。为了保证不同量纲的数据具有可比性,将原始数据矩阵统一趋势化,得到无量纲矩阵,

其中

表示四分位极差。

按照普通的聚类方法中相似系数确定方法,建立模糊相似矩阵,与的相似程度 用海明距离来度量

其中c=0.1。

再利用传递闭包法得到模糊等价矩阵,然后将模糊等价矩阵依次取截集,得到一系列分類,从而得到每一个截集对应的分类结果的F-统计量,见表1.1。

当=0.73时,所有样本归为一类;≥0.90时,31个样本所归的类数r≥13,明显都不是理想的结果。当=0.79时,F=7.7564为最大,此时将样本分为3类,且根据经验,分为三类比较合理,故接下来的FCM聚类的类别数c=3。

第一类:{北京、天津、山西、内蒙古、辽宁、吉林、黑龙江、上海、江苏、浙江、安徽、福建、江西、湖北、湖南、广东、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆};

第二类:{河北、河南、四川};

第三类:{山东}。

采用Matlab7.0编程后,调用函数fcmfun得到

迭代次数为23次,最终的目标函数值 。

由此得混合模糊聚类分析的结果为:

第一类:{北京、天津、山西、内蒙古、吉林、上海、海南、重庆、贵州、西藏、陕西、甘肃、青海、宁夏、新疆};

第二类:{河北、黑龙江、安徽、江西、河南、湖南、广西、四川、云南};

第三类:{辽宁、江苏、浙江、福建、山东、湖北、广东};

比较发现,混合模糊聚类分析的结果比单独用传递闭包法分类要合理得多,传递闭包法分为三类的时候只将河北、河南、四川、山东分离出来,其余都归为一类,过于笼统。而混合模糊聚类分析法将注重农牧业的河北、黑龙江、安徽、江西、河南、湖南、广西、四川、云南归为一类;将土地肥沃、资源丰富的沿海沿湖地区辽宁、江苏、浙江、福建、山东、湖北、广东划为一类,在这些地区农牧渔业都是重要的农业经济命脉,分类结果完全符合实际情况。

为了表明混合模糊聚类分析的优越性,本文通过Matlab提供的模糊 均值聚类程序对这组数据进行分类,在迭代48次后聚类目标函数的误差才达到0.00001。

对比可知,这种混合模糊聚类法比传统FCM方法更切合实际,收敛速度更快,且不用人为给定聚类类别数,不容易受初始化的影响。

二、结论

本文将混合模糊聚类算法应用于我国的农业产业分析,先利用传递闭包法得到一系列分类,再引入F-统计量,根据F-统计值的大小确定一种分类,以最大的F-统计值对应的一种分类的类数作为FCM聚类的类别数c,以这种分类的聚类中心作为FCM算法的初始聚类中心。通过实例应用和比较分析,说明此方法能够反映出原始数据的真实特性,真正达到聚类分析的无监督性;同时也降低了由于人为因素造成的不确定性影响,增强了聚类结果的准确性和可信度。

参考文献:

[1]王洪春,彭宏.一种基于熵的聚类算法[J].计算机科学,2007,34(11):178-179.

[2]CROSS G R, JAIN A K.Measurement of clustering tendency[C]//IFAC Symposium on Digital Control. New Delhi: [s. n. ],1982:24-29.

猜你喜欢

原始数据聚类农业产业
基于模糊聚类和支持向量回归的成绩预测
农业产业基金推动农村经济转型升级
基于流形学习的自适应反馈聚类中心确定方法
论航空情报原始数据提交与应用
基于密度的自适应搜索增量聚类法
2013年广东热区社会经济及农业产业化发展研究
农业产业发展的电子商务契合度分析
对物理实验测量仪器读数的思考