模糊聚类分析在农业区域划分中的应用
2015-01-20朱泉雯
朱泉雯,颜 丽
(1. 扬州职业大学,江苏 扬州 225009;2. 扬州化工产业投资发展有限公司,江苏 扬州 225000)
环境是一个关系复杂、模糊多变的体系,存在着大量的不确定因素。因此在进行环境规划、评价和管理中需要运用到数学模拟、系统分析和计算机技术,其目的在于为整体规划和合理治理提供科学的依据,其中模糊聚类方法就是一种很好的分析评价方法。
聚类是指用一个准则将所研究事物中相似元素归类,即“物以类聚,人以群分”,但往往有些类别是“不清晰的、含糊的、不明确的”,因此模糊评价法是利用模糊数学来进行聚类的一种分析方法。模糊聚类这个概念的形成最初是在1965 年由美国著名的自动控制专家和数学家查德教授提出来的。该分析方法和普通集合理论不同,它以模糊数学为理论依据,来研究如何将一组样品按照一定的标准(如对象、指标、属性等)进行分类的方法,该方法对于有些无截然区别界限的客观事物的聚类更具有实际意义。[1]本文主要讨论模糊聚类分析法在农业区域划分中的应用。
1 数据规格化计算方法的分析
利用模糊聚类分析农业区域划分问题时主要考虑到各个对象之间的相似度,将研究对象视为样本,依据样本所具备的特征实施分类。设该样本集为X,其中有n 个待分类的对象,每个对象具有m 个特征指标,以此建立原始矩阵,则原始矩阵X 为:[2-3]
1.1 数据规格化
每个指标之间的量纲和数量级有可能不一致,如果直接用原始数据进行处理,往往会将一些数量级较小的数据忽略,或者将一些数量级较大的数据影响力扩大,因此需要对原始数据进行规格化处理,将其处理为无量纲形式,才能进行聚类分析。本文采取的数据规格化的方法为均值规格化:[4]
1.2 建立模糊相似关系矩阵
对于规格化后的样本数据,根据样本间的相似性,利用多元分析法来建立模糊相似矩阵,来计算被分析对象间的相似程度rij,由此可以得到一个样本数据之间的模糊相似关系矩阵~R。其值取值范围为0≤rij≤1。当i 和j 越接近,rij就越接近0;若相差越大,则rnm就越大。
计算样本i 与样本j 之间的相似程度rij的方法很多,在本文中,采用海明距离法:
式中:m 为分区指标数,Xik为第i 行第k 个元素,Xjk为第j 列第k 个元素,C 为满足0≤rij≤1 的数(一般情况,在具体计算中分析确定C 的值。[5]
1.3 模糊聚类(分区)
模糊相似关系矩阵~R 往往不能满足数据的传递性,往往会采用平方法进行传递闭包的运算,由此构造新的模糊等价矩阵~R*。计算方法为:[6]
R×R=R2,R2×R2=R4,R4×R4=R8……直至Rk≈R2K,此时~R*=R2K
计算出~R*后,选定适当的阈值λ(该值表示置信水平或域值,通常范围取0.0 -1.0 之间),对~R*进行分割,~R*>λ 的归为一类,λ 越大得到的类别数越多。所选λ 值不同,得到的聚类结果就不相同,由此可以对X 进行动态聚类(分区)。
2 模糊聚类法的分析实例
2.1 分析指标
本例以江苏扬州市方巷镇农业区域划分为例,根据节水灌溉发展的特点,采用气候特征、灌溉率、缺水程度等指标进行分区。
2.1.1 气候特征
式中:∑t 为大于10℃期间的积温,∑p 为同期的降雨量。
表1 中列出了不同的土壤类型其K 值的取值范围。
表1 干燥度指标
2.1.2 耕地灌溉率
耕地灌溉率是一项综合指标,它表征了所在地区的水利化程度、水资源利用情况及可供灌溉用水资源的情况,通常用字母η 表示,是用有效灌溉面积(A灌)除以耕地面积(A耕)进行计算。
从表2 可以得出,将耕地灌溉率η 为70%作为灌溉区的一个保证值的衡量标准。
表2 η 值与缺水程度分区
2.1.3 缺水程度
表征该地区的缺水程度指标主要有两个:一是可供量与需求量比值(β),二是综合水量的余缺程度(R)。
(1)可供量与需求量比值。耕地面积亩均通常是用水资源量(W供)和作物需水量(W需)比值来表示的,从表3 可以看出灌溉用水的余缺程度,其缺水程度可用下式来表示:
式中:W供为可用水资源(m3·ha-1),W需为综合作物需水量(m3·ha-1),α 为降雨有效系数,α =1.06e-0.00109P0,P0为 多 年 平 均 降 雨 量(m3·ha-1),WG为多年平均可供水量(m3),WQ为工业及城市用水量(m3),A 为耕地面积(hm2)。
表3 β 值与缺水程度分区
(2)综合水量余缺。其计算公式如下:
式中:W1为保证率为70%水平年时有效灌溉面积能被灌溉的水量的余缺,W2为保证率为70%水平年时所生产的粮食能够自给自足的水量的余缺,d1、d2为权值系数,分别取0.6、0.4。
表4 中列出了综合水量余缺(R)与缺水程度分区的关系。
表4 R 值与缺水程度分区
2.2 分区因素指标计算
2.2.1 拟定区划单位
将参加区域划分的各个地区,根据情况拟定区划单位以及参加区划的最小地域单位。该地区各单元分区参数值如表5。
表5 各单元分区原始参数值
2.2.2 原始数据规格化
由于原始参数之间的量纲和数量级有差别,因此进行规格化处理,将其处理为无量纲形式,本算例采用均值规格化方法进行原始数据规格化,其结果为X'。
2.2.3 计算模糊相似关系矩阵R
在本文中,采用海明距离法(见式4)计算模糊相似关系矩阵R。
2.2.4 用编网法完成聚类
模糊相似关系矩阵由于不能满足数据的传递性,进而需要构造其等价矩阵进行聚类,常常采用的是传递闭包法,但该法计算工作量很大,手工计算非常繁琐,在本文中采用的是编网法,该法是从模糊相似关系R 进行编网直接聚类。[7]所谓编网法,是在λ∈[0,1],作R 的λ 截矩阵Rλ,Rλ=(λrij)10×10,由于模糊相似矩阵具备相反性和对称性,因此,截矩阵对角线上的值都是1。
选定合适的λ,在Rλ的主对角线上填入元素符号,用“* ”填入对角线下方用于代替“1”,而“0”往往省略不写,空格表示其它元素,将“* ”称为节点,由这个点向对角线引线,竖线叫经线,横线叫纬线,又简称它们为网线,这一过程就叫做编网,经线和纬线能互相联结起来的元素就可归为一类。λ 值越大,分的类别就越细。本实例取λ=0.90 时,得R0.90,并按照上述的方法计算完成编网如下,见图1。
图1 实例编网图
3 结论
即当λ=0.90 时,此地区类型分为三类:{1,4,5,9},{2,3,7,8},{6,10}。当然λ 的取值不同,聚类结果一般也不同,一个λ 对应一个聚类图,λ 值越大,归类的这些地区间的关系就越密切,其分类的这四项指标就越相近。农业区域的划分是一项比较繁琐的工作,但利用模糊聚类分析法会使得该问题能较好的被解决,并且整个过程可以根据实际情况实现动态的聚类,这样就有利于科学的对所研究区域环境实施规划。
[1] 汪应洛.系统工程理论、方法与应用[M]. 北京:高等教育出版社,1992.
[2] 李新社,姚俊平.模糊聚类分析及其应用研究[J].网络安全技术及应用,2014(1):69 -70.
[3] 王宏,赵红. 基于模糊聚类的城市经济发展水平分类[J].河北联合大学学报:社会科学版,2014(6):33 -36.
[4] 李育松,胡昱欣,卞建民.模糊聚类分析在地下水化学类型分类中的应用[J].人民黄河,2013(7):37 -43.
[5] 张愉,刘倩,吴伯清.基于模糊聚类分析的土地适宜性评价研究[J].四川理工学院学报:自然科学版,2013(5):96 -100.
[6] 鲁红英,肖思和,杨尽.模糊聚类分析方法在土地整理分区中的应用[J]. 成都工大学学报:自然科学版,2014(1):124 -128.
[7] 赵汝怀. 弗晰聚类的编网法[J]. 西南交通大学学报,1980(4):29 -36.