农业面源污染聚类分析

2014-10-20黄天天张麒彭佳红

电脑知识与技术 2014年25期

黄天天张麒彭佳红

摘要：控制农业面源污染，保护农业生产环境具有重大意义。采用数据挖掘技术中的聚类Kmeans算法对2011年我国各地区农用化肥、农药、农膜、地膜、农用柴油以及畜禽粪尿排泄使用密度进行聚类分析，结果显示全国有15个省份属于畜禽养殖重污染区域，13个省份属于农资污染偏高，畜禽养殖污染偏低区域，4个省份属于农资污染严重区域，从结果中了解到了各地农业面源污染形成的原因，能够辅助农业面源污染的预防和治理。

关键词：农业面源污染；数据挖掘；聚类算法

中图分类号： TP301 文献标识码：A 文章编号：1009-3044（2014）25-5988-03

1 概述

长期以来，我国农业生产为了提高产量，大量使用化肥、农药等投入品，引发了严重的农业面源污染，破坏了农业生态环境，制约了农业经济社会的可持续发展，引起了我国政府的高度重视，并在《国民经济和社会发展第十一个五年规划纲要》明确提出要“防治农药、化肥和农膜等面源污染”[1]。农业面源污染，又称农业非点源污染，也称农业扩散性污染，是指在农业生产活动中，氮素和磷素等营养物质、农药以及其它有机或无机污染物通过农田的地表径流和农田渗漏造成水环境的污染，主要包括化肥污染、农药污染、畜禽养殖污染[2]。农业面源污染的特点是面广、分散、隐蔽、来源多、增长快、处理率低。

聚类分析是多元统计分析方法中的一种，是非监督模式识别的一个重要分支。聚类是按照事物的某些属性，把事物聚集成簇，使簇内的对象之间具有较高的相似性，而不同簇的对象之间的相似程度较差。采用数据挖掘的聚类技术从现有的农业生产中关于化肥、农药、农膜的投入以及畜禽污染物排泄的数据中获取相关知识，以加强对农业面源污染的形成原因进行更加全面的认识，辅助快速而有效的控制面源污染，便于农业面源污染的预防和治理。

2 材料与方法

2.1 数据来源

数据来源于2013年中国农村统计年鉴[4]和2012年中国农业年鉴[5]。针对造成农业土壤污染的污染面源，选取化肥使用密度、农药使用密度、农膜使用密度、地膜使用密度、农用柴油使用密度和畜禽粪尿排泄密度六项项指标进行测算，其中化肥、农药、农膜、地膜和柴油使用密度这 5 项指标分别用农作物单位耕地面积的化肥使用量、农药使用量、农膜使用量、地膜使用量和柴油使用量来表示。畜禽粪尿排泄密度用农作物单位面积的畜禽粪尿排放量表示，其中畜禽粪尿排放量用畜禽年末出栏数量和年排泄系数[6]的乘积来表示，处理后的数据如表1所示。

2.2 聚类技术Kmeans算法

聚类通常指一个类簇内的实体是相似的，不同类簇的实体不相似；一个类簇是测试空间中点的会聚，同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离。类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域 [7]。聚类算法的选取主要取决于所研究数据的类型、聚类的目的和应用等。聚类算法大致上可分为层次聚类算法、划分式聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法等[8]。

Kmeans算法是一种基于划分的聚类算法，它通过不断的迭代过程来进行聚类，当算法收敛到一个结束条件时就终止迭代过程输出聚类结果。该算法的基本流程：先指定需要划分的簇的个数k值；然后随机地选择几个初始数据对象点作为初始的聚类中心；第三，计算其余的各个数据对象到这个初始聚类中心的距离，把数据对象划归到距离它最近的那个中心所处在的簇类中；最后，调整新类并且重新计算出新类的中心，如果两次计算出来的聚类中心未曾发生任何的变化，那么就可以说明数据对象的调整已经结束，也就是说聚类釆用的准则函数是收敛的，算法结束[9]。

2.3 数据处理

利用Weka软件，采用Kmeans聚类算法，对表1的数据进行聚类处理，得到的挖掘结果如下所示：

kMeans

Number of iterations： 3

Within cluster sum of squared errors： 4.435785382426557

Missing values globally replaced with mean/mode

Cluster centroids：

Attribute Full Data ① 第1类包含15个省份，这些省份单位面积畜禽粪尿排放密度（均值20167.0667）很高，而其他污染面源使用密度较低。

② 第2类包含12个省份，这些省份农用化肥使用密度很高（均值646.275），农药使用密度（均值22.3725）偏高，地膜使用密度（均值96.0375）偏低，其余污染面源均在全国平均水平。

③ 第3类包含4个省份，这一区域单位面积畜禽粪尿排放密度（均值15811.5）明显偏低，而其他污染面源使用密度都非常高。

3 结果分析

分析聚类Kmeans算法聚类结果，我们可以得出以下结论：

第一类的15个省份，分别是山西，内蒙古，辽宁，吉林，黑龙江，重庆，四川，贵州，云南，西藏，陕西，甘肃，青海，宁夏，新疆，具有畜禽养殖污染严重以及单位面积农农资投入量较低的特点。该区域畜牧业发达，种植业欠发达，畜禽粪尿排放密度高于其它地区，属于畜禽养殖重污染区域。

第二类的13个省份，包括北京，天津，河北，江苏，安徽，江西，山东，河南，湖北，湖南，广东，广西，具有化肥使用密度偏高和畜禽养殖污染较低的特点，该类区域农业生产有一定规模，畜牧业也有一定发展，属于农资污染偏高，畜禽养殖偏低区域。

第三类的4个省份，分别是上海，浙江，福建，海南，具有畜禽养殖污染明显偏低以及单位面积农资使用密度突出的特点。该类区域农业生产规模大，农资投入量很高，各类农资单位面积使用量远超全国平均水平，属于农资污染严重区域。

4 结论

农业面源污染具有污染源多样性、非特定性、不确定性等特点，已经对我国农业现代化和农村发展产生严重的影响，因此进一步提高对农业面源污染认识，了解其形成原因，辅助快速而有效的控制面源污染具有重大意义。采用数据挖掘聚类技术Kmeans算法对各省份的农业面源污染数据进行聚类处理，将全国各地区以农资和畜禽养殖污染程度为标准分为三个区域，从分析结果中我们了解到了各地农业面源污染形成的原因，从而对其面源污染进行预警，便于农业面源污染的预防和治理，从根源上控制农业面源污染。

参考文献：

[1] 周早弘.农业面源污染实证分析与政策选择[D].南京：南京林业大学，2009.

[2] 黄春田.泰山区农业面源污染状况及防治策略研究[D].泰安：山东农业大学，2011.

[3] 杨林章，冯彦房，施卫明.我国农业面源污染治理技术研究进展[J].中国生态农业学报，2013，21（1）：96-101.

[4] 中华人民共和国国家统计局.中国农村统计年鉴[M].北京：中国统计出版社，2013：47-50.

[5] 中华人民共和国国家统计局.中国农业年鉴[M].北京：中国统计出版社，2012.

[6] 刘培芳，陈振楼，许世远，等.长江三角洲城郊畜禽粪便的污染负荷及其防治对策[J].长江流域资源与环境， 2002（5）：456-460.

[7] 孙吉贵.聚类算法研究[J].软件学报，2008（1）：48-61.

[8] 喻彪.数据挖掘聚类算法研究[J].现代制造工程，2009（3）：141-145.

[9] 崔丹丹.K_Means聚类算法的研究与改进[D].合肥：安徽大学，2012.