数据挖掘技术在农业中的应用
2021-10-20李娅娅
李娅娅
(武汉轻工大学,湖北 武汉430000)
农业是指利用动植物的生长发育规律,通过人工培育来获得产品的产业。在过去的很多年里,我国耗费了大量的人力物力对农业中的各种数据进行了大规模全面调查,从而建立了农作物品种、土地等资源以及农作物环境等大量的数据库,留下了大量的数据。但是,由于目前没有合理且有效的数据管理工具,收集来的这些庞大数据已经远远超出人类的处理及计算能力,很多数据由于很少被访问或应用,导致它们便成为了“死数据”。数据挖掘技术使数据库应用技术由相对底层的阶段进入到了一个更高层的阶段。数据挖掘技术不仅能对数据库中的历史数据进行遍历查询,还能够找出历史数据之间的潜在联系,从而实现促进信息传递的功能。
1 数据挖掘
数据挖掘(data mining)也叫数据库中的知识发现(Knowledge discovery from database,KDD),是一种深层次的数据分析方法。是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。最早该技术是用来分析商业领域中客户的信息数据,后来逐步广泛应用于医学、农业等领域。
1.1 数据挖掘的系统结构
数据挖掘系统的结构见图1:
图1 数据挖掘系统的结构
(1)第一层——信息库:是一个或一组可以对数据进行数据、集成和选择的信息库。
(2)第二层——服务器:服务器根据用户的请求,处理请求并从服务器中提取相关数据。
(3)第三层——知识库:是一个领域内的规则集合,即知识。用于指导搜索或者评估结果的匹配度。
(4)第四层——数据挖掘引擎:数据挖掘引擎是数据挖掘系统中最基础的部分,基本上是由一个功能模块所组成。
(5)第五层——模式评估:一般来讲模式评估模块用于度量兴趣度,它需要与数据挖掘模块相交互。
(6)第六层——用户界面:用户操作界面,根据需要的操作提交相关的请求,获取结果。
1.2 数据挖掘的功能
(1)行为和趋势的自动预测。数据挖掘技术能够在大型的数据库中自动地寻找有预测性的信息,从而直接从数据本身出发迅速地得出相应结论,实现决策。
(2)数据总结:数据挖掘技术中的数据总结可来源于数据分析中的统计分析方法,不同于传统的数据总结,数据挖掘的数据总结对数据进行浓缩,去除多余冗余的数据,还可以利用直方图等统计学图形对数据进行可视化。
(3)关联分析。关联分析的目的在于寻找数据库中数据之间隐藏的相关性。关联分析有两种常用的技术:关联规则和序列模式,关联规则用于寻找在同一个事件里不同项之间的相关性,如推荐系统;而序列模式用于寻找事件中时间上的相关性,如股市预测。
(4)聚类。聚类功能目的在于将整个数据库按特征划分成不同样的子集/群组,也称为簇。划分为簇之后,簇与簇之间的差别尽可能明显,一个簇中的数据尽可能相同。例如,商业系统中按消费习惯和年龄等特征将用户进行聚类处理,制定营销策略。
数据挖掘还有许多其它的功能,如偏差检测和概念描述等等,在一个数据挖掘系统中。这些功能并不是独立出现的,一个完整的数据挖掘系统一般会包含以上几种甚至所有功能,这些功能相互联系,发挥强大的作用。
2 数据挖掘技术在农业方向的应用
2.1 现状分析
对于数据挖掘技术的应用,许多国内外学者都取得了非常显著的成功,其中国外学者对数据挖掘技术的研究起步较早。国外Yosef Masoudi-Sobhanzadeh;Ali Masoudi-Nejad使用基于关联规则和离散算法的数据挖掘方法对抗高血压药物进行综合重排,该项目可能会使一些失败的药物开发项目复活,并为治疗2019冠状病毒疾病(COVID-19)和桥本氏病(HT)等不同疾病提出合适的方案。同样值得注意的是,应用有效的计算方法有助于产生更好的结果。Florian Barbi;Laurent Vallon;Carmen Guerrero-Galán等人利用数据挖掘和功能环境基因组学重新评估了真菌单糖转运蛋白的系统发育和功能多样性,他们的结果突出了环境基因组学的潜力,以找出关键真菌蛋白家族的功能多样性,可以在生物技术的背景下进行探索。
对于农业上的应用,Journal of Physics:Conference Series等人利用Apriori算法对印度尼西亚一家出售农业必需品的商店里进行资料挖掘,因为印度尼西亚潜力巨大的农业部门在使用技术方面存在障碍,该研究最大限度地提高农产品的销售利润;Qiubo Li;Ru Xiao针对农产品的特殊性和现有农产品物流配送系统的不足,为了降低农产品电子商务物流配送的成本,提高客户满意度,探索将数据挖掘技术应用于人工智能领域,完成6G物联网通信背景下数据挖掘技术在农业电子商务中的运用研究。R.Aarthi;D.Sivakumar研究了一种用于动态土壤质地预测的增强农业数据挖掘技术,土壤质地分类是获得可持续农业管理的首要因素,因为质地分类间接影响土壤肥力管理。该技术解决了传统的纹理分类方法在使用大数据集时比较复杂且耗时的问题。
与国外相比,国内对DMKD(数据挖掘和知识发现)的研究稍晚,没有形成整体力量。河南中医药大学的王灿、刘茜茜等人运用现代信息技术挖掘中医药治疗中风病的组方用药规律,并探讨高频核心药的运用思路和原理,为中风病的中医药治疗提供更多的可行性方案。王晓蓉在基于大数据挖掘技术,指定了电力变压器健康状态差异预警规则策略,实践证明,挖掘预警规则能够较好地实现对电力变压器运行状态的预警。
在农业方面,庞凤丽等人将蘑菇的颜色和纹理提取出来作为特征向量,利用BP神经网络对蘑菇毒性进行预测识别,开发了一款基于Android的毒蘑菇辅助识别系统。李勇、陈钰欣等人为解决水果滞销问题,基于数据挖掘技术分析了水果滞销的现状和原因,给出了相应的解决对策。钟亮、郭熙等人以江西省奉新县北部的土壤为数据集,使用9种数学方法和5种机器学习方法对土壤光谱进行分析,为土壤质地的分类提供了有效的参考。湘潭大学的马梦丽基于数据挖掘对农户粮食的全要素生产率进行数学测算,并对影响因素进行了深入的研究,得到了几项重要的研究结论。
由此可见,无论在国内或外,无论是各个行业,由于计算机技术的渗透,数据挖掘技术也随之得到了广泛的应用,而数据挖掘技术在农业各方面如水果、土壤、粮食、畜牧等都有十分重要的应用,这些应用对农业生产有重要的指导作用。
2.2 应用方向
2.2.1 数据挖掘在农业环境中的信息技术分析
前面提过,我国有大量的农业方面的数据库,其中就包括了大量的农业环境数据。针对这些大数据,可以利用数据挖掘技术进行挖掘。如对其中的土壤环境背景数据和不同地方农村耕地习惯等数据进行挖掘,可以得到不同地方环境差异的影响因素;也可以根据土壤的环境质量状况数据结合农作物生长条件,挖掘出造成农产品质量逐渐低下的环境因素,这可以从根本上为农业生产和农产品生长以及生产地的选择提供更有效的指导;对农产品的施肥信息数据和农产品质量进行挖掘分析,可为农产品生产时的施肥操作提供有利的帮助。
2.2.2 数据挖掘在品种资源数据中的应用
目前,我国农作物资源数据库中有大量的以水果、蔬菜、粮食等为主的180余种作物,37万余份品种等信息,其中包括了700多个数据库125多万条信息。建立合理的资源库或数据仓库,使用数据挖掘技术从这些数据库中挖掘更多的知识,对所有的种质资源进行聚类分析或其它数据挖掘操作,增强用户对客观的认识,直观地看到数据中的隐藏知识,从而得以选育更高产、更优质且抗病的新品种。但是这些品种资源数据的获取是一个棘手的问题。
2.2.3 数据挖掘技术在农业专家系统中的应用
由于数据挖掘技术的不断交互性,一般需要领域专家的引导和干预。将数据挖掘技术与农业专家系统相结合,可以对农业生产过程中专家系统中的领域知识进行数据挖掘,这些领域知识对数据挖掘过程起辅助作用。对挖掘到的知识进行解释和分析,可以直接应用到实际的系统中以及实际的生产活动中,为生产决策提供辅助。或者可以将这些知识提供给农业专家,为专家已有的知识体系进行修正。
2.2.4 数据挖掘技术在农业病虫害管理中的应用
病虫害是农业生产活动中极具破坏性的生物自然灾害,农业病害虫的动态监测、发生预测及预测以及病害虫的风险评估等方面在农业生产管理中十分重要。病虫害的发生和影响总是与一定的地理空间相关。病虫害数据的分析存在诸多困难和挑战。首先,病虫害数据体量大、结构复杂、多层次且高维度,而且涉及时空属性,不同时间和空间粒度的分析结果千差万别。其次,数据中各属性并非完全孤立,属性间存在不同程度的联系。若是利用传统统计学方法对数据间的联系进行分析呈现非常困难,所以要从中挖掘到有价值的信息就非常困难。因此,需要调查病虫害发生的相关数据,并对这些数据进行详细地分析和管理,以便对农业病虫害的控制管理提供正确的引导。
3 应用趋势及前景
3.1 数据多形式的挖掘
农业领域中存在大量半结构化、非结构化的数据形式,如文本、图形、数学公式、图像等,这些数据中隐藏了许多重要的知识,而目前的数据挖掘工具大多只能对文本型的结构化数据进行处理,少量学者对图片型的数据进行数据挖掘处理进行研究。现如今,对网站的数据挖掘和语音的数据挖掘都成为了热点研究。数据的多样性和多形式性在数据挖掘技术中的问题暂无全面有效的解决方法。这迫使对新的、全面的数据挖掘工具进行研究成为待解决的问题,研究者应当利用现有的大数据,充分发挥数据挖掘的能效。
3.2 数据的隐私性、可靠性和安全性
既然数据挖掘涉及到了大量的数据,这就意味着很有可能会存在大量的隐私数据,如商业系统中的客户信息挖掘分析,就必然会对客户的收入、住址等敏感信息进行处理;农业中有的数据也是相关部门的未公开文件,这除了隐私性问题还有一个真实性问题。另外,数据的来源也是一个问题,我们处理的数据一般都是来源于网络,而网络安全一直是一个棘手的问题。在我们的学习和工作中需要安全、合理并合法地对数据进行使用。
3.3 知识可视化表示与用户的参与性
图形可视化是指利用计算机技术对处理好的数据进行转换,使得数据能够以图形的形式显示出来,便于操作者直观地观察数据。所以,理解挖掘出的知识最有效的方式就是图形可视化。目前,许多数据挖掘系统和数据挖掘工具都缺乏与用户的交互,这让数据的知识难以有效地被利用,挖掘效率大打折扣。因而,开发并利用有效的可视化工具也是数据挖掘过程一个重要的环节。
4 结论
数据挖掘技术应用广泛且有巨大潜力,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等。农业生产领域中的数据挖掘是计算机技术与现代农业的产物。通过以上分析可以得出结论:数据挖掘技术在农业领域中的应用可以涉及多个层面,无论从深度和宽度,都可以达到意料之外的效果。但是由于数据挖掘技术本身的技术限制以及获取有效数据的难度,发展和研究还是不够充分。因此,随着计算机科学技术和数据挖掘技术的深入实践探索和研究,农业领域的计算机科学应用将会是一个研究新高潮,这对推动我国农业现代化的发展具有重要的作用。