APP下载

数据挖掘在农业生产中的研究与应用

2019-02-12胡怡文

时代农机 2019年3期
关键词:结构化集群农业

胡怡文

(四川工商学院,四川 成都 611743)

当前信息化的技术和装备正逐渐成为社会发展和变革的重要推动力,而互联网、大数据、人工智能等现代信息技术和装备让农业种植工作呈现了欣欣向荣的科技化发展态势。在农业生产过程中准确获取有效信息、存储数据、对数据进行分析和挖掘、应用数据信息对农作物生长需求、自然灾害、农业产量做出准确预测。

1 农业大数据概述

大数据技术是驱动现代化农业发展的核心动力。农业大数据满足大数据的五个特性,数据量大(Volume)、处理速度快(Velocity)、数据类型多(Variety)、价值大(Value)、精确性高(Veracity)是融合了农业地域性、季节性、多样性、周期性等自身特征后产生的来源广泛、类型多样、结构复杂、具有潜在价值,并难以应用通常方法处理和分析的数据集合。

我国作为传统的农业大国,仅靠国内资源却已经难以保障“中国人的饭碗”。2018年,我国农产品进出口额2168.1亿美元,同比增7.7%。其中,出口797.1亿美元,增5.5%;进口1371.0亿美元,增8.9%;贸易逆差573.8亿美元,增14.0%。而随着城乡一体化的加快推进,国人对粮食等农产品的需求还将进一步增加。综合起来分析,目前在管理和处理农业大数据方面存在以下问题:①互联网农业基础设施不足、缺乏信息平台。②农业产品的产量不稳定,经营者靠天吃饭。③海量数据存储,如何统一管理和统一调度。④农业大数据的价值挖掘和利用方面不够全面。

2 系统架构设计方案

云存储是指通过集群应用、网格技术及分布式文件系统等功能,将网络中大量不同类型的存储设备通过应用软件集群起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。

整个系统架构分由:数据采集层、数据存储层、数据管理层、数据服务层、用户访问层等五个部分组成。搭建Zookeeper+Hadoop+Hbase完全分布式平台,利用Hadoop分布式数据处理框架,完成对数据的存储、管理、服务;利用zookeeper存储配置信息,将文件发给集群中所有主机,发送目标用户为集群专用用户admin,实现资源的共享。

2.1 数据采集层

大数据智能感知层主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统。

2.2 基础支撑层

基础支撑层提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。

相比传统农业气象观测方法,通过传感器、移动互联网等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量农作物生长情况相关的数据,例如:光照、空气湿度、温度、土壤品质、生长状况等,实现智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理,一方面提高了农情信息收集效率,同时使利用的数据更加精确,另一方面,可以为分析蔬菜气象条件利弊、开展灾害指标研究等提供可靠的数据支撑。

2.3 数据存储层

目前,通过小型电子感受器,追踪单粒种子的种植、栽培、土壤、灌溉等情况,如果储存以上追踪的信息,每株植物需要0.85K的数据存储,每年每公顷需要26M的数据空间,因此如何让农业大数据全面、充分的发挥出其潜在价值,一个必要前提就是数据需要被妥善保管在可靠、可信、可管理的平台中,数据的完整性和可信度需要得到保障,而且可以随时随地且方便的存取。

2.4 Zookeeper

通过完全分布模式的整合平台中Zookeeper的完全分布模式的安装,在一个zookeeper集群中,选出一个leader节点,实现广播即数据同步。

2.5 Hadoop集群

Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。能够将大量的离线数据进行切片计算分布式处理的软件框架。具有可靠、高效、可伸缩的特点。充分利用集群的威力高速运算和存储。对于实时数据采用流式计算。

2.6 HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,适合于存储大表数据,表的规模可以达到数十亿行以及数百万列,并且对大表数据的读、写访问可以达到实时级别。以表的形式存储数据,创建的表可以被拆分为多块,每个块称为一个HRegion。每个HRegion会保存一段表中的连续数据,由Master分配给对应的RegionServer进行管理。

2.7HDFS

HDFS是一个分布式文件系统,在hadoop体系中数据存储管理的基础。有着高容错性的特点能检测和应对硬件故障,数据以块的形式,同时分布存储在不同的物理机器上,基于流数据模式访问和处理超大文件的需求,适合那些有着超大数据集的应用程序。

2.8 数据分析和挖掘

数据挖掘主要过程是根据分析挖掘目标,从数据库中把数据提取出来,然后采用机器学习、统计、神经网络和数据库等方法,经过ETL(Extract-Transform-Load)组织成适合分析挖掘算法使用宽表,实现内容的分发、数据压缩、数据去冗,对数据进行加密、备份和容灾,对关系数据库进行挖掘,农业大数据的清洗和抽取,进行分门别类地存储和管理,满足对数据完整性、准确性、规范性的要求。在农业生产中,结合农业的季节性、多样性、周期性、生长环境,对采取数据进行分析,确定最优种植品种,选定最佳的施肥方案,预测气候风险,如干旱或洪涝影响农作物的具体时间,预测病虫害预测最好收获的时间。以此提高农业生产率和生产品质。

2.9 数据服务层

实现网络的接入、身份认证、访问控制、API接口、应用软件、Web服务等。系统中配置完全分布模式的整合平台相关的网络属性,完成农业生产中实时数据的更新和共享。监控系统检测到有潜在的病虫害危险时会发出警报,同时调用病虫害知识库,推送出合理有效的防治措施。同时利用互联网上传图片至专家资源库,若出现新型病例,可以利用内部网络将相关图片和文档上传至数据库。

2.10 用户访问层

农业工作者通过标准的公共应用接口登录云存储系统实现资源共享和数据的更新,加强行业的信息交流以促进整体的发展。

3结语

综上所述,农业大数据带来了农业科学研究革新的新起点。应用互联网技术可从科学的角度准确的检测出数据、存储数据、分析和挖掘数据,开发了数据的潜能,极大地提高农业生产率和生产品质。

猜你喜欢

结构化集群农业
国内农业
国内农业
国内农业
擦亮“国”字招牌 发挥农业领跑作用
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人