苹果产业大数据应用体系架构设计
2018-05-15程述汉毕燕东束怀瑞
程述汉,毕燕东, 束怀瑞
(1.山东农业大学信息科学与工程学院,山东泰安 271018;2.山东农业大学园艺科学与工程学院)
数据资源已经成为商业资本用于创造新的经济利益。苹果产业数据涵盖果树栽培、农业科技、农业装备、气象、土地、水利、农资、病虫害防治、生态环境、市场流通、果品加工、食品安全等诸多环节,数据源较为复杂。生物作为苹果生产过程主体的特质,导致苹果生产的区域化、多样化、差异化以及动态性和复杂性,时刻面临着不断产生的大量的结构化和非结构化数据的获取、挖掘、存贮、处理与应用等问题,构成了农业大数据研究与应用的基础条件。基于大数据的理论和技术,开展苹果大数据研究与应用服务,将对智慧农业的发展产生重大推动作用。
1 苹果产业大数据应用架构体系
当前苹果产业存在的主要问题是增产不增效、增效不增收,对国内外市场响应乏力,对消费者的多样化需求了解不够,资源环境问题日益突出。迫切需要应用物联网、大数据和人工智能,建立多源数据感知、内容理解、深度学习、演绎推理一体化技术体系和应用平台,使信息技术在全产业链中得到广泛应用,为农业4.0奠定基础(农业4.0是融合互联网的高度智能化的种植管理)。
产前,需要高标准果园建设,果园环境监测,农资监管,市场预测分析。产中,需要智慧农业促进农机-农艺智能融合,节本增效,提高土地产出率、劳动生产率、资源利用率。产后,需要果品电商,冷链物流,果品质量安全监测预警。同时需要通过信息反馈和机器学习,不断提高农业大数据服务水平。
根据智慧果园的相关要素进行需求分析,从系统的观点出发,按照顶层设计原则,从服务、管理、应用、资源和技术5个方面提出苹果大数据SMART(Specific、Measurable、Attainable、Relevant、Time-based,明确性、衡量性、可实现性、相关性、时限性)应用架构体系(图1)。其中,技术和资源是农业大数据应用的基础(投入)层;分析处理和应用平台是农业大数据应用最直接的产出物,定义为应用层;管理是指在苹果产业项目的规划建设和各应用系统的运营维护方面能够提供自动化、一体化和智能化管理;服务是指为广大果农、相关企业和组织提供苹果产业公共服务和专业技术服务,管理和服务构成苹果大数据服务平台架构体系的服务层。应用层充分利用云计算、模式识别、人工智能等各种智能计算和信息处理技术,对海量数据和信息进行分析和处理,动态优化生产、管理和营销方案,是数据处理的核心。对苹果大数据服务平台的服务、管理、应用、资源和技术需求作进一步的说明。
从数学这一学科来看,他本身就具备抽象性强、逻辑能力大、结构严谨等特点,同时随着知识点的不断深入,基础知识的作用与日俱增,对逻辑思维能力要求也越来越高。小学数学教学,是培养小学生逻辑思维能力的基础,是后期数学学习中知识点掌握难易的关键,就目前数学教学现状来看,即使是小学数学,复杂繁琐的知识、难以理解的术语、抽象的图案,让本就思维逻辑能力不够的小学生学起来更加困难,以至随着学习的不断加深,知识点的不断累积,小学生在难以理解致使跟不上进度的情况下,很容易产生厌学情绪,所以,换句话说,复杂繁琐的知识点,是制约小学数学教学中培养学生思维能力的主要障碍。
图1 农业大数据应用架构体系
1.1 服务(Service)
服务是苹果大数据研究与应用的最终目标。果农、农资公司、农民合作组织、相关企业(生产、加工、储运、销售)是苹果产业的行为主体;政府是苹果产业公共服务的主要提供者,为其提供基础设施建设、技术推广、信息化、政策法律法规等方面的公共服务,包括苹果产前、产中、产后的全面、系统、一体化的服务。因此,政府在面向果农、农资公司、农民合作组织、相关企业时需要提供越来越智慧化的农业服务。各行为主体必须及时提供相关数据和信息,积极参与苹果大数据服务平台的建设,方能解决数据共享和深度利用等问题。
1.2 管理(Management)
管理是指在苹果产业活动过程中,政府及苹果产业行为主体都要履行的管理职能,从项目规划建设到应用系统运维管理及监督,整个过程都需要政府和各行为主体共同参与。智慧农业的管理应立足于宏观管理,主要包括智慧农业规划管理、运营管理和监督评价管理3部分。规划管理主要是指针对苹果产业重大项目、工程,以相关的产业规划、政策法规为依据,在人力、物力、资金等方面进行科学合理地计划和组织协调;运营管理则涵盖了果品生产、加工、流通、安全等多个领域,具体体现在管理模式、收益模式和运营成效3方面;监督评价管理主要是对规划和运营管理效果的监督和评价,因此对于具体的产业管理活动,公众的广泛参与可以有效地起到群策群力和全民监督作用,为苹果产业的智慧管理提供公众基础性的数据来源。
1.3 应用(Application)
应用是指苹果大数据应用系统、管理平台的设计、开发与使用,为苹果大数据管理和服务提供全面支撑。根据目前苹果大数据的主要来源,可以将其应用领域归纳为如下几个方面。
1.3.1苹果生产管理 运用农业物联网技术在苹果生产过程中科学采集所需数据进行分析处理,进而提供“精准化”的农资配方和农艺措施、“智慧化”的管理决策和设施控制,达到苹果提质增产、果农提效增收的目的。农业大数据在数字果园管理中具有果树长势监测、果园病虫害监测和实时识别、病虫害防治方案实时提供、苹果生产专业化指导、果品质量安全溯源等用途。苹果生产管理中需要解决的另一问题,是要通过大数据分析给出适地适树的实现途径,并优化品种结构和管理模式。
1.3.2苹果资源管理 苹果资源除了土地、水等自然资源之外,还包括各种相关生物资源和苹果生产资料等。从目前中国苹果面积大、经营分散、产量和品质不高、市场竞争力差的现实出发,有必要运用物联网、大数据等先进技术对苹果资源进一步优化配置、合理开发,从而实现苹果产业的高产优质和节能高效。
1.3.3生态环境管理 苹果生态环境包括土壤、大气、水质、气象、污染、灾害等,需要对这些环境影响因子实现全面监测、精准化管理。通过大数据探索果园化肥、农药“双控双降”有效途径,走资源节约型、环境友好型可持续发展之路。
1.3.5果园装备管理 提供果园装备和设施在工作运作情况下状态的监控、远程诊断以及服务调度等方面的智能化管理和应用。利用果园气象和土壤等环境信息采集设备,果树营养和果实品质等生理信息监测设备,植物生物量和性状探测装置,以及基于果园群体结构的变量施药装备,建立果园管理信息化精准作业技术体系,开展果园信息服务和精准作业技术与装备的集成应用示范。
1.3.6苹果科研大数据资源管理 苹果科研产生的大数据有空间与地面的遥感数据,基因图谱、大规模测序、苹果基因组数据以及大量的生物实验数据。通过对苹果科研大数据的智能分析,能够更好地指导苹果生产和加工流通。
在上述各类应用中,果品生产过程、果业资源、生态环境、果品质量安全、果品市场流通各环节的监测和预测是重点应用方向。
1.4 资源(Resource)
资源分为自然资源和社会资源两大类,这里主要考虑自然资源、基础设施资源和信息资源。资源的开发和利用是苹果大数据应用的基础。自然资源包括土地资源、水资源、大气资源等天然存在的资源。基础设施资源在这里特指包含有线传输网络、无线传感网、移动互联网以及各种信息化终端等网络基础设施,是苹果大数据应用的通信设施基础。信息资源是指在人们从事苹果生产活动的过程中,产生的各种语言、文字、音视频、图像、图表、数字以及传感器采集的信息等所有信息构成的集合。当前苹果生产管理活动中普遍存在资源分散、标准不统一等问题,造成了信息共享和交换的困难。因此,有必要对元数据进行有效管理,将交换标准一致化,不断优化交换流程,为苹果大数据的应用提供强大的数据信息基础。
除苹果生产管理数据之外,农资生产、果品存贮、加工、流通、市场等相关衍生产业的数据,涉农经济主体的相关信息,以及统计数据、进出口数据等宏观经济背景的数据,也是苹果大数据系统所要关注的。
1.5 技术(Technology )
随着信息系统的快速发展,不仅要求海量信息可靠存储,还需满足大量用户快速访问、智能分析、分类汇总数据等方面的需求。大数据技术是一个整体,没有统一的解决方案,相关技术涉及数据的传输、存储、计算、挖掘、展现和开发者平台6个部分。苹果大数据的特点及其存储应用所需要具备的各种功能特征,决定了苹果大数据应用在技术体系架构上可以采用基于Hadoop分布式处理的软件生态系统,并可以将Spark纳入Hadoop并取代MapReduce,搭建混合处理框架。由于Hadoop是开源软件,使用成本很低,非常适合作为农业方面大数据应用处理的技术选择,其技术架构如图2所示。
图2 苹果大数据应用Hadoop技术架构
2 苹果产业大数据智能分析平台技术设计
大数据分析的重要目标之一是发现数据的关联性。农业数据的低价值密度特性,要求对大量的数据进行深入的比较、提纯和转变等分析和挖掘处理,发现其内在的意义和相互间的联系,以便为果农、相关企业和部门提供科学准确的决策支持服务。本研究所设计的苹果大数据智能分析平台,能够在智能数字果园等进行数据分析处理方面得到应用,为果农、相关企业和部门提供智能化决策支撑。
2.1 平台总体架构
借助先进成熟的大数据存储及处理技术,建设苹果大数据智能分析平台,整合及加工内外部各种农业相关数据,形成权威的果业信息统一视图,为相关部门和企业决策、果业公共服务、果品质量安全监管、果业管理、果业生产环境保护等提供数据应用支撑。从IAAS(基础设施即服务)、PAAS(平台即服务)、SAAS(软件即服务)三方面的服务模式设计了苹果大数据智能分析平台的总体架构,如图3所示。
2.2 平台技术实现
2.2.1技术框架 苹果大数据智能分析平台由综合平台、数据仓库技术(Extract-Transform-Load,ETL)工具、设计工具、运行时、预置应用和商业智能(Business Intelligence,BI)门户6部分构成,为相关企业提供端到端的BI服务。技术框架如图4所示。
综合平台提供系统基础服务和运行框架,统一管理各种BI工具和分析模型,并可对资源进行管理。ETL工具可以完成异构数据的整合、集成和辅助数据仓库的建设,形成各领域的主题数据库。设计工具提供了灵活查询、多维分析、指标工具、管理驾驶舱、智能报告、及地图分析等工具,能实现各种分析模型的定义和发布。运行时用于解析设计模型,并监控整个模型的运行状态。预置应用提供多个分析、评价、预警、预测、优化方面的模型,为用户提供参考。BI门户采用Portal(一个开源的基于Web的网站模版)技术,将各种应用系统资源、数据资源、信息资源统一集成到一个平台之下,根据每个用户使用特点和角色的不同,形成个性化的应用界面。
图3 苹果大数据智能分析平台总体架构
图4 农业大数据智能分析平台技术框架
2.2.2数据采集分析 平台的基础核心是从农业各类数据源中采集数据,并整理形成苹果产业各领域主题数据库。核心数据采集整理的ETL工具,采用基于开源项目kettle(国外开源的纯java编写的ETL工具)再进行二次开发完成。该ETL工具数据抽取高效,性能稳定,而且是采用插件式框架,针对不同主题的采集数据源需求,开发相应的数据采集整理插件即可,插件的可复用性强;用户端实现非编程、可视化数据采集设计功能。数据采集过程如图4所示,从各数据源采集到的数据,先经过格式检查校验和转换处理后存储于临时存储区。临时存储区数据再经过三级ETL抽取整理后形成各领域的主题数据库。在主题数据库设计方面,根据不同应用需求提供三级数据服务层,分别是细节数据层、汇总数据层和应用集市层。一级ETL抽取将临时存储区的数据按照预设的ETL抽取规则,抽取整理到细节数据层。二级ETL抽取将细节数据抽取、整理、分析成面向业务主题的统计数据集,即汇总数据层。第三级ETL抽取将细节数据层和汇总数据层数据抽取整理成应用集市层,形成各主题多维数据立方体。
2.2.3 BI分析平台 BI分析平台和门户采用Portal技术实现,通过系统提供的多维数据服务,定制不同的预警和分析模型,BI系统可以将复杂的专业数据,以简单、易懂的图形方式展现出来,配合多维分析工具,用户可从数据立方体中对分析指标进行多维度、多角度的分析,科学准确地了解各指标的现状和发展趋势。报告输出功能可自动生成包含文字、数字、图表、报表的PDF或DOC形式的决策分析报告。
3 结束语
苹果大数据服务是一个崭新的研究领域,大数据平台尚不多见。苹果产业具有数据源分布广、时效性强、类型多样、结构复杂和获取困难等特点,决定了苹果大数据研究和应用具有复杂性、多样性和挑战性。本研究重点分析构建了苹果产业大数据应用的架构体系,并对苹果大数据智能分析平台进行功能设计及技术实现,对于集成、挖掘和使用在苹果生产、管理、加工流通中产生的大量数据,具有一定的现实意义。