新疆生产建设兵团农业资源数据采集与整合方法研究
2021-09-03王海江侯彤瑜
王 慧 王海江 高 攀 张 泽 侯彤瑜 吕 新*
(1.石河子大学信息科学与技术学院,石河子 832003;2.石河子大学农学院,石河子 832003;3.新疆兵团绿洲生态农业重点实验室,石河子 832003)
1 引言
农业资源是指农业在自然再生产和经济再生产过程中所涉及到的自然资源和社会经济资源的总称[1],数据是指在科学研究、设计、生产管理及日常生活等各个领域中,用来描述事物的数字、字母、符号、图表、图形或其他模拟量,例如试验数据、观测数据与统计数据等。它包含所需要的信息,能够进行计算、统计、传输及处理[2]。故农业资源数据可被理解为用来描述农业在自然再生产和经济再生产过程中所涉及到的自然资源和社会经济资源的数字、字母、符号、图表、图形或其他模拟量。农业资源数据里包含着农业资源信息。农业资源数据不同于农业数据资源,农业资源是农业的一部分,因此农业资源数据是农业数据的一部分,数据现已被看成是一种资源[2],很多学者也将农业数据称之为农业数据资源[3-7]。数据、农业数据、农业资源数据和农业资源信息四者之间是依次包含的关系。
农业资源是人类社会生存和发展的重要支撑,是进行农业生产的基本要素保障[8]。农业资源数据作为农业数据的基础,其采集与整合工作是农业现代化发展的一个重要内容,它将有效提升农业质量效益和竞争力,为农业大数据分析和挖掘做好数据保证,实现由数字农业向智慧农业转变。
目前,在大数据时代的影响下,我国已经进入信息化高速发展阶段,各种类型的海量数据快速形成。国家农业科学数据共享中心的成立,为发展农业农村大数据提供良好基础和现实条件,各省也纷纷启动了农业信息数据研究,湖南省正在开展以建设全省农业数据、制定全省农业数据标准、整合省农委现有业务系统、建立统一大数据分析挖掘平台和可视化展现平台为目标的农业农村大数据建设研究[9],贵州省制定了农业资源信息数据库的标准化规范,搭建了贵州省农业资源台账大数据平台,实现了农业资源台账数据的动态管理、数据分析和服务共享[10];福建省正在规划整合全省农业应用系统、统计系统、数据库、统计报表等信息资源,建立全省农业大数据平台[11]。山东农业大学初步完成了粮食生产影响因素分析、数据采集及传输、数据存储和部分数据分析应用功能的渤海粮仓农业大数据平台[12],在农业资源数据管理方面,诸多学者也做了相应的研究[8-11]。
近年来,兵团信息化水平快速提升,信息基础设施加速向宽带、泛在、安全、融合方向升级和完善[17],已构建了从下到上由数据层、模型层、系统层和应用层组成的我国首个覆盖棉花生产全产业链的单品大数据平台[18],建立了服务于新疆兵团林果全产业链的大数据分析应用平台[19],利用“互联网+”和“农业大数据”的思想,设计了基于大数据的农业管理平台,真正实现智慧农业管理,打造服务于农业全产业链的大数据监测、预警、预测、决策、智能的平台,覆盖农业、林业、畜牧业等各行业,贯穿农业生产、经营、管理、服务全过程[20]。任何平台都离不开数据,数据是平台的“血液”,平台要想快速发展和生命永续,必须要有源源不断高质量的数据做保障。兵团在农业领域虽积累了大量的数据,包括农业资源数据,但这些数据没有统一的标准和固定的来源[21-23],很难进行数据融合和挖掘。
农业资源数据是一个复杂而庞大的集合,当前还未形成对农业资源数据进行采集和管理的成熟模式和经验,研究兵团农业资源数据采集与整合方法,对于促进兵团农业生产科学决策、精细管理、高效服务,加快转变兵团农业发展方式,建设现代农业,具有重要的牵引和驱动作用。
2 新疆兵团农业资源数据存在的主要问题
兵团农业发达,农业资源丰富,集约化程度较高,现代农业技术应用广泛[19],为兵团农业信息化发展提供了良好的条件。然而,兵团农业数据中心多按行政区划或产业类别设立,缺乏区域间联动和与基层互动,各类农业资源相关标准均不统一,导致一方面各基层存有大量质量参差不齐的冗余农业资源数据,另一方面各农业主管部门、平台却缺乏相应的可用数据,从而无法为定量分析决策提供必要的数据保障[24]。因此,兵团对高质量农业资源数据的需求显得非常迫切。
2.1 数据台账标准不统一
由于农业资源数据本身所具有的数据量大、种类多、范围广和数据间关系复杂等特点,到目前为止,兵团农业资源台账制度仍不完善,各基层单位现有的农业资源数据在内容、格式和量度单位等方面均不统一。在局部性上冗余,在完整性上又缺乏。
2.2 采集方法标准不统一
由于各基层单位,收到的数据采集任务不同,又无统一的采集方法标准规范,导致实时采集到的农业资源数据在描述、定义、获取、表现形式和信息应用环境等方面存在差异,后期使用数据时提取所需指标存在较大困难。
2.3 上报格式标准不统一
兵团农业各部委之间,以及各师、各团、各职能部门之间,数据的上报和存储缺乏统一规范,同时,现有数据库形式多样,在要求基层单位进行数据上报时,格式不一、标准不同,这为基层单位数据的上报带来了诸多不便。
2.4 资源数据库标准不统一
农业资源数据在上报后,多是存放在各种农业资源数据库中,这些数据库的开发目的、适用场景、应用范围和管理部门不同,没有统一的数据标准,导致数据库中的数据散而杂,更新不及时或缺乏延续性。
2.5 共享模式跟不上信息时代需要
农业资源数据共享在宏观层面上缺乏管理与协调,政府对农业资源数据采集与整合工作意识不强、重视不够,没有形成完善的数据交换标准体系和服务体系。农业资源数据共享缺乏政策、法规体系的保障。目前,兵团已有的农业科技资源(人才、设备、信息)分别由不同的科研机构拥有、利用和管理,其服务范围局限在个别应用或部门内部,各个机构之间没有建立起农业科技资源共享机制,而是各立门户,各自为政,重复建设,浪费大量资源。
3 方法架构
兵团农业资源数据应从数据采集、质量检测、异构数据转换、分类编码、数据管理、决策支持、资源共享等环节制定严格统一的标准,实现全兵团农业资源数据的有效采集和有机整合。兵团农业资源数据采集与整合方法的架构如图1。
图1 兵团农业资源数据采集与整合方法的架构Fig.1 The framework of data collection and integration method of XPCC agricultural resources
该方法由8 个模块组成,分别为:技术指标规范模块,农业资源采集模块,数据质量检测模块,异构数据转换模块,数据分类编码模块,数据管理模块,决策支持模块,农业资源共享模块。具体说明如下:
技术标准规范模块:该模块实现了对农业资源数据采集、管理和共享所需技术的总体规定,所有规定由决策人员研制,通过决策支持模块设置、上传,即用于本系统的研发和升级,也用于为农业资源采集模块提供明确的数据采集内容、方法和来源,为数据质量检查模块提供质量要求,为异构数据转换模块提供数据转换标准,为数据分类编码模块提供农业资源数据分类方法及编码规则,为信息管理模块提供数据进行合并的标准要求。具体如表1。
表1 农业资源数据采集与整合技术标准Table 1 Technical standards for data collection and integration of agricultural resources
农业资源采集模块:该模块明确采集的数据内容和来源,不同类别的数据由不同部门负责采集。采集人员严格按照要上传的农业资源内容,系统自动定位、记录上传日期,并从技术标准规范模块调出采集技术,采集数据后上传,上传后的数据进入到数据质量检查模块。
数据质量检查模块:其依据提前设置好的数据要求,对上传数据进行检查,符合要求则上传成功,否则显示失败,并指明失败原因,鼓励采集人员按要求再次上传数据,直到上传成功为止。上传后的数据进入到异构数据转换模块。
异构数据转换模块:其能够实现将从各部门、各系统、各平台采集到的、已经数据质量检查模块检查的数据,按照需要进行选择,实现数据格式及数据结构的转换,转换后的数据进入到数据分类与编码模块。
数据分类与编码模块:其实现将格式统一的农业资源数据,按照农业资源分类与编码规则,进行分类与编码,用户需要对数据进行手动选择分类,类型确定后,系统自动为该数据分配类别编码,随后带有类别编码的数据进入信息管理模块。
信息管理模块:其在接收到带有类别编码的数据后,通过类别编码,与信息管理系统中的专题数据库代码进行匹配,匹配成功后,按照类别编码进行入库,并对该数据生成较为完整的编码,实现每个数据都有一个独立的编码。同时,该模块具有通过数据编码进行汇总和统计的功能,这些结果可以发送到农业资源共享模块和决策支持模块中。
农业资源共享模块:其是将信息管理模块和决策支持模块中的数据以不同的形式呈现出来,供不同涉农用户使用,对于不同的用户,数据开放的程度不同,更多的开放权限可以通过上传数据交换和花钱购买两种方式获得,从而形成一个良性循环的系统。
决策支持模块:其在录入决策支持人员信息之后,这些决策支持人员便有了为本模块制定、上传技术标准规范的权限,并且不断扩充与更新技术标准规范模块中的内容,同时决策支持人员具有信息管理模块中所有数据的访问权限,并可以通过模型数据库中的数据为其他用户提供决策和专家咨询服务。
4 具体应用
兵团农业资源数据采集与整合实施办法如图2所示,该方法自下而上各部分内容阐述如下。
图2 兵团农业资源数据采集与整合实施办法Fig.2 Implementation measures for data collection and integration of agricultural resources in XPCC
4.1 搭建物理服务器平台和网络架构
新疆兵团可根据自身需求定制私有云服务,农业资源数据管理采用云化建设,云化建设不单单是服务器虚拟化的简单建设,还包括网络虚拟化、存储虚拟化以及数据安全的虚拟化。虚拟化技术的利用,可以极大提高服务器物理资源的利用率,整合服务器物理资源,提升服务器运维管理效率,降低运营成本和部署应用的复杂度,增强服务器的扩展性和服务器资源的可用性和稳定性,为新疆兵团农业资源大数据服务平台模块的搭建做好基础准备[33-34]。
4.2 制定农业资源相关技术标准规范
将新疆兵团农业资源相关技术标准规范大致分为四类:基础类、采集类、管理类、共享类。
基础类有:农业资源元数据标准、数据分类与编码标准、数据模型标准;
采集类有:数据采集标准、数据质量控制标准、异构数据转换标准;
管理类有:数据上报和审核规范、数据库建设管理规范;
共享类有:数据交换标准。
每个文件都从标准规范的引用文件、术语及其定义、数据的类型及其命名方式与存储格式、数据的组织管理方式及表的结构等方面进行严格细致地规定。
4.3 获取多元异构的农业资源数据
标准制定好,就涉及到农业资源数据的采集问题,具体采集哪些内容,在初步阶段,首先采集如下信息。
确定好要采集的数据后,兵团层面统一确定数据采集的负责单位,负责单位承担该部分数据从采集到质量检测,再到异构数据转换操作,完成以上步骤之后进行数据的上报。这些上报后的数据,经系统审核、分类和编码,然后入库管理。
4.4 管理农业资源数据
兵团农业资源数据库在逻辑上分为兵团级数据库、师级数据库和团场级数据库,但兵团级数据库和师级数据库均为虚拟数据库,团场级数据库为物理数据库。负责单位上传的数据存放在物理数据库中,既团场级数据库中。团场级数据库根据地域划分,一个团场对应一个数据库,建立186 个团场农业资源数据库。每个师根据各自管辖范围内的团场级物理数据库,建立师级虚拟数据库,共14 个。同样,兵团根据所有团场级物理数据库,建立兵团级虚拟数据库,共1个。
表2 农业资源数据采集内容Table 2 Data collection contents of agricultural resources
4.5 建设新疆兵团农业资源整合与共享平台
根据兵团农业资源数据库的三层架构体系,开发三层结构、能够实现各类农业资源数据的管理、融合、分析挖掘和应用发布的系统,通过软件定义的方式实现计算、网络、安全、存储数据的整合和按需使用,对运行中的系统定期进行需求反馈分析,根据分析结果,再进行数据库改建和系统升级,如此不断重复,以保证新疆兵团农业资源信息化管理与服务的现势需要。
4.5.1 农业资源大数据平台首页
显示农业资源大数据平台的主要信息,例如基础数据、气象信息、降水信息、土壤信息和土壤微生物资源信息等。
4.5.2 农业资源大数据平台气象信息
用户在该页面可以查看如下信息:
(1)气压监测,对相关城市的年气压月气压进行展示,通过折线图展示其变化规律。
(2)降水量监测,对相关城市的降水量进行实时展示,通过折线图展示其变化规律。
(3)温度监测,对种植作物的年度积温进行监测,通过柱状图展示其变化规律。
4.5.3 农业资源大数据平台土壤信息
用户在该区域可以查看到如下信息。
图3 平台首页Fig.3 Platform home page
图4 平台气象信息模块Fig.4 Meteorological information module of the platform
(1)土地钾含量与磷含量监测,对相关城市土地的钾、磷含量进行监测,通过折线图展示其变化规律。
(2)土壤微量元素含量监测,对相关城市的土壤微量元素进行监测,通过折线图展示其变化规律。
(3)土壤ph 值含量监测,对相关城市的土壤pH值进行监测,通过柱状图展示其变化规律。
(4)地区盐分含量监测,对相关城市的盐分含量进行监测,通过柱状图展示其变化规律。
(5)全氮监测,对相关城市的土壤全氮含量进行监测,通过柱状图展示其变化规律。
4.5.4 农业资源大数据平台土壤微生物资源信息
图5 平台土壤信息模块Fig.5 Platform soil information module
用户在该页面可以看到如下信息:
(1)土壤微生物水平监测,对土壤中各类菌群进行监测,汇总数据,将汇总的数据以柱状图的形式展示。
(2)PCoA 数据分析,对收集到的数据进行数据分析与数据处理,并以分析图谱的形式展示。
(3)土壤微生物LEfSe分析的进化分支图,如图6所示。
图6 平台土壤微生物资源信息模块Fig.6 Information module of soil microbial resources on the platform
5 总结与展望
本文在对兵团农业资源数据调查、采集和统计及理论分析的基础上,提出了兵团农业资源数据采集与整合方法的建议,为兵团农业资源数据整合共享平台的建设提供了理论依据。随着新疆兵团农业科技的不断发展,农业大数据应用项目将陆续实施,高质量的农业资源数据在支撑和优化兵团农业大数据发展中必将发挥巨大作用。
目前,本方法仅是对分散、异域的农业资源数据进行简单整合,这是狭义上的农业资源数据整合,而广义上的农业资源数据整合是指充分利用数据关联、知识组织方法、数据融合技术等手段对不同农业资源数据间的关联关系进行挖掘、揭示和再组织,实现农业资源数据的深度整合和集成[35]。随着大数据和云计算技术的发展,农业资源数据广义上的整合将成为下一步农业资源整合工作中需要重点解决的问题。