基于“互联网+”的农业大数据平台构建
2017-06-22李瑾顾戈琦
李瑾++顾戈琦
摘要:“互联网+”可有效提高农业各个环节的运行效率。介绍了农业大数据发展现状,总结分析现阶段农业大数据发展过程中存在数据孤岛、数据系统扩容能力弱、数据服务类型单一等问题,并针对这些问题,结合互联网、移动互联网、物联网等信息化手段,从设计原则、思路、框架及功能模块对农业大数据平台进行设计,根据多源接入、标准处理、分级使用、开放应用的原则,构建了历史数据提取、异源数据共享、数据直采的数据采集功能,数据标准化汇集、多源数据验证细化了数据采集、数据处理、数据应用功能应用,建立创新数据应用模式,为全面提升现代农业效率助力。
关键词:“互联网+”;大数据;农业;平台构建
中图分类号:TP392;S126 文献标识码:A 文章编号:0439-8114(2017)10-1947-06
DOI:10.14088/j.cnki.issn0439-8114.2017.10.037
Construction of Agricultural Big Data Platform Based on “Internet +”
LI Jin, GU Ge-qi
(Beijing Research Center for Information Technology in Agriculture/National Engineering Research Center for Information Technology in Agriculture/Key Laboratory of Agri-informatics,Ministry of Agriculture/Beijing Engineering Research Center of Agricultural Internet of Things, Beijing 100097,China)
Abstract:“Internet +” can effectively improve agricultural efficiency of each part. This paper introduces the developing situation of the agricultural big data, summary analysis of the present stage in the process of developing the agricultural big data data islands, weak data system capacity, data service type single and other issues, and to solve these problems, combined with information technology means such as Internet, mobile Internet, Internet of things, from the design principle, train of thought, framework and function module design for the big data platform for agriculture, according to a multi-source access, standard processing and classification using, open the application principle, constructs the history data extraction, data sharing, data mining of the data acquisition function, standardization of data collection, the details of multi-source data verify the function of data acquisition, data processing, data application, application mode, establish innovative data to maximize the overall efficiency of modern agriculture.
Key word:“Internet +”; big data; agriculture; platform construction
“互联网+农业”就是应用互联网、移动互联网、物联网等信息化手段,改造农业原有的产业链条,重塑产业结构,通过连接生产、流通、消费的各个环节,产生协同价值,大幅提升农业的生产效率。随着农业物联网、农业智能裝备等技术的应用,农业生产、流通、消费实现了全过程的数字化与可感知,产生了生产管理、土壤信息、农资投入、农产品流通以及消费信息等海量数据,为发展现代农业提供了重要的数据支撑[1]。但现阶段农业数据大多分散于不同信息系统中,信息流通速度较慢,数据深入处理能力弱,无法产生更大的价值。需借助互联网、移动互联网、大数据等技术手段,建立基于互联网、移动互联网的农业大数据平台,汇集海量数据、建立大数据云平台、深入挖掘数据价值、建立创新数据应用模式,全面提升现代农业的生产效率[2]。
1 农业大数据发展现状
1.1 数据意识较强,政策支持力度较大
政府部门、科研单位、农业企业都认识到了数据的价值,对数据采集、存储、应用工作都非常重视,农业部发布了《农业部关于推进农业农村大数据发展的实施意见》,各省也发布了各省的大数据发展政策与规划,例如贵州省将大数据作为“十三五”时期全省发展全局的战略引擎,印发了《关于加快大数据产业发展应用若干政策的意见》和《贵州省大数据产业发展应用规划纲要(2014-2020年)》,山东农业大学成立了全国首个农业大数据研究中心,部分企业也建立了企业的ERP系统,可溯源信息系统等信息系统。
1.2 大数据技术在农业领域应用逐渐深入
随着农业及农业信息化的进步,大数据和农业结合愈发紧密,山东农业大学发起了农业大数据产业技术创新战略联盟,建成了“农业大数据应用云平台”,汇集全国各省(市)经济数据、全国农产品进出口数据、全国涉农企业行业结构分析数据等涉农数据。同时研建了“渤海粮仓科技示范工程”、“奶牛数字化精准养殖系统”、“山东省小麦、玉米主要虫害特征数据采集与预警平台”等一系列利用大数据技术指导实际农业生产的应用项目。“渤海粮仓科技示范工程”项目利用互联网、大数据等信息技术,改造环渤海低平原地区的盐碱荒地,取得了显著的成果,2012年该试验田小麦单产量达到4 725 kg/hm2,创出重度盐碱地种植小麦高产纪录[3]。“农业大数据应用云平台”建有开放数据可视化平台,用户仅需3步即可建立自己的数据可视化分析报告,并公开发布分析成果。
1.3 农村地区信息化基础较好
中国农业农村信息化能力逐年提升。截至2014年,仅中国移动就覆盖121 243个边远村庄,27 995个行政村接通宽带,农村渠道网点超过60.2万个,“农信通”客户超过在6 266万人,农村信息网累计发送涉农信息超过350.2亿条。中国联通也推出以“农机通”及“12316”综合服务平台为代表的涉农信息化应用,截至2014年为止,全国各省“农机通”用户累计达20万户;“12316”共受理农民咨询电话超过1 000万次,每年帮助农民减损增收10亿元以上。中国大部分省市已建成省、市、县、乡四级网络,为农业数据采集、传输提供良好支撑。
2 农业大数据存在问题
2.1 存在数据孤岛,缺少数据共享机制
政府、企业、科研单位虽已认识到数据的重要性,但数据共享意识还有待提高,仍然将数据作为自己的秘密财富,不愿与外界分享,导致数据壁垒出现,甚至同一单位内部不同部门间,数据都无法做到有效共享。国家在数据公开共享等方面缺乏具体的标准和政策指导,导致政府、科研单位等公共机构,即使有数据共享的意愿,也数据共享也较难开展[4]。在各个单位之间以及单位内部不同部门间,由于各个信息系统建设时间、建设标准、建设目的不同,导致在不同信息系统间数据粒度、数据密度等都有较大不同,进行数据共享难度较大,即使有数据共享的意愿,数据标准化处理的难度也非常大[5]。
2.2 数据来源单薄,技术应用不足
农业数据采集系统多由政府、科研单位等公共机构建设,企业参与程度较低。由于农业相较于互联网、金融等行业发展较弱,农业领域内由企业提供的信息服务非常少,导致数据覆盖品种、面积有限,数据定制化服务缺失[6]。数据采集多依赖人工采集,信息化程度有限,部分信息化程度較高的地区借助电脑终端、互联网进行信息录入、存储、传输,利用移动终端、移动互联网技术的移动采集实时传输的信息采集系统较少,利用物联网技术的自动化信息采集系统也较少,部分地区还依赖人工采集、纸笔录入、逐级上报的信息采集方式,导致信息采集效率低、误差率高、时效性差等问题。
2.3 系统建设缺乏弹性,数据扩展能力较弱
农业信息平台多为特定目的建设,大多只能处理该系统设计范围内的数据,对于初期设计范围外的数据类型、来自于其他信息平台的数据兼容性较差,平台扩展性较低。对于数据本身,由于缺乏统一的数据标准,导致数据采集、存储都依据初期设计时的标准采集,限制了后期系统升级、数据扩展以及不同平台间数据的共享。受限于数据平台的特定性,其数据来源、数据类型等特征较为相似,较难开展数据交叉验证工作,数据的准确性更多依赖于数据采集端,在数据平台本身无法再次校验数据[7]。
2.4 数据服务类型单一,数据使用门槛较高
大数据平台大多提供数据查询服务,但是缺乏结合海量数据和实际需求的深度分析服务,导致平台使用门槛较高,使用者多为具有一定数据分析能力的专业人士,而农场主、农户等接触数据分析经验较少的用户就很难有效利用数据指导生产、生活[8]。现阶段农村从事种养殖生产的农户大多年龄偏大,获取信息多依赖智能手机、功能手机等渠道,信息需求强但信息获取、应用能力较弱,现有农业大数据平台提供数据定制化服务能力较弱,部分平台开发了手机端应用软件,其功能多为数据推送服务,综合生产建议较少,农户应用难度较高。
3 农业大数据平台模式设计
3.1 设计原则
1)多源接入,汇集数据。大数据平台汇集农业相关的各类数据,无论是存储于纸媒、光盘的历史数据,还是存在于已建系统中的数据,无论是结构化文本数据,还是非结构化的文本、视频、音频数据,大数据平台都通过相应的技术手段,将其汇集到大数据平台中,有效打破数据壁垒,汇集多源、多类型数据,真正发挥大数据的威力。
2)标准处理,统一管理。大数据平台建立统一的数据标准,历史数据、已建系统数据、直采数据都需按照大数据平台的标准进行相应的标准化处理,便于数据应用层使用。大数据平台成为数据统一储存、处理平台,各单位不用再建立自己的数据平台,减少数据数据储存、运维等方面的相关投入。
3)分级使用,保护隐私。数据隐私是数据供给者最为关心的问题,大数据平台通过多级隐私权限设置来保护用户数据隐私,对于分享到平台的数据,也会根据数据敏感程度,进行数据使用权限分级,针对高敏感度的数据,只有通过审核的用户可以使用。通过这些机制设置,平台有效解决了数据隐私保护和数据共享的矛盾。
4)应用平台,开放易用。数据使用者的数据分析能力各不相同,大数据平台提供二次开发平台、可视化分析工具、个性化订阅等服务,用户既可以开发复杂的数据应用,也可使用系统内置的数据分析工具进行便捷、快速地数据分析,有效满足不同数据分析能力、不同数据使用需求的用户。
3.2 设计思路
大数据平台利用先进的信息技术手段,广泛采集储存在纸媒、光盘媒体中的孤岛数据,实时获取已建信息系统、移动采集器、物联网传感器中的数据,建立覆盖土肥数据、价格数据、气象数据等多种类型数据的海量数据平台,并通过数据标准化、交叉验证等处理,供用户进行深度定制、可视化应用、个性化定制等多种操作,充分发挥农业大数据对于农业生产、生活的指导作用。
3.3 总体架构
大数据平台包含基础设备层、数据采集层、数据处理层、数据应用层(图1),同时建立相匹配的信息管理制度与安全机制[9]。基础设备层是大数据平台的基础,包含输入设备、存储设备、处理设备、网络设备、输出设备等,确保整个平台的数据采集、处理、应用工作能够高效运行。数据采集层针对不同类型的数据,开放数据采集接口,可以直接连接纸媒、磁媒等读取设备,直接读取数据;可以直接连接已建系统,实时采集数据;可连接移动直采设备,实时采集数据。数据处理层可将异构数据进行标准化处理,并对异源数据进行交叉验证,提高数据可靠性,还可设置数据分享、使用权限,保护数据隐私。数据应用层提供不同层次的数据服务,具二次开发接口,可满足深度定制需求,提供易用可视化服务,满足快速应用需求,提供数据订阅功能,满足数据监控需求。
3.4 数据采集功能设计
3.4.1 历史数据提取功能 在电脑普及前,各项数据多以纸媒为存储媒介,在电脑和互联网普及初期,还有大量信息存储在磁带、软盘、光盘等存储介质中,大数据平台根据这些存储介质的不同,开放不同的数据提取方法。针对纸质数据文件,提供扫描文件解析功能,可自动批量提取纸质文件电子化文档中的数据,结合智能算法对解析数据进行自动清洗、补全、初级校正,转化成结构化数据,根据标题、正文等信息自动归类,将信息存入原始数据库中。针对磁带、软盘、光盘中存储的信息,通过对应的技术手段将数据从孤岛介质中采集到大数据平台中,扫描数据包内容,自动转化成结构化数据,并根据数据包的特征信息自动归类,存入原始数据库。
3.4.2 异源数据共享功能 政府、科研单位、企业大多都根据自己的工作需求,建立了特定的信息系统。例如:农产品价格信息系统、土地产权信息系统、农资销售信息系统等,这些系统中包含有海量信息,具有重要的价值[10],但受限于管理制度、商业秘密、技术手段等诸多原因,这些系统大多相互独立,甚至同一单位内部的信息系统间,也没有互联互通。大数据平台开放通用数据接入端口,适配使用不同技术开发的信息系统,同时,系统管理员可以设置数据共享范围、数据粒度、更新频率等共享权限,控制数据共享范围,保护数据隐私,平台根据系统管理员的设置,自动实时采集系统信息,存入原始数据库。
3.4.3 数据信息直采功能 大数据平台利用传感器、RFID、二维码、GPS、遥感等技术,实时直接采集温度、湿度、种植面积、农产品价格等信息。大数据平台直接连接温室、大田中的物联网传感器,通过空气温湿度、土壤温湿度、光照度、二氧化碳浓度等传感器,实时采集生产环境信息。大数据平台直接连接手持信息采集器,用户通过手持设备扫描二维码、RFID标签时,会将采集到的信息实时传输到大数据平台。对于依赖人工输入的信息,大数据平台可以通过收集采集设备的地理信息、时间信息等信息,综合验证输入信息有效性,减少人为因素造成的误差。
3.5 数据处理功能设计
3.5.1 数据标准化汇集功能 不同来源的数据采用不同的数据结构,即使是同一类型的数据,由于采集单位、采集目的不同,数据在采集频率、信息粒度、覆盖范围等方面都会存在不同,例如农产品价格数据,中央级的信息采集系统就会覆盖全国重要农产品批发市场,数据采集也多为日度,省市级的信息采集系統多会覆盖该省重要农产品批发市场、零售市场和超市,数据采集有日度、双日度、周度等频率,覆盖范围更小但市场覆盖更为全面,单一批发市场的信息采集则包含更多的品种但只来源于单个批发市场。标准化处理功能根据应用层对数据的需求,通过差异屏蔽处理,对异构数据源中的数据进行统一检索,然后将对应数据返回给数据应用层使用[11]。针对更新频率不高的异构数据,按一定标准对异构数据进行标引,组成一个元数据集,通过发布系统与应用层交互。针对更新频率较高的异构数据,采用中间件技术,将应用层的数据请求分解成对不同数据源的独立访问请求,通过标准(ODBC/JDBC)或非标准的数据访问接口(API)对原始数据源进行实时访问,并通过发布系统与应用层交互。
3.5.2 多源数据验证功能 针对提取历史数据,受提取技术限制,自动提取历史数据存在一定的遗漏、乱码、错误归类等问题,大数据平台首先会验证信息完整性、准确性,根据数据质量评级,达到一定标准的数据准许接入大数据平台,不达标的数据再次重新采集,部分情况可以加入人工校正。针对异源系统共享数据和大数据平台直采数据,平台会从录入控制、域完整性、实体完整性和参照完整性4个层次去验证数据[12]。根据验证结果对数据源评级,针对评级较高的数据源减少验证工作量,提高数据接入时效性,并根据数据质量的变化动态调整数据源评级。针对准许接入平台的数据,大数据平台会使用异源同类数据、异源相关数据进行交叉验证数据可信度、准确性等指标,根据数据质量评级,达标数据接入应用平台供用户使用。
3.6 数据应用功能设计
3.6.1 数据开放应用平台 针对有二次开发能力的用户,大数据平台提供二次开发API与数据分析功能模块,用户可以根据自己的特定需求开发精确匹配自己需求的大数据应用,用户不再需要考虑数据处理、服务器编程等基础工作[13],只需专注于业务逻辑与需求,便捷地满足企业的数据需求。大数据平台也具有云系统功能,政府、企业、合作社等单位可以直接在大数据平台上建立自己的私有云系统,云系统也可设置数据共享范围、数据粒度等共享权限,对于部分单位既可节省硬件、运维的投入,也可有效保护数据隐私与价值。
3.6.2 可视化易用功能 大数据平台简化数据可视化分析的复杂度,针对不具备二次开发能力的用户,提供拖拽建模功能,用户只需选择自己需要的数据以及相应的数据表格式,即可快速建立数据分析表,并可根据用户需求微调数据表细节,灵活、高效地将用户数据需求转化成分析结果。针对同一批数据,大数据平台可智能匹配多种分析模型,从不同角度分析数据,帮助用户拓展思路,发现隐藏问题。针对管理决策人员,大数据平台可以根据选定主题,智能匹配相关数据,自动生成分析报表,使管理人员脱离数据细节,专注于管理决策事件。
3.6.3 个性化订阅功能 大数据平台具有高效的数据驱动机制,借助事件引擎以及平台提供的事件订阅功能[13],用户可以根据自己的需求设置所需的触发条件,当特定传感器达到设定阈值时,自动触发相应操作,例如当温室温度过高则自动启动排风扇并通过短信通知农场主。用户也可根据自身需求,订阅大数据平台上的数据及分析报告,平台会根据用户的设置,给用户推送相应的数据资料。
3.6.4 数据服务交易功能 大数据平台提供数据中介服务,针对已经过处理的基础数据,平台根据应用场景分类,自动匹配企业需求,提高数据匹配效率。平台通过信息安全、信用担保等手段,确认数据的所有权,保护数据供给者的利益。平台引入第三方数据分析服务商,使数据分析能力有限的单位可根据自己的需求订制分析服务,需求方可以不受数据本身的限制与干扰,专注于业务需求。
4 平台优势和特点
4.1 创新采集技术,汇集多源海量数据
大数据平台创新数据采集技术,针对历史数据,平台结合ORC、人工智能等技术,自动将储存于纸媒、磁带、光盘等介质的数据电子化、结构化并自动归类储存,极大地提高了历史数据的可用性、准确性。针对现有信息系统,平台通过开放数据接口,只需简单地配置即可接入不同信息系统的数据,不受原信息系统开发技术的限制,同时,系统管理员还可配置共享数据权限,保护数据隐私,大幅降低了数据共享的难度并有效保护了隐私数据不外传。针对大数据平台直采数据,平台提供数据采集接口,可直接入物联网传感器、RIFD采集器、二维码读取器等设备的采集数据,平台根据相应的技术,将原始数据自动结构化。对于人工采集的数据,平台根据GPS坐标、系统时间等指标进行综合验证,大幅提高了数据采集、传输的速率和数据的准确性。大数据平台通过广泛链接各类数据源,将储存在纸媒、磁带、光盘、私有信息系统中的孤岛数据汇集,并通过各类数据接口,实时汇集异源数据,建立了一个包含多来源、多类型、多层次的海量数据平台。
4.2 依据标准处理,建立统一大数据云平台
大数据平台接入来自不同信息系统、采集系统、历史资料的数据,这些数据有不同的数据结构、数据特征。根据数据接入的更新频率不同,大数据平台使用中间件技术或标准(ODBC/JDBC)或非标准的数据访问接口(API)来统一处理,由发布系统与应用层交互,是应用层只需专注于业务需求,不需考虑异源异构数据特征,大幅降低数据使用难度。针对异源数据,大数据平台会依据数据相关性利用人工智能技术进行交叉校验,从不同角度检验数据的准确性和可靠性,可以发现单一系统中无法发觉的数据错误,大幅提高了数据真实性、准确性和可用性。
4.3 开放创新,满足不同类型的数据需求
大数据平台针对不同数据分析能力、不同数据需求的用户,开放不同层级的数据应用。针对数据需求复杂、具有一定开发能力的用户,大数据平台提供二次开发API和一些基础数据分析模块,使用户可以基于大数据平台进行二次开发,利用平台的海量数据和弹性计算能力,开发能更好满足自己数据需求的产品。针对开发能力较弱的用户,大数据平台提供可视化分析功能,仅需拖拽即可生成多种不同的分析报表,并可根据自己的数据分析需求进一步修改报表,使用户可以便捷地利用海量数据进行分析建模工作。针对数据分析能力较弱的用户,大数据平台提供个性化数据订阅功能,用户可以订阅对自己生产、生活影响较大的关键数据,也可以购买第三方服务商的分析报告,提高了数据的时效性、降低了数据使用的门槛。针对大数据平台的海量数据,平台还提供数据交易服务,使数据能更好的匹配需求方,平台也通过技术、法律等手段,保护数据供给方的利益。
“互联网+”具有跨界融合、连接一切、开放生态的特点,基于“互联网+”的农业大数据平台广泛汇集育种、生产、流通、销售等各个环节的数据,进行标准化处理和交叉验证,建立数据开放应用平台,实现了海量数据整合共享、多源数据实时汇集、数据服务便捷易用,为政府决策、农企高效管理、农民生产增收提供有力支持与有效指导。
参考文献:
[1] 温孚江.农业大数据研究的战略意义与协同机制[J].高等农业教育,2013(11):3-6.
[2] 王文生,郭雷风.农业大数据及其应用展望[J].江苏农业科学, 2015,43(9):1-5.
[3] 柳平增.農业大数据平台在智慧农业中的应用——以渤海粮仓科技示范工程大数据平台为例[J].高科技与产业化,2015(5):68-71.
[4] 屈冬玉.要抓紧实施农业大数据工程[J].农村工作通讯,2015(23):44.
[5] 张浩然,李中良,邹腾飞,等.农业大数据综述[J].计算机科学, 2014,41(S2):387-392.
[6] 秦学敏,陈位政,谭立伟,等.互联网思维下农业大数据的需求、现状与发展思考[J].农业工程技术,2015(12):44-47.
[7] 郭承坤,刘延忠,陈英义,等.发展农业大数据的主要问题及主要任务[J].安徽农业科学,2014,42(27):9642-9645.
[8] 周子琦.制约我国农业大数据应用的因素及对策分析[J].商情, 2015(4):168.
[9] 孟祥宝,谢秋波,刘海峰,等.农业大数据应用体系架构和平台建设[J].广东农业科学,2014,41(14):173-178.
[10] 许世卫.农业大数据与农产品监测预警[J].中国农业科技导报,2014,16(5):14-20.
[11] 杨寒光,李艳玲.分布式异构数据源标准化查询设计与实现[J]. 土木建筑工程信息技术,2013,5(4):61-63.
[12] 刘 洋,张 钢,韩 璐.基于物联网与云计算服务的农业温室智能化平台研究与应用[J].计算机应用研究,2013,30(11):3331-3335.
[13] 黄 莺.基于Android系统的蔬菜大棚环境参数监控系统[J]. 江苏农业科学,2014,42(12):423-425.