农业大数据技术研究现状与发展趋势
2016-03-19米春桥彭小宁米允龙赵嫦花
米春桥, 彭小宁, 米允龙, 赵嫦花
(1.怀化学院,湖南怀化 418000;2.武陵山片区生态农业智能控制技术湖南省重点实验室,湖南怀化 418000)
农业大数据技术研究现状与发展趋势
米春桥1,2, 彭小宁1,2, 米允龙1,2, 赵嫦花1,2
(1.怀化学院,湖南怀化 418000;2.武陵山片区生态农业智能控制技术湖南省重点实验室,湖南怀化 418000)
分析了农业大数据清洗技术、尺度转换技术、融合技术、关联分析与预测技术、可视化技术及具体应用等方面的研究现状与发展动态,从分布式并行算法、时空插值、本体理论、背景挖掘、时空制图等方面对农业大数据相关技术的发展趋势进行了分析与展望。研究结果对促进大数据技术与农业信息科学交叉发展及建立农业大数据基础技术体系具有参考价值。
农业大数据技术;研究现状;发展趋势
农业大数据是融合了农业地域性、季节性、多样性、周期性及作物本身特性等特征后产生的来源广泛、类型多样、结构复杂、具有潜在价值并难以应用传统方法处理和分析的数据集合。当前农业生产各环节的数据量日益增多,基于数据分析的农业业务需求也越来越多,但与农业业务特点相结合的比较成熟的农业大数据分析技术还很缺乏。因此,有必要对农业大数据相关技术的发展状况进行分析,以促进农业大数据基础技术体系的建立与发展。
1 农业大数据技术研究现状与动态分析
1.1 农业大数据清洗技术研究分析 数据清洗指发现并纠正数据中可识别的错误,是一个减少错误和不一致性、解决对象识别的过程,主要利用有关技术如数理统计、数据挖掘或预定义的数据清洗规则将脏数据转化成满足数据质量要求的数据。相关研究可以分为2大类:一是传统的数据量较小的情况下数据清洗方法的研究[1],按实现方式可分为4种:①手工实现方式,即用人工来检测所有的错误并改正;②程序实现方式,通过编写专门的应用程序检测、改正错误;③某类特定应用领域的问题,如根据概率统计学原理查找数值异常的记录;④与特定应用领域无关的数据清洗,这一部分的研究主要集中于重复记录的检测、删除。然而,当面对大数据时,传统的清洗方法需要作相应的改变才能适应。二是大数据环境下数据清洗方法的探索,如云计算环境下大数据重复记录清洗算法研究[2],大数据环境下缺失信息处理方法研究[3],大数据环境下数据清洗基本框架模型及其局限性分析[4]等,目前这部分的研究仍处于初期探索阶段,尤其未见与农业领域大数据清洗相关的研究报道。因此,针对特定农业问题而构建一个快速获取干净、完备数据集的清洗方法流程已变得尤为重要与紧迫。
1.2 农业大数据尺度转换技术研究分析 农业大数据的突出特点是时空特性显著,当前国内外主要是利用时空插值方法进行农业点源数据的尺度转换,相关研究可分为2类:一是将普通Kriging方法进行改造与时空扩展[5],然后用于各类要素的时空插值实践中,典型的研究如降雨量时空分析[6]、温度时空预测[7]等,这类方法具有简单易用的特点,但难以胜任对特定领域业务特色的突显,如对作物种植灾害胁迫的农事物候性的有效描述就很难直接用此类方法做到。二是采用编程语言如R语言自主建立相关时空协方差函数模型进行时空变异建模及插值分析[8],目前主要有2种时空协方差函数建模方法:一种是可分离型的模型[9],即通过将空间协方差函数与时间协方差函数相加或相乘得到,这类模型构建简易,但却分割了时空间的相关信息;另一种是不可分离型的模型[10],这类模型善于有效描述时空变量的时空变异结构信息,已成为时空插值研究的主要方向,但由于其构建十分复杂,在高效实现方面仍然是一个难点,当前还缺乏较成熟的研究成果,尤其是与具体业务领域的结合应用成果更少。建立集成农业地域性与物候性的时空一体化插值模型对大量的农业点源数据进行尺度转换与提升是当前急需解决的问题。
1.3 多源农业大数据融合技术研究分析 多源数据融合是将多种来源的多个观测数据,在一定准则下进行自动分析处理与综合集成,获得单个或单类数据无法获得的有价值的综合信息[11]。国内外相关研究可分为2类:一是语法层次的数据集成研究,包括数据格式转换方法、基于元数据的数据集成方法、基于网络协议标准的数据互操作技术等[12],但这类传统的基于语法层次的数据集成技术难以适应农业时空数据的异构性、分布性、增长性、变化性等特点。二是语义层次的数据融合研究,它具有扩展性好、适应动态信息源、支持语义级信息共享等优点[13],是当前数据集成、共享及互操作的高级发展阶段。本体是实现语义融合集成的良好途径[14],而目前国内外关于农业本体[15]的研究仍处于初级阶段,相关的探索如联合国粮食及农业组织(FAO)已构造了渔业本体、食品安全领域本体和食物、营养与农业的本体3个领域的原始本体[16],也有学者对基于本体的农业灾害应急处置领域知识表示[17]与应急信息资源目录体系构建[18]、基于本体的农业知识建模[19]等进行了相关的探索,但缺乏成熟的应用成果,尤其缺少面向农业时空大数据融合的本体建模探索与研究。
1.4 农业大数据关联分析与预测技术研究分析 农业大数据来源广泛、类型多样、结构复杂,应用关联分析可以很好地挖掘农业大数据的潜在价值。关联分析又称关联挖掘,是在大量数据集中发现频繁模式、关联性、相关性或因果结构等特征的一种实用分析方法,从而描述某些现象同时出现的规律和模式。当前相关的研究可分为2类:第一类是关于经典关联分析算法的研究,如有研究指出原Apriori 算法有2个致命的瓶颈[20]:其一,算法在执行时将会多次不断地扫描整个事务数据库,对于规模较大的数据集来讲,算法时间过长;其二,原算法将会产生大规模的候选项集,随着候选项集的不断增大,对计算机的内存空间要求不断提高。因此,后续发展中许多研究者提出了很多对原算法的改进算法。第二类是在云计算环境下,不少学者致力于把关联规则与云计算结合起来,以促进关联分析在大数据时代的发展,相关的研究如基于Boolean 矩阵和Hadoop 的高效Apriori算法实现[21],结合FP-tree与MapReduce提出MFIM 算法来挖掘频繁项集的研究[22],大数据环境下否定关联规则算法的研究[23]等。这些研究都在一定程度上改善了关联分析的效率,但都未与具体的领域业务相结合,尤其少见关于农业大数据关联分析的研究报道。而如何在农业大数据中立足农业数据的时空特点,建立适合农业实践应用需求的农业大数据时空关联分析与预测方法及技术,从而有效揭示农业现象背后所隐藏的关联因素与潜在规律,是当前急需解决的重要难题。
1.5 农业大数据时空可视化技术研究分析 在当前大数据时代,时空可视化已经成为时空分析和知识发现过程中不可缺少的重要环节,它是将相关时空现象在空间维和属性维上的变化随时间维以交互式的图形图像方式表达出来,便于用户了解复杂时空现象的发展过程,分析其变化规律,把握其发展趋势[24]。相关研究主要可以分为2类:一是静态时空可视化方法研究,如时间符号法、时间注记法、对比地图法、变化地图法、运动线法、时间统计图法和时间图形地图法[25]等,典型的研究如通过扩张符号法和结构符号法来表示不同时间数量和质量属性的变化,通过定位地图表示法表示制图区域呈周期性变化的地理现象,如温度、降水和风向的年变化[24]等。二是动态时空可视化方法研究,如以时间为主线所有变化按时间先后顺序作为事件序列存储的时空数据表达方法[26]。借助动画技术展示地理数据时间维的动态地图表达方法[27]等。具体应用方面,Yahoo Tracker、时间墙模型、主题河流模型(Theme River)等都是基于时间维度的可视化表达方法[28]。为提高动态地图的认知效率,有学者还提出了交互式时间图例、自定义动画内容筛选、时空数掘聚合和时空插值渐变4种优化方法[24]。当前,直接应用于农业大数据时空可视化的技术研究还很缺乏,这些相关研究可为农业大数据时空可视化分析奠定良好的基础。
1.6 农业大数据应用研究分析 大数据在农业中的应用目前较多见的为基于大数据的农业灾害时空分析,相关研究主要可以分为2类:一是基于空间和时间频率统计分析的常见气象灾害时空描述性分析,典型的研究如高温日数时空变化分析[29]、霜冻时空分布特征分析[30]等。二是基于致灾因子指数的具体作物灾害空间分布与年际变化特征分析,典型的研究如基于相对湿润指数的季节性干旱时空分布特征分析[31]、基于农业干旱参考指数的玉米干旱时空变化分析[32]等。这2类研究都在一定程度上揭示了相关灾害的空间分布特征和时间变化规律,但是其普遍思路都是把空间和时间分割开来分别统计建模分析,缺乏对空间和时间的统筹考虑及集成化的模型支撑,不利于揭示灾害的时空内在规律性。另外,也有部分学者对农业大数据的理论框架进行了探索性的研究,如:孙忠富等[33]结合农业特点,分析了大数据在农业上的需求、主要应用领域及其在智慧农业中的关键地位;宋长青等[34]对高等农业院校农业大数据研究现状及发展思路进行了分析,指出农业大数据可促进农业生产环节更精准、产品流通更有序、科技推广更高效、管理决策更科学;李秀峰等[35]对大数据时代包括农业大数据智能处理技术、农业大数据决策本体技术、农业信息化云服务人机交互技术的农业信息服务技术创新进行了论述。这些研究对加快大数据在农业中的应用具有很好的促进作用。
2 发展趋势与展望
未来,随着IT技术本身的发展及农业信息化水平的不断提高,农业大数据技术的发展呈现出多种需求趋势。在数据处理方面,数据量越来越大,因此急需在关注农业数据自身特点的前提下,针对农业数据差异性设计高效率分布式并行计算的农业大数据清洗技术;在数据尺度转换方面,需要结合农业大数据的地域特征(空间性)与物候特征(时间性),研究建立结合农业地域性与物候性的时空一体化插值模型,实现适合农业领域的点源大数据的尺度提升;在数据融合方面,需要基于农业行业标准、农业信息处理规范、农业专家知识等相关标准,研究建立基于本体的多源农业大数据融合模型,实现多源异构农业大数据语义层次的融合集成;在关联分析与预测方面,需要立足农业大数据本身的特点,研究基于背景挖掘的农业大数据关联分析与预测技术,为充分全面理解不同时间、不同地区、不同要素农业现象的共性及个性化特征提供技术手段;在可视化分析方面,需要研究建立农业大数据时空制图可视化技术,包括用于揭示特定阶段农业现象空间分布特征的对比地图法、变化地图法等静态时空可视化技术,用于揭示长时间农业现象时空扩散与变迁规律的时空数据聚合与渐变动态可视化技术,从时空角度对农业问题进行多角度静、动态可视化分析;在具体应用方面,需要将农业大数据基础分析技术与农业数据本身特征(如时空性较强等)及具体分析任务、目的相结合,形成农业大数据基础技术与农业生产实践相互促进的良好发展局面。
3 结语
农业相关业务的形成机理和时空演化过程十分复杂,农业大数据具有显著的多源、多类、多量、多维、多时态、多空间、多主题、多结构等特征,因此,农业大数据技术必须与农业业务相结合才具有实用性,农业大数据技术的发展必须体现农业特色才具有生命力。该研究对农业大数据清洗技术、尺度转换技术、融合技术、关联分析与预测技术、可视化技术及具体应用等方面的研究现状、动态及趋势进行了分析与展望,对促进农业大数据技术发展及建立农业大数据基础技术体系具有较大的参考价值。
[1] 郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076 -2082.
[2] ZHANG F,XUE H F,XU D S,et al.Big data cleaning algorithms in cloud computing[J].International journal of online engineering,2013,9(3):77-81.
[3] 姜麟,米允龙,王添.大数据下不完备信息系统近似空间的并行算法[J].计算机工程与应用,2014,50(15):101-106.
[4] 蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013 (5):16-21.
[5] 徐爱萍,胡力,舒红.空间克里金插值的时空扩展与实现[J].计算机应用,2011,31(1):273-276.
[6] COWPERTWAIT P S P.A spatial-temporal point process model of rainfall for the Thames catchment,UK[J].Journal of hydronautics,2006,330(3/4):586-595.
[7] IM H K,RATHOUZ P J,FREDERICK J E.Space-time modeling of 20 years of daily air temperature in the Chicago metropolitan region[J].Environmetrics,2009,20(5):494-511.
[8] 李莎,舒红,徐正全.利用时空Kriging进行气温插值研究[J].武汉大学学报(信息科学版),2012,37(2):237-241.
[9] 李莎,舒红,董林.基于时空变异函数的Kriging插值及实现[J].计算机工程与应用,2011,47(23):25-26,38.
[10] 李莎,舒红,徐正全.东北三省月降水量的时空克里金插值研究[J].水文,2011,31(3):31-35.
[11] 顾颖,戚建国,倪深海,等.多源信息同化融合技术在旱情评价中的应用[J].人民黄河,2014,36(5):41-44.
[12] 曹彦波.基于本体的资源环境空间信息集成与共享技术研究[D].昆明:云南师范大学,2006.
[13] 王艳妮,刘刚.地质灾害领域本体的研究与应用[J].地理与地理信息科学,2011,27(6):36-40.
[14] 张晓祥.大数据时代的空间分析[J].武汉大学学报(信息科学版),2014,39(6):655-659.
[15] 钱平,郑业鲁.农业本体论研究与应用[M].北京:中国农业科学技术出版社,2006.
[16] SINI M,SALOKHE G,PARDY C,et al.Ontology-based navigation of bibliographic metadata:Example from the food,nutrition and agriculture[C]//Proceedings of the international conference on the semantic web and digital libraries.Rome,Italy:[s.n],2007:64-76.
[17]肖花,刘春年.基于本体的农业灾害应急处置领域知识表示研究[J].安徽农业科学,2011,39(27):16612-16614.
[18] 肖花,刘春年.基于本体的农业灾害应急信息资源目录体系构建研究[J].安徽农业科学,2011,39(24):15147-15149.
[19] XIE N F.Research on agricultural ontology and fusion rules based knowledge fusion framework[J].Agri Sc Techno,2012,13(12):2638-2641.
[20] 陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.
[21] YU H L,WEN J,WANG H M,et al.An improved apriori algorithm based on the boolean matrix and hadoop[J].Procedia engineering,2011,15(1):1827-1831.
[22] HE B.The algorithm of mining frequent itemsets based on MapReduce[J]//Proceedings of international conference on soft computing techniques and engineering application,2014,250:529-534.
[23] 米允龙,姜麟,米春桥.MapReduce 环境下的否定粗糙关联规则算法[J].计算机集成制造系统,2014,20(11):2893-2903.
[24] 艾波.时空数据可视化方法研究[D].青岛:山东科技大学,2011.
[25] HORNSBY K,EGENHOFER M J.Qualitative representation of change[C]//HIRTLE S C,FRANK A U.Spatial information theory:A theoretical basis for GIS.Berlin:Springer,1997:15-33.
[26] 马荣华.地理空间认知与GIS空间数据组织研究[D].南京:南京大学,2002.
[27] 李霖,苗蕾.时间动态地图模型[J].武汉大学学报(信息科学版),2004,29(6):484-487.
[28] 桑鹏,唐新明,艾波,等.RSS新闻事件的多维描述与时空可视化方法[J].地球信息科学学报,2014,16(3):341-348.
[29] 雷杨娜,龚道溢,张自银,等.中国夏季高温日数时空变化及其环流背景[J].地理研究,2009,28(3):653-662.
[30] 张龙,尹宪志,付双喜,等.甘肃省霜冻时空分布特征及防御措施[J].现代农业科技,2015(1):248-250.
[31] 王明田,王翔,黄晚华,等.基于相对湿润度指数的西南地区季节性干旱时空分布特征[J].农业工程学报,2012,28(19):85-92.
[32] 刘宗元,张建平,罗红霞,等.基于农业干旱参考指数的西南地区玉米干旱时空变化分析[J].农业工程学报,2014,30(2):105-115.
[33] 孙忠富,杜克明,郑飞翔,等.大数据在智慧农业中研究与应用展望[J].中国农业科技导报,2013,15(6):63-71.
[34] 宋长青,高明秀,周虎.高等农业院校农业大数据研究现状及发展思路[J].中国农业教育,2014(5):16-20.
[35] 李秀峰,陈守合,郭雷风.大数据时代农业信息服务的技术创新[J].中国农业科技导报,2014,16(4):10-15.
Research Status and Dvelopment Trend of Agriculture Big Data Technology
MI Chun-qiao1,2,PENG Xiao-ning1,2,MI Yun-long1,2et al
(1.Huaihua University,Huaihua,Hunan 418000; 2.Key Laboratory of Intelligent Control Technology for Wuling-Mountain Ecological Agriculture in Hunan Province,Huaihua,Hunan 418000)
The research status of agriculture big data cleaning technology,scale conversion technology,fusion technology,correlation analysis and prediction technology,visualization technology and concrete applications were analyzed.The development trends were also analyzed from the aspects of distributed parallel algorithm,spatial and temporal interpolation,ontology theory,background mining,spatial and temporal mapping.It has important reference significance in promoting the cross development of big data technology and agriculture information science and the establishment of agriculture big data basic analysis technology system.
Agriculture big data technology; Research status; Development trend
国家自然科学基金项目(41301084)。
米春桥(1983- ),男,湖南怀化人,副教授,博士,从事地理信息系统与农业信息化技术研究。
2016-11-09
S 126
A
0517-6611(2016)34-0235-03