地方重点实验室遥感大数据信息挖掘技术研究
2018-02-14李蔓
李蔓
前言
国际数据资讯公司最新研究指出,2020年全球产生的数据总量将达到40ZB左右,其中95%的数据属于非结构化、不精确的数据,这类数据的应用便需要得到大数据技术的支持,而为了推动我国大数据技术的发展,正是围绕贵州省山地资源与环境遥感应用重点实验室研究成果、开展遥感大数据信息挖掘技术研究的原因所在。
1 遥感大数据信息挖掘技术
1.1 自动分析
在围绕山地资源与环境的遥感大数据挖掘技术应用中,遥感大数据的自动分析属于一切的前提,其主要用于建立统一、紧凑和语义的遥感大数据表示,数据挖掘的开展将由此奠定较为坚实基础,这里的自动分析需围绕遥感大数据的表达、检索、理解展开,具体内容如下所示:①遥感大数据的表达。语义复杂性、传感器语义多样性、数据维度语义丰富性属于山地资源与环境遥感大数据的主要特点,因此遥感大数据的表达需关注多元离散特征提取、多元特征归一化表达,前者主要围绕多时空谱、多数据源、多分辨率的遥感影像特征提取展开,后者则关注遥感大数据多元离散特征的降维与融合,同时引入多元特征的维数分析目,即可提高大数据处理效率。②遥感大数据的检索。网络化、集成化属于遥感大数据应用的重要发展方向,而为了从海量遥感大数据中检索出符合用户需求和感兴趣的数据,知识驱动的遥感大数据检索方法支持必不可缺。通过建立场景检索服务链、多源海量复杂场景数据智能检索系统,即可通过融入用户感知信息的知识更新方法,实现高层语义检索。③遥感大数据的理解。遥感大数据信息挖掘的最终目的是为了实现数据向知识的转化,而随着“面向像素”到“面向对象”的遥感场景处理方式过渡,高精度提取遥感大数据场景高层语义信息开始成为学界关注焦点,通过“特征——目标——场景”语义建模、遥感大数据场景多元认知,即可提供多元化语义知识输出[1]。
1.2 数据挖掘
从海量山地资源与环境遥感数据中搜索其中隐藏的有价值信息属于本文研究的重点,这种遥感大数据挖掘技术的应用可实现山地资源变化规律、环境变化趋势的获取,具体的数据挖掘如下所示:①挖掘过程。山地资源与环境遥感数据的挖掘过程可以概况为:“山地资源与环境遥感大数据→筛选→数据集→分类/群集→挖掘→模式/规则→可视化→融合→数据、信息与知识的融合”,大数据和知识库智能推理在其中发挥着关键性作用,其中山地资源与环境遥感大数据源于各类传感器,筛选过程则需要使用去噪、采样、过滤等方法,分类/群集环节需使用线性或非线性统计学方法及一定规则进行数据集分类,挖掘过程则需要应用深度学习、云模型、决策树、人工神经网络等方法,由此明确数据隐含信息、数据间联系,即可通过可视化环节直观展示挖掘成果,最终开展数据的关联、融合,则能够为后续分析和利用提供有力支持。②综合挖掘。作为地物在遥感成像传感器下的多粒度、多方位和多层次全面反映,遥感大数据与GIS等空间大数据存在较好的互补关系,而由于所有非接触式成像数据均属于广义遥感大数据范畴,围绕其开展的综合挖掘便能够实现地球知识和变化规律的更好揭示。值得注意的是,围绕广义遥感大数据展开的综合挖掘不仅需要关注数据处理和信息提取,更需要关注隐私活动数据的保护、可疑事件数据的保留[2]。
2 遥感大数据信息挖掘技术的应用
2.1 关键技术
结合上述研究,可确定现阶段山地资源与环境遥感大数据信息挖掘的关键技术,主要包括分布式集群化存储技术、面向数据密集型应用的高性能计算、多源异构数据关联分析、遥感大数据地理可视化,以其中的多源异构数据关联分析为例,该技术主要采用目标对象与事件关联的方式建立关联模型,并随之建立一系列关联关系,非线性张量分析、多视角学习、图模型等数据分析方法也在其中发挥着关键性作用,山地资源与环境遥感大数据的数据组合方式多样性、多源数据异构性将由此得到较好应对;而对于遥感大数据地理可视化技术来说,采用几何绘制方法实现的多尺度地形、2维矢量数据、全球等经纬度离散网格集成,则实现了网络环境下虚拟地球的多尺度地形、影像、矢量集成,随时间变化动态特性的统计数据可视化表达也因此实现。
2.2 应用实践
在遥感大数据信息挖掘技术应用探索中,以精细化种植结构调查为代表,研究的遥感数据从全国覆盖多源、多分辨率影像产品数据库中选取,研究中使用的高空间分辨率数据属于ZY-3数据,该数据与全色数据的融合可达到2.1m的分辨率水准,将所有数据使用高性能地理信息计算平台进行高精度几何及辐射处理,并最终将处理结果转投影至WGS84经炜度坐标系,即可为遥感大数据信息挖掘技术应用奠定坚实基础。技术的具体应用流程可概括为:“高空间分辨率地块生成→NDVI时间序列作物物候期提取→基于决策树的监督分类”,其中基于决策树的监督分类可细分为玉米决策树识别模型、水稻决策树识别模型,由此即可通过作物光谱和植被指数时序构建,实现有效的作物分区,作物种植模式信息提取也在NDVI时间序列支持下得以较好实现。结合获得的足够高时间分辨率、足够高空间分辨率的影像数据,以及实现的自动化、高性能海量遥感数据处理,遥感大数据信息挖掘技术的应用价值得到了较好证明。
2.3 发展趋势
虽然近年来国内外在遥感大数据信息挖掘技术研究中取得了一系列成果,但遥感大数据的多类不确定性、遥感大数据的信息深度融合、遥感大数据的机器学习、遥感大数据的分析平台仍属于该技术在发展中必须解决的问题,遥感大数据的数据复杂性、计算复杂性、系统复杂性特征与这类问题的出现存在较为紧密联系。因此,本文认为未来遥感大数据信息挖掘技术的发展存在多类不确定性建模、多源信息融合、机器学习方法开发等趋势,其中多类不确定性建模趋势指的是遥感大数据将围绕高维特性、数据尺度效应、多类不确定性、非线性关系进行建模,期望的空间数据挖掘和分析结果获取将由此获得有力支持;多源信息融合则需要深入研究异构数据的决策规则、关联分析模型、统一表达模型;机器学习方法开发需关注视觉基于机制驱动的深度学习模型、基于异构计算模式、基于任务调度优化的模型开发,并同时开展针对性较强的机器学习算法,这些都将为遥感大数据信息挖掘技术的更好应用提供有力支持[3]。
3 结论
综上所述,遥感大数据信息挖掘技术具备较为广阔的应用潜力,在此基础上,本文涉及的精细化种植结构调查实践、遥感大数据信息挖掘技术发展趋势总结等内容,则提供了可行性较高的遥感大数据信息挖掘技术应用与研究路径,而为了进一步推动遥感大数据信息挖掘技术的发展,基于内容影像检索等新概念、新技术以及新系统开展的相关研究也必须得到业界人士关注。