APP下载

喀斯特石漠化大数据平台架构和技术初探

2020-08-07熊康宁

关键词:喀斯特石漠化

舒 田,熊康宁

(1.贵州师范大学 喀斯特研究院,贵州 贵阳 550001;2.国家喀斯特石漠化防治工程技术研究中心,贵州 贵阳 550001;3.贵州省农业科学院 科技信息研究所,贵州 贵阳 550006)

随着智能感知、无线传感、互联网、物联网、云计算及区块链等新兴信息技术的快速发展,人类进入了大数据时代[1]。具有规模性(volume)、高速率(velocity)、多样性(variety)、高价值(value)和真实性(veracity)“5V”特征[2-3]的大数据,集数据、技术和应用为一体,在农业、经济、贸易、气象、交通、医疗、电力、通讯、生态、环保、军事等领域取得有效应用[4-6],为科学决策问题提供强有力支撑。大数据技术对于处理超出传统数据库系统存储管理与分析处理能力的多源海量数据集群,具有极其强大的技术优势[7]。

喀斯特石漠化是指在喀斯特脆弱生态环境背景下,受人类不合理社会经济活动影响,导致地表植被大量破坏,造成强烈水蚀作用,土壤严重侵蚀,基岩大面积裸露,土地生产力下降甚至丧失,地表出现类似荒漠化景观的土地退化现象[8-11]。石漠化问题突出表现在生态环境脆弱、植被破坏、土壤侵蚀、基岩裸露以及土地退化,由此造成石漠化地区生物多样性锐减、生态系统失调、水土流失、土壤养分缺失、贫困加剧的恶性循环。石漠化问题往往涉及多部门、多学科、多尺度和多因素,过程复杂、驱动因子众多,需要处理海量的地质、气候、水文、地貌、生物、土壤等自然地理数据以及社会、经济等数据,这为喀斯特石漠化的监测治理、生态产业扶贫和决策支持等关键技术研发增加了较大难度。为此,国家林业和草原局呼吁建立石漠化大数据系统,逐步实现石漠化变化的年度监测[12]。中国科学院地球化学研究所已建立了喀斯特科学数据中心,提供了部分基础地理数据库、基础背景数据库、专题数据库以及“普定站”和喀斯特槽谷石漠化专题数据等数据,为开展石漠化研究与治理提供了分析资料。亿利生态大数据平台在治沙、治水、治气、治地和环境修复等生态建设过程中积累了大量“山水林田湖草”数据,平台为生态文明建设从政策咨询与决策支持、环境监管、精准修复和生态治理等提供一系列、全链条的数据服务[13]。受中国科学院地球化学研究所喀斯特科学数据中心和亿利生态大数据平台启发,将大数据技术引入喀斯特石漠化领域,构建喀斯特石漠化大数据平台,充分发挥大数据的技术优势,高效分析和解决石漠化治理相关问题,为喀斯特石漠化综合治理与智能监测、生态产业发展与精准扶贫提供信息技术支撑和决策支持。

1 喀斯特石漠化大数据定义

大数据(Big data)是指数据规模巨大,超出了传统数据库系统获取、存储、管理和分析处理能力的多源海量数据集[7,14-15]。大数据具有数据量庞大、处理速度快、数据来源及构成复杂且关联性强、数据真实感强等特征[2-3,7],具有很高的应用价值。大数据既是一种数据,又是一种技术;既是一种应用,又是一种思维[15],在喀斯特石漠化动态监测和治理决策中具有广阔的应用前景。

喀斯特石漠化大数据定义有广义和狭义之分,广义的喀斯特石漠化大数据是指与石漠化共生的地理空间的相关数据集,是石漠化物理空间到数字空间的映射和提炼。通过分析石漠化相关数据特征,提出有效应对石漠化问题的决策行为。狭义的喀斯特石漠化大数据是指分散在地学领域中的石漠化相关数据及其解决、预测、分析过去、现在和未来石漠化发生发展综合防治的技术和方法,即运用大数据理念、技术和方法,解决地学领域中喀斯特石漠化发生发展规律及其综合治理等相关数据的采集、处理、存储、分析、管理和应用。石漠化大数据是运用大数据理论和技术在喀斯特石漠化研究与治理领域的综合应用与实践。因此,喀斯特石漠化大数据不仅包括一般大数据的基本属性,还具有地理时空性,涉及多部门、多行业、多尺度的喀斯特石漠化相关数据内容。其数据内容更庞杂,服务需求更为专业性。随着物联网、传感器、无线网络技术、云计算等现代信息技术的发展,地理时空数据迅猛增长,这为石漠化大数据提供了可靠来源。

2 喀斯特石漠化大数据平台构想

喀斯特石漠化的形成背景、演化和治理与水、大气、生物、岩石等自然环境条件及人类活动密切关联,是多种因素相互作用的结果。有效实施石漠化治理,需要开展土地石漠化成因机制的研究,只有获得喀斯特石漠化成因理论的有力支撑,才能有效地避免大规模生态重建的盲目性和风险性[16],这就使得海量数据从存储管理到分析挖掘面临巨大挑战。如何协调各行业部门的利益,实现跨行业、跨部门的数据共享机制,解决障碍壁垒,把分散在不同学科领域的多来源、多种类、多尺度的石漠化相关数据进行有效融合并集成共享,分析挖掘石漠化数据的潜在价值,提高石漠化治理能力,是石漠化大数据领域面临的重要课题。当前,我国石漠化信息有效融合与集成共享还不足,多源异构数据管理与挖掘利用欠缺,喀斯特石漠化大数据平台建设还面临较大困难。

将大数据技术引入到喀斯特石漠化研究与治理领域,把隐藏在不同领域的多渠道、多种类、多尺度复杂分散的喀斯特石漠化自然地理本底数据(地质、岩性、地貌、水文、坡度、土壤、植被等)、土地利用数据、地面监测数据、多源遥感数据、生态产业数据、治理工程数据、经济社会数据、相关专项调查数据、能源结构数据以及相关科学研究数据等海量数据有效融合集成,构建喀斯特石漠化大数据平台,平台界面设想如图1所示。借助大数据技术对集成数据进行存储管理、综合分析和信息挖掘,开展石漠化遥感信息自动识别与提取,多尺度立体动态监测,多源异构数据汇聚机制与智能模型构建,挖掘算法的设计,石漠化治理及生态产业大数据平台构建等重大关键技术研发,构建以“数据-服务-价值”为核心的大数据决策支持系统[17],以期为高效地分析和解决石漠化治理相关问题提供共享数据,为喀斯特石漠化综合治理与智能监测、生态产业发展与精准扶贫提供信息技术支撑和决策支持。

图1 喀斯特石漠化大数据平台登录界面Fig.1 Login interface of big data platform for karst rocky desertification

3 喀斯特石漠化大数据平台架构

一个完整通用的大数据平台,至少需要涵盖数据的收集、存储、计算、分析和管理等方面。为确保数据生产管理的安全性和存储管理的需要,平台一般基于私有云环境进行设计与开发。因此,喀斯特石漠化大数据平台建设应基于大数据系统框架,集物联网、传感器、无线通讯及“天空地一体化”等技术在数据采集与获取方面的优势,以及分布式数据库、机器学习、人工智能、云计算等技术在大数据处理分析方面的优势和大数据库管理系统技术在数据管理的优势,建设实时、稳定、开放、高效的应用平台,实现喀斯特石漠化大数据平台的自动化、专业化和智能化,从而提升喀斯特石漠化风险预警预报水平,为石漠化治理和政府管理决策提供科技支撑,为从原理和机理上破解世界性生态难题提供保障。研究平台参照一般大数据系统架构从大数据平台、基础设施平台、技术平台、应用服务平台和运维平台5个方面设计了喀斯特石漠化大数据平台的总体架构(图2)。

图2 喀斯特石漠化大数据平台架构Fig.2 Architecture of big data platform for karst rocky desertification

3.1 大数据平台

数据源是大数据平台的第一要素,是喀斯特石漠化大数据平台建设的关键支撑。如何增强数据采集与获取能力,有效集成并融合石漠化各类相关数据,是构建喀斯特石漠化大数据平台的前提和基础。喀斯特石漠化数据类型多样,不仅包括自然地理环境本底数据、土地利用现状数据、实时监测数据、多源遥感数据,还包括石漠化生态产业数据、社会经济调查数据、能源结构分布数据、专项调查数据、石漠化治理工程数据、科学研究数据、监测站水文站等收集的数据,并且这些数据分布在自然资源、地质、发改、规划、农业、林业、统计、气象、水利、能源、科研院所等众多部门。例如,地理本底数据中包含有地形、地貌、水文、洞穴分布、土壤、岩性、植被等也分属在不同部门;土地利用现状数据、各类遥感影像及解译数据、水土流失等国土数据;各地面气象站、气象卫星、气象雷达等监测的气象数据;石漠化治理的工程布局数据、治理产业布局、农林草生态工程数据等各类工程数据;石漠化区石漠化现状等级、土壤养分、理化性质及野外调查数据等各类科研数据。叠加社会、经济等人文要素,再考虑1 a、10 a、30 a、50 a不同时间尺度,全球、国家、县域、小流域不同空间尺度,从而形成了多源异构、时空交替、复杂非线性的海量数据。

随着物联网、5G技术及“天空地一体化”技术发展,喀斯特石漠化数据来源将不断扩展,多媒体、各类APP数据、地理位置数据、文字短报数据、各类传感器设备采集数据等也成为喀斯特石漠化数据来源的新渠道。大数据时代,喀斯特石漠化数据的空间分布范围更广、时效性更强、数据量更大、内容更庞杂,这对石漠化大数据的采集获取、存储管理及处理分析等提出了更高要求[7]。

3.2 基础设施平台

作为大数据平台的运行基础,基础设施平台为喀斯特石漠化大数据平台提供坚强的软硬件支撑。基础设施平台中硬件资源就包括处理数据的计算机、通信网络和存储设备,软件资源包括操作系统、数据库管理系统以及中间件等[7]。喀斯特石漠化大数据基础设施平台从物理资源层和虚拟资源层进行建设。物理资源层是大数据平台架构的最底层,由通用服务器、存储设备和网络设备(交换机、路由器)组成;虚拟层由虚拟机、虚拟化工具、虚拟服务和虚拟化应用组成,通过虚拟化工具把物理层设备变成全局统一的虚拟资源池,供上层服务调取使用,用户无需购买相关硬件设备和系统软件,直接在虚拟化资源平台上构建自己的平台和应用,按各自需求对资源进行动态管理和分配,从而实现对喀斯特石漠化数据资源的高效利用[18]。

3.3 技术平台

技术平台是喀斯特石漠化大数据平台的内核,包括数据获取、数据存储与管理、数据计算和数据分析4个基本连续模块,如图3。利用上述基础设施平台,依托现代先进的数据采集、存储和处理技术,构建数据采集与处理、存储与管理、计算与分析等一系列的工具模块对多源异构的喀斯特石漠化数据进行预处理、标准化、存储管理和计算分析,从而形成整个大数据平台的技术核心[19],为喀斯特石漠化大数据应用服务平台的建设提供前期保障和技术支撑。

图3 喀斯特石漠化大数据技术平台Fig.3 Technology platform of big data for karst rocky desertification

3.3.1 数据获取

喀斯特石漠化大数据的数据源包括用传统关系数据库方式记录的结构化数据,有可识别的模式并可以解析的文本数据文件、来自传感器记录的自描述的文本方式记录的半结构化数据,还有语音、图像和视频等格式的非结构化数据以及具有不规则数据格式的文本数据,使用工具可以使之格式化的准结构化数据。数据获取就是通过不同方式、不同渠道获取的数据源进行传输、预处理、再挖掘和集成操作的过程。

3.3.1.1 数据采集

数据采集就是搜集符合数据挖掘要求的原始数据[14-15]。数据采集在大数据研究与应用极为重要。数据采集工作做得好,大数据集成、分析与管理工作才能有序进行[20]。根据采集数据的类型可以分为不同的采集方式,主要有传感器采集、网络数据采集、系统日志采集以及其他数据采集[7,14,17]等。喀斯特石漠化生态环境数据采集最常用、操作简单的手段就是通过传感器采集,外业科技人员利用无线或有线传感器设备采集了大量的地质灾害调查、石漠化治理监测、生态环境监测与调查、植被监测和水土流失监测等,常用的土壤温湿度、空气温湿度、雨量、光照传感器等都是生态环境监测的必配;网络数据采集主要针对非结构化数据的采集,是通过网络爬虫工具或网页公开的API从各类网页上获取的非结构数据,并以结构化的方式存储到统一的本地数据文件。对于网络流量的采集还可以使用DPI或DFI等带宽管理技术进行处理。Apache的Chukwa、Cloudera的Flume、Facebook的Scribe和Linkedin的Kafka等[17,19,21]均采用系统日志采集,也是大多数互联网企业[21]对海量数据采集的主要工具。另外,国家规定的保密性数据,必须按照国家信息技术大数据安全相关标准严格遵守保密规定;对于企业生产经营数据或科学研究数据等保密性数据,通过签订保密协议、技术合作或有偿购买服务,在遵守国家数据保密相关标准和数据保护知识产权的情况下,采用使用特定系统接口等相关方式采集数据,确保数据的安全性。

3.3.1.2 数据传输

数据传输就是把数据从本地传送到其他地方的通信过程。采集完成后的源数据被送到数据存储基础设施存储,然后对其进行计算、分析和挖掘处理。采集的源数据通过无线或有线网络传输到数据中心,数据中心内部间通过高容量的光纤线路实现多个中心之间的海量数据传输、共享和备份存储,最终完成大数据的输送过程。

3.3.1.3 数据预处理

没有高质量的数据就没有高质量的数据挖掘结果。由于原始数据可能存在的不完整、含噪声和不一致等问题。因此,需要对数据进行必要的预处理。数据预处理是指在数据深度挖掘前,对原始数据进行必要的清洗、集成、转换、离散和归约等一系列的处理工作,从而达到数据分析算法和工具所要求的最低规范和标准[22]。数据预处理的目的就是填补数据残缺、纠正数据错误、去除数据冗余,将所需数据抽取出来进行有效集成融合,并将数据转换为所要求的格式,从而达到数据类型和格式标准统一、数据存储集中[23-26]。大数据预处理包括从数据清洗[23-24]、数据集成[24-26]、数据归约、数据变换和数据离散化的处理步骤。

3.3.2 数据存储与管理

数据存储与管理是喀斯特石漠化大数据技术平台的基础,它对于数据后期的计算、统计分析和应用决策具有重要作用。为保护数据存储的安全和提供数据的持续可用性,需建立能应付各种灾难环境的数据容灾系统,从而满足随着存储量的增加而提供水平扩展,以及后续多种信息分析和提取算法对数据的不同需求。喀斯特石漠化大数据的数据存储采用分布式的存储方式,数据的元信息保存和查询以NoSQL为主,其存储管理包括文件系统和数据库系统两类。数据仓库作为一个数据库集合,选择合适的用于海量数据存储与管理的数据仓库是非常关键的。

3.3.3 数据计算模式

传统的计算技术不能满足大数据时代计算的需求。因此,有必要建立一种能够处理海量数据的大数据计算模式,以满足大数据技术的处理要求。目前,大数据技术的计算模式包括针对静态数据的批量处理,针对在线数据的流式处理,实时交互处理以及针对图数据的综合处理等4种[26]。其中,重要的图数据在喀斯特石漠化领域已取得广泛应用,包括喀斯特石漠化的地质地貌、地层岩性、气象水文等图片数据,以及像无人机、航空航天的遥感平台获取数据等。图数据计算模式在喀斯特石漠化大数据平台构建中,具有广阔应用前景和重要现实意义。

3.3.4 数据分析

数据分析是数据处理流程的核心。大数据最主要的特征就是多源异构,多源是指数据的来源广,数据量大,随着“天空地一体化”加快发展,海量数据呈指数级增长;异构是指数据的类型和特征不一致。数据分析过程是逐层抽象、降维、概括和解读的过程。目前,大数据分析常用的方法有统计分析、深度挖掘、人工智能、人机交互、机器学习、可视化分析等[7,21,27]。统计分析、数据挖掘和人工智能是大数据分析的基础,人机交互技术、机器学习和可视化分析是大数据分析的关键技术。结合喀斯特石漠化大数据特点,简要介绍以下几种大数据分析方法在大数据平台构建中的应用。

3.3.4.1 统计分析

数据的核心价值在于数据间的相互关联,数据间关联性越强,数据越有价值。剖析数据间的数理关系,挖掘数据间的潜在价值,是大数据分析应用的关键[7]。统计分析是大数据分析中最常用的技术,通常包括线性分析、聚类分析、时间序列分析、回归分析和主成分分析等方法。喀斯特石漠化大数据不仅具有一般数据的特性,还具有地理时空数据特征,石漠化在地理空间上的分布特征与时间动态变化分析都离不开空间分析技术。各类统计分析和空间分析软件如SPSS和SAS、地理信息软件的空间分析模块如Arc GIS的Spatial Analyst等开发应用,为解决石漠化相关原理问题提供有力的技术支撑。

3.3.4.2 深度挖掘

统计分析和软件技术为大数据平台的信息挖掘提供了强有力手段,但对于解决成因复杂的石漠化问题远远不够。相比其他领域,石漠化相关研究需要更专业的技术和服务来提高数据分析挖掘能力。石漠化发生、演化及驱动机制和潜在影响因素,均需要过程模型和大数据的结合才能揭示石漠化发生发展及动态变化过程。通过石漠化发生发展驱动机制,将石漠化过程模型、石漠化发展模型、石漠化治理模型和石漠化治理模式与大量地面监测数据的融合,提高模型的模拟精度,从而揭示石漠化过程的演变机制,探寻石漠化治理的最佳方式。

3.3.4.3 人工智能

人工智能是指对人的意识和思维的信息过程的模拟,更要超过人的智能[28]。通过近30 a来从石漠化概念的提出到石漠化形成、演化及其机理的深入研究,已积累了许多科学的研究方法和成功的石漠化治理模式与技术。在喀斯特石漠化大数据平台的基础上,利用计算机学习石漠化领域的相关理论、治理模式和专家知识,建立各类石漠化治理模型库和知识库,实现石漠化大数据平台的智能化应用,从而提高石漠化治理水平和能力。

3.3.4.4 人机交互与可视化

人机交互是人与计算机或智能空间的通信过程,可视化是对数据进行分析的有效手段。可视化技术通过交互可视界面,使数据分析过程透明化。精简和梳理复杂数据流,帮助用户高效筛选数据,从复杂数据流中获得新发现,分享新经验。可视化分析将人的经验智慧与机器的运算能力紧密结合,可视化结果搭建起人与机器合作的桥梁。大数据分析最终目的就是让用户看到统计分析的结果,文图表相结合,解决用户的需求和问题,做到服务于用户。

3.4 应用服务平台

喀斯特石漠化的应用服务是指通过不同渠道、不同方式,直接或间接地将有价值的石漠化资源信息提供给政府机构、科研院所及行业主管部门等用户,实现石漠化信息利用、信息传播、科研交流和其他社会价值服务,全面展现我国喀斯特石漠化空间分布及动态变化以及治理现状和成效,综合揭示石漠化发生的内外因变化规律和原理,为喀斯特石漠化的综合治理、石漠化衍生产业发展和社会公众等提供全面准确的石漠化相关信息资源。服务平台的建设重在应用,提供喀斯特石漠化大数据应用服务是构建和发展喀斯特石漠化大数据平台的最终目的。基于大数据技术,可以为用户提供石漠化数据查询和下载、专题分析、石漠化风险评估、政府决策支持、石漠化治理推荐模式,以及为政府机构、企事业单位、科研院所和公众等提供相关石漠化公共业务需求服务。政府机构通过掌握喀斯特石漠化大数据科学分析的结果,定期向社会发布区域石漠化现状公报,提出本阶段石漠化治理任务、实施石漠化治理工程和生态措施、发展石漠化治理生态产业,建立石漠化综合治理体系,从而提高石漠化治理的信息化、产业化水平以及预警石漠化风险能力。企事业单位利用石漠化大数据平台挖掘新的知识信息,创造更多的社会价值。科研院所借助喀斯特石漠化大数据平台,可以获得更多的石漠化信息资源和数据成果,更好地开展基础性的、前瞻性、科学性的机理机制等研究工作,为石漠化大数据平台建设提供方向性、技术性指导,加快推进平台建设,为全国性石漠化治理整体推进、产业发展与乡村振兴提供前瞻性技术服务。公众是大数据平台服务的最终对象,基于喀斯特石漠化平台建立高效的公共服务体系,更好地发挥石漠化治理数据资源对各类经济社会活动的服务作用。

3.5 运维平台

运维就是后台对数据进行管理和维护,能够有效监控系统的安全态势,为安全决策提供数据支持[29]。随着大数据技术的发展,数据种类多、数据量大、系统复杂,维护量大,大数据运维面临巨大挑战。石漠化大数据运维平台主要是对大数据采集的运维、基础设施的运维、整个系统的运维、监控告警分析和安全管理等。数据采集的运维主要是对系统的日常监控、数据备份和监控以及报警、故障的处理等;基础设施的运维是对基础设施平台设备和网络的健康和异常状态的监控维护及应用服务的管理;大数据系统监控告警分析和安全管理的运维是对平台运行过程中的系统配置管理、故障管理、安全管理、性能管理、应用变更管理及服务资源管理,并作出响应和运营分析。

喀斯特石漠化大数据平台需要专业的计算机、地理学、地质学、数学、生态学和地理信息系统方面的专业人才共同打造建设,这对石漠化大数据的分析、管理、决策、更新、维护提出更高要求。

4 结论与展望

分析了喀斯特石漠化大数据的定义,提出喀斯特石漠化大数据平台构建的初步构想。通过大数据平台、基础设施平台、技术平台、应用服务平台和运维平台的搭建,初步完成喀斯特石漠化大数据平台的总体架构。目前,平台正在组建中,平台获取的喀斯特石漠化相关数据量约100 TB,相比大数据技术要求还远远不够,主要涵盖了遥感影像、地层岩性、地形地貌、石漠化解译、土地利用、水文气象、植被、土壤、产业及地面监测数据等方面。加强大数据产业链建设,促进大数据的应用创新,实现石漠化大数据跨平台跨领域协同发展,使大数据真正成为提高石漠化监测和综合治理的信息化手段,是我们建设喀斯特石漠化大数据应用平台的最终目标。建设实时、开放、高效的石漠化大数据应用平台,实现“天空地一体”数据与人工智能的有机结合,从海量的、杂乱的、无序的数据和信息中深度挖掘那些隐含的、不为人知的信息和知识,发现那些对石漠化生态治理至关重要的知识、智能和智慧,研究石漠化发生发展演变与地形地貌、植被覆盖、土地利用、土壤类型、海拔坡度、气象水文之间的关系规律和模型,从机制机理上破解石漠化生态科学难题。争取通过各方面的努力早日实现喀斯特石漠化大数据平台上线应用,为石漠化综合治理和监测预警提供平台应用和技术支撑。

数据量的大小是喀斯特石漠化大数据平台分析处理的关键。如何协调各行业部门的利益,把分散隐藏在不同领域的多学科、多来源、多种类、多尺度的石漠化相关数据有效融合并集成共享,是建设喀斯特石漠化大数据平台的基础。我国跨行业、跨部门的数据共享机制还未成熟,仍存在很大障碍壁垒,集成海量数据去探寻隐藏在数据中的相关性,揭示石漠化演变规律和内在机制。当前,我国石漠化数据共享机制还不完善,如何在石漠化治理空间数据获取与聚合方法、表征模型、信息提取与知识发现机理研究的基础上开展大数据挖掘算法、多源异构数据汇聚机制和模型的构建等重大关键技术研发[14-15],实现喀斯特石漠化大数据平台及决策支持系统的推广,是当前亟需解决的难题。

猜你喜欢

喀斯特石漠化
滇东北岩溶地区石漠化时空演变过程分析
鲁甸县石漠化发展趋势及综合治理对策
云南省石漠化土地利用现状分析与评价
九寨沟喀斯特湖泊水体的神奇色彩
广西南宁市岩溶土地石漠化状况及动态变化分析
“别有洞天”的喀斯特王国
喀斯特
————水溶蚀岩石的奇观
典型岩溶区不同水土流失强度区石漠化特征分析
贵御温泉——喀斯特风貌温泉
石漠化治理存在问题及对策——以广西为例