APP下载

基于Hadoop的森林资源信息平台研究

2019-05-08吴庭天田蜜陈宗铸雷金睿陈小花李苑菱黄绪壮

热带林业 2019年1期
关键词:林业部门离线森林资源

吴庭天,田蜜,陈宗铸,雷金睿,陈小花,李苑菱,黄绪壮

(海南省林业科学研究所,海南海口 571100)

1 引言

中国林业信息化在近三十多年中从无到有,经历了起步——系统化—网络化三个过程。在此过程中,林业部门基于3s 技术建设了各类林业业务系统,并且通过科学规范的资源勘查手段,积累了海量、异构、多源、动态的森林资源信息[1~5]。与此同时,林业信息化所构建的各类系统,也都独立的形成了信息孤岛。随着林业信息化建设工作的不断深入和展开,林业工作者正面临着森林资源数据管理及使用的新问题:如何管理离线及实时的森林资源海量数据;如何高效、快速地挖掘和分析林业数据信息,使之运用到工作中去。

该研究旨在利用Hadoop 大数据集成分析平台,运用大数据分析技术进行森林资源数据管理及分析研究,解决目前森林资源大数据存储、计算能力、离线数据分析、共享数据等问题[6~8]。同时,充分利用基础地理信息资源,构建科学合理的森林资源信息管理新模式,为森林资源调查、森林资源规划设计调查、森林资源动态更新、森林资源数据共享等业务管理部门提供实时、准确、可靠的森林资源信息,实现林业信息化管理。

2 需求分析及研究目标

2.1 系统需求分析

当前,森林资源管理系统主要基于空间地理信息系统、遥感技术、卫星全球定位技术、空间数据库技术及软件工程,采用数据层、事务逻辑层、应用层3 层结构体系(B/S、C/S 模式)进行构建。其功能模块主要有森林资源监测模块、森林资源资产管理模块、森林资源管理辅助决策模块、森林资源管理信息服务模块、系统维护管理模块等。其目的在于有效地管理辖区内的森林资源数据,以及各类统计分析报告。随着林业业务深入拓展,数据量逐年积累,数据计算量增大,当下的森林系统软硬件难以进行线性拓展来提供有效的、快速的业务支撑。同时,林业部门在对多源数据集、离线数据分析上也提出了新的要求。经过调研分析,总结了目前林业部门针对森林资源大数据处理系统的需求,主要体现在以下几个方面:(1)数据采集和传输需求

通过对指定林业离线业务数据进行汇聚,将分散的数据进行物理集中和整合管理。同时能够采集及传输实时数据,为实现对数据的分析提供数据支撑。

(2)数据存储管理需求

林业部门数据量巨大,数据类型繁杂,数据需要持久化的存储和访问。不论是结构化数据、半结构化数据、还是非结构化数据,经过数据存储引擎进行建模后,持久化保存在存储系统上。存储系统要具备高可靠性、快速查询能力。同时能够支撑线性拓展,满足日后数据存储和安全要求。

(3)数据计算分析需求

包括海量数据的离线计算能力、高效即席数据查询需求和低时延的实时计算能力。随着数据量的不断增加,需要数据平台具备线性扩展能力和强大的分析能力,支撑不断增长的数据量,满足未来大数据挖掘分析的发展需要,确保平台系统的不间断且有效地工作。

(4)数据关联集中需求

对集中存储在数据管理平台的数据,通过正确的技术手段将这些离散的数据、实时的数据进行数据关联,即:通过分析数据间的业务关系,建立关联数据之间的关联关系,将离散的、实时的数据串联起来形成能表达更多含义信息集合,已形成基础库、业务库、知识库等数据集。

(5)应用开发需求

依靠集中数据集,利用软件工程及相关成熟的开发技术,快速开发创新应用以及数据可视化,支撑实际分析业务需要。

(6)大数据分析挖掘需求。

通过对海量的业务大数据进行分析和挖掘,深度学习,算法研究,辅助决策,提供资源配置分析优化等辅助决策功能,促进林业的快速、智能化的发展。

2.2 系统研究目标

该研究以充分利用当下大数据的优势和基础地理信息资源为目标,构建科学合理的森林资源信息管理新模式,为森林资源调查、森林资源规划设计、森林资源动态更新、森林资源数据共享等业务管理部门提供实时、准确、可靠的森林资源信息,实现林业信息化管理。

3 系统设计

3.1 系统总体设计

森林资源分析系统作为一个整体,不仅需要对传统业务的管理支撑,同时也可以面向海量数据、离线的多源数据和实时数据进行有效的管理和分析。利用当下成熟的软件技术及新兴的大数据框架,可将整体框架分为多源异类数据层、数据存储与计算层、数据应用层和用户层(图1)。

(1)多源异类数据层是数据产生的地方,其有多种形式,包含有业务系统、web 系统、手机app、外部系统、人工整理等。此层是数据产生的地方,是数据平台的源头;

(2)数据存储与计算层是整个架构的核心,完成了多源异类数据抽取、转换、清洗和数据存储、数据建模,同时为计算资源提供调度;

(3)数据应用包含报表展示、数据分析、即席分析、数据挖掘、机器学习、深度学习等多个数据方面的应用;

(4)用户层主要指系统使用和管理人员,包括林业资源调查与管理人员。

图1 系统总体架构Fig.1 System architecture diagram

3.2 系统功能

与传统林业资源管理方式的耗时、耗财、耗力以及繁琐不同,森林资源管理系统能够满足不同层次林业部门的需要,帮助林业部门及时、全面地了解林业资源整体状况,并进行科学的决策分析,实现林业资源的持续发展。系统主要包括林地一张图系统、统计分析系统、古树名木管理信息系统以及系统管理,如图2 所示。

图2 系统功能结构Fig.2 System functional structure diagram

3.2.1 森林一张图

森林一张图:包括森林资源图层、公益林图层、地名图层和湿地图层等,提供坐标定位、地名搜索、缓冲分析及历史数据对比等功能服务(图3)。

图3 森林一张图综合查询系统Fig.3 Forest map integrated query system

3.2.2 统计分析模块

统计分析主要包括对相关矢量和栅格数据的分析生成相关的统计报表和专题图等,满足各类林地业务需求。

3.2.3 古树名木管理模块

古树名木管理信息系统通过地理信息和遥感手段,对实地采集的古树名木信息整合、汇总、更新,实现对古树名木的信息管理和长期监测(图4)。

图4 古树名木信息管理系统Fig.4 Ancient and famous trees information management system

3.2.4 系统管理模块

系统管理:包括系统设置和数据库管理两部分;以系统管理、数据交换、信息发布和信息产品服务的方式,同时根据经营活动和自然灾害情况,对采伐、抚育间伐和灾害影响的小班进行数据更新,为森林资源管理部门提供森林资源基础信息服务。

4 关键技术

4.1 数据采集传输技术

数据采集传输工具和技术主要分为“离线批处理”和“实时数据采集和传输”两大类。(1)Sqoop

Sqoop 是一个用来将Hadoop 和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL, Oracle, Postgres 等)中的数据导进到Hadoop 的HDFS 中,也可以将HDFS 的数据导进到关系型数据库中。对于某些NoSQL 数据库它也提供了连接器。类似于其他ETL 工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop 时确保类型安全的数据处理。Sqoop 专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。

(2)Flume

Flume 是Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

4.2 数据处理技术

(1)Hadoop MapReduce

MapReduce 是一种可用于数据处理的编程框架。MapReduce 采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。

在分布式计算中,MapReduce 框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map 和reduce,map 负责把任务分解成多个任务,reduce 负责把分解后多任务处理的结果汇总起来。

(2)Hive

Hive 是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql 查询功能,可以将sql 语句转换为MapReduce 任务进行运行。其优点是学习成本低,可以通过类SQL 语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce 应用,十分适合数据仓库的统计分析。

4.3 数据存储技术

(1)Hadoop HDFS 分布式文件系统

HDFS 被设计成适合运行在通用硬件上,是一个高度容错性的分布式文件系统。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 放宽了一部分POSIX 约束,来实现流式读取文件系统数据的目的。

在Hadoop 的整个架构中,HDFS 在MapReduce任务处理过程中提供了对文件操作和存储等的支持,MapReduce 在HDFS 基础上实现了任务的分发、跟踪和执行等工作,并收集结果,两者互相作用,共同完成Hadoop 分布式集群的主要任务。

(2)HBase

HBase 是一个高可靠性、高性能、面向列族、可伸缩的分布式存储系统,可以构建在HDFS 之上。HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

4.4 数据应用技术

(1)Drill

Drill 是一个开源实时大数据分布式查询引擎。它兼容ANSI SQL 语法作为接口,支持对本地文件、HDFS、HBase、MongeDB 作为存储的数据查询,文件格式支持Parquet、CSV、TSV 以及JSON 这种无模式的数据。可以像使用传统数据库的表查询一样进行快速实时查询。

5 平台环境构建

5.1 Hadoop 平台搭建

该平台采用Ubuntu linux 操作系统、Hadoop多节点集群(Hadoop Multi Node Cluster)进行构建,其目的主要解决多源异构、离线的海量数据存储。集群规划如图5 所示,可由多台服务器组成。在日后平台需要线性升级,只需要在直接添加硬件设备,并进行相关配置即可线性提升平台能力。

图5 Hadoop 多结点集群结构Fig.5 Hadoop multi-node cluster architecture

将一台服务器设置为master 主机,在HDFS 中担任Name Node 角色,在MapReduce2 中担任Resource Manager 角色;

其余服务器在HDFS 中担任Data Node 角色,在MapReduce2 担任Node Manager 角色。

Hadoop 多节点集群规划,整理如下表格所示:

服务器名称 YARN 内部IP HDFS Mater Date1 Date2 Date3 192.168.1.5 192.168.1.6 192.168.1.7 192.168.1.8 Name Node Data Node Data Node Data Node Resource Manager Node Manager Node Manager Node Manager

6 结论与讨论

顶层设计的先进、合理,是一个系统平台开发成功与否的关键。Hadoop 是大数据领域最流行的高效处理平台,是一个集分布式计算、存储和管理为一体的生态系统,可有效解决传统森林资源管理和分析存在数据的统一性、规范性、更新不及时等问题;平台将图形和属性的更新结合在一起,减少了因内外业分离而产生的人为误差;同时,基于地理信息技术的可视化空间分析,充分体现了林业区域统计数据的空间信息特征;该平台可极大改善传统林业资源统计数据的表现形式,提高林业资源统计数据的可视化程度,把各类森林资源信息置于统一的框架之下,实现森林资源跨地区、跨业务集成应用及数据整合,为各级林业部门实现科学高效的资源监管提供科学、准确的数据参考。

猜你喜欢

林业部门离线森林资源
基于卷积神经网络的离线笔迹鉴别系统
异步电机离线参数辨识方法
森林资源及其保护
森林资源保护管理中存在问题及对策探讨
新版Windows 10补丁离线安装更简单
如何加强森林资源保护与措施研究
关于新时代环保背景下我国地方林业部门审计工作的思考
绿水青山里的奋斗足迹之森林资源督查
浮世绘
离线发文件 不是会员也能用