APP下载

大数据背景下水库移民后扶监测信息系统的研究

2022-09-14

地下水 2022年4期
关键词:实时性数据处理数据挖掘

黄 毅

(贵州省水利水电勘测设计研究院有限公司, 贵州 贵阳 550002)

为了进一步强化大中型水库移民后期扶持力度,国务院出台了相关的政策文件,为水库移民后扶工作的开展提供了有效指导。为了评价水库移民后扶政策实施的成效,国家发改委、财政部以及水利部门联合发布了水库移民后扶监测评估的相关文件,明确了监测评估的指标体系和方法内容。但是就现状分析,监测评估工作在具体实施中还存在一定的不足,如评估主体的能力不足、各地区后期扶持监测评估不够深入、样本选择不合理等等,对水库移民后扶工作的开展和政策的实施造成了一定的影响。鉴于此本文围绕水库移民后扶监测信息系统开展分析和研究。

1 大数据关键技术

在信息时代背景下,计算机和网络技术的应用较为普及,不同领域和不同行业的人都可以利用计算机技术和移动终端采集技术完成数据的采集和使用,基于这种背景下,“大数据”概念应运而生。综合业界的研究成果,大数据具有以下几个特征,如图1所示。

图1 大数据特征图

第一数据量较大,常规储存方式不合理;第二结构多样性,不仅包含结构化数据,还有以图片、视频为主的大量非结构化数据;第三数据利用价值较低,在海量的数据中难以用常规的方法捕捉有价值的数据;第四实用性较高,尽管数据量较大,但是在处理的过程中具有较高的实时性。

在水库移民后期扶持监测信息系统中,大数据关键技术的应用主要体现在四个方面,如图2所示:第一数据采集。一般情况下,可以利用平板电脑、手机、传感器以及计算机网络技术获取大量的数据资料。第二分布式文件储存技术。目前储存技术包含Google 的 GFS、bigTable、云计算以及 Hadoop 的 HDFS等等,水库移民后期扶持信息数据较为复杂,常规储存技术难以解决根本问题,因此需要借助大数据技术来储存水库移民后期扶持信息数据。第三并行处理技术。目前较为先进的并行处理技术为MapReduce,能够保障水库移民后期扶持监测数据处理的实时性和连续性,在一定程度上提高了数据处理的效率。第四大数据挖掘技术。目前较为常见的大数据挖掘技术包含Hive、 Mahout等等,解决了传统数据技术中存在的问题,提高了数据利用率。

图2 水库移民后扶监测信息系统中大数据关键技术的体现

2 数据处理过程

大数据技术贯穿于水库移民后期扶持整个监测信息系统中,主要体现在数据采集、数据储存、数据加工和决策支持的各个阶段,如图3所示。

图3 数据处理过程

2.1 数据采集

在水库移民后期扶持监测信息系统中,为了进一步落实政策实施的成效,需要采集大量的数据信息,比如后期扶持人口、年度计划、资金、后期扶持项目、专项资金、规划、移民培训等相关数据,以便能够及时的掌握水库移民后期扶持相关工作的进展情况,实现脱贫致富的后期扶持效果。

水库移民后期扶持监测所采集的数据涉及面较广,数据量较大,对数据实时性、连续性和精准性的要求较高,因此在该阶段需要便捷、准确的获取移民后期扶持数据,对各种数据科学的筛选和清晰,以此提高数据的价值。水库移民后扶监测数据采集工具较为丰富,较为常见的有手机、摄像机、录音笔、数码相机等等,通过数字化的方式记录文件资料,在录入时确保数据的精准性。以贵州地区的水库移民后期扶持数据采集为例,在后扶政策实施情况的监测评估指标见表1。

表1 后扶政策实施情况检测评估指标体系

2.2 数据储存

大中型水库移民后期扶持监测的数据量较大,且结构复杂,不仅包含结构化的数据,还包含文字、音频、图片、视频等非结构化的数据,采用常规性的储存方式难以满足水库移民后期扶持监测数据,也不利于对数据进行分析和处理。因此在大数据背景下,针对水库移民后扶监测数据可以利用分布式文件存储技术,通过分布式文件存储技术的应用能够在满足海量数据存储的要求下实现低成本运行,因分布式文件存储技术对硬件没有较高的要求,使用较低成本的服务器就可以完成互联,充分的满足了大中型水库移民后期扶持监测信息系统的数据存储要求[1]。

2.3 数据加工

目前来看,传统的数据加工方法需要耗费大量的时间,且实时性和精准性难以保障,尤其是面对复杂的移民后期扶持监测数据,难以充分的挖掘数据价值。基于大数据背景下,在对数据加工处理的过程中,可以将云计算应用其中,通过并行处理技术对数据的加工处理,数据的分析效率得到了显著的提升,并且对非结构化数据也能够实时连续处理。

Map Reduce模型是大数据环境下并行处理的主要技术,能够对大数据集群的相关数据进行并行处理,以此来满足大数据处理的需要。主要的工作方式分为以下几个方面:首先建立中间文件,中间文件的获取需要在服务器上进行操作,通过对节点数据发送相关的命令,促使数据在节点上运行,从而进行文件的获取。其次是节点的运行指令[2]。通常情况下节点的运行指令需要在本地服务器上完成,这样就减少了中间文件数据的传送时间,如果需要执行Reduce 操作,那么就可以将Reduce 操作直接发送到指定的节点,在本次服务器内执行,也减少了数据对网络所产生的依赖性,从而促使数据的处理效果得到了有效的提升。之后是容错处理。就目前的现状来看,Map Reduce模型的容错性能较好,在大数据处理和运行的过程中,一旦程序发生故障,Map Reduce模型就会直接将其迁移到正常的数据节点中,促使程度的正常运转。最后是实时处理[3]。Map Reduce能够对数据进行批处理,针对实时处理的数据,可以用Dremel完成模型的计算,并利用多层次的查询数对海量的数据进行处理,效率相对较高,从而确保了水库移民后扶监测数据处理的实时性。

2.4 决策支持

移民后期扶持监测数据不仅能够起到记录的作用,并且在移民后期扶持工作开展的过程中也发挥着重要的价值,通过对海量数据信息的深入挖掘能够有效的提供数据的利用率和价值,为相关部门的决策提供有效的参考依据[4]。

基于大数据背景下,在数据挖掘分析的过程中可以使用分布式处理技术,能够充分挖掘数据和数据之间的内在规律和关联性。目前大数据技术的云计算、分布式存储、分布式数据处理以及大数据挖掘技术形成了较为完善的水库移民后期扶持监测数据信息系统。在移民后期扶持监测中,要充分的利用大数据挖掘技术对移民后期扶持实施的效果进行监测和评估,从而为政策的不断完善提供有效参考[5]。

以贵州地区的大中型水库移民人口为例,该地区的移民流动性较大,因经济发展落后,移民多为外出务工的农民,因此需要分析水库移民人口的动态变化,从而对当地人口结构进行有效的分析和处理。通过对未来人口发展趋势的分析与预测能够为政策和制度的执行与优化提供有效的保障,同时也能够实现资源的合理配置[6]。尤其是在精准扶贫政策落实的过程中,通过大数据技术能够对各地区的人口结构模式以及存在的问题进行分析,从而对水库移民进行精准扶持。并且在大数据挖掘技术实际应用的过程中,其实时分析能力和连续处理能够还能够满足移民后期扶持数据的处理要求,从而提高移民后期扶持的实时性和精准性,从而促进移民后期扶持工作的开展,真正的实现水库移民脱贫致富的目标[7]。

除此之外水库移民后扶所涉及到的范围较为广泛,后扶的资金量较大,后扶的项目计划较多,为水库移民后扶工作的开展带来了一定的难度。在大数据技术应用中,能够在较短的时间内掌握各地区的情况和项目的进展情况,及时的算出资金的需求,从而为后扶资金的使用和管理提供了有效的方法。

3 结语

目前,在贵州地区水库移民后期扶持监测评估的过程中大数据技术得到了有效的应用,解决了水库移民后扶监测工作中存在的基础性问题,实现了数据的统一标准化管理、大数据的分布式存储和处理等等,真正的满足了移民后扶监测数据的根本需求。因此大数据技术在移民后扶监测中能够科学合理的进行水库移民的后扶监测,为移民后扶相关政策的落地执行提供了有效保障,也实现了扶持方式方法的优化,为精准扶贫政策的执行和落实提供了有效保障,奠定了坚实的基础。

猜你喜欢

实时性数据处理数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
无人机测绘数据处理关键技术及运用
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于MATLAB语言的物理实验数据处理探讨
航空电子AFDX与AVB传输实时性抗干扰对比
软件工程领域中的异常数据挖掘算法
计算机控制系统实时性的提高策略