APP下载

基于Hadoop的电力环保数据采集平台设计

2021-01-07宋子涛,张秋霞,郭大亮,陈义学,莫文涛,于楚凡

粘接 2021年12期
关键词:数据采集

宋子涛,张秋霞,郭大亮,陈义学,莫文涛,于楚凡

摘 要:随着信息化时代的到来,网络通信能力的提高,数据采集也有了多种方式。环保数据作为常用信息载体,数量在急剧增加中,处理数据的技术还停留在基础阶段。在此背景下设计了基于Hadoop的环保数据采集平台。该平台是基于Hadoop框架,配合子项目Hive和HBase,完成全面的数据分析支持。采用PIC18F8722单片机为核心组件,对传感器收集到的数据通过GPRS无线网络上传,利用CLARA聚类算法对数据进行整合归类,最后通过数据节点完成对数据的储存、备份过程。

关键词:Hadoop;数据采集;CLARA算法

中图分类号:TP274+.2;TP311.13 文献标识码:A 文章编号:1001-5922(2021)12-0168-05

Design of Electric Power Environmental Protection Data Collection Platform Based on Hadoop

Song Zitao1, Zhang Qiuxia1, Guo Daliang2, Chen Yixue1, Mo Wentao1, Yu Chufan1

(1.State Power Investment Corporation Central Research Institute, Beijing 102209, China;

2.State Power Investment Corporation Limited, Beijing 100029, China)

Abstract:With the advent of the information age, the network communication capability is improved, and the data collection has a variety methods. As a common information carrier, the number of environmental protection data is increasing rapidly, but the data processing technology is still in the basic stage. Therefore, an environmental protection data collection platform based on Hadoop is designed, which is based on the Hadoop framework and cooperates with the sub-projects Hive and Hbase to provide a support for comprehensive data analysis. Using PIC18F8722 single-chip microcomputer as the core component, the data collected by the sensor is uploaded through the GPRS wireless network, and the CLARA clustering algorithm is used to integrate and classify the data. Finally, the data storage and backup process are completed through the data node.

Key words:Hadoop; Data collection; CLARA algorithm

0 引言

环保数据量大而种类繁多,为更好的分析统计环保数据,有很多专家学者提出各种研究方向,如牛健等提出的环保工况监控系统的架构设计研究;李长杰等提出的基于AIoT的智能环保监控管理系统开发及其在高速公路网中的应用,为环保数据的处理提供了方向。为更好的存储、分析环保数据,在前者的研究基础上设计了基于Hadoop的环保数据采集平台。该平台利用PIC18F8722单片机为核心,完成数据的采集和上传工作。利用CLARA聚类算法对数据进行分类处理,最后通过Hive、HBase对数据进行存储、读取、查询工作。并且该系统运用文件分割方式,将文件分割的数据块存储于数据节点并进行,有效避免了数据的丢失。

1 数据采集系统设计

1.1 数据采集系统硬件设计

系统硬件部分主要由PIC18F8722单片机、4种传感器及GPRS无线传输模块构成。传感器采集的数据进入系统后,通过无线网络上传至数据中心,数据中心对数据进行处理和存储。 具体硬件系统结构如图1所示。

该系统采用的智能芯块为PIC18F8722单片机。相对于传统单片机,PIC系列单片机优点在于优化了存储器结构及流水线指令,提高了系统的运行速率;封装特性提高了单片机性能的持续和稳定;且价格实惠,性价比高。故选择该单片机为系统的核心组件。

该系统风速传感器选用的是三杯式风速计量器。在有风情况下,其旋转速度与风速成正比。测出风速后通过输出端與主控模块的模数转换接口连接实现对风速数据采集。三杯式风速计量器参数如表1所示。

风向传感器选用的是数字式风向传感器,因为该传感器设置的地点环境风向和内置风向杆成线性关系,故数据采集方式为风力使风向杆的感应部位转动,带动转动轴下端的光电风向码盘,输出7位格雷码数据。输出数据后,通过在单片机内建立的格雷码、风向角度转换关系输出风向角度。数字式风向传感器参数如表2所示。

1.2 环保数据系统硬件连接电路

1.2.1 环保数据系统硬件连接电路总体设计

根据各个传感器的输出特性,选择合适的连接方式与主控电路进行连接。具体电路连接如图2所示。

风速传感器以电压信号的方式输出,输出后经过放大电路,到双向模拟开关,将ANO设置为输入状态。

数字式风向传感器输出的信号为7位格雷码,分别与单片机的RE0~RE6连接。

雨量传感器以无源開关信号的方式输出,经过隔离电路处理,处理后的数据被单片机采集。可将RA1的状态设置为输出且置0,将RA2的状态设置为输入且置1,此时可以通过检测RA2的0/1所处的状态,实现在PIC18F8722单片机内部计数的操作。

温湿度传感器与单片机的连接方式是单总线,数据读取方式为,利用RB7端口控制其时序操作。

无线模块与单片机的连接方式是通过接口RS232实现,数据传输是利用PIC18F8722单片机内部定时中断处理功能,定时将数据传输至数据中心。

1.2.2 供电电路设计

供电电路设计如图3所示。系统主控电路电源由LM2576提供,LM2576能将24 V转化为5 V的稳定电路;Cp1和Cp2消除低频纹波;IN5822稳压二极管避免输出电压出现波动,从而减少因供电电压不稳造成的器件损坏。

1.3 系统性能测试

由于该系统采集的数据受观测环境、数据传输、传感器设备等因素的影响,故需对采集到的数据进行质量控制后才能作为可靠数据储存、使用。对数据进行质量控制主要由以下两个角度出发。

(1)界限值检测

传感器的测定也存在一定的测量界限,若超出该界限则为错误数据,应将采集到的数据摒弃。风向传感器、风速传感器、雨量传感器的测量界限统计参数结果如表3所示。

(2)时间一致性检测

环保要素与时间要素联系也较为紧密,将采集到的一组环保数据,与该组数据的相邻时间数据作对比,观察两组数据的环保要素值。若两组差值超过了标准的阈值,则代表该组数据为问题数据,不能直接使用,应予以标记。标准阈值统计结果如表4所示。

1.4 环保数据可靠性检测

采集到的数据可能存在一定误差,为检测误差,在实验室用电脑模拟该系统,同时建立数据测试中心。实验室用软硬件列表如表5所示。数据传输进入到数据中心后,数据中心对数据进行解析,将解析后的数据上传至Oracle数据库,完成数据的分析和存储。Oracle数据库中有临时表TEMP及正式表格TABTIMEDATA。临时表格用于存储所有收集到环保数据,正式表格用于存储可靠数据。

2 基于Hadoop的环保数据采集系统软件部分设计

2.1 海量数据的聚类算法

本系统采集到的数据庞大而复杂,为了高效处理采集到的数据,本系统采用CLARA算法。CLARA算法是以样本的聚类算法(PAM算法)为基础创立的。

PAM算法基本步骤:

(1)在输入的数据集中,包含有n条样本,在该数据集中选取 K个样本,选取的 K个样本设为最开始聚类簇的中心点;

(2)对 K个样本外的其他所有样本进行平均分配,分配标准为最临近聚类簇;

(3)利用聚类簇中每个非中心点样本(设为Or)代替原来作为中心点的样本(Oj),并计算其代价S。

(4)若S小于零,则Or成为新中心点;若大于等于零,则中心点不变;

(5)重复上述步骤(2)~(4);

(6)若所有中心点都不再替换,则步骤完成。

PAM算法流程图如图4所示:

PAM算法是利用欧几里得距离定义样本间的相似性:

上式中,x=(x1, x2,…, xk)和 y=(y1, y2,…, yk)是数据集中两个 k 维的样本。

评测公式是判断其收敛性的依据,其表达式为:

CLARA算法能够快速的处理庞大而复杂的数据的原因是提前对样本进行选择。将选择后的结果使用PAM算法进行对比,当聚类结果达到最佳值时输出。

CLARA算法步骤:

(1)对整体数据进行n次选样,并重复以下3个步骤;

(2 在输入的数据库中选择一个样本,利用PAM算法对样本进行划分,得到 K个最优中心点;

(3)将步骤(2)计算出的最优中心点应用到整个数据库中,这样就能得到 K个中心点代表的 K个聚类簇;

(4)对步骤(3)得到的聚类簇进行总代价计算,得到最好划分结果;

(5)返回步骤(1),直到聚类效果最好为止。

3 基于Hadoop的环保数据仓库建立

3.1 环保数据仓库体系结构建立

环保数据仓库具体结构如图5所示。

该环保数据仓库是基于Hadoop框架,配合子项目Hive和HBase,完成全面的数据分析支持。Hive查询和分析Hadoop存储的数据,HBase对图像和声音进行存储。即该数据仓库能查询离线数据也能实时对数据进行查询分析及归纳。

3.2 文件系统的建立

完成数据库的建立后,对系统的内部运行进行管理。数据进入HBase后进行存储,通过Hive管理数据,且对元数据进行解析,并通过MapReduce进行计算。关系数据库可利用Sqoop软件导入,实现了数据的转移。此外,Hive还提供了基于Web接口,可根据需求导出数据。

在上述文件系统中,对元数据单独管理的主要原因是元数据对环保数据的来源和环保数据质量等级的反映最为明显,同时元数据也是判断所选数据能否使用的依据。对其单独管理还能实现在数据共享前提下提高相应性能。文件系统体系结构图如图6所示。

如图6所示,文件系统体系是由管理层的控制节点和存储层的数据节点构成。控制节点能够完成命名空间的用户需求,如客户端对文件的访问、维护及改动等;而数据节点的主要工作是文件的存储和管理,且通过与用户层的连接,完成和数据I/O交互过程。

除了对数据进行分类存储外,本文设立的文件管理系统还能对数据进行多重备份,多重备份的原理是将需要储存的文件分割成等量的数据块,在不同的数据节点内存储分割完成后的数据块,从而完成數据的备份。该模式的好处在于即使几个数据节点出现故障,对数据的完整性和可操作性也没有影响。

3.3 服务器系统管理

系统内部运行产生的日志由日志服务器负责归纳和收集,用HDFS存储;Hadoop统计分析;HQL分类、排序、归纳输出。从而得到该系统的运行状态,若系统出现功能型问题,则会给出详细的错误信息,在一定程度上提高了系统的性能。

Web服务器的主要工作是系统运算管理及维护,具有环保数据录入,查询接口和可视化数据浏览等功能,搭建了环保用户与环保数据仓库间的桥梁,为用户提供便捷。

4 结语

在数据化时代,数据的储存分类读取是极其重要的。本文设计的数据采集平台是基于Hadoop框架,配合子项目Hive和HBase,完成全面的数据分析支持。系统的硬件部分由智能芯片、传感器及无线模块组成,负责将传感器采集到的数据通过GPRS无线网络进行传输。数据上传后通过CLARA算法进行聚类分析处理,最后将数据进行归纳储存。在储存时采用多重备份模式,将数据平均存储于不用的数据节点,有效避免数据的丢失。同时该系统还设立Web接口,为用户查询数据提供便捷。

参考文献

[1]牛 健,王亚北,田 伟,等. 环保工况监控系统的架构设计研究[J]. 智能物联技术,2019,51(02):27-31.

[2]李长杰,徐 亮,宋明星,等. 基于AIoT的智能环保监控管理系统开发及其在高速公路网中的应用[J]. 安全与环境工程,2020,27(05):85-91.

[3]李 涛,冯仲科,孙素芬,等. 基于Hadoop的环保大数据分析GIS平台设计与试验[J]. 农业机械学报,2019,50(01):180-188.

[4]赵亚楠,李朝奎,肖克炎,等. 基于Hadoop的地质矿产大数据分布式存储方法[J]. 地质通报,2019,38(Z1):462-470.

[5]吴丽杰,张璐璐,张 婷. 基于Ambari的Hadoop集群快速部署研究[J]. 重庆工商大学学报(自然科学版),2020,37(01):42-48.

[6]冉 冉,陈 硕,刘 颖,等. 基于聚类分析的用电模式判别研究[J]. 电力大数据,2019,22(04):43-49.

[7]郭玉霞,李志杰. 基于ADS1256和STM32的数据采集装置设计[J]. 无线电工程,2019,49(01):81-85.

[8]曾健荣,张仰森,郑 佳,等. 面向多数据源的网络爬虫实现技术及应用[J]. 计算机科学,2019,46(05):304-309.

[9]徐 超. 大数据背景下审计数据采集技术与方法的研究——以互联网金融企业专项审计为例[J]. 会计之友,2020(19):114-119.

[10]李卓卓,孙 东. 面向效能评估的英美公共图书馆数据采集及启示[J]. 国家图书馆学刊,2019,28(04):48-59.

猜你喜欢

数据采集
CS5463在植栽用电子镇流器老化监控系统中的应用
大数据时代高校数据管理的思考
铁路客流时空分布研究综述
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
基于开源系统的综合业务数据采集系统的开发研究