APP下载

面向用电数据的HDFS数据读取策略

2018-06-27许珑璋向敏

无线互联科技 2018年5期
关键词:智能电网

许珑璋 向敏

摘 要:随着智能电网的发展,数据的访问并发量在不断增加,如何对这些海量的用电数据进行高效读取是现今电力企业亟待解决的问题。文章在基于HDFS读策略的基础上,提出一种面向用电数据的HDFS数据读取策略。综合节点的网络距离、带宽利用率和CPU使用率3种因素,通过评判函数找出性能最优的节点并进行访问。实验验证,该策略可以有效提高数据的读取效率,提升了数据的读性能服务。

关键词:用电数据;HDFS;智能电网;读策略;读取效率

随着信息技术的飞速发展,大数据时代己走进了人们的生活。由中國信息化专委会发布的《中国电力大数据发展白皮书》报告中显示,电力大数据已呈现出“数字摩尔时代”的发展趋势[1]。为了能够实现与居民用户的实时交互,电表业务的数据采集频度由现在的每月提高到每日,甚至每小时[2-3]。随着用电信息采集系统的数据越来越多样化,用户对数据的访问并发性也越来越高,如何对数据有效地读取是当今电力企业急需解决的问题。而分布式文件系统(HadoopDistributed File System,HDFS)作为云存储的基本架构,将其结合到电网领域当中,可以有效地解决电力大数据的读取速率慢、访问时延大等问题。目前有不少的学者对HDFS读取过程策略进行了相关的研究。陈佳[4]通过将灰色优势分析应用于HDFS系统中,根据用户的历史访问数据的规律来预测下一次的被访问到数据节点,从而有效提高了数据的访问速率。李强等[5]通过分析HDFS数据的存取与读取的过程,提出一种基于HDFS的数据随机访问策略。通过在数据节点添加本地数据访问接口,为数据块添加了管理权限,提升了数据的读与写的性能。

本文通过详细分析HDFS文件的读流程,在HDFS读策略的基础上进行优化,综合候选数据节点的多个指标,评判出候选节点群最优的数据节点进行读取数据,可以有效提高数据的访问速率,也提升了系统的服务性能。

1 HDFS读过程

在HDFS中,客户端访问HDFS文件主要有以下几个步骤,具体如下。

(1)客户端发送读数据请求,打开HDFS文件系统:客户端首选调用open方法来打开HDFS文件系统,通过RPC协议远程调用Namenode节点并进行交互得到所有数据块所在的Datanode节点信息。

(2)通过调用get Block Locations方法获取访问数据的起始数据的所有数据节点位置信息,名字节点返回来的数据节点队列是以数据节点与客户端距离远近进行排序。

(3)客户端通过调用read方法从步骤2选出的Data node节点进行读数据,Data node里面的数据块通过以数据包(packet)形式通过数据流管道传输到客户端上,当发送数据包的总大小达到一个数据块时,接着继续调用文件剩下的数据块。

(4)当客户端成功的读取文件所有数据块后,调用clo se方法关闭数据流,整个数据的读流程结束。HDFS读流程如图1所示。

2 一种面向用电数据的HDFS数据读取策略

分析HDFS读取原理可知,HDFS在选择数据节点进行读取数据时,只考虑了数据节点离客户端距离远近,这易造成离客户端近的数据节点出现热点问题,造成网络拥塞。因此本文提出的策略基于候选节点的网络距离(D)、带宽利用率(Bu)及CPU使用率(Cu),从而选出性能最优的节点进行访问。

首先定义评价值P,代表每个节点的性能。其详细定义如式1下:

P= αD+βBu+γCu

(1)

其中α,β,γ分别是网络距离、带宽利用率及CPU使用率的权值因子,α,β,γ的取值由各个因子的偏重程度决定,偏重程度越高的对应的权值因子就越大,且α+β+γ=1。从式1可知,当P值越大时,说明对应该数据节点的性能就越好,从而提供的数据读取效率就越高。

3 测试与分析

在本次实验当中,取出一个文件,对它采取不同的访问量进行测试其相应的响应时间,响应时间越快,说明访问的速度越快。在本次实验当中,采取的访问次数分别为30,40,50,60,70,80,并统计出其平均响应时间,并和HDFS原策略进行对比,对比效果如图2所示。

从图2可看出,文件的访问量在较小时,两种策略下的响应时间差异性不是很大,但随着该文件的访问量不断加大时,本文提出策略的响应时间快于HDFS原读取策略。这是因为HDFS原读取策略只考虑距离的原因,离客户端越近的数据节点在数据传输的时候易出现拥塞,造成了数据延时,而本文策略综合考虑节点的离客户端的距离、带宽利用率和CPU使用率,选出最优的节点进行读取数据,从而提升了数据的访问效率。

4 结语

本文策略以选取节点的离客户端的距离、带宽利用率和CPU使用率为评判因子,通过评判函数评判出每个节点的评判值,通过评判值选出性能最优的数据节点进行读取数据。研究表明,该策略有效提升了数据的访问速率,提升了系统的服务性能。

[参考文献]

[1]张沛,杨华飞,许元斌.电力大数据及其在电网公司的应用[J].中国电机工程学报,2014( Sl):85-92.

[2]宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J]电网技术,2013 (4):927-935.

[3]胡江溢,祝恩国,杜新纲,等用电信息采集系统应用现状及发展趋势[J].电力系统自动化,2014(2):131-135.

[4]陈佳.基于灰色优势分析的HDFS数据读取方法方案设计[J].电脑迷,2017 (4):165-166.

[5]李强,孙震宇,孙功星.一种面向HDFS的数据随机访问方法[J]计算机工程与应用,2017 (10):1-7.

猜你喜欢

智能电网
美国与中国智能电网的发展模式比较与分析
智能电网大数据处理技术现状与挑战
智能电网中光纤通信系统的可靠性分析
智能电网现状与发展分析