APP下载

电气及基于MCMC的微网风电数据缺失填补方法研究

2021-04-25王新生李惠蓉

电气技术与经济 2021年2期
关键词:马尔可夫后验微网

王新生 李惠蓉

(国家风电设备质量监督检验中心)

0 引言

近年来,全球能源问题日益严重,以风电、太阳能等新能源为主的微电网的发展在世界各国受到重视。微电网是一种局部电力系统,是智能电网的重要组成部分,它在运行时会记录大量数据。随着技术发展,大数据时代已经到来,这些数据是微电网运行和控制的宝贵资源,对于分析发电设备状态、预测发电功率、提供控制和优化策略、故障诊断以及知识发现和数据挖掘具有重要的意义[1]。微电网系统数据挖掘,已经逐渐运用于解决各种实际生产应用中所遇到的问题。

然而,由于受到各种因素的影响,经常会出现数据的缺失现象。风力发电系统是微电网中的一个主要构成部分,因为风速变化难以预测、设备维护困难,易发生故障以及其他原因,在进行相关数据的采集、传输、存储的过程中,会遇到数据缺失的问题。这将增加研究人员分析微电网数据的难度,降低分析结果的精度,给微电网的预测和优化带来负面影响,严重降低了数据的实际价值[2-3]。所以,从大量数据中挖掘微电网系统优化运行等策略,采用合理的方法对缺失数据进行填补就显得非常重要。

传统补缺方法有均值填补法、热卡填充法、回归插补法。这些方法虽然计算简单,但当数据的缺失量增大或者数据波动幅度明显时,填补的效果就会显著降低。近年来,国内外学者在传统方法上又研究了机器学习方法和统计学习方法等。这些方法在填补的精度上有了很大的提高[4-7]。

针对微网中存在的数据缺失问题,综观已有的填补方法,多重填补方法精度相对要高。本文旨在将多重填补方法应用到微网系统风电数据的缺失填补中,针对风电数据的特征,分析不同方法对填补精度的影响,并加以比较,找出最佳的方法。

1 风电数据问题描述与特征

全球能源需求日益增长,不可再生能源存量日益减少,并且人们对化石燃料的滥用对环境造成了严重影响。这就迫切要求人们开发以风能、太阳能等为主力的新能源,在解决能源危机的同时减少对环境的污染,具有重要意义。智能电表和SCADA等传感器在各种发电用电系统中,承担着实时监控的任务[8]。然而因为风力资源存在不连续、难预测的特点,且设备维护困难,易发生故障以及其他原因,在进行相关数据的采集、传输、存储的过程中,会遇到数据缺失的问题。这给数据挖掘和分析带来了极大的负面影响[9]。

风力发电数据缺失为随机缺失(MAR),风力发电需要考量的条件有风速、风向、地理位置等,其中风速是风力发电的主要影响因素。如图1所示是某风电场10天中的风速与发电功率的变化趋势。可以看出,风速虽然有很强的随机性,但它仍然是时间序列上的一系列值,并且风速和发电功率有着密切的关系。

图1 风电场10天内发电功率变化趋势

另外,数据的缺失模式分为两种,单调缺失模式和任意缺失模式。单调缺失是指矩阵数列中,某行元素缺失yi时,这一列中任意元素yp(P≥i)也是缺失的。任意缺失模式中数据缺失具有随意性,没有任何规律可循,即使通过行列变换也没法看出任何规律。风能发电系统数据的缺失受不可控因素的影响,缺失数据没有规律,属于任意缺失模式。

2 基于MCMC的风电数据填补方法

多重填补方法在1987年由Rubin最早提出,随后,该方法一直在不断的发展。在数据随机缺失时,用至少两个能体现本身概率分布的数值,对缺失进行填补。该方法并不是对每个缺失进行逐一填补,而是为其构造m(m>1)个填补值,能够体现缺失的不确定性,一共会有m个完整数据合集。分析完整数据集,对这些数据集分别进行统计和分析。最后将所有结果综合分析推理,得到目标变量。

常用的多重填补方法有以下几种:马尔可夫蒙特卡罗(MCMC)、回归法、预测均数匹配,logistic回归法。结合实际数据分析结果,本文采用马尔可夫蒙特卡罗(MCMC)算法。MCMC最早应用于物理学中研究相互作用分子的分布。在统计学中,可以生成概率分布。马尔可夫链由随机变量组成,每一个值决定后一个元素的分布[11]。MCMC能够在数据随机缺失时,用至少两个反映本身概率分布的值进行缺失填补,为其构造m(m>1)个填补值,产生m个完整数据合集。分析完整数据集,对这些数据集分别进行统计和分析。最后将所有结果综合分析推理,得到目标变量。

MCMC基于贝叶斯理论,用探索后验分布法填补,如式(1):

Schafer在1997年将其应用于多重填补中。MCMC填补假设数据服从正态分布,用于任意缺失模式的连续型变量。该法建模灵活性高,适用性强,能分析模型中所有参数和函数。

MCMC法进行风电系统数据填补步骤如下[12]:

第一步:初值计算。计算现有风电观测数据均值向量μ和协方差矩阵∑,用于估计参数的后验分布。

第二步:数据填补(I-Step)。根据风电数据的初值计算得到的均值向量μ和协方差矩阵∑,从观测变量Yobs的条件分布P(Ymis|Yobs,θ(t))中得到缺失值

第三步:后验(P-Step)。根据所得缺失值构造完整的风电数据集,模拟后验均值向量和协方差矩阵,计算新的估计值,进行下一次填补。不断重复第二步、第三步,直到结果对MI数据集有效。步骤相互迭代产生马尔可夫链当K足够大时,马尔可夫链收敛到分布P(Ymis|Yobs,θ(t)),并且得到邻近的、相互独立的填补值[13]。MCMC填补的过程如图2所示。

图2 MCMC填补流程图

3 仿真结果与分析

实验数据来自某风电场连续10天的风速及出力数据,采样间隔15min,共有960组数据。由于数据一般为随机缺失,将随机设定数据缺失的位置,数据缺失率即为缺失点个数与数据段总长度的比值。

本文选取归一化均方根误差(Normalized Root Meat Square Error,NRMSE)作为评价指标,具体公式如下:

式中,n为填补点个数;Yi为填补值;Y为实际值。

为了验证MCMC对于数据填补的可行性,本文选取回归填补法、预测均数匹配、Logistic回归三种方法进行对比。为了保证对比的客观性,分别对数据处理产生随机缺失,缺失率为10%,20%,30%,40%和50%。使用MCMC,FCS-logist,FCS-regpmm,FCS-regression对五种缺失数据填补,根据填补值和原始值,计算得到NRSME,进行评定。

四种方法对五种缺失比例数据填补后的NRSME如下表所示,折线图如图3所示。对于缺失比例为10%的数据,四种方法并无明显差距。随着缺失比例增大,填补效果随之降低,其中MCMC的效果最好。可以认为,MCMC是最适合风电数据填补的方法。

表 缺失比例不同时四种方法的归一化均方根误差

图3 缺失比例不同时四种方法的均方根误差

传统风电数据采集,在强调实时性和高效性的同时,忽略了数据质量这一因素,缺乏对数据的筛选和处理,这直接降低了存储数据的速度和质量,给二次开发带来困难。因此,采用数据分析对数据进行处理,填补缺值,能够有效提高其质量和利用价值。

实验结果表明,当数据缺失比例较小时,本文选取的四种方法填补效果相差无几。但是当数据缺失比例较大时,MCMC算法的效果明显优于其他算法。

4 结束语

本文针对微网系统风电数据采集过程中的数据缺失问题,采用MCMC提出了一种微网系统风电数据的填补算法。MCMC算法建模灵活性高,与Bayes理论的结合,通过后验分布能对缺失数据进行填补,并且通过对比实验,证明了该方法的填补效率较高,是一种有效且可行的微网系统风电数据填补法。

猜你喜欢

马尔可夫后验微网
基于对偶理论的椭圆变分不等式的后验误差分析(英)
贝叶斯统计中单参数后验分布的精确计算方法
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
多状态马尔可夫信道的时延分析
基于OMAP-L138的微网控制器设计
基于SOP的核电厂操纵员监视过程马尔可夫模型
应用马尔可夫链对品牌手机市场占有率进行预测
基于改进下垂法的微网并网控制策略研究
基于后验预测分布的贝叶斯模型评价及其在霍乱传染数据中的应用
用于微网逆变器并联的控制策略