基于风电场功率预测的数据价值研究
2023-06-15徐博涵
赵 越, 徐博涵, 王 聪, 高 锋, 宋 洁
(1.北京大学 工学院,北京 100871;2.首都经济贸易大学 统计学院,北京 100070;3.北京大学 光华管理学院,北京 100871)
1 引言
在国际上对节能减排日益重视的形势下,风力发电作为一种新能源发电技术,因其资源丰富、污染小等特点备受瞩目[1]。为了促进风电产业持续健康发展,国家能源局于2016年11月印发了《风电发展“十三五”规划》,在规划中提到,随着世界各国对能源安全问题日益重视,加快发展风电已成为国际社会推动能源转型发展、应对全球气候变化的普遍共识和一致行动。
电力系统数据量庞大,是数据分析与应用的重要场景。风电相关数据常以时间序列的形式存在,通常将风速或风电的历史数据与地理位置、气象数据、机组参数整合分析。在风能资源评估场景中,有研究基于不同时刻风速数据,通过数值模拟降低保真度较低数据带来的影响[2,3],分析南海风能资源时空分布特征。在机组参数优化场景中,研究通过影响因子法筛选对参数影响较大的模态[4],确定参数优选范围。在风电预测场景中,研究使用K-means、DBSCAN等聚类方法检测异常值、清洗数据[5]。上述研究都剔除了数据离群值,减少异常值对模型效果的影响,得到了显著成效。由此看来,数据质量(价值)的提升是在应用中所需要的,针对数据价值的研究对模型效果的提升有着重要意义。但上述工作没有把数据价值估算作为一种常态化机制,未从数据点的贡献角度审视数据,存在遗漏重要数据点的可能性。并且海量数据中存在大量数据质量较低的部分,评估数据价值,根据数据重要程度高效选取数据有助于提高计算效率与预测精度。
为研究风电系统中数据价值,利用数据实现更精准的分析,本文以风电功率预测这一场景为例。考虑到电力的实时供需平衡和避免浪费等要求,预判能源的供应成为了必不可少的环节,准确预测风电功率能够保证电网各个方面安全平稳的运行,改善风电企业的经济效益。由于风电系统受风速、地形、气压、风机运行状况等诸多不确定因素的影响,风电功率通常呈现非平稳性和随机性[6]。现有的时间序列、机器学习,深度学习方法还无法实现对风力发电预测的精准预测。例如,Nfaoui等[7]利用ARMA对实际风电场出力预测的平均误差为21.5%。丁志勇等[8]通过聚类和SVM模型进行预测,预测精度为83.96%。Zang等[9]利用遗传算法优化长短期记忆网络(LSTM)参数,准确率最高为87%。
电力系统数据资源极为丰富,蕴含着巨大的商业价值和支持科学决策的信息[10,11],对数据价值的评估也尤为重要。数据交易与数据资产流通机制的建立,为综合利用多方数据进行更为细粒度的预测提供了便捷条件[12]。然而,数据较于传统要素具有非排他、非竞争等特性,导致目前数据价值评估尚没有形成统一范式[13]。目前经济学中的数据价值评估方法主要有成本法、市场法、收入法[14]。成本法通常低估数据价值[15];而数据市场建设尚不完善为市场法评估带来了困难,一些学者通过设计数据交易市场框架,探索数据市场中的均衡价格对数据定价[16,17],这一类方法多会忽视数据本身的信息属性。
收入视角是数据价值评估的重要思路:即加总全部收益中数据资产贡献的现金流。由于从实际场景中拆分数据的回报较为困难,众多学者选择从数据挖掘角度,拆分数据的作用。例如,在供应链场景下,评估有无数据对报童模型优化结果的影响,量化数据的贡献[18,19];在医疗场景中,利用贝叶斯框架计算数据为决策目标减少的不确定性,如完全信息价值(expectedvaluewithperfectinformation,EVPPI)等指标,据此平衡数据获取的成本与收益辅助决策[20,21]。能源系统数据资源丰富,获取成本低,更重要的是探索系统内哪些数据在任务中更加重要。沙普利值(Shapleyvalue)是由诺贝尔经济学奖得主劳埃德·沙普利[22]提出,是合作博弈论中经典的收益分配方法,其满足了现实收益分配场景中一系列公平性原则,被用于评估平台为多个利益相关者分配数据价值的应用[23]。有些学者指出在机器学习模型中,沙普利值的计算需要指数级别的时间[24]。为了应对计算复杂度过大的挑战,一些学者提出了近似计算沙普利值的算法,例如k-近邻近似沙普利值、蒙特卡洛近似沙普利值[25,26]。在机器学习的基础上,一些学者提出使用强化学习(DVRL)进行数据评估,使用数据值估计器(DVE)计算数据点在模型训练中使用的可能性,与预测器模型一起自适应地学习数据值[27]。然而,数据价值研究多基于理论与算法设计,与实际场景结合较少,在风电预测领域尚缺乏与数据实际价值结合的有效预测方法。
现有电力预测研究对数据的价值挖掘较少,没有通过数据对预测工作带来的经济效益进行量化研究。本文基于数据—预测—决策—收益的框架,将系统中的实际收益与模型预测精度挂钩,从而对数据的贡献——其价值有更准确的估计。具体而言,首先,本文构建了考虑多种数据的风电功率预测模型,然后使用沙普利值对发电功率预测场景下的数据价值进行评估。其次,本文将从特征与样本点两个维度分析风电历史数据的价值,并根据高/低价值数据分析各自数据特点,为事前的数据价值提供参考。进一步,本文使用数值实验分析去除和添加不同价值数据对模型的影响,提出一种基于价值函数计算数据价值的框架,作为一项启发性研究,本文可以为电力系统中的数据收集与动态管理提供策略参考。
2 预测—价值评估模型设计
2.1 问题描述
风电场的经济收益与调度计划息息相关,调度计划取决于对次日发电功率预测的准确率和误差,影响当天电力市场的出清。因此,本文对日前功率预测与接下来的经济收益建立模型,表1展示了本文使用的变量列表。具体地,设t∈{0,1,…}为日期,h∈{0,1,2,…,23}为小时,电力系统在t日h时的风力发电功率为Pt,h。电力系统在第t天预测t+1天各小时风力发电功率,设预测值为P^t+1,h,h=0,1,…,23。假设需求相对稳定,若预测发电功率大于实际,即电力供给不足,需要通过额外调度风电和火力发电保证电量供给。设火电发电每千瓦成本为w,针对额外调度的情况设定惩罚系数k,则预测不足情况下总成本可表示为(1+k)w。若预测发电功率小于实际:该时刻风电处于过剩状态,此时火力发电机组根据预测值进行了额外发电,其成本为w。假设风电场每单位供电能获得的收益为r,本文给出风电场每日的收益为
表1 参数说明
2.2 风电功率预测
本文构建以长短时记忆网络(LSTM)为主体的神经网络预测短期风电输出。该网络由多个记忆存储单元连接而成,其对时间序列数据的处理过程如(2)~(7)式所示。LSTM 的主存储单元基于输入的风电序列[Pt-7,h,Pt-3,h,Pt-2,h,Pt-1,h]、上一单元的隐藏层输出Ht-1、输入权重w,以及偏置b。通过输入门it了解当前网络状态,通过遗忘门ft记忆序列的重要信息,最终利用输出门oi更新单元中的信息,得到当天风电预测数据
在建立多输入—多输出模型时,选取LSTM 作为主体,在此基础上将气象数据与风电数据输入不同的结构中进行处理,模型结构如图1所示。首先将历史风电功率(历史3天数据与一周前数据)输入LSTM 层,抽取时间序列数据特征,再将LSTM层的输出与气象数据一起输入全连接层,经过计算输出未来24小时的预测结果。
图1 改进的LSTM模型
2.3 价值评估
沙普利值为了解决公平分配合作博弈得到的收益的理论[26]。沙普利值计算每位参与者的边际收益均值决定各个参与者的合作贡献
其中S为全集,n=|S|,i∈S,v是合作博弈的效用函数,代表合作的收益,φz(v)表示元素z在效用函数v定义下的贡献,也就是元素z的沙普利值。在数据挖掘场景中,v一般为模型目标函数或准确率,φz(v)则为每个数据点对挖掘任务的贡献。沙普利值具备完备、公平、可加性等特性,适合在数据—模型—价值链条中拆分各个数据或特征的贡献。
针对风电场预测场景,电力系统的收益与预测误差高度相关,本文选取Rt-R*t作为效用函数v,即
数据沙普利值的计算复杂度较高,并且算例中数据集规模较大,每一次计算“边际效用”v(D)-v(D/{i})都需重新训练模型,精确计算需要消耗大量计算资源。因此,本文采取沙普利值近似算法:截断蒙特卡洛沙普利值法(truncatedmonte carloShapley,TMC-Shapley)估计价值[24]。该算法利用随机排序抽样估算每个数据点的边际贡献,当部分数据集的效用函数接近完整模型时,就停止该序列的边际贡献计算,进入下一次序列循环,从而节约计算成本。
3 算例分析
本节使用2017—2018年风电场发电功率数据建立功率预测模型,并使用沙普利值方法分别评估该场景下的数据样本与特征的价值,进一步利用数值实验验证本文所选取数据价值评估方法的合理性,然后结合电力系统实际提出一个数据管理框架,以改善数据使用效率。
3.1 数据概述
本文数据包括来自欧洲的哥白尼气候数据库(ERA5),为无线电探测的气象现场数据,采样间隔为12小时,以及2017年与2018年中国各省风电发电量数据,共17520个数据点,采样间隔为1小时。风速等气象数据是影响风力发电的主要因素,因此本文将星期、历史气象数据(气压、温度、风向、风速、风速南北方向分量)、前3天和一周前的历史发电功率,总计共103个特征作为模型输入,未来24小时的风电功率作为模型输出。为了防止不同量纲对预测精度的影响,本文对数据进行归一化处理。按照8∶2的比例划分训练集和测试集。
3.2 预测精度与收益
为了评估所提模型性能,本文将该模型与普通的LSTM模型、随机森林(RF)和极限梯度提升树(XGB)进行比较。同时采用均方误差(MSE)、平均绝对误差(MAE)分析模型的误差,采用相关系数(cor)、拟合优度(R2)分析模型的精确度。各评价指标的计算公式如下
其中M表示样本数量,表示第t天h小时的预测值,Pt,h表示第t天h小时的真实值。本文对数据集中的10个省份进行预测。为保证模型结果的鲁棒性,本文选取40个随机种子进行重复实验,比较各模型在所有数据集上的表现,计算每个模型评价指标的均值等统计量。如表2所示,本文提出的改进的LSTM模型拟合优度和相关系数最高,MSE和MAE最小,说明本文所构建的模型具有较好的预测效果和稳健性。
表2 各省模型预测效果
为证明结果具备统计意义的显著性,对实验结果进行弗里德曼(Friedman)检验。设立原假设为不同模型的效果无显著差异,显著性水平α=0.05,对四种模型和各项平均值进行检验,得到χ2值和p值,如表2最后两列所示。对于每一个评价指标,四种模型呈现出显著性(p<0.01),因此拒绝原假设,意味着模型效果之间呈现统计意义上的差异,说明改进的LSTM模型结果在统计意义上是较优的。
所有省份中,辽宁、吉林、新疆、云南四个地区效果最好,其拟合优度、相关性都处于0.90以上,预测误差都处于0.1以下。湖北、江西、内蒙古、山西四个地区的拟合优度和相关性集中在[0.76,0.90]区间内,预测误差在[0.1,0.5]范围内。陕西的预测准确率最低仅达到0.58。西藏与其他地区相反,随机森林和XGBoost模型取得了较好的结果,LSTM模型的准确率较低。
进一步,本文针对预测误差与收益进行分析。根据公式(1),结合实际情况计算每日的误差和收益。根据当年风电上网价格与成本确定收益r为367.08元/千瓦,火力发电运行成本w为287.30元/千瓦,惩罚系数k为0.1。
以2018年新疆为例,比较绝对误差与收益的关系。如图2展示了部分数据点,预测误差与收益和成本的变化情况,发现随着|ΔPt+1,h|的减小,收益总体呈上升趋势,成本逐渐减小。证明了预测误差小、精确度高的日前预测,能够增加风电场的收益,对其运营调度产生积极作用。
图2 预测误差与电力系统成本与收益
本文希望打通数据—模型—价值这一链条,对不同数据的价值进行评估,从而得出在数据中重要的样本或特征。由于各省数据分布、预测模型均不同,需要分别进行评估。本文选取新疆与辽宁两省作为实例评估数据价值,两个省份模型表现较好,且新疆作为风电大省代表西部的内陆城市,辽宁作为东部省份的代表。由于精确计算沙普利值复杂度非常高,本文采用TMC-Shapley方法[26],使用随机重抽样的方式估算各点沙普利值。
3.3 特征的数据价值
本部分将使用沙普利值量化电力系统的数据价值,评估在预测任务中重要性较高的特征。同时本文选取信息熵(香农熵)这一经典统计量作为数据价值衡量的另一个角度,与沙普利值进行对比。在实验中计算不同特征的沙普利值和Kozachenko和Leonenko[28]提出的估算连续特征信息熵。为了结果的真实性,每个特征至少随机抽样3000次,并将计算结果分别Z-score标准化以便于对比。辽宁和新疆两省数据的计算结果如图3所示。
图3 不同数据特征的价值评估
图3 中分别列出两个数据集中不同衡量特征价值的方法比较。横轴为预测模型使用的特征从左到右可分为5个部分:天气特征(weather)、一周前发电功率数据(day-6)、近3天发电功率数据(day-2,1,0),纵轴为数据特征价值。如图所示,信息熵反映出数据一定的周期性,约为24小时,发电功率的波动具有相似性,且天气数据的价值比较低;而使用沙普利值衡量的结果中,接近预测时间节点的历史数据价值较高,较为久远的历史数据价值在0附近波动,天气特征的数据价值同样偏低。本文认为一方面是单一天气站的数据较为片面,难以体现全省风力状况,且天气采样时间粒度为12小时,对小时级的预测任务贡献不足。
进一步,本文根据特征数据价值从高到低的顺序逐步向模型中加入特征,观察模型效果变化。如图4所示,纵轴为电力系统收益损失R*t-Rt,横轴为按顺序加入模型的特征个数。可以看出根据沙普利值(shap)顺序加入特征的模型表现强于随机(random)、熵值(entropy)顺序。对比沙普利值与信息熵两种方法,沙普利值根据效用函数的边际贡献计算,受模型影响较大,其高价值特征表现更好。在实践中,沙普利计算复杂度较高,但能有效提升数据挖掘任务效果,更适用于目的明确的数据特征选择;而信息熵计算便捷,适合在事前描述数据特征的分散程度,辅助任务不明确的数据评估。
图4 依次加入特征模型的效果比较
3.4 数据点的数据价值
对特征维度的数据价值进行分析后,本部分重点考察数据点的沙普利值。在风电预测场景下,本文使用TMC-Shapley算法给出参与训练模型样本点的数据价值,采取与特征价值相同的方法估算沙普利值,并使用Z-score方法进行标准化。
为了能直观地展示“低价值”与“高价值”数据的特点,便于“事前”(规避训练模型)筛选出高/低价值数据,方便电力系统的管理。图5展示了数据价值处于分布两极的数据点,左图为低价值数据,右图为高价值数据。发现低价值数据在待预测时间点前存在比较突然的趋势转折,而这一趋势转折很可能是LSTM模型无法捕捉的部分,但这部分数据所体现的特征并不典型,即无法反应数据上风电场功率大部分时间内的变化特点,对模型造成了干扰,这也是其价值较低的原因。而高价值数据则较为“平缓”,能够对模型预测起到积极作用,帮助模型学习相对可预测的未来趋势。
图5 高/低价值时间序列数据比较
类似特征,利用这一顺序,本文同样选取新疆与辽宁的数据,将低价值数据从数据集中按顺序去除,观察模型的表现变化,实验结果如图6所示,其中横轴为模型已经移除数据的比例,纵轴为模型预测导致的电力系统收益损失R*t-Rt。
图6 依次去除低价值数据点的模型效果比较
对于三种不同的数据去除顺序,在依照沙普利值去除低价值数据后,模型的效果反而能够得到提升。与之相反,信息熵顺序在这一实验中的表现较差,原因可能为信息熵衡量的是“单一数据的信息量”,虽然数据的信息量大,但其信息可能与最终的预测任务不相关,因此不能对最后的预测任务做出正面贡献。
为验证沙普利值的有效性,利用辽宁、新疆数据的训练集验证沙普利值的噪声数据检测效果。通过随机挑选20%数据,对y施加服从标准正态的白噪声计算沙普利值识别噪声数据,如图7所示,根据计算出的沙普利值由低到高去除数据,在去除数据的比例中,噪声数据比例显著高于随机顺序的数据,由此说明沙普利值方法的有效性。
图7 利用沙普利值识别噪声数据
利用沙普利值的上述性质,电力系统可以对数据在使用之前进行初步“筛选”,保留“高价值”数据集,从而达到更高计算效率与精度。此外,沙普利值中的低价值数据可视作数据集中含有“噪声”的数据,该噪声并非人为添加,而是系统实际运行中的离群点,在数据挖掘中应将其去除。
3.5 电力系统中的数据管理机制设计
在电力系统中数据积累迅速,但数据的使用并非多多益善,从上文算例可以看出,部分低效数据会对模型造成负面影响。因此,有效管理系统内数据能够提升数字化驱动模式的运行效率,更高效释放数据中的价值。而具体到电力系统,结合数据价值与数据实时更新的特点,本文给出如图8所示的高价值数据管理框架。
图8 电力系统高价值数据管理框架
该框架可以使电力系统维护一个数据量较少的高价值数据集,该数据集以提高系统中的数据驱动任务为目标,并能保证数据的实效性,避免使用全量数据,降低数据计算成本。如上述流程图所示,该框架考量离散时间下的数据更新,下面所属期限以天为周期,具体步骤如下:
在T期时:
(1)系统拥有上一期留存的高价值数据集合(T期高价值数据),若为初始阶段,无高价值数据积累,可以视为空集。
(2)系统根据上述高价值数据进行电力系统所需要的数据挖掘与分析,比如在本文中,使用高价值数据建立功率预测模型,预测T期风电场发电功率,降低平衡供需所付出的额外成本。
(3)系统根据事前功率预测结果完成T期供电与调度任务,获得系统第T期的数据。
(4)将T期数据与上一期留存高价值数据混合。评估混合数据的价值,确定效用函数,利用数据沙普利值算法或其他方法评估价值,截取价值较高数据点积累本期高价值数据。
在步骤(4)中,并未说明保留数据的最优比例,实践中可采取如图6所示数值实验确定最优数据保留比例。根据沙普利值顺序依次去除低价值数据使效用损失先降低后增加,可以根据曲线中的最低点选择高价值数据集的大小。此外,价值评估模块中使用的方法并不局限于沙普利值,价值函数与模型预测也可针对不同场景进行迁移,能够适应不同的应用场景。沙普利值在实际使用时,需要重复计算模型、且高度依赖当前数据集分布、无法泛化到不同的数据集。针对这一不足,本文提出几点改进思路:
(1)分析算法使用模型结构,尝试使用不需要计算模型的函数近似原有的效用函数V,降低计算复杂度[29]。
(2)建立数据与其沙普利值的机器学习模型,使沙普利值本身具有泛化能力[30]。
(3)在(2)的基础上,考虑数据分布的差异,采用迁移学习的思想,将沙普利值泛化到不同分布的数据集中[31]。
4 结论与启示
电力系统作为重要的数据提供者与应用者,有效评估系统中的数据价值有助于数据的高效利用与数据融通。本文基于各个省份的风力发电功率历史数据建立各省的24小时风电场发电功率多输入—多输出预测模型,取得了良好的预测效果。进一步,结合电力系统背景,建立数据—模型—收益的链路联系;使用TMC沙普利值方法评估电力系统的特征与数据价值,并通过实验证明其有效性,提出了一种能够在预测场景中确定数据价值的理论框架,且该框架能够迁移到其他场景下。在电力系统预测场景下的实验表明该框架能够剔除低价值数据/特征有助于提升模型表现,降低计算成本。
随着全球数字化转型不断推进,数据在推动经济增长中起到的作用也将愈发明显。电力系统拥有海量数据,数据管理是其关心的重要问题,本文在电力系统中对数据价值进行了有效评估,使数据价值评估方式的具体应用落地。本文通过数值实验发现在功率预测场景下,将数据估值方式应用到场景中,适当对数据进行动态筛选和更新,能令电力系统维护一个较为高价值的“数据集”,节约数据的储存、管理、计算成本,提升数据使用效率。此外,高/低价值数据虽仍属于事后价值评价方法,但能从评估结果中提炼高/低价值数据的特点,对事前数据价值评估进行指导。在算例研究中,“平缓”可能为数据高价值的因素。在其他情况下,不同的数据类型与任务可能使数据的“高价值”特征不同,比如:回归任务中因变量与自变量相关性更强的数据;图片识别场景下更清晰的图片;分类任务中更接近分类超平面的数据。总体而言,高价值数据点通常更能体现模型挖掘的知识。而且,通过建立数据点与其价值的预测模型也能进一步寻找数据的价值规律,有助于将评估事前价值、数据价值评估泛化。本文在3.5节中给出数据价值评估驱动下的电力系统数据管理机制设计,将数据估值与挖掘进行有机结合,为电力系统中的数据治理提供了新的思路。