用机器学习算法研究风电机组功率曲线问题
2018-12-18北京拾易技术有限公司冯雅皓安熠然林晨
北京拾易技术有限公司 冯雅皓 安熠然 林晨
机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
当前,机器学习已经在数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人方面得到十分广泛的应用。本文主要分享机器学习在风电机组功率曲线研究和数据挖掘方面的一些成果。
1 构建机器学习系统
首先简单描述我们机器学习系统的基本结构。通过输入接口向系统的学习部分提供功率曲线研究所需相关数据,学习部分利用这些数据修改知识库,以增进系统执行部分完成任务的效能,执行部分根据知识库完成任务并输出结果数据,同时把获得的数据反馈给学习部分。
在具体的应用中,输入接口、知识库和执行部分决定了具体的工作内容,学习部分所需要解决的问题完全由上述3部分确定。机器学习的过程就是实践、认识、再实践、再认识的一个循环往复的过程。机器学习系统就是一个神经网络,同时它也是一个神经元。
图1
图2
由于机器学习系统获得的数据是不完全的,所以学习系统所进行的推理并不完全是可靠的,它总结出来的规则可能正确,也可能不正确。这要通过执行效果加以检验,正确的规则能使系统的效能提高,应予保留;不正确的规则应予修改或从数据库中删除。我们投入了大量的精力在检验执行效果方面,不断调整、增加和删除设定的规则,最终得到了预期的效果。
图3
图4
图5
图6
图7
2 研究过程与发现
此项研究历时三年,机器学习系统利用数千台风电机组的海量数据,经过无数次的学习,不断调整、增加和删除之前设定的规则,同时还有效避免了由于过度学习造成效果偏差的问题。
在此项研究过程中,发现我国风电机组功率曲线方面普遍存在以下特征:由SCADA系统采集的风速数据普遍存在修正过度问题,初步统计在70%以上;由SCADA系统采集的有功功率数据基本符合实际;制造商提供的投标功率曲线数据在额定风速的确定方面差异很大,普遍存在偏离理论值较多问题,初步统计70%左右存在较大偏差;80%左右机组在实际运行中存在超铭牌现象,一般在2~4%,个别机组达到10%以上。
3 特征分析
下面在系统海量数据中随机提取部分功率曲线散点图分析其主要特征。
图一主要特征:风速数据未过度修正;额定风速稍有未偏离理论值;实际运行有超铭牌出力现象,超出6.7%左右;存在大量限负荷运行状态。
图二主要特征:风速数据过度修正,最大值2.5米左右;额定风速基本未偏离理论值;实际运行未达到铭牌出力,低3%左右;存在较多限负荷运行状态。
图三主要特征:风速数据过度修正,最大值1米左右;额定风速严重偏离理论值1米以上;实际运行中超铭牌3%左右;存在大量的停机和限负荷运行状态。
图四主要特征:风速数据未过度修正;额定风速稍有偏离理论值,不是特别严重;实际运行中超铭牌5%左右;几乎没有停机和限负荷运行状态。
图五主要特征:风速数据过度修正,最大值1米左右;额定风速稍有偏离理论值,不是特别严重;实际运行中不存在超铭牌现象;有少量停机状态。
图六主要特征:风速数据未过度修正;额定风速稍有偏离理论值,不是特别严重;实际运行中超铭牌4%左右;几乎没有停机和限负荷运行状态。
图七主要特征:风速数据过度修正,最大值1.5米以上;额定风速稍有偏离理论值,不是特别严重;实际运行中超铭牌2%左右;有少量停机状态。
图八主要特征:风速数据过度修正,最大值2米左右;额定风速稍有偏离理论值,不是特别严重;实际运行中不存在超铭牌现象;几乎没有停机状态,有大量限负荷运行状态。
图九主要特征:风速数据未过度修正,最大值0.5米以内;额定风速几乎没有偏离理论值;实际运行中存在较小的超铭牌现象;几乎没有停机和限负荷运行状态。
图十主要特征:风速数据过度反向修正,最大值2米左右;额定风速没有严重偏离理论值;实际运行中存在较小的超铭牌现象,2%左右;存在部分停机和限负荷状态。
图十一主要特征:风速数据未过度反向修正;额定风速没有严重偏离理论值;实际运行中存在严重超铭牌现象,最大值超过15%;存在部分停机和限负荷状态。
图8
图9
4 初步结论
根据上述功率曲线散点图的主要特征,可以得出如下初步结论:制造商提供的功率曲线额定风速偏离理论值较大的问题,造成理论与实际的巨大偏差,给功率曲线理论研究工作带来困难,此项研究有效解决了这一难题;风电机组风速数据过度修正和超铭牌运行现象严重,初步分析,认为是风电机组制造商为了满足用户考核要求采取的补救措施。同时,这种现象的严重程度侧面反映出我国风电机组制造水平有待进一步提高。
图10
图11
之所以说是初步结论,是由于以上结论是基于数千台风电机组部分时间段数据得到的,面对我国11万台风电机组的规模,还需要大量的研究和验证工作,以便得出更可靠的结论。但是,此项研究的的客观性和科学性是毋庸置疑的,机器学习算法确实在此项研究过程中发挥了巨大的威力,帮助我们发现了一些重要的规律和结论,从另一个侧面看清了我国风电行业发展的现状和存在的问题,能够在风电机组的制造和运维方面提供一些进一步改进的方法和思路。