新能源发电企业大数据中心提高数据采集质量的方法及其有效性分析
2022-02-06陈瑞
陈瑞
(大唐云南发电有限公司,云南 昆明 650000)
0 前言
中国承诺力争用全球历史上最短时间推进碳达峰至碳中和,重构安全高效、清洁低碳的能源体系势在必行。电力行业顺应政策要求,各大电力集团均在有序开展电力产业布局及发电结构调整方面,提出新举措并积极推进。其中,加大对风电、光伏产业的开发、投资及建设力度,是各发电企业的共识,也是目前各企业采取的基本措施。伴随各地政府发改委及能源机构的政策扶持及属地电网的支持,新能源项目快速落地并建成投产发电。风电、光伏等新能源发电生产形式属高度集成、高度自动化模式,较燃煤、燃气等发电企业,体现出了更高的技术密集性。操作及维护人员减少与新能源电力生产过程需要更高技术水平及业务能力的人员支撑,形成了当前生产过程中的主要矛盾。传统发电企业的的生产运营管理模式已不能满足当前集约高效、安全节能的要求,各发电企业均加大了对生产数据价值、人员效率及技术能力、生产管理效益的挖掘,集中资金让高技术能力的人集中干提高生产效率的事情,发电企业集团级新能源大数据中心孕育而生。
1 数据质量存在的突出问题及原因分析
随着新能源发电企业逐步推进“集中控制、无人值班、少人值守、区域运维”的生产管理模式,集团级大数据中心的数据价值挖掘能力也在逐渐显现。大数据中心在生产指挥体系里发挥作用的同时,数据中心的数据质量问题也在日渐凸显:电量考核指标失真、风机状态不准、故障停机统计有误、风速与功率数据不匹配等。造成大数据中心统计、分析出的数据结果不能正常指导发电企业对电力生产运营过程进行管控。直接反映出的问题是大数据中心的决策辅助数据失效,即数据有效性降低。下文将对电力生产数据从现场产生、采集、预处理、转发、通信、筛选、汇总、归类等过程分析造成数据有效性降低的原因。
衡量数据质量好坏的直接判定标准是数据是否有效,通常从5 方面考虑,一是数据的完整性、二是数据的连续性、三是数据的一致性、四是数据的合理性、五是数据的及时性。以下从5个方面,16个影响数据有效性因素展开分析。
1)数据完整性是考核采集的数据是否可以按照时间线,以时间为横轴在二维坐标系内形成完整的曲线,即曲线不中断。实际应用中,通信数据中断会造成电站SCADA 系统、集控中心主站系统、大数据中心系统采集数据为空值,直接导致数据完整性下降,这里归结为4 点:一是站内SCADA 系统宕机,导致数据采集、转发、存储服务失效,引起对外数据通信中断。二是重大节日或活动保电,部分区域电站需要断开公用通信通道专线,造成数据传输中断。三是电站远动机或网关通讯服务器故障,造成数据传输中断。四是站内风机主控系统通讯模块异常或通信介质(网线、光纤)断开造成数据中断。五是厂内控制系统监控电源跳闸后,备用电源切换失效,引起监控及通信设备失电造成数据中断。
2)数据连续性是考核采集数据是否可以按照时间线,以时间为横轴在二维坐标系内形成光滑的曲线,即曲线不突变。实际应用中,多种因素会破坏数据连续性,这里归结为3 点:一是电厂内的数据采集仪表或装置损坏,造成数据突变至最大量程或最小量程的限值输出。二是电厂内的监控下位系统更换数据采集I/O通道或改变数据通信网关服务器通信点表配置,造成上送数据点异位。三是厂内控制系统监控电源跳闸后,备用电源不能无扰切换,引起数据中断后自恢复,造成数据跳变。
3)数据一致性是考核数据的量纲是否统一,数据的原始值和各级系统采集值在以时间为横轴的二维坐标系内应形成两条完全重合的曲线,不存在等比例放大或缩小的情况,不存在数值取反的情况。实际应用中,一是由于现场控制级数据工程量程调整,未及时告知集控中心、新能源大数据中心同时变更,会导致数据放大或缩小,造成不一致。二是现场调整电能表(正接/反接)接线方式,未及时告知集控中心、大数据中心同时变更,造成数据负向累计。
4)数据合理性是考核数据是否超出初始设定阈值范围。一是数据超过了行业标准或规范定义的限值。例如:按照GB/T15945《电能质量电力系统频率允许偏差》,频率等级A 级≤±0.05 Hz,B 级≤±0.5 Hz,C 级≤±1 Hz,如果集控中心、大数据中心采集到的频率值超出50±1 Hz 范围,则判定该数值不合理,提示数据异常。二是数据超过了一个统计周期内的最大或最小有效限值。例如:风电企业统计一个月内某期风电场的平均风速,全月平均风速6.6 m/s,最大有效风速8.1 m/s,则其中单台风机平均风速超出全场平均风速2 倍,则提示数据异常。三是数据超过了主设备铭牌标记的额定值。例如:查询某风电场单台风机(型号MY2.0-121)功率曲线,在额定风速达12 m/s 时,风机可达额定出力2000 kW,单台风机未达额定风速且风机出力超额定值1.05 倍,则提示数据异常。
5)数据及时性是考核数据从生成到可以被系统调用或被运行人员监视到的时间间隔,也定义为数据延迟。数据延迟与数据采集和传输节点上的设备处理数据性能、数据传输需要跳转的路由及网关节点数量有关。实际应用中,多方面因素会造成数据延迟过大,一是数据通信过程中需要跳转的节点过多,造成数据延迟叠加放大。二是数据转发设备硬件性能不高,但需实时转发大量“四遥”测点,造成转发数据堆积,不能及时传输,造成出现死值(长期直线)情况。三是通信通道带宽过窄,引起数据积压,造成采集数据端数据库存储测值长期不变。
2 提高数据采集质量的方案
以下从5个方面,针对16个影响数据有效性的因素提出解决方案。
1)提高数据完整性方面
一是电站级、集控中心级、新能源大数据中心级均应开发数据断点续传功能,在发生通信中断后应有后备数据补采措施。二是重大节日或活动保电期间,区域电站提前向集控中心、大数据中心提交断开公用通信专线申请,保电结束时恢复通信专线后,应立即联系集控中心或大数据中心进行数据补采。三是电站应确保远动机或网关通讯服务器已进行冗余配置,并定期开展切换试验验证冗余功能正常。四是电站维护人员要对风机主控、偏航、变桨等系统通讯模块和通信介质定期开展巡检,确保通信线路可靠。
2)提升数据连续性方面
一是加强电站内的数据采集仪表或装置维护,出现设备异常及时修复。二是电站内的监控下位系统及SCADA 系统更换数据采集I/O 通道或改变数据通信网关服务器通信点表配置前,应提前向集控中心、大数据中心提交数据变更申请,确保现场级、集控级、集团大数据中心级点表的点数、点位、点序一致,避免上送数据点缺位、异位。三是站内要对控制系统关联设备做冗余配置,并确保监控系统电源切换不引起服务器、工作站、交换机等设备失压重启。
3)提高数据一致性方面
一是现场控制级由于更换测量表计,导致需要调整数据工程量程,应在完成设备更换后及时告知集控中心、大数据中心同时变更,避免出现数据在上级系统出现等比例放大或缩小情况。二是现场调整电能表(正接/反接)接线方式,要及时告知集控中心、大数据中心同时变更,避免数据负向累计。
4)提升数据合理性方面
一是依照行业标准或规范定义的限值要求,组织电站运维人员全面梳理上送数据的工程量程,并同步在电站、集控、大数据中心的数据库内完成配置。二是完善数据越限失效判定程序,做好数据初步过滤及筛选工作,确保数据在采集、预处理、转发过程中均为真实值。三是依照主设备技术文件梳理通信数据的量程并在各数据节点数据库内植入,确保各节点的量程均不大于主设备铭牌标记的额定值。
5)提高数据传输及时性方面
一是充分研究5G 通信技术并适时应用,以减少数据跨省域经过多路由节点跳转传输。二是数据通信专线应遵循专网专用原则,尽可能不与视频会议、办公内网等业务系统混用,确实不具备租赁专网通道条件的公司,可采取在原通道上划专用VLAN 的方式并确保VLAN 带宽满足数据通信要求。三是集控中心、大数据中心均要做好核心网络通信数据点数量核算,并由系统架构师评估汇聚路由器或核心网关机随着通信数据量规模化增加后的性能是否能满足要求,若硬件性能接近饱和则应提前筹划系统软件、硬件的升级换代改造。
3 评估数据有效性的方法
通过对引起数据可靠性的因素分析,这里将数据完整性、连续性、一致性、合理性、及时性劣化后,导致生成的无效数据点归集为:当数据应用过程中出现空值、突变值、等比例放大/缩小值、数据取反值、越初始阈异常值、死值时的数据均为无效值,此时判定为无效的点则统计入无效点数。为量化评估采取措施后的数据质量治理效果,这里引入相应数学模型对数据有效性及其影响因子进行表征。
数据完整性计算:完整率=完整数据点数/理论数据点数×100%,其中完整数据点数=理论数据点数-空值点数;
数据连续性计算:连续率=连续数据点数/理论数据点数×100%,其中连续数据点数=理论数据点数-突变值点数;
数据一致性计算:一致率=数据一致点数/理论数据点数×100%,其中一致数据点数=理论数据点数-等比例放大(缩小)值点数-数据值取反的点数;
数据合理性计算:合理率=合理数据点数/理论数据点数×100%,其中合理数据点数=理论数据点数-越初始阈异常值点数;
数据及时性计算:及时率= 按时上传数据的点数/理论数据点数×100%,其中按时上传数据的点数=理论数据点数-死值点数。
以上表征数据及时率、合理率、一致率、连续率、完整率的变量,代入数据有效率计算式合并可得:
数据有效率:
式中:①数据有效率= 有效数据点数/ 理论数据点数×100%;②有效数据点数= 理论数据点数- 无效点数;③无效点数= 数据被统计为空值、突变值、等比例放大/ 缩小值、数据取反值、越初始阈异常值、死值点数的集合;④理论数据点数= 统计天数* 统计设备数* 标准点数。标准点数取决于数据采集周期,若周期为10 min 采集一个数据点,一天应采集标准点数量=60/10*24=144个;若周期为一分钟采集一个数据点,一天应采集标准点数量=60/1*24=1440个;⑤数据有效率=(理论数据点数-空值点数-突变值点数-等比例放大/缩小值点数-数据取反值点数-越初始阈异常值点数-死值点数)/理论数据点数×100%。
4 实际应用中的效果验证
某新能源发电企业大数据中心将某座风电场33×1.5 MW(风机型号SPT15A-88/1.5)风机SCADA 系统数据接入大数据系统后,大数据系统对某天该期风电场做基础数据统计分析时,显示该场33 台风机的有功功率及风速数据采集均不同程度异常,调取其中一台风机采集到的功率数据,发现数据采集点数不达理论点数问题,且多数有功功率值为“空”(如表1所示),做功率曲线一致性校核得出该风电场风机存在理论功率曲线与实际功率不符(如图1所示)。
表1 风机有功功率及风速数据采集异常
图1 理论功率曲线与实际功率不符
通过大数据系统采集到的数据(表1)分析,我们可以直观地发现,采样有效数据点数较少,在风速区间为2.5~3.5 区间,采集到功率数据283 点,在风速区间9.5~10 区间,采集到功率数据3 点。24 h 内合计采集到的数据(风速、风机有功功率)未达到理论点数。结合本文提到的16个影响数据有效性的因素考虑,继续采取通信通道带宽测试、数据抓包、IEC104 通信点表配置核对等方式究其数据缺失原因,最终发现是由于风电场内用于外部数据传送的通信网关服务器进程掉线,且网关服务器冗余切换异常所致。
对该企业大数据中心一天内采集该期风电场风机有功功率、风速等数据(采样周期为1 min)计算分析,该期风电场单台风机24 h 应采集理论风机有功功率数据点数量=60*24=1440个,应采集理论风速数据点数量=60*24=1440个。
依据:
可以计算出当天风速和风机有功功率的数据有效率为:η=286/1440*100%=19.9%
数据有效率过低是导致理论功率曲线与实际功率不符的直接原因,上文我们分析得出:
依据此公式,继续从“无效数据值”方面进行突破。通过数据库筛选工具提取到当天采集风速数据空值均为1106个点、死值19个点、越初始阈异常值(风速值为负值)32 点,没有突变值、等比例放大/缩小值、数据取反值的数据点。采集风机有功功率数据空值均为1138个点、死值19个点,没有突变值、等比例放大/缩小值、越初始阈异常值、数据取反值的数据点。
对采集到的风速数据越初始阈产生异常值,我们通过修正风速量程:0~25 m/s,避免风速出现负值;对通信网关服务器进程掉线,网关服务器冗余切换异常进行了程序升级并开展了切换试验,确保设备工作稳定;对通信中断期间造成的大数据系统记录的空值、开发断点续传功能进行数据补采。采取措施后使当天具有较为完整的数据(如表2所示)。对功率曲线一致性校核得出该风电场风机理论功率曲线基本与实际功率相符(如图2所示)
表2 采取措施后获得较为完整的数据
图2 理论功率曲线与实际功率基本相符
采取措施后的数据有效率:
计算出当天风速和风机有功功率的数据有效率为:
采样本文提出的方案将采集数据有效率提高以后,校核功率曲线一致性可得出该风电场风机理论功率曲线基本与实际功率相符。
通过在实际应用中的案例分析,可以验证出,采取本文提到的措施后可快速查找并有效减少无效数据点数量,确保电力生产过程数据到达大数据中心后仍具备高有效性,本文提出的分析算法和方法可应用在大数据分析系统,以辅助生产管理人员及时发现并锁定导致系统数据失效的因素,以便及时采取措施进行处置,避免因数据质量问题引起大数据中心系统不可靠。
5 结束语
在碳达峰、碳中和的政策引领下,未来必然会出现以新能源为主体的新型电力系统,生产过程数字化、集中化、智能化管理是满足规模性能源发展的必由之路,海量电力生产数据是推动电力企业发现新产品、新服务、新价值的新引擎。其中稳定、可靠、有效的数据是基础,更是关键。本文提出的数据可靠性提升方案可有效提高数据质量,提出的数据有效性分析算法应用于新能源大数据分析系统,将有效地辅助电力企业各级生产管理人员及时发现并锁定导致系统数据不可靠、失效的因素,以便快速、准确采取措施进行处置,保证集控中心或大数据中心系统数据能准确反映现场生产设备的实际运行状况。同时,高质量的生产数据也将成为电力企业指标考核体系顺畅运转的基石。