用于电费结算的用户电量数据清洗与拟合方法
2021-03-25叶则韶庄大海
杨 悦,吴 量,叶则韶,庄大海
(1.国网福建省电力有限公司福州供电公司,福建 福州 350009;2.国网信通亿力科技有限责任公司,福建 福州 350003)
购售电同期抄表结算,是指将所有用电客户与电厂的购售电交易按照自然月进行抄表结算,抄表时间统一定在月末24点。为顺利推进福建省购售电同期抄表结算工作,国网福建省电力有限公司开展了用户电能信息采集、数据处理和分析以及售电量预测数据建模等项目。通常情况下,每天只有不到1%的用户会出现用电数据采集异常的情况。因此,本文将从微观层面针对初始数据的采集与处理展开分析和探讨。
1 数据采集
福建省对用户电能信息数据采集的内容主要包含用户电能示值、最大需量和电能量的曲线数据以及电能表各相电压、电流、功率等。通过对用户用电信息进行分析,可更好地了解用户用电需求,为客户提供更加优质的服务,也能为供电企业购电决策提供有力的支撑。
目前,福建省用户用电信息数据的采集主要通过系统远程自动抄表的方式来实现[1]。首先,将经过电能表采集后的用户用电数据储存在表内;其次,通过载波模块将数据周期性地传输至集中器(或专变终端);最后,经过远程模块传输到采集主站,分析人员可以通过用电信息采集系统导出用户的用电数据。在此过程中,不论是现场设备故障,还是地理位置偏远或极端气候导致远程模块接收到的4G信号发生衰减,均可能造成远程自动抄表失败。因此,为提高用户电量计算的准确性,每月25日至月末期间,对因现场缺陷导致采集失败的用户(特别是高压用户及发电企业客户),应立即展开故障消缺,并在消缺现场利用移动作业终端进行数据补抄,再通过运维闭环模块将数据回传至采集系统。若确有客观因素导致缺陷无法及时消除,应确保月末五日内(发电厂企业客户应确保月末三日内)至少准确采集一天的用电数据,尽可能缩小电量估算的时间间隔,从而降低估算偏差。但是,即便使用主站召测、人工补抄等方式对远程自动抄表失败的用户进行统计,也仍然存在售电量统计的时间维度(频率、时间点等)与远程自动抄表不一致的问题[2]。因此,本文将对原始数据进行分析和筛选,并对缺失值进行拟合,以进一步提高估算结果的可靠性。
2 数据分析与清洗
2.1 缺失值
在日常生活中,电能信息采集系统可能由于信号不稳定、停电、终端故障、表计故障、模块故障以及参数设置错误等各类原因无法实现自动远程抄表[3]。
在该种情况下,用户用电量的数据为空值。在对数据进行分析前,需剔除全部缺失值,待筛选出有效数据后,再对缺失值进行拟合。
2.2 无效值
通过电能信息采集系统收集到的数据,有可能因为档案错误、接线错误、设备故障以及设备更换等原因产生无效值[4]。因此,在对缺失值进行拟合前,要先对采集到的数据进行分析,剔除无效值,以免影响拟合结果。例如,采集系统显示某大工业用户电能示值由9月1日的2 000 kWh减少到9月30日的120 kWh时,应首先确认在此期间该用户是否更换过电表,若该用户确有换表流程,则用电量=旧表底度-2 000 kWh+120 kWh;若在此期间该用户不曾换表,并且现场示值与采集系统一致,应结合现场接线情况分析表计倒走原因,并计算实际用电量;若经核实确认数据有误,但无法判断数据是否准确,应将该数值进行剔除,参照缺失值处理。
此外,由于单一用户在剔除季节性、工作时段等规律性因素后,呈现的用电量应保持相对平稳。因此,若用户的电能量曲线上出现疑似离群值的数据,可以使用格拉布斯准则(置信区间为95%)对用户日常用电数据进行判别。在计算标准偏差时,若样本数量较多,可使用贝塞尔公式法;若样本数量较少,应使用极差法进行计算。
实际运用过程中,其他典型的无效值包括:连续恒定的电能示值、连续恒定的用电量、24点负荷曲线上缺失超过2个点的曲线数据、计划停电时常超过12 h的负荷曲线数据等。剔除无效数据所产生的空值应参照缺失值处理,经过拟合后,用拟合数据来替代原始数据。
3 数据拟合
3.1 缺失值(含异常值被剔除后形成的缺失值)拟合
为提高数据模型的可靠性,采取删除缺失值和异常值的方法进行初步过滤,此过程在提高数据准确度的同时,会使得样本量发生减少。经过对福州地区164个小样本用户(样本量<30)的数据分析,可认为简单地删除缺失值会导致标准偏差较大,严重影响了模型的可靠性。因此,决定对缺失值和异常值进行拟合处理。
3.2 高压用户用电量拟合方法
首先,简单地选用样本的均值来替换缺失值和异常值。在用电量稳定、空值较少且样本量大的数据中,该方法可以有效地测算年度及月度售电量,但对于用电数据波动较大、季节性明显或样本数据较少的用户而言,该方法并不适用。因此,为进一步优化模型,使用条件平均值填充法,即使用相似样本的均值或同类特征的均值来填补缺失值。但是,简单的选用行业平均值无法体现该用户的个体特征,因此还需要根据该用户以往的用电数据与行业平均值的对比情况,对数值进行调整。
以电压等级为10 kV的某酒店用户A为例,该用户在2018年10月29日24时用电数据采集失败,因此可参照同电压等级且业务类型、评级均相似的酒店用户B,C,D的日平均电量对该用户进行拟合。
该方法对大多数高压用户的用电量测算较为准确,然而对于部分用电量波动较大或处于垄断行业的高压用户,由于个体特异性较强,所以无法使用该方法进行计算。因此,尝试使用自回归、平均移动、随机游走等时间序列模型[5],结合最小二乘法等理论方法对用户个体用电量进行估算。
在对福州市1 306个样本进行拟合后发现,通过自回归模型和移动平均法获得的模型可以得出缺失数据前3日内的数据对估算缺失电量值有着显著影响的结论。同时,用户用电量普遍随季节、工作日等变量周期性波动,单纯地采用3日数据构建自回归模型和平均移动模型,不足以体现用户的用电特征。因此,可通过采集失败前三日的数据作为变量,结合季节性变量及是否为工作日的逻辑变量,对缺失值进行拟合。针对周期性变量,分别选用每季度、每月、每旬作为自变量对电量数据进行建模。总体而言月度、季度变化趋势较为明显,而每月上、中、下旬变化差异不大。值得注意的是,由于月份变化涵盖了季节变化的波动趋势,因此大多数行业的用电量随月份变化产生的差异比随季度变化产生的差异更为显著。但部分行业如学校、游乐场等,由于寒暑假等因素,季节性趋势更加明显。因此,应根据用户个体特征进行具体分析。
3.3 低压用户用电量拟合方法
由于样本总量较大,样本中每个个体用电习惯迥异,无法通过与同类用户平均值的对比进行估算,因此可以参照高压用户自回归的方法进行测算。在数据样本量小的情况下,可以采用数据缺失日期(T1)之前6天内的最后一次抄表成功示数X(日期为T0)作为测算起始值,并使用缺失日期之前3天的平均电量进行拟合,则拟合示数=X+平均电量×(T1-T0)。若近一个月内存在倒走、飞走异常或仍有异常工单未处理的情况,则使用上一次结算电量的日均电量作为拟合值。为确保数据质量,近五日内新装的电表一般不进行缺失数据的拟合。
3.4 最大需量拟合方法
为确保基本电费计算尽可能精确,保障用户利益,采用最大需量进行结算的大工业用户,如有数据缺失,一般取当月最后一次采集成功的最大需量值进行补全。
4 数据校验
在得到拟合数值后,要使用格拉布斯准则,并根据营销业务应用系统中前一月份的结算电量,以及去年同期的结算电量对当月电量进行校验。若判断该月电量为离群值,应分析具体原因。若由拟合值造成,说明拟合值可能有误,可直接使用缺失值前三天的平均值对原拟合结果进行替换。若拟合出的当月总电量及日电量均无异常,则可以将该拟合值纳入样本对该用户的用电行为进行预测。
5 结语
基于时间序列模型、最小二乘法等理论知识以及结合计量业务实际经验,本文对售电量异常值剔除、缺失值拟合等数据清理过程展开了分析和研究,为更加精确地核算用户用电量、可靠地预测用户用电行为以及精准地做出经营决策提供了可靠的数据支撑。