APP下载

基于多元数据特征和改进随机森林的智能配电网异常数据辨识

2023-03-27李强张立梅白牧可

科学技术与工程 2023年5期
关键词:原始数据决策树配电网

李强,张立梅*,白牧可

(1.河北农业大学信息科学与技术学院,保定 071000;2.中国电力科学研究院有限公司,北京 100192)

智能配电网在集成信息通信技术和智能感知设备后,成为复杂的信息物理系统,能够实现实时感知、信息服务和动态控制功能。但是,对信息技术和网络物理设备的高度依赖也使智能配电系统面临严峻的网络威胁,导致设备、服务和系统异常[1],从而导致大量的异常数据破坏了真实量测数据的完整性和可用性。当这些异常数据绕过监控机制,参与电力可靠性评估、电网运行状态估计和电网调度管理等,会造成巨大的经济损失和严重的安全问题。

开展异常数据辨识可以提高智能配电网的防御能力,减少电力企业和用户的经济损失。在异常数据辨识研究中,特征提取是进行准确辨识的必备环节。文献[2]提取波动性、趋势性和变动性特征对电力数据时间序列进行表征;文献[3]采用分段线性表示方法描述电力数据的动态特性;文献[4]通过计算杰卡德相似系数进行相似性比较,从而提取异常数据特征。现有工作侧重于多维数据的降维处理,忽略了电网结构和电力数据的关联关系,对电力异常数据的特征表示还需完善和提高。

作为异常数据辨识的主要内容,辨识方法的选取对提高辨识准确性和效率也具有关键作用。概率统计方法[5]是早期电力异常数据检测中常用的方法,然而这类方法在时间复杂度和辨识准确性上的表现难以满足智能配电网的要求。近年来,具有多维数据处理能力的机器学习分类方法在电力数据异常检测中得到了广泛应用,文献[6]基于自动编码器检测由电源管理单元(power management unit,PMU)数据操纵攻击产生的电力异常数据,构建了分布式检测框架;文献[7]提出一种基于改进极限学习机的电力系统异常数据检测模型,但是没有实现在线检测;文献[8]结合主成分分析和改进局部离群因子算法检测异常电力交易数据,针对异常行为特征实现分阶段检测,能有效识别电力市场异常行为。基于机器学习的辨识方法在智能电网中发挥着重要作用,但是这些方法缺少对配电网数据中类不平衡问题的研究,导致异常数据的辨识能力弱。

现提出一种基于多元数据特征和改进随机森林算法的智能配电网异常数据辨识方法。首先从原始数据和衍生数据两方面进行特征分析,利用三次样条插值、K-means聚类和箱线图法提取原始数据特征,进而考虑配电网运行特性,挖掘电压越限、三相不平衡等衍生数据特征。其次,基于随机森林,从Bootstrap抽样、决策树构造和辨识结果投票等方面对算法进行改进,以降低类不平衡对模型性能的影响。最后,通过仿真实验证明该方案的有效性。

1 异常数据辨识过程

异常数据辨识过程主要包括数据获取、数据清洗、异常数据特征提取和异常数据辨识4个环节,如图1所示。

RN(A)表示随机森林中第N棵决策树对样本A的辨识结果;RRF(A)表示随机森林对样本A的辨识结果图1 智能配电网异常数据检测Fig.1 Anomaly data detection for smart distribution network

数据获取:获取具有足够规模、可靠来源和准确性的数据对于确保研究的完整性至关重要。智能电表、变压器等终端设备在电网信息采集、存储和传输过程中发挥着重要作用,同时面临严峻的网络威胁,是获取量测数据的主要途径。采集的数据包括三相电流、三相电压和功率。

数据清洗:采用缺失值填充和离群值检测方法对原始数据进行清洗,能够提升数据质量,避免由于电力设备异常、人工操作失误等原因产生的缺失值和离群值对异常数据检测的干扰。采用三次样条插值法和箱线图法进行数据预处理。

特征分析:由网络攻击产生的异常数据具备隐蔽性,能够利用与原始测量值一致的分布特性绕过异常数据检测。因此,从原始数据和衍生数据两方面进行特征分析,能够进一步提高异常数据的辨识准确性。从电压越限、三相电压不平衡和三相电流不平衡三方面提取衍生特征。

异常数据辨识:在完成特征提取之后,利用清洗后的量测数据和衍生数据构造样本集,采用改进随机森林算法训练异常数据辨识模型,实现对样本数据的准确识别。

2 异常数据特征分析

智能配电网是集成计算、网络和物理设备的多维复杂系统,也为异常数据的产生和渗透创造了条件。风电、光伏等清洁能源的接入,增加了智能配电网的不确定性和波动性,导致异常数据特征的变化。为了提高异常数据辨识准确性,从原始数据特征和衍生数据特征两方面进行分析。原始数据是从终端设备采集的历史数据,衍生数据考虑配电网运行的性能要求,包括电压限制、功率平衡和电网结构等不同的约束,基于历史数据获得。

2.1 基于历史数据集的原始数据特征

原始数据特征从样本数据中提取,与相电压、相电流和三相负载功率有关,可以表示为F1={UA,UB,UC,IA,IB,IC,P}。不同的配电网量测数据具备不同的特征,导致其在一定范围内波动[9],如图2所示。为了构建原始数据特征,采用三次样条插值填充缺失值,K-means聚类被用于获取区间时间序列,而箱线图法则负责剔除异常值和提取原始数据的边界特征。原始数据特征的构建过程如下。

图2 不同数据的区间时间序列Fig.2 The interval time sequence of different data

步骤1样本数据集的预处理。考虑到存在多重数据缺失,采用三次样条插值方法对缺失值进行填充[10]。假设序列X= {x1,x2,…,xp,…,xn},根据式(1)进行区间[xi,xj]的缺失值填充。

(1)

式(1)中:xp∈[xi,xj];ei+1=xj-xi;gi=S(xi);α、β为需要确定的参数。

步骤2获得区间时间序列。根据历史数据,计算时间序列与区间时间序列之间的相似性,进行K-means聚类[11],如图3所示。设置时间序列X={x1,x2,…,xp,…,xn}和间隔时间序列Y={y1,y2,…,yp,…,yn}={[y11,y12],[y21,y22],…,[yp1,yp2],…,[yn1,yn2]},则X和Y之间的距离D在式(2)和式(3)中给出[12]。

图3 基于k-means获取区间时间序列Fig.3 Obtaining interval time series based on k-means

(2)

(3)

步骤3提取原始数据特征。与区间时间序列相结合,采用箱线图方法提取原始数据特征[13]所示的区间五分位数来描述分布特征(图4),对原始数据的判断如式(4)所示。

图4 基于箱线图的区间五分位数示意图Fig.4 The schematic of interval quintile based on box-plot

(4)

式(4)中:q1、m和q3为有序的第一四分位数、中位数和第三四分位数;r为q3和q1之间的差值,异常数据位于边界q3+1.5r和q1-1.5r的外部。

2.2 基于配电网运行特性的衍生数据特征

分布式电源的集成、不平衡负载和不对称线路参数的存在,通常会引发智能配电网波动,网络攻击者会利用这一特性篡改数据,提高异常数据的隐蔽性。故提出用衍生数据特征反映配电网运行特性,通过结合电能质量标准和配电网技术规范提取衍生数据特征,包括电压越限(ΔU)、三相电流不平衡度(fI)和三相电压不平衡度(fU),表示为F2={ΔUA, ΔUB, ΔUC,fI,fU}。

2.2.1 电压越限

电压越限会导致电能质量下降,干扰负载或设备的正常运行,甚至导致电力系统崩溃。具有不确定性特征的分布式电源并网导致电压波动经常发生,电压越限已成为主要的电能质量问题,也不可避免地成为网络攻击的目标。因此,电压越限是异常数据辨识中不可缺少的组成部分。这里的电压越限(ΔU)是指由异常数据引起的配电网节点电压过高或过低的情况,用式(5)描述,即

(5)

式(5)中:ΔU为电压偏差百分比;U为实际电压;UN为标称电压。

2.2.2 三相不平衡

与电压越限类似,三相不平衡也是配电系统中的一种常见现象,成为影响配电网异常数据检测性能的主要因素[14]。然而,攻击者也会通过虚假数据注入引发三相不平衡,在干扰异常检测的同时防止被发现。因此,可以通过分析三相不平衡提高异常数据辨识能力,包括三相电流不平衡度(fI)和三相电压不平衡度(fU)。式(6)和式(7)中的三相不平衡度分别是三相电流和电压不平衡的定量表示,表达式分别为

(6)

(7)

式中:IA、IB、IC分别为A相、B相和C相电流;Iave为三相电流的平均值;UA、UB、UC分别为A相、B相和C相电压;Uave为三相电压平均值。

3 基于改进随机森林算法的异常数据辨识

随机森林(random forest, RF)是一种基于决策树的集成学习算法,被广泛应用于异常数据检测[15-16]。为了提高算法的异常数据辨识能力,设计了混合Bootstrap抽样和加权投票策略,为解决类别不平衡问题提供了新的思路,并且在决策树构造阶段引入信息增益率改进最优特征的选择,增加了随机森林中决策树的稳定性。基于改进随机森林实现配电网异常数据辨识的具体流程如图5所示。

图5 基于改进随机森林的异常数据辨识流程Fig.5 Flow chart of anomaly data identification based on improved random forest

3.1 混合Bootstrap抽样

Bootstrap被用于生成训练决策树的数据子集,其实质是对样本数据有放回地进行随机抽样[17]。在随机森林算法中,首先利用Bootstrap方法从样本集中有放回的抽取θ组数据,N次抽样后得到N个包含θ组数据的训练集;然后利用决策树算法构建N棵决策树,具体过程如图6所示。

图6 混合Bootstrap抽样方法Fig.6 Sampling method based on hybrid Bootstrap

然而,实验结果表明,Bootstrap方法在配电网数据集抽样中表现并不理想,经常出现训练子集中异常样本数量过少的问题,导致模型不具备优异的异常数据辨识能力。这与配电网数据集中存在的类不平衡现象有关,即正常样本数量大于异常样本数量。因此,提出一种混合Bootstrap方法,结合基于样本不平衡度的过采样方法,解决由Bootstrap抽样导致的训练子集类不平衡问题。

人工少数类过采样法(synthetic minority oversampling technique,SMOTE)常用于不平衡数据集的过采样,通过对少数类样本的多次拟合实现类平衡[18]。然而,配电网数据集中正常样本和异常样本的不平衡是客观规律,追求类完全平衡是不科学和不合理的。通过样本不平衡度控制异常样本的拟合次数,初始数据集d的样本不平衡度η可以表示为

(8)

如果通过Bootstrap抽样获取的训练子集样本不平衡度η1>η,说明该子集的样本不平衡问题较为严重,不利于决策树对异常样本的识别。此时,需要通过SMOTE方法对训练子集进行过采样,实现对异常样本的扩充,直到η1=η。

3.2 构造CART决策树

决策树(classification and regression tree,CART)算法是用于构造决策树的一种方法[19],在节点或者数据集的分裂中实现对异常数据的识别。最优分裂特征的选择是影响决策树辨识性能的关键因素,CART算法根据Gini系数衡量特征重要性。但是,这种方法缺乏对应的验证机制,无法保证最优特征的唯一性。因此,在选择最优分裂特征过程中引入信息增益率,对最优分裂特征进行验证,以提高辨识准确性和稳定性,改进决策树的构造过程如图7所示。

图7 决策树构造流程Fig.7 Flow chart of constructing a decision tree

在通过特征选择生成特征子集后,根据最优分裂特征值完成对训练数据集的分裂,分裂后训练子集的纯度或确定性高于分裂前的数据集,进而在不断分裂的过程中实现对样本的分类。传统的CART算法选取Gini系数量化特征值的重要性,Gini系数越小,特征值越重要,基于特征值分裂后的数据子集确定性越高[20]。根据特征值auv划分数据集d的Gini系数可以表示为

(9)

(10)

式中:d1和d2为数据集d分裂后的子集;H为d中样本的总类别数;Ch为数据集中第h类的样本数。

可知,CART算法依据某一个特征进行分类,对于最优特征的选择具有不确定性,无法保证决策树的分类准确性。为此,引入信息增益率对最优特征值进行验证[21],最优特征值应该同时满足Gini系数最小和信息增益率最大的约束。首先通过计算Gini系数进行最优特征值的初始选择,然后与采用信息增益率计算得到的最优特征值进行比较,如果两者相等,则进行节点分裂;否则,继续计算最优特征值。信息增益率可以表示为

(11)

Gai(d)=EntroyB(d)-EntroyA(d)

(12)

有时天气坏一点,逃了学没有什么去处,我就一个人走到城外庙里去。本地大建筑在城外计三十来处,除了庙宇就是会馆和祠堂。其间空地广阔,因此均为小手工业者所利用。那些庙里常常有人在殿前廊下绞绳子、织竹簟、做香,我就看他们做事;有人下棋,我看下棋;有人打拳,我看打拳。

(13)

式中:InfGaiRat为信息增益率;Gai和SplInf分别为信息增益和分裂信息,信息增益率越大,特征值越重要;Nd为父节点数据集的样本数;Ndl为第l个子节点数据集的样本数;L为节点数;EntroyB和EntroyA分别为样本数据集分裂前、后的熵。

最后,以叶子节点样本数和决策树深度作为节点分裂结束条件,当叶子结点包含样本数小于指定阈值或者决策树深度大于指定阈值时,决策树节点停止分裂。

3.3 加权投票策略

随机森林算法通过对决策树分类结果进行投票作出最终决策,并且任意决策树的投票权重相同。通过混合Bootstrap方法,缩小了训练子集中正常样本和异常样本的比例,但是类别不平衡现象依然存在。因此,提出一种加权投票策略,对具有不同分类性能的决策树赋予不同的投票权重,目的是提高随机森林算法对异常数据的辨识能力。为了找到随机森林中对异常数据更加敏感的决策树,采用Fβ评估决策树性能。Fβ是精确度(precision,P)和召回率(recall,R)的加权调和平均,Fβ越大,表明该决策树对异常样本的分类性能越好。因此,将Fβ设置为决策树的投票权重。Fβ的计算方法如下。

(14)

(15)

(16)

式中:NTP为正确识别异常样本的数量;NFP和NFN分别为异常样本和正常样本被错误分类的数量;β为用于平衡精确度和召回率重要性的参数。

则随机森林分类模型输出为

(17)

式(17)中:Rt为决策树模型;h为决策树分类结果,h=1表示辨识结果为正常,h=2表示辨识结果为异常;RRF为随机森林分类模型输出;N为随机森林模型中基分类器的总数;I(·)为指示函数,当决策树分类结果为真时,指示函数的值为1,反之为0。

4 算例分析

在MATLAB环境中进行仿真实现,处理器为Intel(R) Core(TM) i5-7300HQ CPU @2.5 GHz,Window10操作系统。

4.1 评价指标和仿真参数

4.1.1 评价指标

在智能电网异常数据辨识中,评估算法性能时不仅要考虑异常数据的正确识别,也应该关注正常样本的辨识情况。因此,使用准确度(accuracy, Acc)、精确度和召回率评估模型性能[22]。精确度和召回率的计算方法见式(14)和式(15),准确度的计算方法为

(18)

式(18)中:NTN为正常样本被正确分类的数量。

4.1.2 仿真参数

为了准确提取数据特征,从变压器中收集了35 712条记录,包含三相电压、电流和功率值。每15 min采集一组数据,每天有96个采样点。根据式(5)~式(7),得到3个衍生特征。图8显示了部分原始数据样本的变化情况,而图9和图10是提取的衍生数据特征。在由原始数据和衍生数据组成的数据集中,训练样本占80%,而其他是测试样本。

图8 A相电压原始数据Fig.8 Raw data of A-phase voltage

图9 三相电压的电压偏差Fig.9 The Voltage Deviation of three-phase voltage

图10 三相不平衡度Fig.10 The three-phase unbalance degree

4.2 算法参数优化

4.2.1 决策树数量影响

RF中决策树数量与异常检测性能密切相关。在不同数量的决策树条件下的准确度和训练时间如图11所示,其中初始数量和增量均为10。可以看出,算法的准确度随决策树数量的增加而提高,当决策树数量达到60时保持稳定。与准确度不同的是,训练时间不断增加。因此,考虑到时间要求,建议在满足辨识准确性的条件下采用较少的决策树数量。因此,在后续试验中将决策树数量设置为60。

图11 不同决策树数量的影响Fig.11 Influence under different number of decision trees

4.2.2 衍生数据特征影响

如图12所示为衍生数据特征对算法性能的影响。可以看出,考虑衍生特征时的准确度、精确度和召回率都优于仅使用原始数据特征。结果表明,衍生数据特征的引入确实减少了异常数据的错误分类。此外,引入衍生特征在增加样本规模的情况下节约了运行时间,说明算法效率明显提高。两种算法的性能曲线均不随迭代操作次数的增加而发生剧烈波动,这表明该算法具有稳定的识别性能。

图12 衍生数据特征的影响Fig.12 Influence of derived data features

4.3 辨识性能比较

针对数据集A、B、C,将本文方法与决策树算法、BP神经网络、SVM和传统随机森林4种方法进行比较分析,验证所提出的检测方法的有效性。在仿真中,决策树是通过CART算法构建的,BPNN的隐层数为4层,而SVM采用高斯核实现,传统随机森林中决策树数量也设置为60。

表1列出了不同模型的异常数据辨识结果,DT、BPNN、SVM和传统随机森林在3个数据集上的召回率都远小于本文算法,说明它们易将异常数据识别为正常数据,会出现异常数据的漏检和误检,这是由于这些算法缺乏类不平衡数据的处理机制。通过采用混合Bootstrap抽样和加权投票,提高了算法的异常数据识别能力,获得了较高的召回率。此外,通过比较不同数据集的检测结果,可以看出本文算法具有稳定的辨识性能,这是由于引入信息增益率优化了最优特征选择过程。与传统随机森林比较,本文算法的训练时间有所增加,但是仍然低于BPNN和SVM。

表1 不同模型的性能比较Table 1 Performance comparison of different models

5 结论

提出一种基于多元数据特征和改进随机森林的异常数据辨识方法,进一步提高了异常数据检测的准确度。通过大量仿真比较,得出如下结论。

(1)多元数据特征能够有效反映异常数据的动态变化规律。提取原始数据特征对于获取多元数据分布特性具有重要作用,而衍生数据特征有助于深入挖掘数据相关性,扩展了数据集规模并且提高了模型的学习能力。

(2)针对类不平衡问题提出了改进随机森林算法。提出结合过采样的混合Bootstrap方法,基于样本不平衡度构造异常数据,根据决策树的异常数据辨识能力进行加权投票,提高算法的异常数据检测性能,能够避免误检和漏检。

(3)本文算法在异常数据辨识准确性和稳定性上表现优异。仿真结果表明,当决策树数量为60棵时,随机森林辨识性能最好。本文算法在3个数据集上的异常数据辨识准确度都超过99%,优于决策树、支持向量机等算法。

猜你喜欢

原始数据决策树配电网
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定变化趋势限制的传感器数据处理方法研究
一种针对不均衡数据集的SVM决策树算法
配电网自动化的应用与发展趋势
决策树和随机森林方法在管理决策中的应用
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
基于决策树的出租车乘客出行目的识别
基于IEC61850的配电网数据传输保护机制
配电网不止一步的跨越
基于肺癌CT的决策树模型在肺癌诊断中的应用