基于轨迹特征关键点匹配的电压暂降同源数据精确检测算法
2022-03-23沙浩源郑建勇朱克东张宸宇史明明
沙浩源,郑建勇,梅 飞,朱克东,张宸宇,史明明
(1. 东南大学电气工程学院,江苏省 南京市 210096;2. 河海大学能源与电气学院,江苏省 南京市 211100;3. 中国电力科学研究院有限公司(南京),江苏省 南京市 210003;4. 国网江苏省电力有限公司电力科学研究院,江苏省 南京市 211103)
0 引言
电压暂降作为影响最突出的电能质量问题已受到了社会各界的广泛关注[1-3]。国家电网有限公司为掌握电压暂降特性,缓解电压暂降对系统及用户带来的影响,开展了对电网电压暂降情况大范围、高密度的实时监测[4-6],旨在通过对海量监测数据的智能化分析,有针对性地制定电压暂降问题治理方案[7-8]。
随着电压暂降监测范围的不断扩大[9-10],电压暂降监测数据的体量也在不断增大。然而,事实上在电网中并没有相应数量的电压暂降事件发生。这是由于电压暂降在电网中传播,使得监测数据库中包含多个监测终端在传播时间片内重复记录同一电压暂降事件的情况。重复记录的电压暂降数据,不仅造成了大量的冗余分析计算,而且还易导致对区域电网电压暂降严重程度的过评估,影响了运维人员对电压暂降事件分析的聚焦性和准确性。因此,有必要对电压暂降监测数据进行同源检测,归算其中重复记录的电压暂降事件,确定电压暂降发生的源头,辅助对电压暂降影响范围的分析,以提高电压暂降问题的治理效率。
在现有的研究中,文献[11]首次提到了电压暂降同源检测的概念,提出基于Wasserstein 距离的电压暂降事件同源检测方法,对固定时间片(10 min)内的电压暂降监测数据以距离相似性度量结果为依据进行基于密度的有噪空间聚类(density-based spatial clustering of applications with noise,DBSCAN)算法分析,将聚类结果中同一类簇的样本看作同源事件,实现对电压暂降同源数据的检测。在此基础上,文献[12]在考虑波形相似度以外,增加了电压暂降相的波形综合倾斜因子及电压暂降持续时间[13]两个细节特征,以优化同源数据样本特征的类内聚集度,弥补波形相似度计算简化带来的准确度损失,提高对同源数据检测的把握。但由以上研究可知,上述2 种基于样本空间密度聚类的同源检测算法存在以下几点问题:
1)对数据有时间片(10 min)范围的严格要求。然而在实际情况中,监测数据的质量以及数据库环境并没有这么理想[14-15]。目前部分已投入使用的监测终端并没有标准的网络对时模块,终端的时钟构建以本地时钟为准,本地时钟的时间偏移或者设置错误都会导致电压暂降数据时标存在偏差[16]。若在同源检测之前以时间片划分子数据集很有可能将同源的电压暂降数据分列至不同的数据集中,造成对同源数据的漏检。
2)分析电压暂降数据时需有效截取完整的电压暂降数据段,并将未包含完整电压暂降域的数据视为“坏数据”。但在电压暂降监测数据库中,未记录完整或一条数据同时包含两个电压暂降事件的情况常常发生,数据中同样包含了电压暂降类型[17-18]、电压暂降深度[19-20]等关键电压暂降信息,若将其直接算作坏数据,则会造成一定的数据浪费。
3)单次记录的电压暂降事件在聚类后被视作噪点处理(由DBSCAN 算法的性质决定),没有清晰的类别标签。
4)若数据集中多个事件与基准事件的距离相似度较为接近,则最后聚类分析的结果会受到影响。
基于此,本文提出了一种基于轨迹特征关键点匹配的电压暂降同源数据精确检测方法。首先,将电压暂降数据的有效值(root mean square,RMS)波形转换为灰度轨迹图片,基于尺度不变特征转换(scale-invariant feature transform,SIFT)算法提取每相电压暂降RMS 灰度轨迹的特征关键点,并基于邻域灰度梯度特征计算具有唯一特性的特征关键点梯度方向信息;然后,利用该信息计算电压暂降数据间每相RMS 轨迹的匹配度;最后,依据匹配规则来检测同源数据。所提算法可以很好地弥补现有同源检测算法中的不足,算例验证了所提算法的有效性与准确性。该研究成果可为基于图像分析的电力大数据智能应用研究提供参考。
1 电压暂降的传播特性分析
电压暂降的传播是多个同源数据产生的原因。电压暂降在经过不同连接方式的变压器后会发生电压暂降相、幅值、相角等特征的变化[15-16]。电压暂降经变压器传变的规律可分为两大类,分别是单级传变和多级传变。单级传变可分为经Ⅰ类、Ⅱ类和Ⅲ类变压器传变,其中:Ⅰ类变压器指一、二次侧均接地的Y,y 接线变压器;Ⅱ类变压器指单边或两边均不接地的Y,y 接线、D,d 接线和D,z 接线变压器(去掉零序电压的变压器,变压器二次侧电压等于一次侧电压减去零序分量);Ⅲ类变压器指D,y、Y,d 接线和Y,z 接线变压器(线电压与相电压互换的变压器,变压器二次侧电压等于两个一次侧电压的差值)[21-22]。多级传变可分为经2 至6 台Ⅰ类、Ⅱ类、Ⅲ类变压器级联传变的情况,最终将传变规律归纳为表1 所示的8 种变化关系[11]。表1 中:T1至T8这8 种传变规律可表达经过i台Ⅰ类、j台Ⅱ类、k台Ⅲ类变压器所有情况的传变关系,i、j、k可为任意值。此处略去了重复的变换结果,如Ⅱ类与Ⅲ类级联和T3情况一致,表中未列举。
根据表1 中所归纳的影响规律,对电压暂降数据进行传变计算,传变的计算公式如下:
表1 电压暂降事件经变压器传变后的影响规律Table 1 Influence law of voltage sag event after being transformed by transformers
式中:Ua、Ub、Uc为变换前的三相电压数据;UA、UB、UC为经过变压器变换后的三相电压数据[23-24]。
附录A 图A1 为两相电压暂降事件经T1至T8这8 种情况传变后的RMS 结果,由图A1 可知,T2至T8的电压暂降相、电压暂降深度等特征都发生了变化。在同源检测时需对每一种变化进行考虑。
2 基于SIFT 算法的特征关键点提取及同源检测算法
SIFT 特征关键点提取算法最早由文献[25]提出,该算法主要包含基于高斯尺度空间的特征关键点提取以及关键点方向信息计算两部分内容,以下进行详细介绍。
2.1 基于高斯尺度空间的特征关键点提取
采用高斯卷积核将灰度图像进行多尺度分解,尺度空间中卷积分解如下:
式中:I(x,y)为灰度图像;x和y为灰度图像矩阵的像素值;L(x,y,σ)为空间中不同的尺度层;⊗表示卷积计算;G(x,y,σ)为高斯卷积核函数,其中σ为尺度空间因子,该变量表示高斯核函数平滑图像的程度,其值越大表明图像平滑的程度越深,其计算公式如式(4)所示。
将灰度图像进行多尺度分解,构建高斯金字塔,用On表示高斯金字塔尺度所在的层(Octave),n表示Octave 层数,S表示Octave 内总的子层数,s表示子层索引。σ0表示基准层尺度(与图1 中虚框①内的σ含义相同),对于层内子层尺度的索引可统一由k来表达,则k可表示为:
k作为相邻两层之间尺度相差的比例因子,则第n个子尺度层的平滑因子可表达为kn2nσ,如图1中虚框②所示。
图像金字塔的层数与原始图像和最小尺度图像的大小相关,如式(6)所示:
式中:M×N表示原始图像大小,其中M为横向像素点的个数,N为纵向像素点的个数;a×a表示最小尺度图像大小。本文所生成的单相电压暂降RMS波形的原始灰度图像大小为256×256 像素,最小图像大小为16×16 像素,则本文中金字塔层数l选为4层,高斯金字塔如图1 中虚线框①所示。
图1 图像灰度极值点计算过程Fig.1 Calculation process of extreme point of image grey scale
获得图像的高斯金字塔之后,采用SIFT 算法计算On层相邻尺度图像之间的差分结果,利用多尺度高斯差分(difference of Gaussian,DoG)来检测图像中的灰度极值点。DoG 算子的具体公式如下:
式中:D(x,y,σ)为高斯多尺度差分计算结果,如图1中虚线框②内深灰色数据层所示。
在DoG 尺度空间下检测灰度极值点,将每个点的灰度值(红点)和其周围的8 个邻域内的像素点以及相邻尺度下的邻域点(绿点)做比较,如图1 中虚线框③所示,在26(8+9+9)个点中选取其中的灰度极值点作为候选点。随后,利用对比度测试和边缘测试来剔除低对比度和边缘响应不稳定点的极值点(剔除阈值的设定均与文献[25]保持一致)。最终保留下来的极值点作为由SIFT 算法检测得到的特征关键点。
2.2 特征关键点方向信息计算及电压暂降数据的同源检测
当两灰度图像中相应特征关键点邻域像素的梯度值和梯度方向都一致时,则认为两特征关键点匹配,这为判断两电压暂降数据是否同源提供了依据。梯度值m和梯度方向θ的具体计算公式分别如式(8)和式(9)所示:
文献[25]指出使用16 个种子信息点来描述一个特征关键点可使得图像匹配的误差最小。如图2所示,关键点为16×16 个方格(每个方格代表一个像素点)的中心,每4×4 个方格决定1 个种子信息点的梯度信息(图2 中8×8 个方格可决定4 个),每个点共8 个梯度方向,采用直方图统计的方式计算每个梯度方向的累加值,即可形成一个种子信息点。因此,本文以特征关键点邻域16 个种子信息点,共128 维(16×8)特征向量来唯一地描述电压暂降RMS 波形轨迹的一个特征关键点。
图2 关键点方向信息计算原理Fig.2 Calculation principle of key point direction information
因此,对电压暂降事件是否同源的判断可看作两电压暂降RMS 轨迹上的特征关键点信息是否匹配的问题。本文提出了基于电压暂降RMS 轨迹特征关键点匹配的同源检测方法,具体计算公式如式(10)和式(11)所示。
式中:i∈{1,2,…,p};j∈{1,2,…,q};Si为特征关键点i的匹配度;dis(·)表示欧氏距离计算函数;h1(i)为基准电压暂降波形图中关键点i的128 维方向信息,h2(j)为待匹配电压暂降波形图中关键点j的方向信息;p和q分别表示基准图和待匹配图的关键点个数;Pi为基准图中关键点i与待匹配图中所有关键点遍历计算后的结果集合;Pi1、Pi2分别为集合Pi中最小和次小的距离结果。当二者之比小于设定阈值TS时,则认为两特征关键点匹配。综上所述,本文所提电压暂降同源检测算法的执行流程如附录A图A2 所示,首先,分别将三相电压暂降RMS 数据转换为灰度图像,然后基于SIFT 算法对图像进行多尺度分解,以像素梯度特征提取电压暂降轨迹的特征关键点,并通过其邻域像素梯度,计算可唯一描述该点的梯度方向信息,以此作为电压暂降RMS 轨迹匹配的依据。根据式(10)的计算方法来判断特征关键点是否匹配。若待检测电压暂降数据的三相RMS 轨迹上都存在至少3 个满足匹配度Si阈值的特征关键点,则认为两电压暂降事件为同源事件(此为匹配规则,下文将对该匹配规则进行详细分析)。
3 算例分析
3.1 同源检测算法验证
基于第2 章的特征关键点检测算法对电压暂降RMS 灰度轨迹图像进行分析,所得计算结果如图3所示。由图3 可知,电压暂降RMS 波形轨迹的关键位置(如黑色虚线框中所示)、电压暂降的起始位置、电压暂降段内以及电压暂降恢复位置都覆盖了所检测到的特征关键点,该点具有唯一性的同时可准确地表达电压暂降数据的细节特征。
图3 特征关键点计算结果Fig.3 Calculation results of feature key points
以下对江苏省苏南某地区电压暂降实测数据进行同源检测分析。由表2 所示,电压暂降数据总数为264 条,其中真实事件数为87 条,其余177 条均为真实事件的重复采集数据(也就是同源事件),表中所示的真实事件均在合闸记录、运维日志、用户投诉等电压暂降相关多源信息中有相应的记录。本文对特征关键点匹配阈值TS及每相包含点的个数选择进行寻优,计算结果如附录A 图A3 所示,红色横线为真实电压暂降事件数,将真实事件数与算法认定的结果作对比来判断检测结果是否准确。由图A3可知,当特征关键点匹配阈值选择过小时,匹配规则过于严格使得算法难以匹配出两电压暂降数据之间的特征关键点,因此,在阈值取值小于0.2 时,检测出的事件总数与真实事件数差距较大。随着阈值要求的放宽,匹配阈值取0.5~0.8 时,同源检测的准确率有了明显的提高,当设置每相至少有3 个关键点时,检测算法的结果保持100%的正确率。当检测阈值取0.5 时,图中对应的具体同源检测结果如表2所示。
表2 检测阈值取0.5 时的同源检测结果Table 2 Homologous detection results when detection threshold is 0.5
由表2 可知,若本文所提算法设置的同源检测条件为每相至少有1 个关键点满足匹配时,有19 条电压暂降事件被误算作同源事件,当每相至少有2 个关键点满足匹配,归算条件变严格后,误检测事件减少为4 条。最终,当设置为至少3 个关键点满足匹配条件时,便可100%实现电压暂降事件的同源检测。因此,将同源检测规则设置为至少3 个关键点满足匹配阈值小于0.5 时,则认定两事件为同源事件。
以下将分3 个案例具体介绍所提同源检测算法的分析效果。
1)案例1:同源与非同源检测结果的差异
图4(a)为基准电压暂降数据,图4(b)、(c)为待检测电压暂降数据,由图4 中3 个电压暂降事件的轨迹可明显地看出图4(b)为同源数据,图4(c)为非同源数据。对图4(a)进行关键点计算后共得到37 个关键点,图4(b)、(c)分别得到41 个和53 个关键点。将图4(a)中37 个关键点分别与图4(b)、(c)关键点进行同源检测计算,得到如图5 所示的匹配度Si计算结果。在37 个关键点中,同源事件(见图5(a))有15 个点满足匹配要求,而非同源事件(见图5(b))则没有一个点满足。检测结果证明了同源与非同源电压暂降关键点的匹配结果有明显的差异,依据匹配结果可容易地判断出两电压暂降事件是否为同源。
图4 同源与非同源电压暂降RMS 轨迹Fig.4 RMS trajectories of homologous and nonhomologous voltage sag
图5 匹配度计算结果Fig.5 Calculation results of matching degree
2)案例2:未完全记录事件的同源检测
在实际情况中,电压暂降监测终端并不是对每个电压暂降事件都能做到完整的录波,在文献[11]中,对于未完整录波的电压暂降事件的处理方法是将该数据作为“坏数据”并剔除。然而事实上,如附录A 图A4(a)和(b)所示,图A4(a)中数据虽未能将整个电压暂降过程完全记录下来,但仍可清晰地得到事件中如电压暂降深度、电压暂降类型、电压暂降相等关键信息,若直接将其剔除,势必会造成数据的浪费。其次,该事件虽未能完整录波,但客观上依然对监测节点的电压质量造成了影响,仍有必要将其统计在列,以备后续对电压暂降影响进行分析。若直接将其作为“坏数据”剔除,则会影响后续电压暂降严重性、传播特性及治理措施分析的准确性。
本文所提方法能够很好地处理此种情况。附录A 图A5 为图A4(a)、(b)两数据中A 相关键点的匹配连线,同样,对于不完整的B 相和C 相,本文所提检测算法依然能够找到匹配的关键点,三相满足要求的同源计算结果如附录A 图A6 所示,A 相、B 相和C 相分别包含13 个、16 个、11 个匹配关键点。计算结果证明,本文所提算法无须进行“坏数据”剔除和电压暂降数据段的截取,可简单有效地实现此案例情况的同源检测。
3)案例3:一条数据同时包含两个暂降事件的同源检测
在一个电压暂降数据中可能包含两次电压暂降事件,如附录A 图A7(a)所示,若要检测图A7(a)、(b)两组电压暂降数据是否同源,传统的处理方法是将两次电压暂降事件分割后再进行同源检测。而本文所提算法不需要做电压暂降事件的分割,便可直接进行检测。
两电压暂降数据关于C 相的关键点对应情况如附录A 图A8 所示,只要两电压暂降数据有轨迹相匹配的部分,该算法即可检测出是否同源,无须对数据进行预处理。图A7(a)、(b)两数据中A 相、B 相和C 相分别包含12 个、9 个、11 个匹配关键点,结果如附录A 图A9 所示。
通过上述3 个案例的分析可以得出,本文所提算法可准确地完成电压暂降同源数据的检测,即便是在案例2、3 中数据质量不高的情况下,也可做到细粒度波形匹配,有效提高了算法的鲁棒性。
3.2 对比分析
为更好地验证所提算法的优越性,与文献[11]相同,选取10 min(某月13 日09:30—09:40)内上传的6 个电压暂降数据进行同源检测分析,数据波形如附录A 图A10 所示,由于文献[11]与文献[12]算法类似,以下分析以文献[11]方法作为对比。按照文献[11]中的数据处理顺序,首先计算每条电压暂降数据的起止时间,然后截取电压暂降起始时刻前两个周期至电压暂降结束时刻后两个周期的波形,并计算其有效值。然后,以图A10(a)为基准数据,分别计算待检测数据与基准数据的Wasserstein 距离。以三相距离计算结果对数据进行DBSCAN 分析,聚类结果如附录A 图A11 所示。除图A10(b)和(c)数据外,其余在时间片内被单次记录的电压暂降数据均被判断为噪点,无法形成聚类。并且由于时间片约束的问题,与图A10(d)事件同源的电压暂降数据时标在时间片以外,如附录A 图A12 所示,其数据的时标为09:21,倘若将噪点数据全部当作单次记录的事件,则在时间片外的数据将出现漏检,最终同源检测结果并不准确。
本文所提算法得到的检测结果如表3 所示。
表3 本文所提算法得到的检测结果(10 min)Table 3 Detection results obtained by the proposed algorithm (10 min)
由于图A10(b)与(c)检测出同源,因此无须再将图A10(c)与其他数据匹配。由结果可知,所提算法可准确地检测出时间片内的同源事件。
为探讨时间片约束对同源检测算法的影响,本文将时间片扩大,针对一天中的电压暂降数据进行同源分析,电压暂降数据如附录A 图A13 所示。将时间最早的数据(图A13(a))作为基准数据,文献[11]的检测结果如附录A 图A14 所示,当多个非同源数据的三相电压Wasserstein 距离值相差不大时,最终基于密度原理的DBSCAN 算法的聚类结果则会受到较大的影响。图A14 中五角星为图A13(c)和(d)两个电压暂降数据,也就是说在3 组同源数据(图A13(e)、(f)、(g)数据算作一组)中仅成功检测出一组。
本文所提方法的检测结果如表4 所示,表中仅列出了同源数据的检测结果。虽然所提算法的检测次数较多,但根据算法检测原则,检测结果可清楚地判断出同源数据,最终3 组同源数据都判断正确。
表4 本文所提算法检测结果(一天)Table 4 Detection results of the proposed algorithm(one day)
4 结语
本文提出了一种基于轨迹特征关键点匹配的电压暂降同源事件精确检测方法,算法的具体优势如下:
1)所提算法能够摆脱时间片约束,在确定基准数据后,可逐一对数据存储池中的电压暂降数据进行同源检测,有效避免了电压暂降数据的漏检。
2)所提算法根据反映波形细节的特征关键点来判断电压暂降数据是否同源,可有效完成大数据集下的同源检测,提高了同源检测的精度。
3)对于现有算法无法检测的“坏数据”及同时包含两个电压暂降事件的数据仍然能够完成准确的检测,很好地弥补了现有算法的缺陷,具有更强的鲁棒性。
但当数据集中单次记录的数据占比较大时,本文算法所需的检测次数较多。此外,无论是本文所提算法还是已有算法在进行同源检测的过程中都需要对三相电压数据逐相比对,并且还需讨论T1至T8这8 种传变情况,虽准确完成了同源检测的任务,但整个计算过程较为复杂,计算所消耗的内存也较高,影响了对大规模电压暂降监测数据分析的效率。因此,在未来的研究中亟须使整个检测过程更加简化,在保证一定准确率的同时,优化计算步骤,减少计算内存需求,更好地完成电压暂降数据的分析工作。
本文的算例验证工作是在国网江苏省电力有限公司电力科学研究院史明明博士和张宸宇博士的大力支持下完成的,在此表示衷心的感谢!
附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。