小样本下基于CNN-DCGAN的电缆局部放电模式识别方法
2022-07-13轩旭阳刘鹏辉赵来军
孙 抗,轩旭阳,刘鹏辉,赵来军,龙 洁
(1.河南理工大学 电气工程与自动化学院,河南 焦作 454000;2.国网河南省电力公司 焦作供电公司,河南 焦作 454000)
局部放电(Partial Discharge,PD,简称“局放”)不仅会对电缆绝缘缺陷造成较大影响,同时也是绝缘缺陷的重要表征。根据导致绝缘缺陷的因素不同,绝缘缺陷的表现形式也是多种多样的。不同形式的绝缘缺陷造成的局放具有不同的表现形式,造成的危害程度也有所差别[1]。因此,对绝缘缺陷的类型进行有效识别具有重要的意义。
电缆局放模式识别系统的性能很大程度上依赖有效特征的提取,目前主要通过构造人工特征来实现。文献[2]采用线性和非线性特征分析技术对电缆局放信号进行特征提取,然后通过这些特征进行模式识别分类。文献[3]采用随机森林在训练过程中对局放特征重要性进行评判,根据评判结果进行特征优选,然后通过支持向量机(Support Vector Machine,SVM)[4]和BP神经网络(Back Propagation Neural Networks,BPNN)[5]进行验证。文献[6]研究了BPNN的算法和结构,并利用BPNN对电缆典型绝缘缺陷局部放电类型进行模式识别。上述人工特征本质上是一种经验性方法,主观性强,信号的本质特征也难以完整表达[7]。虽然有效的特征选择和特征组合可一定程度上降低影响,但工作量较大。
深度学习[8-10]通过学习深层非线性网络结构,自动从大量数据中学习特征,表征输入数据,在使用中减少了手工设计特征的工作量。同时,它把特征提取和分类器结合到一起,实现了端到端(End-to-End)模式分类[11]。近年来,在图像处理和自然语言处理领域取得了成功。由于深度学习模型本身的表达能力强,因此需要大量标注或非标注训练样本来避免模型过拟合。电缆现场故障样本匮乏,局放信息记录并不完善,实验室采集的数据量有限,用于模型训练的样本集实际上是故障类别分布非均衡的小样本数据。这就使得分类器在实际应用中容易出现漏判及误判,降低了可用性。
在现有样本数据的基础上,通过有效的样本增强方法增加训练样本的数量,为解决电缆局放模式识别系统依赖有效特征提取的问题提供了新的思路。相比于传统过采样方法,生成对抗网络(Generative Adversarial Networks,GAN)不依赖先验条件,通过无监督学习获得数据间的潜在分布规律并生成新的样本,可有效提升模型分类性能。文献[12]将故障机理和个性特征结合,以原始数据为基础,通过GAN理论建立生成模型,生成新的样本数据。文献[13]在GAN模型的基础上,将数据和机理结合,改善了能源系统中模型切换的问题。文献[14]通过提出了一种基于生成对抗网络的配电数据增殖方法,解决了配电数据分布不均匀及利用率较低的问题。上述样本增强方法是基于一维信号通过全连接层或一维卷积层生成新数据,生成数据质量差,训练时间长,并不能直接用于电缆局放模式识别。
基于上述分析,本文提出了一种小样本下基于CNN-DCGAN的电缆局放模式识别新方法。首先,利用滑动时间窗直接将电缆局放时域信号转化为二维图像信息;其次构建深度卷积生成对抗网络模型对局放样本进行样本增强;最后,利用卷积神经网络(Convolutional Neural Networks,CNN)[15-17]的非线性编码器自动提取局放特征,利用Softmax层训练特征分类模型,最终实现电缆局放模式识别。实验结果表明,文中提出的方法与传统人工特征提取方法相比降低了人工特征选择中部分信息丢失的风险,同时降低了工作量。增强后的样本库包含更多的局放信息,提高了模型泛化能力,具有较强的实际应用价值。
1 局放信号的表达及样本增强
1.1 局放时域信号的二维图像表达
局放时域信号包含大量的特征信息,但是一维的局放信号并不能直接应用于CNN。在采用CNN进行识别分类之前,需要将原始的一维局放信号转化为二维图像。二维图像是原始一维信号的同步转换,将时域信号中的电压和时间信息通过特征图的像素值和其所在的位置进行一对一还原,保留了原始局放数据的全部特征。同时,转换成局放图像后,时域信号中存在的噪声可被认为是光照干扰[18],通过CNN中的卷积运算即可对其进行消除。转换过程如图1所示,具体步骤为:
图1 时域信号到图像的转换
步骤1滑动窗口取值。利用滑动窗口取值法,在局放时域信号上随机截取信号片段。窗口的大小为M,表示一次截取M个单位的数据,每次截取之后,窗口向后移动N个单位。共截取M次,最后得到M个长度为M的信号片段。同时,需要保证N≥M,且局放时域信号包含的数据点大于或等于M×M;
步骤2信号的组合。将步骤1中随机选取的信号片段进行组合,得到一条长度为M×M的信号序列。每个信号列的强度记为L(k),其中k=1,2,3,…,M2;
步骤3二维图像生成。利用式(1)将步骤2得到的M×M的信号序列转化为灰度图
(1)
式中,P=(j-1)×M+i;round(⋅)表示取整函数;P(j,i)表示转化后每个图像的像素值,j=1,2,3,…,M,i=1,2,3,…,M。式(1)将所有像素值归一化至0~255之间,正好为灰度图像的像素值域。
从式(1)可以看出,局放时域信号中电压值与二维图像的像素值一一对应,同时放电时刻对应二维图像中该时刻放电电压像素值所处的位置。局放时域信号及其转化后的二维特征图如图2所示。
(a)
1.2 基于DCGAN的样本增强
样本增强技术利用有限的样本数据生成同分布的新样本,扩充训练样本集,增加训练样本的数量,在一定程度上克服了电缆局放小样本数据集在训练CNN模型时的过拟合缺陷,提升了小样本条件下模型的泛化能力。深度卷积生成对抗网络(Deep Convolution Generate Against Networks,DCGAN)是在生成对抗网络(Generate Against Network,GAN)基础上的一种改进,它利用CNN代替GAN中的判别器(Discriminator)和生成器(Generator)中的多层感知机,提升了GAN模型的稳定性。同时DCGAN利用CNN强大的特征对生成器和判别器进行建模。与GAN利用多层感知机进行特征提取相比,DCGAN提取到的特征更为丰富,对于图像特征的提取效果也更加突出[19]。DCGAN的模型结构图如图3所示,在判别器中,采用卷积层提取特征;在生成器中采用转置卷积层还原图像中的信息。DCGAN生成器和判别器的结构分别如图4和图5所示。
图3 DCGAN的结构示意图
图4 生成器的结构示意图
图5 判别器的结构示意图
基于DCGAN的数据增强步骤如下:
步骤1创建生成器和判别器并初始化其权重参数,然后将生成器固定通过如式(2)所示的损失函数式来训练判别器。参数更新方式如式(3)所示,式中η为学习率;
(2)
θd←θd+η∇Vd(θd)
(3)
步骤2固定判别器,开始训练生成器。式(4)和式(5)分别是生成器的损失函数和参数更新方式;
(4)
θg←θg-η∇VG(θg)
(5)
步骤3轮流训练判别器与生成器,经过多轮对抗训练之后,DCGAN达到纳什均衡,从生成器中生成增强样本。
2 基于CNN的局放模式识别
2.1 CNN的网络结构设计
CNN是深度学习中最常用的结构之一,它能解决空间共享权重导致的过拟合问题。近年来,CNN在图像处理和自然语言处理等方面取得了一定的成果[20]。CNN的输入是二维数据矩阵,卷积层通过不同的卷积核与输入的数据矩阵进行卷积操作,得到不同的特征子图,完成特征提取。池化层对提取的特征图子图进行降维操作,减少计算量。全连接层对所提取到的特征进行预测,完成识别分类。
如图6所示,首先输入一个64×64的二维图像,然后由卷积层Conv1分别使用3×3大小的卷积核去卷积上一层的图像,可以获得16个64×64大小的二维特征子图。接下来池化层Pool 1采用滑动窗口的方式对Conv1中的每个3×3大小的子块进行池化,池化时窗口每次滑动距离为2。最后采用0进行填充,可以得到16个32×32大小的特征子图。余下的Conv2、Pool 2和Conv3、Pool 3的工作原理与前面一样。然后再由全连接层FC1将Pool 3得到的特征子图拉伸为一维特征,并进行识别分类。
图6 CNN的模型结构
图7为不同局放信号的特征子图以及融合后的特征图。其中,图7(a)是某一局放信号的特征子图和特征子图融合后的特征图,7(b)是另一不同于7(a)的局放信号的特征子图和特征子图融合后的特征图。从图7可以直观地看出,7(a)类局放信号的特征图整体呈竖型线,且线条颜色较深,而7(b)类局放信号的特征图整体呈横状线,线条颜色偏浅,两者存在较为明显的差异,能够用于后续的模式识别。
(a)
2.2 电缆局放模式识别方法
本文提出的小样本下基于CNN-DCGAN的电缆局放模式识别方法流程如图8所示,详细算法步骤如下:
图8 基于自动特征提取的电缆局放模式识别方法流程图
步骤1采用局放数据图像化,将一维时域信号转化为二维图像;
步骤2将图像化的局放数据像按一定比例分成测试样本与训练样本;
步骤3通过DCGAN对训练样本进行数据增强,得到更多的训练样本;
步骤4将原始样本和生成得到的图像样本输入到建立的CNN模型中进行训练;
步骤5最后通过CNN模型对测试样本,进行自动特征提取和识别分类。
3 实验结果及分析
3.1 实验数据采集
实验电路如图9所示。其中,T为无晕变压器,R1为保护电阻,C为耦合电容,R2为检测阻抗,示波器采样率设置为100 MS·s-1,HFCT为HFCT-49。
图9 实验电路
本文实验采用铜芯交联聚乙烯绝缘非铠装电缆进行测试。在绝缘缺陷加工前,先剥除电缆两端的外屏蔽层,将绝缘层切面打磨光滑并套入均压球。在电缆一端施加高压,电缆护套通过包裹铜皮接地,若在试验电压范围内无局放产生,再制作绝缘缺陷,这样能够保证放电源的单一性。实验中制作了外导电层爬电、绝缘内部气隙、绝缘表面划伤、绝缘表面金属污秽4种典型的电缆绝缘缺陷。
数据采集时,首先对缺陷升压,直至缺陷击穿,确定缺陷的击穿电压U0,然后在缺陷放电电压范围内选择一定数量的放电电压值,维持放电电压Ui,并采集电缆局放时域电流信号。表1为不同类型缺陷下的击穿电压和实验电压。
表1 不同类型缺陷的击穿电压和实验电压
3.2 样本集构建
在实验中,每种绝缘缺陷在放电电压下,测得200个局放样本数据,在经过信号到图像转换后得到200幅包含局放信息的二维图像。从转换得到的二维图像中,抽取100个图像作为训练样本,用D1表示,剩余100个图像作为测试样本,用D2表示。然后通过DCGAN以样本集D1为基础生成更多的增强样本,并将增强样本标记为样本集D3。进行4次生成实验,每次只采用一种故障样本。具体数据结果如表2所示。
构造如表2所示的3个样本集。样本集D1包含400个训练样本,具有4种不同的绝缘缺陷。样本集D2包含4种不同的绝缘缺陷的400个测试样本。样本集D3为生成样本,4种缺陷各100个样本。
表2 样本集的详细描述
3.3 识别结果及其分析
3.3.1 与人工提取特征对比
在文献[21]中,人工选取并构造了33种局部放电特征,将其作为模式识别方法的输入参数,采用CNN进行识别分类。本文采用和文献[21]相同的CNN结构模型,参数设置如表3所示,其它参数配置采用最大池化法、Swish激活函数。
表3 CNN模型的参数设置
本文采用样本集D1+D3作为训练样本集,D2作为测试样本集,使用CNN-DCGAN的电缆局放模式识别方法得到如图10所示的混淆矩阵。缺陷类型0、1、2、3分别代表外导电层爬电、绝缘内部气隙、绝缘表面划伤、绝缘表面金属污秽4种绝缘缺陷。从图中可以看出,局放类型0的识别准确率为100%,类型1和类型2相似性较高,存在一定的错误率,类型1的100个样本中有4个错误识别成类型2,类型2的100个样本中有7个错误识别为类型1,类型3的100个样本中有2个错误识别为类型0。但每类缺陷识别精度都在93%以上,整体识别精度为96.75%。文献[21]中使用人工构造算法提取特征,再使用CNN进行识别分类。与该方法相比,本文提出方法的识别准精度提高了4.18%。
图10 局放模式识别混淆矩阵
3.3.2 样本增强对识别结果的影响
训练样本的数量对识别结果有重要的影响,为了验证样本增强在小样本情况下,对样本数量不足造成模式识别准确率过低的解决效率,本文使用基于CNN-DCGAN的电缆局放模式识别方法对使用样本增强和未使用样本增强两种情况的识别准确率进行了对比。对比结果取10次实验的平均值,结果如表4所示。
由表4可见,测试集样本均使用样本集D2,在只使用样本集D1作为训练样本,即未进行样本增强时,识别精度为93.425%。而在使用样本集D1+D3作为训练样本,即采用了样本增强时,识别精度达到了96.6%,与未使用样本增强之前相比,识别精度提高了3.175%。上述实验表明使用样本增强,能够显著提高识别准确率,并解决样本数量不足造成模式识别准确率的问题。
表4 数据增强前后的识别精度对比
图11为在8次对比实验中,使用样本增强和未使用样本增强的识别准确率的柱形图。从图11中可以看出,每一次的对比实验,使用样本增强后识别率均高于未使用样本增强的识别准确率。
图11 8次实验的识别精度
4 结束语
本文提出了一种小样本下基于CNN-DCGAN的电缆局放模式识别方法。此方法首先基于信号到图像的思想,将一维时域信号转化为二维图像;然后通过DCGAN在样本生成领域的优势进行样本增强;最后通过CNN进行自动提取特征,建立特征分类模型,实现端到端的模式分类。实验结果验证了该方法的有效性。需要指出的是,本文所采用的电缆缺陷基于实验室环境制作,而在实际工程应用中,绝缘缺陷的严重程度不完全相同,可能会造成检测到的缺陷信号存在差异,对识别结果造成影响。后续研究中需要考虑缺陷程度不同对识别系统带来的负面影响,增加数据来源的多样性。