基于DBSCAN的风电叶片音频分类研究
2022-03-04董小泊
董小泊
(中国华电集团有限公司甘肃公司,甘肃 兰州 730000)
风能作为一种环保、绿色、可再生的清洁能源,在全球节能减排进程中起到了越来越重要的作用。我国风资源主要分布于沿海、西部内陆等偏远、气候环境恶劣的区域,因此在此恶劣环境中,风电机组的叶片极易遭受环境侵蚀,产生裂纹、磨损、沙眼等情况,因此如何检测叶片质量成为了一项重要工作。传统模式下的人工定期巡检方式,对于大多地处偏远区域、海上区域等的风场,在风电机组数众多的情况下,效率与时效性极低。因此,基于数字化、网络化的自动远程叶片监测技术,正越来越受到人们的重视。
目前,对于叶片的自动化监测,普遍采取一种不影响风机正常运作的无损检测方法,选择合适的拾音器,安装在塔筒底部塔壁上,采集并分析叶片旋转时的扫塔声。
1 DBSCAN
本文基于叶片运转与未运转2种类别的音频数据进行分类。可采取人工耳听并对叶片音频贴标签的方式构建监督分类模型,但由于音频持续采集,数据量较大,采取人工方式,效率极低,因此尝试基于无监督的DBSCAN聚类方式进行分类。
DBSCAN基于密度聚类,不需要预先指定聚类簇数,它可发现任意形状的聚类,作为基于密度算法的经典代表,在聚类分析中得到越来越多的应用。
DBSCAN算法需要设定两个参数:Eps(定义密度时的邻域半径参数,记为ε)和MinPts(邻域密度阈值,记为M)。记数据集合X={x(1),x(2),…,x(N)},基本概念如下:
(1)ε邻域:设x∈X,称Nε(x)={y∈X;d(y,x)≤ε}为x的ε邻域,显然x∈Nε(x)。
(2)密度:设x∈X,称ρ(x)=|Nε(x)|为x的密度,是一个整数值,且依赖于半径ε。
(3)核心点:设x∈X,若ρ(x)≥M,则称x为X的核心点。记由X中所有核心点构成的集合为Xc,并记Xnc=XXc表示由X中的所有非核心点构成的集合。
(4)边界点:设x∈Xnc,且∃y∈X,满足y∈Nε(x)∩Xc,即x的ε邻域中存在该核心点,则称x为X的边界点,记由X中所有边界点构成的集合为Xbd。
(5)噪声点:记Xnoise=X(Xc∪Xbd),若x∈Xnoise,则称x为噪音点。
(6)直接密度可达:设x,y∈X,若满足x∈Xc,y∈Nε(x),则称y是从x直接密度可达的。
(7)密度可达:设P(1),P(2),…,P(m)∈X,其中m≥2,若它们满足:P(i+1)是从P(i)直接密度可达的,i=1,2,…,m-1,则称P(m)是从P(1)密度可达的。
(8)密度项链:设x,y,z∈X,若y和z均是从x密度可达的,则称y和z是密度相连的,显然密度相连具有对称性。
(9)类:称非空集合C⊂X是X的一个类,如果它满足:对于x,y∈X
若x∈X,且y是从x密度可达的,则y∈C;
若x∈C,y∈C,则x,y是密度相连的。
它的具体步骤:
输入:数据集X,半径参数ε,密度阈值M
输出:聚类结果及噪声数据
步骤1:从数据集X中随机抽取一个未被处理的对象x,且在它的ε-邻域满足目睹阈值要求,称为核对象;
步骤2:遍历整个数据集,找到所有从对象x的密度可达对象,形成一个新的簇;
步骤3:通过密度相连产生最终簇结果;
步骤4:重复执行步骤2和步骤3,直到数据集中所有对象都为“已处理”。
因此,基于密度的聚类就是一组“密度相连”的对象,以实现最大化的“密度可达”,不包含在任何聚类中的对象就是噪声数据。
2 特征提取
在对叶片音频进行DBSCAN之前,需要进行特征提取。叶片音频本质上属于时域信号,但由于它又属于信号数据,可从频域上提取特征。设信号为xi。
时域特征
(2)1/3倍频程:1/3倍频程可以简化频谱的分析过程,无需分析每个频率成分的声能量,将信号的频谱划分为若干个频带,每个频带的频率上下限之比恒定为21/3,分析不同频带的能量分布情况。
(3)MFCC:捕捉音频信号的能量在不同频率范围内的分布。
3 聚类
利用某风场2.5MW机型采集的164个叶片音频数据(其中叶片运转82个,叶片未运转82个,包含在其中的含噪音频10个),提取特征(共48个),进行DBSCAN聚类。聚类结果可视化如图1所示。
图1 DBSCAN聚类可视化
圆点代表风电机组叶片未运转,五角星点代表风电机组叶片运转;正方形点代表噪声点。
从图1可以看出,DBSCAN聚类可将机组叶片旋转与未旋转准确区分开来,但其中存在一些噪声,通过人工耳听这些噪声音频,接近圆点部分的音频主要包含路过人员的说话声、栖息在拾音器上鸟的鸣叫;接近五角星点部分的音频主要包含冷却风扇开启后的噪声,淹没了部分叶片旋转的扫塔声。
从总体上来说,DBSCAN对叶片音频分类的效果较好,混淆矩阵见表1。
表1 混淆矩阵
从表1中可以看出,原始叶片运转与叶片未运转的音频分别有82个,聚类后,叶片运转的音频分类正确的有69个,分类成含噪音频的有8个,其中分类成叶片未运转(即分类错误)的有5个;叶片未运转的音频分类正确的有80个,分类成含噪音频的有2个,其中分类成叶片运转(即分类错误)的有4个。
分类结果见表2。
表2 分类结果
从表2中可以看出,预测的ROC值达93%,准确率达94%。
后续工作将对含噪音频进行处理,将音频中的噪声过滤,得到纯净的叶片扫塔声。
图2展示了叶片运转图2(a)、叶片未运转图2(b)、噪声图2(c)的典型波形图。
图2 叶片运转、叶片未运转与噪声的波形图
4 结束语
本文从时域与频域的角度,分别对采集到的风电机组叶片音频提取特征,然后再进行无监督的DBSCAN聚类,最终给出聚类结果,避免了人耳听音频确定标签的低效率,通过实例对比研究,发现聚类效果较好,能发现其中的噪声点。有利于对含噪音频进行去噪滤波,得到纯净的叶片音频,并用于后续叶片状态的感知判断。