APP下载

基于改进资源受限免疫系统结构故障分类算法*

2016-09-14张力心

沈阳工业大学学报 2016年4期
关键词:特征向量聚类分类

周 悦, 张力心, 郭 威

(1. 上海海洋大学 工程学院, 上海 201306; 2. 沈阳建筑大学 信息与控制工程学院, 沈阳 110168; 3. 上海深渊科学工程技术研究中心, 上海 201306)



基于改进资源受限免疫系统结构故障分类算法*

周悦1,2,3, 张力心2, 郭威3

(1. 上海海洋大学 工程学院, 上海 201306; 2. 沈阳建筑大学 信息与控制工程学院, 沈阳 110168; 3. 上海深渊科学工程技术研究中心, 上海 201306)

针对无监督结构故障检测与分类问题,提出了一种基于资源受限人工免疫算法的故障检测与分类方法.该算法将无标签样本数据作为抗体组成人工识别球ARB群体,ARB根据刺激值的大小进行选择、变异和分配B细胞等进化过程来提高ARB的质量,得到能够反映数据结构的记忆ARB网络,实现对实测数据的分类.仿真结果表明,新的网络连接阈值计算方法使网络连接更有效,该算法能够实现有效的故障分类,并且引入Silhouette指标来判断网络稳定性和聚类效果,具有一定的可行性.

结构健康监测; 故障诊断; 无监督; 人工免疫算法; 聚类; 资源受限; 网络连接阈值; 聚类有效性指标

重大土木工程基础设施是保证国民经济稳定、可持续发展的物质基础,及时发现安全隐患,建立安全预警系统是近年来国内外学术研究的热点问题之一[1-2].结构健康监测系统(structural heath monitoring,SHM)是一种仿生智能系统,它利用信息技术分析结构系统的健康状态,及时监测和诊断结构故障以避免灾难的发生.通过运行结构健康监测系统,可以实时监控结构的整体行为,对结构的损伤部位和损伤程度进行诊断,对结构的服役情况、可靠性、耐久性和承载能力进行智能评估,为结构的维修、养护与管理决策提供依据和指导[3-4].其中,故障诊断是结构健康监测的核心内容,其实质就是将人们掌握的有关故障的知识加工成智能诊断系统所接受的语言,将其记录下来,并把待诊断样本与系统记忆故障知识相匹配[5].对于复杂的建筑结构而言,预知所有的故障模式是不可能的,这使得结构健康监测系统面临着新的挑战.

无监督结构故障检测则是利用未知标签的样本,判断待测数据所属的故障模式类型.聚类分析是模式识别和数据压缩领域中一种重要的无监督学习过程,它把一个没有类别标记的样本集按某种准则划分成若干个子集,使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中.对于大规模数据集而言,一方面,样本的总数很大,这对聚类算法尤其是经典聚类算法(如k-means聚类算法、FCM聚类算法等)的可扩展性而言是一个挑战;另一方面,数据集类别数的增加将导致某些类别由于类内样本数较少或类内分布相对密集,而以近似于孤立点的形式存在于样本空间中,这样聚类中心在迭代的过程中容易陷入局部最优值,而无法发现该类型数据集的正确聚类[6-9].

资源受限人工免疫系统(resource limited artificial immune system,RLAIS)是Timmis提出的一种数据聚类模型[10],具有多目标搜索特性,克服了传统聚类算法对初始聚类中心敏感和基于梯度进化容易陷入局部最优解的缺点,且无需预先知道聚类数,非常适合应用于无监督故障检测中.因此,本文提出了一种改进的资源受限人工免疫算法(improved resource limited artificial immune system,IRLAIS)进行无监督的结构故障分类.

1 RLAIS算法

RLAIS算法引入了人工识别球(artificial recognition ball,ARB)概念,将系统中相似的ARB连接组成一个ARB网络,每个ARB根据刺激水平大小竞争获得系统中有限数量的B细胞资源,那些不能获得B细胞的ARB将会被消除,最后留下的数据代表(记忆ARB)形成的网络就是数据的压缩或分类形式.其中,ARB采用了克隆和变异来进化学习.

RLAIS算法在数据挖掘和模式识别领域得到了较好的应用,但RLAIS算法仍存在一些不足:

1) 网络连接阈值(network affinity threshold,NAT)决定了ARB网络粒度的大小,NAT在初始化时给定为抗原样本间亲和力的平均值,在网络学习进化过程中保持不变,而ARB进化过程会使ARB之间的亲和力提高,出现不同ARB子网络相连接的情况,影响网络进化效率;

2) 算法结束条件仅为网络基本稳定,而未使用定量有效的聚类评价函数来判断聚类结果;

3) 每一代刺激值较高抗体不一定被保存下来.

本文针对RLAIS算法存在的不足,进行如下改进:

1) 连接阈值NAT取抗体与抗原亲和力的进化平均值,即NAT在ARB网络进化的每一代重新计算,使NAT能够反映ARB的亲和度的变化,使ARB连接构成的网络更有效;

2) 引入Silhouette指标[11]评价聚类结果;

3) 将每一代中刺激度高的ARB直接保留下来,避免优秀个体被破坏.

2 基于IRLAIS的结构故障分类算法

传感器采集的动态响应测量数据经过标准化、降维和提取敏感损伤特征向量(q为其维数),通过本文的IRLAIS算法进行故障检测和分类.该算法分为两个阶段:

1) 学习阶段,即将样本数据作为抗体组成ARB,计算ARB的刺激值,通过克隆、变异、分配B细胞和资源限制等学习过程生成有代表性的记忆ARB网络;

2) 应用阶段,即应用学习后的记忆ARB网络对实测数据进行分类.

本文符号定义如下:Sag={Ag1,Ag2,…,Agi,…,AgNAG}为从样本数据中随机选择数据组成的抗原集合,i={1,2,…,NAG},其中,NAG为集合Sag的规模,Agi和PAgi=(PAgi1,PAgi2,…,PAgiq)T分别表示Sag中的第i个抗原及其特征向量;Sarb={ARB1,ARB2,…,ARBj,…,ARBNARB}为从样本数据中随机选择数据组成的ARB集合,j={1,2,…,NARB},其中,NARB为集合Sarb的规模,ARBj和PARBj=(PARBj1,PARBj2,…,PARBjq)T分别表示Sarb中的第j个ARB及组成该ARB抗体的特征向量.

2.1学习阶段

初始化抗原集合和ARB集合,学习过程示意图如图1所示.

图1 学习过程示意图Fig.1 Schematic diagram of learning process

2.1.1初始网络的生成

匹配程度aff(Agi,ARBj)的计算公式为

(1)

式中,ρ为匹配系数.式(1)中,两个特征向量之间的距离决定了匹配程度,距离越大,匹配程度越小;反之,匹配程度越大.

代表相同B细胞的ARB通过资源竞争产生具有分类能力的记忆抗体,它由一个抗体及其刺激水平和所拥有的B细胞组成.ARBj代表由第j个抗体组成的ARB.

连接阈值NAT为所有ARBj∈Sarb与所有抗原Agi∈Sag之间匹配程度的平均值,即

(2)

计算ARBj两两之间的相似度(即匹配程度),若大于NAT就建立连接,否则不连接.每一组互联的ARB所构成的子网络代表一个模式类,即第k个子网络为Sarbk={ARBk1,ARBk2,…,ARBkn,…,ARBkNARBk},其中,NARBk为子网k中相互连接的ARB的个数.

2.1.2计算ARB刺激度

ARB与抗原、互联的ARB之间的特征向量匹配程度决定了ARB的刺激值,ARBkn的刺激水平为

(3)

2.1.3分配B细胞资源

根据ARBj∈Sarb刺激水平的大小分配B细胞,ARBj得到的B细胞数目为

(4)

B细胞分配完毕后,要进行资源有限限制,使网络中B细胞数为Nb,即每一次新学习循环开始都将B细胞恢复到Nb.如果N>Nb,首先删除刺激水平最低的ARB中的B细胞,如果一个ARB里的B细胞都被移去,那么这个ARB就被移去.该过程循环进行,直到最后的B细胞数量达到限定值,使得具有较高刺激值的ARB得以生存;如果N≤Nb,则具有最高刺激值的ARB将又被增加N-Nb个B细胞.拥有B细胞的ARB将经历进化过程.

2.1.4ARB进化过程

ARB要经过一个学习进化的过程,ARBj∈Sarb首先根据刺激值的大小进行克隆,克隆数为

ej=σsj

(5)

(6)

2.1.5聚类准则函数

采用Silhouette(Sil)指标来判断聚类效果,Sil指标值为

(7)

2.2应用阶段

学习后的记忆ARB网络用来对测量的数据进行分类,过程如图2所示.

一个模式未知的待分类时间序列数据经标准化、降维和提取敏感损伤特征向量处理后视为入侵抗原Ag.计算Ag与所有记忆ARB网络中ARB的亲和力,亲和力最大值为

(8)

如果affmax≥θ,θ为新模式阈值,则Ag所属故障类别km为与其产生最高亲和力的ARB所属的ARB子网络的类别,即km=arg(affmax);否则,affmax<θ,表明出现新的故障模式,并进行报警.

3 仿真试验分析

实际工程中,健康监测系统所采集的数据均为结构在环境振动、运营荷载下的响应信号,为此本文针对环境激励下四层2×2跨、1/3缩尺的钢框架Benchmark结构模型[12]进行损伤识别分类研究.

图2 应用过程示意图Fig.2 Schematic diagram of application process

3.1聚类分析

图3为网络结构与进化代数的关系.为了便于观察,每种故障模式中仅选取20个样本数据,鉴于高维数据在二维平面上无法表示,选择第一维和第二维为坐标轴进行绘制,且将数据归一化为[-1,1]区间.

由图3可知,由于IRLAIS算法具有较好的收敛性,可以快速完成聚类分析.与抗原匹配度高的ARB刺激度也会较高,基于刺激度的克隆选择和变异后的平均刺激度会有所提高,使与抗原匹配度高的ARB能分配更多的B细胞,资源限制机制使匹配度差的ARB被删除.随着进化代数T的增加,ARB群体与抗原的匹配程度不断增大,数量减少,在T=120时,Sil指标值约稳定在0.75,这时网络结构基本稳定,得到亲和力高的、

图3 网络结构与T的关系Fig.3 Relationship between network structure and T

精简的ARB网络.互连的ARB构成的子网络个数即为聚类数.

3.2算法对比

图4为IRLAIS与RLAIS在进化过程中网络规模变化对比.由图4可知,IRLAIS每代进化更有效,能以更少的迭代次数达到稳定,且最终网络规模较小.连接阈值NAT随ARB进化增大,更能反映ARB实际状态,使网络连接更有效.每一代进化中刺激值高的ARB得到保存而免遭淘汰,促进了算法的收敛速度.

图4 算法对比Fig.4 Comparison in algorithms

3.3故障识别结果

利用记忆ARB网络与待分类特征向量的匹配程度来实现故障的检测和分类.将测得的300个特征向量重新贴上标签,这些特征向量被记忆ARB网络分成三个子类.

与Chen[13]使用的K均值聚类算法相比,本文算法能在数据类数未知的情况下准确计算分类数.表1显示了分配到每个子类中的特征向量的个数.Chen算法平均分类成功率为83%,本文算法分类成功率约为93%,高于Chen算法分类成功率.

表1 分配到每种聚类中的特征向量的个数Tab.1 Number of feature vectors assigned to each clustering

4 结 论

本文提出了一种改进的基于资源限制人工免疫算法的无监督结构故障分类算法,利用有限B细胞资源竞争得到刺激度高的ARB网络,从而进行故障模式检测与分类.仿真试验计算分析验证了该算法的有效性.

[1]Worden K,Farrar C R,Manson G,et al.The fundamental axioms of structural health monitoring [J].Proceedings of the Royal Society A,2007,463(2082):1639-1664.

[2]姜绍飞,吴兆旗.结构健康监测与智能信息处理技术及应用 [M].北京:中国建筑工业出版社,2011.

(JIANG Shao-fei,WU Zhao-qi.Structure health monitoring and intelligent information processing techno-logy and application [M].Beijing:China Building Industry Press,2011.)

[3]Lynch J P.An overview of wireless structural health monitoring for civil structures [J].Philosophical Transactions of the Royal Society A:Mathematical, Physical & Engineering Sciences,2007 (1851):345-372.

[4]Ko J M,Ni Y Q.Technology developments in structural health monitoring of large-scale bridges [J].Engineering Structures,2005,27(12):1715-1725.

[5]袁慎芳.结构健康监控 [M].北京:国防工业出版社,2007.

(YUAN Shen-fang.Structural health monitoring and damage control [M].Beijing:National Defense Industy Press,2007.)

[6]孙吉贵,刘杰,赵连宇.聚类算法研究 [J].软件学报,2008,19(1):48-61.

(SUN Ji-gui,LIU Jie,ZHAO Lian-yu.Clustering algorithms research [J].Journal of Software,2008,19(1):48-61.)

[7]Taherdangkoo M,Bagheri M H.A powerful hybrid clustering method based on modified stem cells and fuzzy C-means algorithms [J].Engineering Applications of Artificial Intelligence,2013,26(5/6):1493.

[8]周涛,陆惠玲.数据挖掘中聚类算法研究进展 [J].计算机工程与应用,2012,48(12):100-111.

(ZHOU Tao,LU Hui-ling.Clustering algorithm research advances on data mining [J].Computer Engineering and Applications,2012,48(12):100-111.)

[9]张宇献,刘通,董晓,等.基于改进划分系数的模糊聚类有效性函数 [J].沈阳工业大学学报,2014,36(4):431-435.

(ZHANG Yu-xian,LIU Tong,DONG Xiao,et al.Validity function for fuzzy clustering based on improved partition coefficient [J].Journal of Shenyang University of Technology,2014,36(4):431-435.)

[10]Timmis J,Neal M.A resource limited artificial immune system for data analysis [J].Knowledge-based Systems,2001(14):121-130.

[11]周世兵,徐振源,唐旭清.新的K-均值算法最佳聚类数确定方法 [J].计算机工程与应用,2010,46(16):27-31.

(ZHOU Shi-bing,XU Zhen-yuan,TANG Xu-qing.New method for determining optimal number of clusters inK-means clustering algorithm [J].Computer Engineering and Applications,2010,46(16):27-31.)

[12]刘娟,黄维平,石湘.基于遗传算法的海洋平台损伤诊断 [J].振动、测试与诊断,2012,32(2):327-349.

(LIU Juan,HUANG Wei-ping,SHI Xiang.Damage diagnosis for offshore platform based on genetic algorithm [J].Journal of Vibration,Measurement & Diagnosis,2012,32(2):327-349.)

[13]Chen B,Zang C Z.Unsupervised structure damage classification based on the data clustering and artificial immune pattern recognition [C]//Proceedings of 8th International Conference on Artificial Immune Systems.York,UK,2009:206-219.

(责任编辑:钟媛英文审校:尹淑英)

Structural fault classification algorithm based on improved resource constrained immune system

ZHOU Yue1, 2, 3, ZHANG Li-xin2, GUO Wei3

(1. College of Engineering Science and Technology, Shanghai Ocean University, Shanghai 201306, China; 2. School of Information and Control Engineering, Shenyang Jianzhu University, Shenyang 110168, China; 3. Engineering Research Center of Hadal Science and Technology, Shanghai 201306, China)

Aiming at the unsupervised structural fault detection and classification problem, a fault detection and classification algorithm based on the resource constrained artificial immune system was proposed. The unlabeled sample data were regarded as antibodies which constituted the artificial recognition balls (ARBs) group in the algorithm. According to the amplitude of stimulation value, the ARBs performed such evolutionary processes as selection, mutation and B cells distribution so as to improve the quality of ARBs, and the memory ARBs nets reflecting the data structure could be obtained, which could realize the classification of measured data. The simulated results show that the new calculation method for network connection threshold makes the network connection more effective. The algorithm can realize the effective fault classification, the Silhouette index is introduced to judge the network stability and clustering effect, and the algorithm has certain feasibility.

structural health monitoring; fault diagnosis; non-supervision; artificial immune algorithm; clustering; resource constrain; network connection threshold; clustering validity index

2015-11-09.

国家自然科学基金重点项目(51439004); 辽宁省自然科学基金资助项目(201102180); 上海市科学技术委员会基金资助项目(14DZ2250900).

周悦(1970-),女,上海人,教授,博士,主要从事水下机械装备和网络化控制等方面的研究.

10.7688/j.issn.1000-1646.2016.04.12

TP 391.4

A

1000-1646(2016)04-0428-06

*本文已于2016-03-02 16∶49在中国知网优先数字出版. 网络出版地址: http:∥www.cnki.net/kcms/detail/21.1189.T.20160302.1649.062.html

猜你喜欢

特征向量聚类分类
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
分类算一算
基于K-means聚类的车-地无线通信场强研究
分类讨论求坐标
数据分析中的分类讨论
一类特殊矩阵特征向量的求法
教你一招:数的分类
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于高斯混合聚类的阵列干涉SAR三维成像