基于犹豫模糊集的不等长序列识别方法及应用
2021-08-16李双明关欣孙贵东
李双明,关欣,孙贵东
(1.海军航空大学,山东 烟台 264001;2.92941 部队,辽宁 葫芦岛 125001;3.32801 部队,北京 100082)
1 引言
犹豫模糊集作为一种新兴的模糊集理论[1-2],能够对认知信息进行充分表述,十多年来吸引了广大学者的极大关注,得到了快速的发展,出现了对偶犹豫模糊集[3]、概率犹豫模糊集[4]和犹豫模糊语言集[5],并被应用到多属性决策、聚类分析、模式识别等诸多领域。距离和相似性测度是犹豫模糊集理论中极其重要的研究内容,二者是可以相互转化的[6],本文仅研究犹豫模糊集的距离测度。
Xu 等[7]研究了犹豫模糊集的距离测度和相似度概念,通过对长度不同的犹豫模糊数重排序和增加最大(最小)隶属度的方式补齐。Peng 等[8]提出了广义综合加权距离测度,假设犹豫模糊数的长度相等。犹豫模糊数的长度也是区分其不同的一个指标,文献[9-11]定义了一系列包含犹豫度的距离测度。Zhang 等[12]提出了犹豫模糊距离集的概念,通过对犹豫模糊距离集的比较实现决策,与基于向量计算的距离测度不同,该方法是基于集合的概念进行计算。Tang 等[13]提出一种新的犹豫模糊距离测度,该方法不需要对不同长度的犹豫模糊数补齐,但是对条件自反性提出可更苛刻的要求,只有当2 个犹豫模糊数的隶属度为单个且相等时,犹豫模糊距离才等于零。Hu 等[14]定义了上边界足迹、下边界足迹以及区间边界足迹,通过上下边界足迹的差别定义了一种新的相似度,但本质和文献[7]中的相似度是一样的。Singha 等[15]在现有距离测度的基础上,通过隶属度差与和的相对值,定义了一种改进的犹豫模糊距离测度。Farhadinia 等[16]研究了一类基于Hausdorff 距离的犹豫模糊距离,它不需要对犹豫模糊数的长度补齐,也不需要对犹豫模糊数重排序。Rezaei 等[17]定义了包含犹豫度和犹豫模糊范围的犹豫模糊距离测度。
对已有文献研究发现,大部分的犹豫模糊距离测度需要满足2 个假设条件:一是犹豫模糊数中的隶属度按降序或升序排列;二是用悲观法或乐观法将2 个不同长度的犹豫模糊数补齐,使其长度一致。这样会引入额外的误差信息,使判别结果违背实际情况。从度量空间的数学角度,现有的距离测度不能完全满足度量空间的基本性质,所以其定义的距离测度只是在特定假设条件下的测度函数,不能严格地称其为度量测度。Hausdorff 距离测度尽管释放了对隶属度长度和排序的要求,但只用到了犹豫模糊数中的部分信息。此外,尽管犹豫模糊集理论已经应用到模式识别等相关领域,但都是在犹豫模糊信息环境下开展讨论的,而对于非犹豫模糊信息的场景该如何应用,则缺乏相关研究。
序列类型数据是多传感器测量中的一种重要数据类型,不同传感器、不同特征参数上的测量值大小范围及物理量纲一般是不同的。大多数研究文献都聚焦在序列数据的关联问题上[18-19],尤其是不等长序列的关联问题,其任务就是确定一种度量函数,实现对2 个序列的比较[20],而对于不等长序列的识别问题研究较少,尤其是用不等长数据序列求解复杂系统问题的研究更少。例如,在雷达、通信等方面[21-22],正确的目标识别为态势感知和控制人员的决策提供重要支撑。因电子技术的快速发展,多种新体制信号频频出现,如射频频率有固定、捷变、组变、跳变等类型,脉冲重复周期有固定、参差、组变、抖动、滑变等类型,脉宽有固定、多脉宽组合、抖动等类型,传统的识别方法已不能满足需求。尽管信号的调制样式多变,但可以将其视为一种时间(周期)性的不等长序列数据,将新体制信号的识别问题归结为不等长序列数据的识别问题,又因为空间电磁环境的复杂和强干扰性,侦察的数据往往是不确定的、带有较大误差的,而犹豫模糊集理论为该问题的建模、求解提供了一个新的思路。为此,本文将犹豫模糊集理论应用到上述问题中,提出了基于犹豫模糊特征距离测度的不等长序列识别方法。
2 理论基础
2.1 犹豫模糊集
Torra 给出了犹豫模糊集的语言描述定义[1]。
定义1X表示参考集(论域),犹豫模糊集为X上的一个函数,该函数返回[0,1]上的一个子集。
Xia 等[23]根据Torra 的观点,给出了犹豫模糊集的数学描述。
记有限对象集X= {x1,x2,…,xn},A为X上的犹豫模糊集。
其中,h A(x)由[0,1]上的有限个数值构成,表示对象x隶属于A的多个可能取值,称为犹豫模糊数。
2.2 犹豫模糊距离
文献[7]中定义的广义犹豫模糊距离为
文献[13]给出了广义犹豫模糊距离为
式(3)满足有界性、条件自反性、对称性和三角不等式。尽管该方法不用对2 个不同长度的犹豫模糊数补齐。但是按照条件自反性,如果hA(xi)=hB(xi),l Ai=lBi≠ 1,则d(hA(xi),hB(xi)) ≠ 0,在识别问题上,出现这样的结果是违反直觉的。
3 问题来源及识别模型
以新体制雷达辐射源信号识别为例进行描述。新体制雷达的特征参数往往具有周期性变化特点,如射频频率有固定、捷变、组变、跳变等多种类型,某个工作模式上的特征参数不再为单一固定数值,即不能用单一固定数值完成对该工作模式的描述,而需要一组周期性变化的数值来完成对该工作模式的描述,并且不同工作模式上的数值个数可能不等。这样一组数据被称为(周期性)序列数据,而待识别目标的特征参数同样是序列数据,在识别中会产生如下问题。
1) 等长序列的匹配问题
已知数据库中目标A在特征属性P上的序列测量值为 {x1,x2,x3,x4},因通信时延等因素,待识别目标在特征属性P上的序列测量值为,但不能确定该序列的起始点该对应数据库中的那个点,如对点来讲,不知道应该匹配 {x1,x2,x3,x4}中的哪个测量点。
2) 不等长序列的匹配问题
已知数据库中目标A在特征属性P上的序列测量值为 {x1,x2,x3,x4},因环境噪声干扰等因素,待识别目标在特征属性P上的序列测量值为,显然2 个序列的长度不相等,正是因为序列的不对等,所以无法确定短序列的起始点应该对应长序列的哪个点。
在实际测量过程中,无论数据库中的是已知目标数据,还是未知目标数据,因各种因素的影响,其结果都带有一定的不确定性,为此,本文假设序列数据中的每个点都是模糊数,序列数据为模糊序列数据。
3.1 问题描述
3.2 识别模型
1) 模糊数的格贴近度
2) 模糊数集的相近程度表征
2 个序列存在有序性及不等性,下面介绍如何确定2 个有序模糊数集之间的相近程度。
通过上述的匹配方式,可不必考虑因时间周期性带来的排序问题。
4 广义集成特征距离测度
定义2设A和B为2 个在X上的犹豫模糊集,记A和B的距离测度为d(A,B),满足以下性质。
性质1有界性:0 ≤d(A,B) ≤ 1。
性质2对称性:d(A,B)=d(B,A)。
性质3条件自反性:d(A,B)=0,当且仅当A=B。
性质4三角不等式:d(A,C) ≤d(A,B)+d(B,C)。
表1 犹豫模糊数表示的决策信息
定义3[23]对于在给定论域X= {x1,x2,…,xn}上的犹豫模糊数h(xi),称s(h(xi))为犹豫模糊数h的均值。
定义4[24]对于在给定论域X= {x1,x2,…,xn}上的犹豫模糊数h(xi),称v(h(xi))为h(xi)的方差。
定义5对于在给定论域X={x1,x2,…,xn}上的犹豫模糊数h(xi),称r(h(xi))为犹豫模糊数h(xi)的相对范围。
定义6[11]对于在给定论域X= {x1,x2,…,xn}上的犹豫模糊数h(xi),称u(h(xi))为犹豫模糊数h(xi)的犹豫度。
通过定义3~定义6,可以用一个新的特征向量
来实现对犹豫模糊数h(xi)在特征空间上的表示(用特征向量h′(xi)替代犹豫模糊数h(xi)),这样就将数据空间中的距离测度计算问题转化到特征空间中处理,解决了犹豫模糊数隶属度长度不等带来的困难。
从另外一种角度来看,上述过程也可以解释为通过特征转换把h(xi)变换成h′(xi),h′(xi)可认为是规范化的广义犹豫模糊数,每个隶属度的位置是固定有序的,长度也是固定的,不用再考虑隶属度的排序问题和长度补齐问题。在不引起歧义及充分理解各符号意思的前提下,式(17)可简写为
式(19)中没有对2 个长度不等的犹豫模糊数补齐,括号内第5 项只对排序后2 个犹豫模糊数较短的部分进行比较,舍去了较长犹豫模糊数剩余的隶属度,这样做有2 个目的:一是不引入多余的信息,二是使新的距离测度满足定义2 中的性质3。
考虑对象xi的权重wi,wi≤ 1且,则式(19)变为犹豫模糊加权广义集成特征距离,即
定理1设在给定论域X= {x1,x2,…,xn}上的2 个犹豫模糊数为A和B,式(19)和式(20)定义的距离测度满足定义2 中的4 条性质。
证明式(19)和式(20)形式上是一样的,只对式(19)进行证明。
1) 性质1 和性质2 显然成立。
2) 当A=B时,易 得d(A,B)=0。由d(A,B)=0可得
因此,性质4 成立。
综上所述,定理1 成立。证毕。
5 识别过程
5.1 特征参数权重
1) 熵测度法
将每一个特征参数Aj视作定义在目标类别集
2) 支撑度法
以特征参数为犹豫模糊集,论域为目标集,每类目标不区分重要程度,采用式(19)计算距离。每个特征参数(犹豫模糊集)的支撑度为
相对于所有其他特征参数的支撑度之和为
每个特征参数的权重为
5.2 结果判定
为便于表述,将第3 节中决策信息表简写成决策矩阵的形式,不再区分各个模式,即
基于本文犹豫模糊广义集成特征距离的VIKOR(visekriterijumska optimizacija i kompromisno resenje)判别方法步骤如下。
步骤1确定正理想解和负理想解。
为不引入误差,设正、负理想解的长度与每个Ai中最短犹豫模糊数的长度保持一致,即
步骤2分别计算各个目标类别的群体效能值Si和个体后悔值Ri。
步骤3计算各目标类的折中值Qi。
步骤4对Q={Qi}、S={Si}、R={Ri}分别升序排列,升序后的排列为Q′= {Qσ(i)}、S′= {Sσ(i)}、R′= {Rσ(i)},得到3 种排序方案,σ(i)表示第i小的值。
步骤5由最小Qσ(1)决定的目标类别为识别目标,即最好的折中解,需要同时满足以下2 个条件。
条件1。
条件2决策时可接受的稳定性,目标类σ(1)对应的群体效能值和个体后悔值其中至少有一个也是最小值,即目标类σ(1)也是群体效能值或个体后悔值所决定的最优方案。
步骤6如果上述的条件有一个得不到满足,则提出如下的折中解。
1) 如果只有条件1 满足,则折中解为σ(1)和σ(2)。
2) 如果只有条件2 满足,则折中解为σ(1),σ(2),…,σ(M),满足σ(M) −σ(1)<。
6 仿真分析
本节的仿真分析包括三部分:1) 数值算例,验证本文所提特征距离测度的分辨能力;2) 犹豫模糊环境下能源策略的选择问题,验证本文方法与其他决策方法的排序能力;3) 目标识别的应用问题,验证本文方法对有序不等长序列的识别能力。
6.1 数值算例
例1[17]设论域X={x},在X上存在2个模式,表示为犹豫模糊数的形式,分别为h1= {1 .0,0.95}和h2= {1 .0,0.5,0.45},存在一个被识别模式h0= {0 .8,0.75,0.7}。
将本文方法分别与文献[7]方法、文献[9-10]方法、文献[11]方法的距离测度进行对比,结果如表2 所示。
表2 例1 中的计算结果对比
可以直接判断模式h0属于模式h1,而不是模式h2,那么d(h0,h1)就应该小于d(h0,h2),表2 中的计算结果表明,不论系数λ如何变化,文献[7]方法、文献[9-10]方法、文献[11]方法中的计算结果都是错误的,本文方法的计算结果都是正确的。
例2[10]设论域X={x},在X上存在3 个模式,表示为犹豫模糊数的形式,分别为h1={0.1911,0.155 6},h2= {0.8560,0.4902,0.4225},h3={0.815 9,0.460 8,0.457 4,0.450 7}。
将文献[7]方法与本文方法的距离测度进行对比,计算结果如表3 所示。从表3 中可知,不论系数λ如何变化,文献[7]方法距离测度不满足三角不等式。
表3 例2 中的计算结果
例3 设论域X={x},在X上存在3 个模式,表示为犹豫模糊数的形式,分别为h1= {0.95,0.9},h2= {0.4},h3= {0.9}。
将本文方法的距离测度与文献[11]方法、文献[17]方法的距离测度进行对比,计算结果如表4 所示。在文献[11]方法和文献[17]方法中,系数λ取值的不同,计算结果是不一样的。当λ=1时,文献[11]方法和文献[17]方法的距离测度都不满足三角不等式,而本文方法中无论系数λ取何值,距离测度都满足三角不等式的要求。
表4 例3 中的计算结果
综合考虑例2 和例3 的计算结果可知,文献[7]、文献[11]、文献[9-10]和文献[17]中定义的距离测度不能够全部满足定义2 中的4 条性质,从严格的数学角度,其所定义的距离测度不能构成度量空间,可以说这样定义的距离是片面的,而本文所提的距离测度则成为度量空间。
6.2 能源策略选择
本节中涉及的数据来自文献[7]和文献[13]。对5 个能源项目进行投资Pi(i= 1,2,…,5),有4 个准则分别为技术因素C1、环境因素C2、技术因素C3、经济因素C4。准则的权重系数向量为w=(0.15,0.3,0.2,0.35)。决策者以匿名方式对每个备选方案进行评估,评估值是以犹豫模糊数提供的,犹豫模糊决策信息如表5所示。选定理想解P*={1}作为比较的参考点,通过计算与理想解之间的距离,来实现方法排序,文献[7]方法、文献[13]方法、文献[16]方法及本文方法的排序结果如表6所示。
表5 犹豫模糊决策信息
表6 排序结果
将理想解设定为P*= {1},那么直觉上5 个项目中最可能被选中的项目应该是项目P3,本文的计算结果符合预想,且不同的λ取值下其排序结果的最优解是一致的。而文献[7]方法、文献[13]方法和文献[16]方法的较优项目为P3或P5,其中选择项目P5是不合适的,因为选择的理想解为P*={1},这就意味着决策者对各准则上的期望收益是确定性的,对风险是可控的,应该根据这个原则来决定哪个项目是最优的。显然项目P5各个准则上的犹豫程度是最大的,那么它的不确定性也是最大的,所以对那些误选择后果无法挽回的项目更是不可取的。文献[7]方法、文献[13]方法和文献[16]方法之所以选择P5为合适解,是因为在计算过程用最大值补齐了2 个不等长的犹豫模糊数,导致犹豫模糊决策信息产生变化,甚至已经不是原有决策信息,因此产生的结果是不合适的。
6.3 目标识别应用
假设目标数据库中有4 类目标,分别为U1、U2、U3、U4;每个目标有3 种特征参数,分别为A1、A2、A3;每种特征参数的测量值为周期性(有序)序列型数据,工作模式如表7 所示。
表7 目标类别及工作模式
设选取表中的模式5 作为被识别模式,由于噪声的影响,该模式的序列长度可能会发生变化,因此分2 种情况进行仿真。
情况1 模式序列的原长度保持不变,叠加随机噪声形成被识别模式的数据,为reco_mode1={[3 792.46,3 871.88,3 957.04],[1 287.71,1 377.71],[15.88]}。
情况2 模式序列的原长度发生变化,叠加随机噪声形成被识别模式的数据,为reco_mode2={[3 792.46,3 871.88],[1 287.71,1 377.71,1 621.32],[6.78,7.2]}。
根据第5节中的特征参数权重确定方法和结果判定方法,则可以形成以下2 种识别方法:基于熵测度的VIKOR 识别方法(下文简称为熵测度法)、基于支撑度的VIKOR 识别方法(下文简称为支撑度法)。
熵测度法和支撑度法的权重计算结果如图1 所示。图1 中entropy_w_1、entropy_w_2、support_w_1、support_w_2 分别表示情况1 中基于熵测度的权重、情况2 中基于熵测度的权重、情况1 中基于支撑度的权重、情况2 中基于支撑度的权重。
图1 权重计算结果
从图1 中可见,熵测度法的权重值起伏较大,支撑度法的权重值比较均匀。3 种特征参数中,特征1 和特征2 的权重大于特征3 的权重。
情况1 和情况2 基于熵测度法和支撑度法的计算结果如图2~图5 所示。
图2 情况1 基于熵测度法的计算结果
图3 情况1 基于支撑度法的计算结果
图4 情况2 基于熵测度法的计算结果
图5 情况2 基于支撑度法的计算结果
图2~图5 的结果表明,对于情况1 和情况2,模式5 的群体效能值、个体后悔值和折中值都是最小的,都判定被识别目标为U2,判定结果正确。
7 结束语
针对不等长序列识别问题,本文利用模糊数的格贴近度,建立了基于犹豫模糊集的不等长序列识别模型。本文提出了一种新的犹豫模糊广义集成特征距离测度,一方面解决了不等长犹豫模糊数的度量问题,另一方面解决了现有距离测度不完全满足度量空间相关性质的问题。本文提出了2 种特征权重的计算方法,即熵测度法和支撑度法;结合2 种权重计算方法,提出了基于犹豫模糊广义集成特征距离测度的VIKOR 判定方法。