APP下载

基于云模型的多元数据评价方法

2022-06-10李金武

关键词:定性定量权重

李金武

(郑州科技学院信息工程学院,河南 郑州 450064)

多元数据由多维不同类型的数据组成,数据形式多种多样,且具有多种不同特点.多元数据存在多个影响因素,不同影响因素融合为多元[1-2].近年来,随着大数据和网络信息技术的飞速发展,各种各样的数据呈指数形式增长,同时,数据在社会经济发展中的作用也越来越突出.如何在海量数据中提取重要信息,将多元数据进行有效融合,对多元数据进行综合评价,提高人们决策有效性,已成为人工智能、知识发现、自动控制、图像处理等领域研究的热点问题[3].现有的数据融合算法主要有D-S 证据理论、贝叶斯理论、模糊理论和神经网络等[4-8],每种算法都有其自身优缺点.

目前针对信息的不确定性,常采用多元数据融合方法进行处理,首先建立数据评价指标体系,并对各个指标进行赋权,最后对各指标数据进行融合评价.但是,指标权重的确定主观性较强,定性和定量指标的统一问题少有解决.徐卫亚等[4]将D-S 证据理论与云模型相结合,引入权重系数对D-S 证据理论进行改进,将多元数据进行融合,实现对滑坡安全性的综合评价.陈雍君等[5]在模糊评价基础上,引入贝叶斯理论,构建城市地下综合管廊运维风险指标体系,对其进行综合评价,并推理各风险指标之间因果概率关系.张武毅等[6]将灰色关联度和模糊层次分析法相结合,构建智慧工程实验室评价指标体系,对智慧工程实验室进行综合评价.米庆等[7]整合单一神经网络优势,采用混合神经网络,从不同维度构建源代码可读性信息评价指标,对代码可读性进行量化评估.张明旺等[8]将云模型不确定性理论引入水库泥沙淤积影响的评价中,通过主客观组合赋权法确定影响因素指标权重,给出定性评价结论.

传统的多元数据融合方法,在精确数据与区间数据的统一表示上,在定性与定量指标的统一表示上,还存在缺陷.同时,在进行数据融合处理和综合评价时,不能很好反映数据信息的不确定性,没有给出有效的定性与定量相结合的综合评价结论.本文针对多元数据的统一表示问题,引入云模型理论,将不同属性指标统一用云模型表示,使用云模型对属性指标进行赋权,完成多元数据定性与定量评价,验证评价方法的合理性.

1 云模型理论

1.1 云定义

设U 是用精确数值表示的定量论域,C 是该定量论域上的一个定性概念, 对于x∈U,x 是C 上的一次随机实现,x 关于C 的确定度μ(x)∈[0,1]是具有稳定倾向的随机数,则x 在U 上的分布称为云,x 称为云滴.

1.2 云数学特征

云模型[9]使用3 个参数来描述其定性概念,即期望Ex,熵En 和超熵He.3 个参数称为云模型的数字特征,记为C(Ex,En,He).其中期望Ex 是论域的正中心,反映了论域空间最能够代表定性概念的点,熵En是定性概念的不确定性度量,反映了概念随机性和模糊性之间的关联度,超熵Ee 是熵的不确定性度量,反映了云滴的厚度.

1.3 云期望曲线

由于正态分布的普适性,云模型云滴的分布符合正态分布.对于云滴x,若满足x~(Ex,En′),且En′~(En,He),即x 和En′均服从正态分布,则曲线y(x)=exp[-(x-Ex)2/2En2],称为云模型期望曲线[9],该期望曲线贯穿整个云滴,直观反映了云模型几何特征,如图1 所示.在云模型中,不同云滴对概念贡献度不同,对概念有贡献的云滴大多落在[Ex-3En,Ex+3En]区间内,称为“3En”规则.

图1 云模型示意图Fig.1 Diagram of cloud model

1.4 云相似度

相似度度量,即利用数学理论综合评定两事物之间相似性,常应用于数据挖掘,图像处理和评估决策等领域.云模型相似度,即计算待测评对象云和评价等级云之间的相似度,寻求相似度最大的某个等级云,作为定性评价结论.云模型相似度度量方法主要有:云滴距离法(SCM),向量夹角余弦法(LICM),期望曲线法(ECM),最大边界曲线法(MCM)等.张勇等[10]提出了云滴距离法,通过计算两云模型云滴之间距离来衡量其相似度,该方法计算量较大,且相似度阈值难以确定.张光卫等[11]提出了向量夹角余弦法,以云模型数字特征构造两个特征向量,计算特征向量夹角余弦值,将其作为云模型相似度,该方法存在一定局限性,在特殊情况下,给出的相似度与实际不符.李海林等[12]提出了一种期望曲线法,将两云模型期望曲线与轴所围面积交集作为计算依据,给出云模型相似度,该方法计算复杂度较高,且没有考虑超熵对相似度的影响.同时,在文献[12]还提出了一种最大边界曲线法,考虑云模型厚度,以两边界曲线重叠面积为依据,计算云模型相似度.

2 多元数据综合评价方法

2.1 评价模型

多元数据云模型评价方法,基于多元属性指标,综合考虑实数型,区间型和模糊型属性数据特性[13],对不同属性数据进行归一化处理,并使用云模型统一表示.考虑人们主观因素对权重的影响,依据层次分析法,确定各属性云模型权重,即各属性权重同样使用云模型表示.然后利用云模型计算规则生成待评测综合云,并建立五等级隶属云标尺,采用基于隶属度的云模型相似度评价方法进行定性评价,并依据云模型定性与定量的不确定性转换关系,给出定量评价结论,最终完成多属性数据定性与定量相结合的综合评价.评价模型如图2 所示.

图2 多元数据综合评价模型Fig.2 Multivariate data comprehensive evaluation model

2.2 评价步骤

2.2.1 数据归一化处理 本文将多元数据划分为实数型,区间型和模糊型3 种类型,并将各类型数据区分为正属性和负属性.正属性即期望其数值越大,负属性即期望其数值越小.例如,计算机网络性能指标,网络带宽属于正属性,网络时延和网络丢包率等属于负属性.pi表示实数型属性数据,[pLi,pRi]表示区间型属性数据,“优,良,中,差,特差”5 个等级表示模糊型属性数据.

对于实数型属性数据,对其进行归一化处理如下

对于区间型属性数据,对其进行归一化处理如下

式中,maxpi和minpi为实数型数据理论最大值和最小值,maxpLi和minpLi为区间型数据左端理论最大值和最小值,maxpRi和minpRi为区间型数据右端理论最大值和最小值.

对于模糊型属性数据,其归一化处理与云化处理同步实现.

2.2.2 数据云化处理 数据云化处理是将各属性数据统一用云模型Ci(Ex,En,He)表示,方便对其进行不确定性评价.对于实数型属性数据,利用逆向云算法计算云模型参数,n 个抽样样本pi(i=1,2,3,…,n),计算则Ex=p,En=(π/2)1/2×B,He=|S2-En2|1/2.对于区间型属性数据,利用指标近似法计算云模型参数,区间则根据评价数据随机性和模型性确定.对于模糊型属性数据,使用“优,良,中,差,特差”5 个模糊评价值,根据专家经验和基于黄金分割率模型驱动法[14],给出云模型如表1 所示,“优”采用半升云描述,“特差”采用半降云描述,其他模糊评价值采用完整云描述.

表1 模糊评价值云模型Tab.1 Cloud model of fuzzy evaluation

2.2.3 属性权重确定 属性权重采用层次分析法进行确定,传统层次分析法AHP,是一种系统性的模糊综合评价方法,通过判断低层指标相较于高层指标的重要程度,使用1~9 的数值标度构造两两比较判断矩阵,进而确定指标权重,该方法容易受到人为主观因素的影响,导致权重确定不够合理[15].本文对传统层次分析法进行改进,使用云模型权重,即对属性权重使用云模型进行标度,考虑随机性和模型性及其之间关联性,主要改进方法在于两两比较判断矩阵的构造,属性权重云模型期望依然使用1~9 的标度方法,熵和超熵的标度方法重新进行定义,改进后层次分析法云模型标度如表2 所示.利用表2 的标度方法构造两两比较判断矩阵,进行一致性校验,确定属性云模型权重wi(Ex,en,He).

表2 云模型标度含义Tab.2 The scale with cloud model

2.2.4 生成待评价对象云 对多元属性数据云进行一维线性加权计算,利用公式(1)生成待评价对象云.

由于采用云模型权重,待评价对象云三个数字特征均采用加权平均计算求得.按照以下规则进行云模型乘法和加法运算,对于权重云W1(Exw1,Enw1,Hew1)和属性云C1(Ex1,En1,He1)乘法运算运用公式(2),对于Cz1(Exz1,Enz1,Hez1)和Cz2(Exz2,Enz2,Hez2)两个云的加法运算运用公式(3)

2.2.5 构建隶属云标尺 多元属性数据评价云标尺分为“优,良,中,差,特差”5 个等级,云标尺各等级依旧采用表1 中云模型表示方法,其云标尺如图3 所示.

图3 多元数据评价云标尺Fig.3 Cloud scale of multivariate data evaluation

2.2.6 定性评价 多元数据定性评价,需要计算待评价对象云与各等级云相似度,并进行比较,找出与待评价对象云相似度最大的等级云作为定性评价结论.文献[12]直接基于云模型相交面积计算其相似度,仅考虑低层次云模型的不确定性,且算法复杂度较高.本文将相交面积跃升至更高层次,基于基础云和综合云的相交面积计算相似度,综合云利用基础云截断熵计算得出,文献[16]给出了详细计算方法,本文不再赘述.假设云C1和云为C2待计算相似度基础云,云Cz为基础云对应的综合云,基础云与综合云相交面积越大,说明基础云对综合云的贡献度越高,云C1和C2云越接近.以此定义云C1和云C2的相似度为

式(4)中:S1为云C1和云Cz的相交面积,S2为云C2和云Cz的相交面积,Sz为云Cz的面积,S1、S2和Sz

均采用云期望曲线积分计算给出,方法见文献[16],不再赘述.

本文将云模型相似度计算跃升至更高层次,更加注重评价过程的不确定性,体现了云模型亦此亦彼的特性,评价结论合理稳定.依据公式(4)分别计算待评价对象云与五等级云相似度,Di(i=1,2,…,5)通过比较,将与待评价对象云相似度最大的等级云作为定性评价结论.

2.2.7 定量评价 定性评价反映了多元数据整体特征,而定量评价可以用精确数值表示多元数据评价结果,有利于比对分析.云模型本身可以实现定性与定量的不确定性转化,本文考虑云模型相似度,提出一种由定性评价到定量评价转换的方法,给出定量评价值,从而实现多元数据定量评价.在定性评价中,找出与待评价对象云相似度较大的两个等级云C1和C2(此处假设Ex1<Ex2),相似度分别为D1和D2.令则多元数据定量评价值定义为

以上方式依据云模型相似度,并考虑“3En”规则和超熵的影响,待评价对象云与等级云相似度越大,定量评价值越接近该等级云期望值,传统方法直接将待评价对象云期望Ex 作为定量评价值,本文采用间接方式,保留了多元数据评价中的不确定性,将计算方式转换至与评价对象云相似度较大的两个等级云上,并采用均值计算,减小计算误差.

3 实例分析

通过分析某校园网络安全态势,验证本文多元数据融合评价方法的有效性.从网络运行状态、脆弱性、风险指数三方面分析,影响该校园网络安全态势的属性因素有峰值流量、带宽利用率、CPU 利用率等12 个属性指标,包含实数型、区间型和模糊型三种,同时又区分正属性指标和负属性指标.各属性指标数据的处理及云模型表示如表3 所示.对于实数型数据取多次测量的平均值;在数据归一化处理时,对于正属性数据,maxpi=1,[maxpLi,maxpRi]=[0.95];对于负属性数据,minpi=0.1,[minpLi,minpRi]=[0.05,0.30];对于区间型数据,数据云模型表示时,He 取0.01.

表3 属性指标数据及云模型表示Tab.3 Attribute data and cloud model representation

利用改进层次分析法得出表3 中各属性指标的云模型权重wi=[C(0.1370,0.1641,0.1641),C(0.1381,0.1722,0.1722),C(0.0139,0.0303,0.0303),C(0.0429,0.0580,0.0580),C(0.0219,0.0394,0.0394),C(0.0737,0.0394,0.0394),C(0.0840,0.0576,0.0576),C(0.0226,0.0649,0.0649),C(0.0819,0.0510,0.0510),C(0.0515,0.0877,0.0877),C(0.1490,0.1177,0.1177),C(0.1836,0.1177,0.1177)].利用公式1~3,计算待评价对象云C(0.6020,0.0892,0.0120), 通过正向云发生器算法生成待评价对象云和隶属云标尺,如图4 所示.

图4 基于云模型网络安全态势Fig.4 Network security situation based on cloud model

利用相似度计算公式(4),计算待评价对象云C(0.6020,0.0892,0.0120)与各等级云“优,良,中,差,特差”相似度分别为(0.2791,0.4003,0.6037,0.6613,0.3990).由相似度分析,待评价对象云与等级云“良”的相似度最大,相似度值为0.6613,该网络安全态势定性评价结论为“良”.与待评价对象云相似度较大的两个等级云为“良”和“中”,相似度分别为0.6613 和0.6037,“良”的云模型表示C(0.7000,0.0809,0.0162),“中”的云模型表示C(0.5000,0.0500,0.0100),计算T1=0.7838,T2=0.5606,依据定量评价计算公式(5),均值计算该网络安全态势定量评价值为0.6722,相较直接采用定性评价结论“良”的期望值0.7000 作为定量评价结论,本文的方法更加合理,考虑了评价的不确定性.

4 小结

针对多元数据的融合评价问题,本文将实数型、区间型和模糊型数据统一用云模型表示,提出了基于云模型的多元数据评价方法.通过云模型研究各属性指标权重,改进主客观赋权法,构建各属性指标云模型权重.利用云模相似度理论对多元数据进行定性定量评价,并实现定性定量评价的不确定性转换.通过实例验证分析,该评价方法合理有效,优化了多元数据的融合问题.另外,如何将云模型权重与主客观赋权法相结合,如何优化不同属性指标的量化标准,还需做进一步研究.

猜你喜欢

定性定量权重
近红外光谱分析技术在纺织品定性定量分析上的应用
超声造影定性与定量分析诊断颈部浅表淋巴结病变的研究
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
有机物官能团的定量关系在解题中的应用
带定性判断的计分投票制及其公理刻画
薄层色谱法在中药定性定量研究中的应用
权重常思“浮名轻”
为党督政勤履职 代民行权重担当
权重涨个股跌 持有白马蓝筹
形成初步定量思维。做好初高中化学衔接学习