一种基于最优聚类中心与权重欧式距离的多源异质传感器数据融合方法*
2022-03-24蔺万科宋华南新元李燕黄家興
蔺万科宋 华南新元李 燕黄家興
(1.新疆大学电气工程学院,新疆 乌鲁木齐 830047;2.新疆建筑设计研究院机电所,新疆 乌鲁木齐 830002)
近年来世界各地森林火灾事故频繁发生,对人类生命安全,生态环境和社会经济造成了极大地损失[1]。火灾所造成的后果非常严重,使大量植物和动物死亡、森林生态系统破坏等,因此对于森林火灾的监测技术研究具有重要意义。
林火检测就是利用多种检测手段,尽早发现火情并定位火灾起点。森林防火的主要原则是“早发现,早扑救”,即在林火形成初期对较小范围的火灾进行及时的控制和扑救[2]。面对如此严峻的森林防火境况,传统的人工地面巡防、瞭望塔人工监测、飞机巡航技术易受天气、地理环境等因素影响。目前,基于视频图像的监控技术与卫星遥感技术在森林火灾的监控中应用广泛,但由于森林环境复杂,需要考虑视频图像采集的遮挡问题以及通信线路架设问题,实际实施难度较大。对于卫星遥感技术而言,虽然在火灾发生时能够准确预报,但是对于早期火灾的检测存在一定的局限性,如EOS卫星搭载的MODIS传感器空间分辨率为0.25 km~1 km,回访周期为1 d,监测周期相对较长,不能对森林火灾进行无间断监测[3-5];另外遥感卫星监测林火是根据地物光谱信息特征识别地表异常热点,结合植被信息实现对森林火灾的监测,但是对于火灾初期的阴燃阶段很难做到及时有效地监测,当火灾发展成一定规模时才能被精确检测,对于火灾防控高的林区显然不满足防控需求。因此提高火灾报警的及时性,尽早发现初期火灾是森林火灾监测技术研究的重点。
将多传感器数据融合技术应用于森林火灾监测系统,通过构建融合模型和选取融合算法[6-8],充分发挥其容错性好、互补性强等优点,可以有效提高林火监测信息的准确性和全面性,增强林火监测的准确度和及时性[9-11]。目前,常用的数据融合方法一般分为三类。第一类是基于统计估计和经典方法进行分类,包括加权平均法、最小二乘法和卡尔曼滤波法等。第二类是信息理论的整合,包括模糊理论、证据理论、聚类分析和熵理论。第三类是人工智能理论方法,包括神经网络、遗传算法和专家系统[12]。文献[13]针对火灾报警速度较慢、误报率较高的问题,用模糊数学中的隶属度函数解决D-S证据论中基本概率函数模型建立的关键问题。但是火灾基本概率函数是由函数模型近似得到的,并不能反映出传感器实际输出与概率分配之间的真实关系,而且隶属度函数中的参数会因环境不同而取值不同,较难精准确定。文献[14]提出一种结合D-S证据理论和粗糙集理论的数据融合算法,提高林火监测的及时性和准确性。但是采用粗糙集理论进行属性约简时,随着数据集规模的扩大,算法的效率会急剧下降。文献[15]提出一种分层聚簇数据融合算法,并采用D-S证据理论建立火灾识别框架,但是该研究对火情判断不够完善,只有无火、明火两种情况,没有考虑阴燃的情况。文献[16]将改进的布谷鸟搜索算法与SVM算法结合实现对森林火灾识别,但是识别准确率不是很高。文献[17]将一种基于BP神经网络的多传感器信息融合算法应用于火灾报警系统。将温度、烟雾浓度和CO浓度的数据进行融合,用于火灾探测。得到明火、阴燃、无火的样本平均概率较低,辨识准确率还有待提高。
针对以往研究中多传感器数据融合技术在森林火灾监测方法普适性不足和辨识准确度不高的问题,本文根据火灾初期周围环境各个参数(空气湿度、空气温度、大气压、烟雾浓度、CO浓度及CO2浓度)的表现结合文献[13-19]对各阶段火灾的主要特征参数的论述与验证,选取温度、烟雾浓度、CO浓度三个指标,提出一种基于最优聚类中心与权重欧式距离的多源传感器数据融合方法。本文提出的方法包括三个部分:①求取最优聚类中心。针对火灾检测的及时性问题,引入箱形图的思想对数据进行处理,将重心放在各阶段火情数据的早期,然后改进并利用DKmeans算法[20-21]求取最优聚类中心,即既能体现各阶段火情早期特征又具有火情主要特征的最优点。②计算各组样本数据到最优聚类中心的权重欧式距离。针对火灾检测的误报问题,本文在原本欧式距离公式中加入由CRITIC权重法[22]得到的权重因子,通过修正之后的公式计算样本数据到最优聚类中心的距离,此时得到距离在体现空间距离远近的同时也能够表征各指标对火情判别的影响程度。③计算各阶段火情概率。由于各组数据到最优聚类中心加权欧式距离不能理想地体现分类情况,因此引入指数衰减模型表征样本数据分类的不确定度,并将其结果作为Softmax函数的输入[23],由Softmax函数输出各阶段三种火情的概率,从而实现对林火概率的估计,达到林火识别的目的。
1 多源传感器数据融合框架
本文提出一种基于最优聚类中心与权重欧式距离的多源传感器数据融合方法。通过对多源异质传感器(温度、烟雾、CO)采集的数据进行融合进而得出三种火情(无火、阴燃火、明火)的概率。融合框架如图1所示。
图1 多源异质传感器数据融合框架
将传感器(如:温度、烟雾浓度、CO浓度)采集的数据经过归一化处理后,使用CRITIC权重法计算各个指标的权重因子,同时用箱形图思想筛选出符合要求的样本数据并通过TOPSIS法[24]改进的DKmeans算法(DKmeans-TOPSIS算法)求出最优聚类中心。然后计算每组样本数据与最优聚类中心之间的权重欧式距离。最后用指数衰减模型计算样本数据分类的不确定度作为Softmax函数的输入,由Softmax函数输出三种火情发生的概率。
2 基于最优聚类中心与权重欧式距离的数据融合算法
2.1 数据归一化处理
设多源传感器采集的样本数据集为包含p个指标的n组数据x=(x1,x2,…,x n),并用式(1)进行标准归一化处理:
式中:y i表示某一时刻包含温度、烟雾、CO信息的数据组,经归一化处理后后的数据集为y=(y1,y2,…,y n)。
2.2 基于箱形图筛选数据
在林火监测问题中,火灾检测的及时性问题尤为重要。针对这一问题,本文引入了箱形图的思想对数据进行处理,将数据的重心放在各阶段火情数据的早期。
箱形图,可以体现一组数据中某一数据的位置以及各个数据的分布情况,如图2所示。依据箱形图的思想,将样本数据由大到小排列,设置合适的上下阈值,再根据数据分布情况不但可以剔除异常数据而且还能筛选出更加符合需求的数据。由于本文需要更加关注各阶段火情的早期数据,因此采取以下边缘作为样本数据的下限阈值并从上边缘开始取上限阈值并逐渐向下边缘逼近的方式筛选数据,直到筛选出的样本数据既具有各阶段火情早期的特征又保留了各阶段火情的主要特征为止。设经箱形图筛选后得到的数据为y=(y1,y2,…,y l),将其作为DKmeans-TOPSIS算法的输入,用于求取最优聚类中心。
图2 箱形图
2.3 DKmeans-TOPSIS算法求最优聚类中心
TOPSIS法是一种逼近于理想解的排序法,其思想是通过计算评价对象与最优解、最劣解的欧式距离来进行排序,得到评价对象与最优解、最劣解的接近程度。具体过程如下:
设由k个评价对象所组成的数据组为e=(e1,e2,…,e k),其最优解为e+,最劣解为e-。则各个评价对象与最优解、最劣解的欧式距离可由式(2)、式(3)计算得到。
式中:S+为各个评价与最优解之间的欧式距离,S-为各个评价与最劣解之间的欧式距离。再由式(4)计算结果并作为评价指标评价各个评价对象与最优解、最劣解的接近程度。
当F越大,表示评价对象越接近最劣解,远离最优解;反之,越远离最劣解,接近最优解。
对于传统的K均值聚类算法,由于其初始中心随机选择,往往会导致聚类结果有很大的波动性,且容易陷入局部最优。DKmeans算法可以很好的避免这些问题,但是在迭代过程中易受边缘数据的影响,使得到的聚类中心偏离预想结果,因此本文引入TOPSIS法弥补DKmeans算法求解最优聚类中心的不足。具体过程如图3所示。
图3 DKmeans-TOPSIS算法求解过程
基于图3求解过程,给出DKmeans-TOPSIS算法描述如下:
输入:数据集y=(y1,y2,…,y l),TOPSIS评价指标阈值δ,方差阈值ε
输出:m类的最优聚类中心
算法步骤:
Step1 用DKmeans聚类算法进行数据分类,得到聚类后的样本数据k=(k1,k2,…,k m),与之对应的聚类中心c=(c1,c2,…,cm),以及各组样本数据中所有样本点到聚类中心的距离d=(d1,d2,…,d m)。
Step 2 将聚类中心c=(c1,c2,…,cm)作为TOPSIS法的最优解,同时求出d=(d1,d2,…,d m)中的最大欧式距离dmax=(d1max,d2max,…,d mmax)作为最劣解,然后依据式(2)、式(3)计算各点到最优解、最劣解间的距离S+、S-。接着根据评价指标F的阈值δ剔除最劣解以及与最劣解接近程度高的数据,并更新样本数据k。
Step3 计算更新后的样本数据对应的样本方差s=(s1,s2,…,s m)。与方差阈值ε进行比较,大于ε时,转Step4;小于ε时,转Step5。
Step4 计算更新后样本数据的均值点,并以均值点更新聚类中心c。同时计算各点到聚类中心的距离更新d。转Step2。
Step5 计算更新后样本数据的均值点,并作为最优聚类中心输出。
2.4 CRITIC权重法修正欧式距离公式并计算权重欧式距离
CRITIC权重法是一种客观赋权方法,其思想是基于对比强度与冲突性两项指标确定数据权重系数的大小。这两项指标由数据标准差与相关性系数表示。具体过程如下:
若y=(y1,y2,…,y n)为预处理后的样本数据。则可由(5)、(6)两式计算样本数据的标准差与相关性系数。
式中:r ij是y i与y j之间的相关性系数。
再由式(7)、式(8)计算得到客观权重系数。
式中:C表示样本数据中各指标的信息量。C越大,表示该指标在整个评价指标体系中作用越大,应该被分配更多的权重。
由式(8)可以得到各个指标的权重为w=(w1,w2,…,w p),由DKmeans-TOPSIS算法求得的最优聚类中心为c=(c1,c2,…,cm),将各权重因子与欧式距离公式相结合如式(9)所示。
式(9)为本文提出的将CRITIC权重法与欧式距离公式相结合重新修正的距离公式。传统的欧式距离公式只计算两组数据中各指标的空间距离,忽略了各指标在信息判别时的重要程度。而本文提出的公式在原本的欧式距离公式中加入由CRITIC权重法得到的权重因子,在体现距离大小的同时也能够表征指标在距离公式中的影响程度。
2.5 基于指数衰减模型的Softmax函数决策级融合
本文引入指数衰减模型e-λd表征样本数据被分到各类结果的不确定度,可由式(10)求得。当样本数据到聚类中心的距离越近时值越大,距离越远时值越小,动态地调整该点在各分类结果中所占的比重。
由式(10)可得到:
为了描述第i个样本数据被分到第j类所占比重,再根据式(11)进行处理:
得到:
将H作为Softmax函数的输入,经式(12)指数归一化可得到:
式中:α为调节因子,可以通过调节α的大小调节概率的分布情况,α只会调整对比程度不会左右分类的结果。p ij表示第i个样本点对应第j类结果的概率值,即可得到n个样本分别对应m个类别的概率矩阵为:
3 仿真实验与结果分析
本文使用MATLAB2014a对提出的基于多源异质传感器数据融合的林火概率估计方法进行仿真实验验证,仿真数据选取自文献[14]中已归一化处理后的标准火样本数据,详细数据如表1所示。其中,第1~10组为无火的试验数据;第11~20组为阴燃的试验数据;第21~30组为明火的试验数据。分别通过DKmeans算法和DKmeans-TOPSIS算法求取聚类中心,其结果如图4所示。
表1 标准火样本数据
图4 DKmeans算法和DKmeans-TOPSIS算法结果对比图
图4(a)中DKmeans算法求得的聚类中心分布比较均衡,虽然能够体现各阶段火情的主要特征,但是忽略了“阴燃”与“明火”阶段的早期特征,造成早期火灾误分类的问题,这样容易导致火灾报警的不及时。正如图4(c)中各组样本数据对应各类火情的概率所示,阴燃概率在第13组数据才发生小幅增长,到第14组数据才能检测出阴燃;而明火在第24组数据处才能被检测到,根本不能准确及时地检测出各阶段火情早期的变化情况。
图4(b)中DKmeans-TOPSIS算法所求得的聚类中心,很好地弥补了图4(a)、4(c)中的不足,该聚类中心向数据的中前阶段偏移,使其更具各阶段火情的早期特征。如图4(d)所示,在第11组数据就可识别出阴燃火,第21组数据就可识别明火。综上所述,通过本文提出的DKmeans-TOPSIS算法能够实现各阶段火情早期特征的检测,更能满足实际应用中的及时性需求。
DKmeans-TOPSIS算法虽能解决火灾早期报警不及时的问题,但是融合得到的各阶段火情概率相差不大,容易造成火灾误报,如图4(d)所示。而当引入指数衰减概率模型时,其概率输出结果如图5所示。
图5 引入指数衰减模型后的概率输出
由图5可以看出,引入指数衰减模型后三种火情概率在各阶段差距突出,明显优于图4(d)中的概率输出表现,能够有效降低误报的风险,可以满足监测需求。
基于上述内容,采用文献[17]中模拟火灾的测试样本数据对本文提出的算法的进行验证,测试样本数据如表2所示。
表2 测试数据
第1~10组为明火试验数据;第11~20组为阴燃试验数据;第21~30组为无火试验数据。并用文献[14]和文献[17]中的方法以及基于欧式距离所得结果进行对比。
本文提出的方法与文献[14]、[17]以及欧式距离未经修正的方法在明火、阴燃、无火三种火情下的概率对比结果如图6~图9所示。
图6 明火概率对比
图7 阴燃概率对比
图9 各阶段概率均值对比
由图6~图9可以看出,本文提出的修正欧式距离的方法在明火、阴燃、无火各阶段的识别能力均优于其他三种方法。对于基于欧式距离的方法,当测试数据较为理想时(如:阴燃阶段),其具有出色的辨识能力。如果数据不太理想时,该方法立刻就会丧失这种优秀的辨识能力,如图6中的第1、8、9、10组数据以及图8中的第29组数据所示。第1组数据中的烟雾浓度和CO浓度都较低与表征无火阶段的聚类中心中的烟雾、CO数据较为接近;第8、9、10组数据中CO的含量较高,而CO浓度高是阴燃阶段的主要特征;第29组数据中温度和烟雾浓度与其他无火阶段的数据相比相对较高。对于上述几组数据,基于欧氏距离的方法为了平衡各个指标对结果的影响,导致在各阶段主要指标带来的影响被次要指标干扰,故会出现辨识能力下降的问题。相比之下,本文提出的基于修正欧式距离的方法能够调整各指标的比重,降低次要指标的干扰能力,从而有效降低这种影响。
图8 无火概率对比
综上所述,本文提出的用CRITIC权重因子修正欧式距离的方法,能够根据温度、烟雾、CO三种指标对无火、阴燃、明火三种的火情影响能力实时调整权重,保证在抗干扰能力可观的情况下又不失灵敏度。结果表明,本文提出的方法对明火、阴燃、无火三种火情的判断能力均优于其他三种方法。
4 结论
为解决多传感器协同监测森林火灾时对于早期火灾识别准确度不高的问题,提出了一种基于多源异质传感器数据融合方法。通过仿真实验与结果分析得出:①本文提出的DKmeans-TOPSIS算法能够实现各阶段火情早期特征的检测,更能满足实际应用中的及时性需求。②本文引入指数衰减模型后概率输出表现更为理想,能够有效降低误报的风险,可以满足监测需求。③本文使用CRITIC权重法修正欧式距离的方法较其他三种方法在三种火情下都具有更优的判别能力,在降低误报风险的同时也能够保证林火识别的准确度。