基于叠合度的维修性多源数据融合方法*

2020-05-11徐达，关矗，李闯

火力与指挥控制 2020年4期

徐达，关矗，李闯

（陆军装甲兵学院兵器与控制系，北京 100072）

0 引言

装备一般都是一整套复杂的产品或者系统，尤其是随着高新科技的广泛应用，装备各项性能得到提升的同时系统也变得更加复杂，这就造成试验难度上升，成本增加，进而导致通过维修性试验获取试验数据样本量不足，使得对装备维修性的评价可信度低［1］。对此问题，有不少国内学者通过数据融合方法得以解决。满军提出了一种基于可信度的多源数据融合算法，将装备在不同环境下得到的试验数据向现场数据进行转换、融合，实现了数据样本量的有效扩充［2］；张延庆以整体分析船舶主机状态的基础上，建立了基于D-S 证据理论在船舶主机技术状态综合决策中的数据融合模型及算法，通过实例分析证明了融合技术在检测船舶主机上的实用性，试验结果充分说明了该算法的有效性［3］。因此，引入多源数据融合方法可以充分利用装备在前期收集获取的数据和少量现场试验数据进行统计评判和推测以扩大数据容量，从而解决数据样本小、结论可信度低的问题。

本文通过建立多源先验数据折合模型对各阶段先验数据向现场数据折合和靠拢，再分析离散化先验数据符合的分布模型并对其参数进行拟合，计算各先验数据与现场数据的叠合度作为融合权重，建立基于叠合度的加权融合模型，最后结合某型坦克的维修性试验数据进行实例验证，实现数据融合，解决了样本量不足的问题。

1 试验数据的预处理

在进行试验时，不可避免地会出现因人为或仪器等因素产生的数据漏记或误记现象，使准确试验数据中混入异常值，降低后续试验结果的可信度。因此，在获取原始数据后，进行预处理是十分必要的，通常有以下几个步骤：

步骤1：区分并判定维修性数据。除特地明确不应计在内的以外，所有的直接维修停机时间或工时，都应当包括在统计计算之内。但由于明显超出承制方责任的供应与管理延误、使用超出正常配置的测试仪器的维修，和在维修作业实施过程中发生的非正常的测试仪器安装等因素而产生的维修时间不应计算。

步骤2：运用Grubbs 法或Q 值检验法判定可疑值的保留或舍弃。这里采用Q 值检验法，首先将待检测数据按照升序排列：X1，X2，…，Xn-1，Xn；求出两极之差D1=Xmax-Xmin；再求取可疑值Xi与最邻近数据Xi或Xi-1之差的绝对值D2=min｛|Xi-Xi-1|，|Xi-Xi+1|｝；求出Q=D2/D1；由数值n 和给定的置信水平α，查表得Q表；最后进行比较，若Q＞Q表，则舍弃该值，反之则保留［4］。

步骤3：因丢失而导致原始数据不全的情况，基于复杂武器装备的试验数据都是小样本，无法直接作舍弃处理，一般采用插补法，运用插值原理估算缺少的数据。

2 先验数据的折合模型及一致性检验

维修性数据融合时，多种不同来源的数据如果不加以处理直接进行数据融合，必然会导致数据差异化严重，多源数据服从不同的总体分布，不能通过一致性检验，不具备数据融合的前提条件，从而极大降低融合精度，使后续的维修性验证结果缺乏科学性和可信性［5］。

常用的多源维修性数据有：装备设计、研制、定型试验阶段的维修性数据，装备虚拟样机的仿真维修性数据，相似型号装备的维修性数据，不同环境下装备维修性数据等［6］。不同来源的先验数据向现场试验数据折合的因子及权重系数也不相同，对多源数据加以甄别的采用适宜的折合因子能够有效提高融合精度，因此，本文分析研究引起多源先验数据与现场数据产生差异的影响因素及其权重系数，建立了一种多源数据折合模型，将多源先验数据向作为基准的现场数据进行折合，该模型如下：

其中，T 表示先验数据，T' 为折合后的先验数据，βi为第i 个折合因子的权重系数，k 为折合权重系数，取值范围由具体实际工程所确定，Δt 为特殊维修工作上产生的维修时间数据差异，如相似型号装备和待验证装备之间因某些结构不同，会使维修过程产生差异。

根据折合模型，结合某型坦克在不同环境下的先验数据和相似型号坦克定型试验数据，给定折合因子权重系数，建立折合参照表，关于折合因子权重系数的确定，可根据专家经验评分给出［7］。

折合后的先验数据可以采用参数或非参数检验法与现场数据进行一致性检验，判定两种数据是否来自同一母体，即是否具有显著差异，当差异不明显时，可认为数据通过一致性检验，具备数据融合条件。由于数据总体的具体分布函数是未知的，所以放弃采用参数检验法而选用适合小样本数据的Wilcoxon 秩和检验法［8］。

3 先验数据的分布参数拟合

对于小样本的维修性数据融合，先验数据需要通过拟合分布参数将其表示出来。许多研究表明Bootstrap 法和Bayes Bootstrap 法能够较为准确地拟合分布参数且Bayes Bootstrap 法生成随机样本的区间跨度大，较为符合维修性数据参数的统计特征。但应用广泛的Bayes Bootstrap 法完全依赖于数据原始样本，并根据Dirichlet 分布随机生成的权重系数来再生数据样本，正是由于随机性可能导致生成的权重系数分布不均，致使最终结果与真实情况产生较大偏差［9-12］。

本文提出一种利用插值法对Bayes Bootstrap 法的抽样方式进行改善，利用有限的数据样本开发出更多的有效信息，以保证在样本量不变的情况下，提高参数拟合精度。

步骤2：将第1 组数据按照升序排列，产生新的数列Q（1），即Q（1）=（x（1），…，x（p））。利用插值法对样本值x（i）作邻域，i=2，…，n-1，m≥2，通常取m=2，如式（3），但是如果样本量小于10 个时，需要将m值取得偏大一些，以避免自助样本过大，不符合真实分布情况：

步骤4：同理，对其余小组依次进行数据扩容。这样数据样本总量变增加了2k 个。最后在利用Bayes Bootstrap 对新样本进行数据拟合，求取相关参数的点估计和区间估计［13］。

通过改进Bayes Bootstrap 法的抽样方式，抛弃了在原数据简单重复抽样的局限性，在尽可能保证与原数据分布一致的情况下，对样本量进行扩容，并且获取到原始数据以外的信息。

4 基于叠合度的数据加权融合模型

数据融合过程中，最为关键的一步就是各源数据融合权重的问题，直接决定融合精度是否达标。本文将各源先验数据的拟合曲线依次与作为基准的现场数据拟合曲线进行叠加，与坐标轴形成封闭区域，分别求取两者之间的叠合面积，并利用统计学原理中的3σ 原理，抛弃极小概率数据所占据的面积，进一步提高了数据融合精度［14］。

步骤4：计算各源先验数据的叠合度所占据总叠合度的比重，并以此作为融合权重ωi，如下式：

步骤5：通过对比权重，方可判断先验数据与现场数据的差异情况，差异越小，则权重越大。最后确定综合先验分布为：

5 算例验证

本文结合某型坦克虚拟样机的仿真维修性数据、相似型号坦克的维修性数据和性能试验阶段在不同环境下维修性数据，利用上述方法对多源先验数据进行数据融合，验证其可行性和实用性。由于所获取的数据已经进行了预处理，因此，直接从建立折合模型开始研究。

1）以相似型号坦克为例，进行折合处理。下页表1 中给出了相似型号坦克装备的故障现象及原因，折合因子及其权重值和相似度分析，具体如下：

由表1 及式（1），对相似型号的坦克装备维修性数据进行折合处理，由于维修时间服从对数状态分布，则对折合后的数据取对数得：

同理，针对不同源头的先验数据研究分析折合因子，并建立相应的数据折合模型，对坦克装备虚拟样机的仿真维修性数据进行折合得：

对坦克在设计研制阶段的维修性数据进行折合得：

对现场试验数取对数后得：

表1 相似型号坦克装备的维修数据折合

取置信度为95%，采用Wilcoxon 秩和检验法分别将折合前与折合后的数据做一致性检验，并计算T1，T2，T3和Ts与T1'，T2'，T3' 和Ts总体均值相等的概率，见图1 所示，通过对比发现，折合模型有效地实现了先验数据向现场数据进行靠拢。

图1 折合前后先验数据与现场数据总体均值相等概率对比

2）采用基于插值法的Bayes Bootstrap 法，对多源先验数据和现场数据进行参数拟合，进行了2 000次仿真，并通过文献［15］中的Epps-Pulley 法对拟合的参数进行检验，满足正态性。最后得到各源数据的分布函数：

将各权重系数带入式（6），利用MATLAB 软件得到融合后的分布曲线，如图3 所示。

图2 叠合度示意图

图3 融合后分布曲线

4）确定融合分布参数及融合分布类型。根据融合分布曲线，大致可判断为正态分布。假设融合分布为正态分布，即为概率密度函数，并求取正态分布曲线的波峰值hp及其对应的横坐标θp，即。由正态分布概率密度公式可得，即。综上可得，。试验数据样本量小，因此，采用适用于小样本的柯尔莫哥洛夫检验法。从融合分布函数中随机抽取20 个样本，进行柯尔莫哥洛夫检验，计算其D 值为0.172，根据柯尔莫哥洛夫检验临界值表可查当n=20，α=0.05 时，临界值D临=0.294＞0.172，故假设成立，融合分布为。

6 结论

由于验前数据的来源多样性，导致其与现场数据存在着较大偏差，本文通过分析产生偏差的原因，并采用折合处理，能将先验数据向现场数据靠近，提高先验数据的可信度，相比不进行折合处理的原始先验数据进行融合，会有效地提高融合精度。

本文利用插值法对随机加权法进行改进，更为准确地拟合了先验分布参数；提出基于叠合度的数据融合模型，结合统计学3σ 原理，去掉极小概率产生的数据，利用各先验数据和现场数据的叠合度，进一步提高了融合权重分配的合理性，且融合分布通过了柯尔莫哥洛夫检验，并结合某型坦克装备实例验证，融合方法的有效性，具有一定的实用价值。