APP下载

作战试验样本量的通用化估算方法*

2022-01-26廖学军

火力与指挥控制 2021年12期
关键词:假设检验样本量显著性

薄 云,廖学军,白 宇

(1.航天工程大学研究生院,北京 101416;2.中国白城兵器试验中心,吉林 白城 137001;3.航天工程大学航天装备保障系,北京 102206;4.国防大学联合勤务学院,北京 100858)

0 引言

作战试验以模拟实战的方式,考察武器装备是否适用于期望的作战环境并完成既定的作战任务[1]。它为军方预测武器装备未来的战场表现,并据此决策是否批量采购工业部门的武器装备,提供了最公正客观的数据支撑。当前的作战试验研究,主要集中在概念内涵、目标任务、管理机制和实施流程等方面,虽然有文献指出阻碍作战试验科学发展的瓶颈之一是样本量的控制问题[2-6],但尚未明确提出作战试验样本量的估算标准和方法。

考虑到统计学对于试验鉴定的基础性支撑作用,从控制两类错误的角度给出了作战试验的样本量估算准则;通过分类研究作战试验三类考核的数学模型,推导了它们的一般化形式,并据此设计了作战试验样本量的通用估算方法,可为作战试验的后续开展提供良好参考。

1 估算标准的探讨

1.1 两类错误

统计学中的假设检验指的是先对被研究对象的总体参数提出一个假设,然后通过样本的信息来推断这一假设是否成立,这一过程即被称为假设的统计检验[7]。它的论证过程类似于反证法,即在原假设H0成立的前提下,如果出现试验样本的概率极低,则认为原假设H0非常可疑,故支持它的被择假设Ha,即研究希望证明的假设。

很显然,由于试验的随机性,依据样本推断总体必定存在出错概率。在假设检验中,把H0为真时,拒绝H0的情况称为第1 类错误;把Ha为真时,不拒绝H0的情况称为第2 类错误。它们是研究人员基于样本数据推断总体信息时会遇到的两类风险。

1.2 样本量估算的客观准则

在假设检验当中,控制第1 类错误发生概率的统计工具是显著性水平[7]。它是第1 类错误出现概率的可接受水平,记为α。控制第2 类错误发生概率的统计工具是统计功效[7]。它是不出现第2 类错误的概率,记为(1-β),其中,β 是犯第2 类错误的概率。

实际的研究普遍关注显著性水平,却常常忽略统计功效[8-11]。由于研究经费限制,很多试验的统计功效低下,加之这些研究的备择假设并不一定成立,因此,报告的很多结果是第1 类,或第2 类错误。这种情况在研究界非常普遍,甚至很多顶级刊物也无法避免[8-11]。如图1 所示,对某一个特定的研究问题而言,所有正确的备择假设占所有假设的比例分别为50 豫和10 豫时,通过α 为0.05 的假设检验找出正确结论的比例PPV(Positive Predictive Value),会随着统计功效的降低而迅速降低。

图1 中的绿色色块代表没有效应并被正确识别的结论,红色色块代表没有效应但被错误识别的结论(第1 类错误),蓝色色块是存在效应并被正确识别的结论,灰色色块是存在效应但被错误识别的结论(第2 类错误)。可以看出,以样本推断总体,其正确率随着统计功效的提升而提升(图中的左、中、右对比),并且这种情况会随着正确结论占所有结论的比例的降低而迅速恶化(图中的上、下对比)。

由于被试武器装备是否具备宣称的创新成效关系到战争胜败和人员安危,因此,试验结论的重要性不言而喻。如图1 的左下分图所示,当(1-β)为0.2 时,PPV 仅为0.31,即在10 型通过作战试验的武器装备中,大约仅有3 型才真正具备宣称的作战效能和作战适用性。这种结果显然是灾难性的。

由于假设检验一般令显著性水平为0.05,而统计功效随样本量的增加而增加[12],故鉴于其重要影响,可把统计功效作为样本量估算的客观准则。

2 作战试验考核模型的研究

为估算作战试验的样本量,必须明确其指标考核的数学模型,然后才能具体问题具体分析。故首先把作战试验的指标考核分为三类,并分别对其建模,考虑到构建通用的样本量估算方法的需求,探讨了三类模型的一般化形式。

2.1 作战试验指标考核的分类与建模

作战试验考察的指标虽然数量众多,但从统计学的视角来看,大体可归为三类统计模型。

2.1.1 与阈值进行比较的模型

2.1.2 与基线进行比较的模型

2.2 三类模型的一般化形式

可以看出,式(1)、式(4)~式(6)是逐步一般化的,即前一个模型是后一个模型的特殊形式。

如果把被试武器装备之外的所有作战因素综合起来,当成被考察指标Y 的干扰因素,在作战试验中开展假设检验基于的模型即为式(1)。用到的检验方法主要是t 检验,其检验过程如图2 所示。

图2 与阈值比较的检验过程

如果考虑到基线作战力量与被试武器装备在被考察指标方面确实存在差异,并将这种差异加入式(1),并体现出一个基线作战力量或多个基线作战力量的差别,在作战试验中开展假设检验基于的模型即为式(4)或式(5),用到的检验主要是t 检验、方差分析(ANOVA)和Turkey-Kramer HSD 检验,其检验过程如图3 所示。

图3 与(多)基线比较的检验过程

图4 作战要素研究的初始模型

图5 作战要素研究的精确模型

考虑到基于式(4)或式(5)所示数学模型开展的假设检验分别为t 检验和方差分析。而该两种检验方法从本质上与基于式(6)开展的检验方法并没有本质区别。因此,式(6)即为作战试验指标考核的一般化模型。

3 基于F 分布的样本量通用估算方法

它反映了指标Y 的总变异。如令SSR 为其第1项,则它反映了该模型对于指标Y 变异情况的解释程度,令SSE 为其第2 项,则它反映了模型未能对指标Y 进行解释的程度大小。于是,因为SST 的自由度为n-1,SSR 的自由度为p-1,SSE 的自由度n-p,令SSR 和SSE 分别除以其各自的自由度,则得到回归均方MSR 和残差均方MSE:

显然,MSE 是σ2的无偏估计。而当模型6 不具备对于指标Y 的解释能力时,MSR 的数学期望也是σ2,且MSE 和MSR 相互独立,分别服从自由度为n-p 和p-1 的卡方分布。因此,定义统计量F:

图6 样本量估算的过程演示

4 算例演示

当作战试验进入样本量估算环节,已经确定的内容包括影响因素、考核模型,需要确认的内容是给定显著性水平和统计功效条件下的试验次数。于是,dfhyp是常数,待求的样本量等于dfhyp与dferr的和加1。待求的样本量问题则转化为求取给定显著性水平和统计功效条件下的dferr。文献[15]在其附录E中提供了一份针对不同显著性水平、统计功效、PV情况下dferr的调查表。所以,为了验证武器装备作战试验定量指标考核样本量估算通用算法的有效性,可以对照调查表,分析比较两种算法。即按照前文讨论的样本量通用估算方法计算了PV 从0.01 变化到0.7,dfhyp从1 变化到10,显著性水平为0.05,统计功效为0.8 的370 种情况下的dferr,其与调查表对应结果的差值Δdferr如表1 所示,Δdferr随不同PV 和dfhyp的变化趋势如图7、图8 所示。

图7 Δdferr在各dfhyp 下的集中趋势

图8 Δdferr在各PV 下的集中趋势

分析表1 可以看出二者计算结果非常接近,且差异随PV 增加迅速减小,当PV >0.1 时,与各PV对应的dferr的差异迅速降为0;两者结果的差异随dfhyp变化而发生变化的幅度较小,与各dfhyp对应的dferr的差异的平均值未超过4,中位数更是没有超过2,并且两者结果的差异随着dfhyp的减小而迅速降为0。另外,从图7、图8 和表1 也可以看出二者计算结果差异变化范围很小,差异变化的幅度随PV的增大和/或dfhyp的减小而迅速减小,即图7、图8的经验概率分布在此处的概率密度迅速提升。

表1 残差项自由度计算结果的差值

5 结论

本文针对我军武器装备作战试验指标考核的3种基本形式,推导了它们的统计学模型,依据统计功效分析,设计了通用化的样本量估算方法,通过算例对其进行了演示分析。主要结论有:

1)作为我军武器装备作战试验各类评估的数据来源,它的指标考核主要有“与阈值比较”、“与基线比较”、“考察作战要素”3 种基本形式;

2)这3 类基本形式的作战试验指标考核可以统一到式(6)所示的回归模型,并由此构建武器装备作战试验样本量估算的通用化算法;

3)通过算例可以看出,本文算法在精度上可替代查表法,但与覆盖范围有限的样本量查表相比,灵活性更好,可无缝嵌入作战试验设计软件系统,更适合相关策划的决策辅助。

猜你喜欢

假设检验样本量显著性
卡方检验的应用条件
一种基于进化算法的概化理论最佳样本量估计新方法:兼与三种传统方法比较*
植株样本量对云南松子代苗期遗传力估算的影响
一种结合多尺度特征融合与像素损失加权的显著性目标检测方法
临床研究样本量的估计方法和常见错误
视频序列中视觉显著性图像区域自动提取仿真
假设检验结果的对立性分析
欧盟法院判决明确欧盟商标通过使用获得显著性的地域认定标准
商标显著性的司法判断(一)
统计推断的研究