基于分融策略的土壤采样分析方法
2020-07-23刘道友
刘道友
(安徽拓维检测服务有限公司,安徽 宣城 242000)
在对采样点进行空间分布推断时,采样点布置方式和数据质量直接成为推算的最终结果,是研究采样点空间分布的重要环节,为保证采样点空间分布的高效、合理,由于采样成本的限制,一般假定采样点相对较少,从而得到高精度的结论,达到有效采样的目的。
一、基于分融策略的采样设计方法
(一)基本思路
以分化-融合策略为基础的采样方法目标是:提高样本的可靠性尽量减少样本数。分化与融合策略包括差异化策略与整合策略。其目的是通过“分化”提高样品在代表性区域的可信度。将样品分成若干样品,这些新样品能更好地表示原始样品的代表性范围。采用多重采样以减少其代表性范围内的原始采样不确定性,提高其可靠性。所谓融合是当样本过于集中、样本间过于相似时,为消除冗余和减少样本数而对样本进行融合。该方法通过对采样点的连续分化与融合,使其逐步减小,同时考虑了假设的可靠性和冗余性,寻找最合适的样本数量。
(二)两个关键概念
1.样点推测可信度
一个样本的可信性假设是指样本在其代表性范围内所收集的所有点的地理要素假设的可信度。代表性范围内各点的假设不确定性越小,样本可信度越高。所以,首先要确定假设点的不确定性:假设点与所有采样点所形成的环境相似的矢量能够反映其代表性。
式中,n为样点的总个数;
分析环境相似度向量,可计算由样本集结论引起的不确定性Ui。
在公式中,如果待推测点i和代表性最好(即环境最相似)的样点之间的环境相似性较低,则利用现有样点来推测待推测点的土壤属性值将具有很大的不确定性。可以用下列集合表达式来描述该样点的代表性区域:
在上式中,Zk表示了样点k的域,并用待推测的点来表示域,点集中的每个待推测的点完整集Z都属于待推测的点i,而且每个待推测的点i都满足等式境相似度与待推测的点i的最大样点相似度;表示环境相似是环度的点k与待推测的点i的最大样点相似度,也就是说,待推测的点i与其代表性最强(即环境最相似)的样点k;满足这一条件的待推测的点集合代表了样点k的域。
通过描述域的综合推测不确定性,单个样本点的推测可信性可以用以下公式表示:
式中,kR表示样点k的推测可信度;
η(Zk)表示集合Zk的元素个数,即样点k的代表域中待推测点的个数;
2.样点集内部冗余度
设计合理的样点集内部应该没有太多类似的子样点集合。在样点集中,为了去除冗余样点,需要计算各样点间的相似性,从而判断样点集中是否存在过于相似的样点。
在公式中,R是样点集内部的冗余;
n是样点集中样点的总个数;
(三)方法评价
为验证该采样方法的有效性,本文从三方面对其进行了评价。一是样本点推测的计算可靠性对推测的准确性是否具有指示性影响很重要。选取99个现场样本作为试验样本,计算其推测精度。每一点的代表范围内的验证样本数量是不同的,只有代表范围内的验证样本数量大于等于5才能用于计算推测精度;因此,不同可信度的检验结果的准确性是可以确定的。
二是检验该方法是否能有效提高投机的可靠性,并能降低分融分拆过程中的冗余。
三是在此基础上,对基于分裂融合策略的采样方法与其他常用的统计采样方法(网格和分层随机)进行了比较,得出结论:随着采样点数的增加,推测可信度和冗余度发生了变化。采用3种采样方法设计采样点。按照5×3、5×4、5×5确定网格上的常规采样点,以亲本材料分层随机采样,制图方法采用SoLIM方法。
二、结果分析
(一)样点推测可信度与推测精度的关系
单样本假设的可靠性与实际检验的准确性是高度相关的(相关性系数为0.915),很好地说明了假设结果的正确性。所以必须以提高假设可靠性为采样的主要目的。
(二)样点数量、推测可信度与冗余度变化
通过实验证明,该方法能有效地提高假设的可信度,降低分离和融合过程中的冗余度,并通过实验确定了测试点。
当迭代数增加时,样本数随样本差值而增加。在迭代了22次之后,由微分生成的样本中也出现了类似的冗余样本,然后开始注入样本。经过减至无冗余后,样本检验的可靠性下降,样本数量又开始分化。所以在本研究中,采样点的数目反复地增减,最后稳定在一个合适的数目。
迭代法中,所有样本都会推算出平均值、最大值和最小值的发展,这是一个优点。分离式方法在早期明显提高了样本的可信度,最终保证所有样本的可信度都超过0.86。
举例来说,22-29的迭代次数反映出样本集内部冗余度的变化,以及所有相似样本删除后的平均可靠性。随着删除更多相似冗余样本,样本数由27减至20,冗余样本集由0.894减至0.793,样本平均概率信度由0.883减至0.872。结果,融合过程的冗余性大大降低,假设的可靠性得到了很好的保证,反映了融合策略有效性。
(三)基于分融策略的采样方法与其他方法的对比
基于样本分布的分融策略、常规网络设计和分层随机采样(按原材料分层)(若样本数为20),三种方法设计的样本空间分布差异较大。采用分融策略设计的样本在空间上均匀分布,覆盖各种类型地形,便于进行分层随机采样。
每套样品重复检测数百次,重复检测结果平均在几个不同的点上,用分融策略采样方法得到的采样点的平均检测可靠性高于常规网络和分层随机方法,且最小假设值明显高于标准网络和分层随机方法。当采样点数目较少时,基于分融策略的采样方法也是最小的假设。而基于分融策略的采样方法可保证每个选取的采样点都有较高的可信度,且不受样本数量的影响,相对稳定。如果采用分层随机采样方法,那么对数量较小的样本,如100个实验,采用分层随机采样15个样本,如果采用0.662-0.793或0.651-0.764个样本,那么对采样点的内部冗余问题,其余两种方法的冗余程度都较高,该方法可避免采样点的冗余现象,随着采样点数目的增加,冗余度也会逐渐减少。以分融策略为基础的采样方法的有效性得到证明。但常规采样方法和分层随机采样方法缺少控制采样方法内部冗余的指标,导致采样点数量增多,冗余度增大。
(四)参数敏感性
本文给出了最小假设和最大冗余两个重要参数灵敏度分析。当最小冗余度状态时,最佳测试点数目会增加。当最低假设值小于0.80时,测试点数不受最低假设阈值的影响。当最小假设不确定性增加到一定值时,采样点数将从0.80显著增加到0.85,也就是当最小假设确定性增加到一定值时,采样点数将增加。另外在最大冗余度为0.80~0.85的情况下,可显著增加样本数量,并可通过调整样本的最大冗余度来调节。
三、结束语
基于分割-合并策略,提出了一种采样方法。分融策略能找到可靠、冗余度低的有效样本。研究发现,假设的可靠性与本文所述样本点的假设精度正相关,说明样本点假设的可靠性较好地反映了假设的结果,在样本分化的过程中提高了样本点的可证性。采用此采样方法去除冗余采样点,可有效降低冗余采样点对需求的影响达到最小化采样点的目的。