APP下载

交叉验证在离散数据网格化时的应用

2012-01-11高艳芳

物探化探计算技术 2012年5期
关键词:原始数据克里网格化

高艳芳,陈 实,冯 斌

(1.中国地质大学,北京 100083;

2.中国地质科学院 物化探研究所,河北 廊坊 065000)

交叉验证在离散数据网格化时的应用

高艳芳1,2,陈 实2,冯 斌2

(1.中国地质大学,北京 100083;

2.中国地质科学院 物化探研究所,河北 廊坊 065000)

根据数据的特点,选择不同的算法和参数对离散数据进行网格化,所得网格化数据对原始数据的反映程度不同。因此,在网格化时,可以利用交叉验证(Cross Validation)对不同的网格化方法进行定量的评估和比较,以选择最能尊重原始数据的网格化算法和参数。

离散数据;网格化;交叉验证;地球化学数据

0 前言

利用离散分布的观测数据制作等值线图、框线图、阴影图和栅格图等,用来表达客观现实的空间分布状况,需要通过内插或外插方式填充空值点,将不规则的数据转换为规则分布的矩形阵列,这个过程就叫做离散数据网格化。目前,可以用来制作等值线的软件很多,各软件也提供了多种不同或相同的网格化方法。比如:国外著名的ArcGIS[1]、Golden Sufer10[2]、国内著名的软件 Mapgisk9[3],分别提供了六种、十二种、四种以上的网格化的数学算法,其中都包含Kring方法。诸多的数学算法是为了满足各行业各领域对具有不同特点(空间分布、数据量)的数据网格化的需要。在网格化的过程中不仅要选择算法,同时还有许多其它的参数需要根据数据本身的特点进行选择,例如:网格间距、网格化搜索域的形状(矩形、圆、椭圆)、搜索半径和向异性等等。诸多的方法、众多的参数,给用户带来了宽泛的选择,也让用户在使用过程中产生迷惑。尽管有些软件本身的智能可以根据数据的特点设置默认的网格化方法和参数,用户使用这些默认的设置就能产生满意的结果。比如,对于一般的数据,Sufer会将Kring作为首选的算法向用户推荐,将X、Y中的较大方向的网格数设定为100。Sufer软件的用户说明里也说到:当你创建一个网格文件时,通常可以使用其默认的方法和设置,基本上能产生可以接受的图形[2]。但是实际应用中并非这么简单。数据量也许过大或过小,数据分布也许过于集中或散乱,应用Kring方法并不是最佳选择,默认的搜索方式并不能使用户获得最佳的结果。这些原因迫使用户要在众多方法和参数之间进行选择来获得满意的,能对原始数据进行良好反映的网格化数据。在这样的前提下,Sufer自版本8开始,引用了一种统计学上的方法,来对离散数据网格化方法及参数的选择结果进行定量评估,这个方法就是交叉验证。

1 交叉验证

交叉验证(Cross Validation),又称为循环估计[4](Rotation Estimation),是通过将观测数据分成不同的子集,来评估和比较算法优劣的一种统计学上的实用方法。交叉验证的科学基础是为了满足对算法的评估需求,一是评估一种算法的普遍性,二是比较两个或多种算法的特征,以找出最优的算法。交叉验证目前应用于算法特征评估、模型选择和调整模型参数三个方面。

2 网格化时交叉验证的基本思想

自Golden Sufer.8开始,引入了交叉验证来进行网格化算法的评估。实现的基本思想:已知有N个点的观测数据,交叉验证通过计算和分析网格化后每个观测点上数据的残差,来对数据网格化的质量进行相对的评估。

数据的残差=网格化后的评估值-观测值[5]。

计算每个观测点残差的过程是:先把该点的观察值从数据集中拿出,利用剩下的数据和确定的网格化方法,来计算该点插值后的评估值,利用这个值和观测值就能得到该点上的残差[2]。通过对N个观测点逐个的计算,将得到含有M个(M为用户用来进行交叉验证的数据点数)残差值的数据文件(见图1),然后利用多种统计处理手段对残差数据进行分析,来定量评价网格化方法,指导网格化数学算法和参数的选择。

在Sufer8中,交叉验证得到的数据文件是一个ASCII的数据文件,共有M行。M是进行交叉验证的点数,可以是全部的观测点N,是部份随机的观测点。每一行共有七列,前三列是数据点的原始信息:X、Y方向的坐标及Z值,后面的依次是点号、该点的评估值、该点的残差和参与该点插值评估的数据点的个数。

3 交叉验证的应用

将野外采样获得的样本数据进行网格化来制作地球化学图,是地球化学数据处理的主要手段之一。地球化学普查或详查、区域化探,涉及的工作范围为数十平方公里、数百平方公里,数据量数千甚至上万个。因此地球化学数据的特点是分布范围较广,数据量大。

作者在本实例中,采用的数据是地球化学详查工作的成果。点线距为:40*100,样点数为2 706个,呈不规则多边形分布在5.2km2*3.2km2的矿区范围上,如图2所示。

Sufer8中提供了十二种的网格化方法,对于地球化学数据来说,并不是全部适用:

(1)自然临近点、三角网线性插值因为网格化方法不能向外扩边,而满足不了地球化学方法技术的要求。

(2)多项式回归因为不是真正进行网格化插值,只是定义一种趋势或模式。

(3)最近点也不是进行真正的插值,只适用于数据分布均匀而空值点少的数据。

所以在制作地球化学图时,也只有距离倒数、克里格、径向基本函数、改进谢别德、最小曲率、移动平均这些方法可以选择。

采用距离倒数、克里格、径向基本函数、改进谢别德、最小曲率、移动平均分别对本数据进行网格化处理,网格间距设定为40*40,圆域搜索,搜索半径为300。在网格化时使用交叉验证获得的结果见下页表1。

分析以上的结果,从数据的范围、获得残差的平均值和标准离差等统计数据可以看出,克里格和距离倒数,以及径向基本函数、改进谢别德,是化探数据进行网格化可选的数学算法。克里格和径向基本函数产生的结果特别相似,网格化后的Z值会超出原始数据的范围;而距离倒数和改进谢别德方法相似,皆以距离倒数为权重。由于克里格和距离倒数这两种方法在插值点与取样点重合时,插值点的值就是样本点的值,所以克里格和距离倒数这两种方法成为地球化学数据常用的方法,加之由于使用克里格方法产生的网格数据在制作等值线时,可以避免出现更多的牛眼点[8],因此克里格成为了地球化学数据网格化时首选的方法。大量的实际经验表明,地球化学数据进行网格化处理可以利用的方法有距离倒数、克里格、径向基本函数[7],交叉验证的结果给予了证明。

表1 交叉验证结果对比表Tab.1 The comparison of the results from cross validation

4 结论

不规则分布的原始数据经过网格化后获得网格数据,由网格数据来产生等值线图,用来分析某种客观现象连续的分布态势,是科学研究中通常采用的方法。但是网格化后的数据不一定完全尊重原始数据,而等值线形态和趋势仅是由网格化后的数据点所决定,这使得原始数据点和等值线图会产生一定的偏离。因此寻找最优的网格化的方法和参数,对原始数据进行最接近的表达,是网格化时最需要考虑的地方。这个选择可以利用已获得的经验值,比如对地球化学数据进行网格化一般选用克里格方法,网格间距通常为采样间距的一半,搜索半径为2倍~5倍,同样可以利用交叉验证来给予理论上的支持。同时,交叉验证使得网格化过程变得透明,从交叉验证的结果可以得到参与某一点网格化的数据点数,可以对原数据点网格化前、后的数据值进行比较,这使得网格化不再仅仅是一个快速完成的过程,而是让用户真正参与其中,去通过定量分析选择自己需要的算法和参数。

[1] 秦涛,付宗堂.ArcGIS中几种空间内插方法的比较[J].物探化探计算技术2007,29(1):72.

[2] GOLDEN SOFTWARE,INC.User’s Guide of Surfer 8[M].Golden Software,Inc.2002.

[3] 中地数码.MAPGIS K9空间分析使用手册[M].北京:中地数码,2009.

[4] PAYAM REFAEILZADEH,LEI TANG,HUAN LIU .Cross-Validation http://www.public.asu.edu/~ltang9/papers/ency-cross-validation.pdf.

[5] 徐新强,张志刚.高程异常模型的已知点框架约束[J].海洋测绘,2006,26(6):59.

[6] 郭思,郭科,谢箭.基于ArcGIS储量估算系统的开发与实践[J].物探化探计算技术,2010,32(5):560.

[7] 高艳芳.离散数据网格化参数的确定和数学模型的选择[J].地质与勘探,2002,38(增刊):139.

[8] 徐爱萍,胡力,舒红.空间克里金插值的时空扩展与实现[J].计算机应用,2011,31(1):273.

O 241.5

A

10.3969/j.issn.1001-1749.2012.05.21

1001—1749(2012)05—0619—03

2012-05-10 改回日期:2012-06-07

高艳芳(1965-),女,硕士,高级工程师,在中国地质科学院物化探研究所信息中心从事GIS技术的应用开发工作。

猜你喜欢

原始数据克里网格化
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
大银幕上的克里弗
以党建网格化探索“户长制”治理新路子
受特定变化趋势限制的传感器数据处理方法研究
你今天真好看
你今天真好看
城市大气污染防治网格化管理信息系统设计
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
要借你个肩膀吗?
化解难题,力促环境监管网格化见实效