APP下载

基于MaxEnt的秦艽物种空间分布预测模型的不确定性分析

2024-12-31严胡勇何运媚张婧月谭蕾唐思萌

智慧农业导刊 2024年15期
关键词:秦艽参数设置

摘" 要:由于参数设置等不确定性因素的变化,同一模型预测的物种生态分布可能会有所不同。因此,量化不同不确定性因素的贡献对于减少生态预测的变化至关重要。然而,很少有研究分析特定模型的建模不确定性。该研究以秦艽为例,探讨其分布预测的不确定性,重点关注参数设置。首先,采用主成分分析法(PCA)和生态变量组法(EVGM)筛选环境因子。参数设置使用25%的存在点数据和2种缺失点数据方法作为测试方法,建立6套模型,探讨存在点测试集比例对模型性能的影响,综合分析训练、测试AUC值和分布面积,确定物种的最佳模型参数,发现20%的随机测试抽样比例是最佳的。该模型不仅可以为秦艽等野生药材的保护和生态规划提供指导,也能为确定物种空间分布的最优模型提供理论参考。

关键词:参数设置;不确定性分析;MaxEnt;秦艽;存在点数据

中图分类号:Q948" " " 文献标志码:A" " " " " 文章编号:2096-9902(2024)15-0043-04

Abstract: Changes in uncertain factors such as parameter setting can lead to variations in the ecological distribution predicted by the same model. Therefore, quantifying the contributions of different uncertainty factors is crucial for reducing variability in ecological predictions. However, there is limited research analyzing the modeling uncertainty of specific models. This study, using Gentiana macrophylla as an example, explores the uncertainty in its distribution prediction, with a specific focus on parameter settings. Initially, principal component analysis (PCA) and ecological variable grouping method (EVGM) were employed to select environmental factors. Six sets of models were established using 25% of presence point data and two methods for handling missing point data as test methods. The study investigates the impact of the presence point test set proportion on model performance, conducting a comprehensive analysis of training, testing AUC values, and spatial distribution area. The optimal model parameters for species were determined, revealing that a 20% random testing sampling proportion was optimal. This model not only provides guidance for the conservation and ecological planning of Gentiana macrophylla and other medicinal herbs but also serves as a theoretical reference for determining the optimal model for species spatial distribution.

Keywords: parameter setting; uncertainty analysis; MaxEnt; Gentiana macrophylla; presence point data

物种分布模型是基于生态位理论构建的一种数学推理模型。此模型已被用于预测物种的栖息地状态[1],评估生态系统对全球变化的响应[2],评估入侵物种的潜在扩散能力[3]等应用。此模型预测并非对所有物种都普遍可靠,不同物种的最佳预测模型存在差异,探讨最佳模型的参数设置、优化,对物种的不确定性分析具有重要的意义。

在国内,使用MaxEnt模型对物种分布预测的不确定性的研究有限。Chen等[4]探讨了样本量对MaxEnt预测准确性和稳定性的影响,揭示了样本量对预测的影响很小,随着样本量的增加,预测精度趋于稳定。Lin等[5]讨论了MaxEnt预测台湾飞蛾分布的准确性和不确定性。目前对物种分布模型不确定性的研究多集中在模型间比较,很少有分析在广泛使用的MaxEnt模型中比较基于数据质量、变量选择和模型参数设置等因素的不确定性,因此,很有必要探讨MaxEnt模型建模过程中的不确定性。

随着国内外对中药材需求的增加,需求的增长为中药材提供了发展机遇,但也对野生药用植物种质资源的减少和濒危构成了威胁。胡乱栽培引种必然会影响药材适宜生境的合理划分,削弱药材的真实性,导致药材的功效成分远低于药典标准。因此,对药材生境适宜性进行分析具有重要意义。然而,预测潜在的适宜生境分布涉及各种不确定性,这些不确定性会影响最终的分布图,而不准确的分布图可能会误导实际生产。因此,有必要探索药材分布预测的不确定性,提高物种分布模型的准确性,从而为物种的栽培引种提供依据。本研究以中药材物种秦艽为例,基于MaxEnt模型,从3个参数设置和2个变量集方面,考虑不同的随机测试抽样比例,探讨了其分布预测的不确定性。研究结果旨在为未来的物种分布模型提供参考和有效指导。

1" 方法和材料

秦艽是一种著名的传统中草药,以其显著的治疗效果而闻名,被广泛应用于各种疾病的治疗。其传统种植区主要分布在我国东北、西北等地区。此外,MaxEnt模型在宏观尺度上对物种分布的预测也有较好的效果。因此,本研究选取秦艽作为研究对象,将中国国家级尺度作为研究范围。预测秦艽的潜在地理分布,具有重要的现实意义和特殊性。该方法旨在为秦艽资源的保护和可持续管理提供科学依据。此外,还旨在指导物种引进、培育和合理利用的战略规划和布局,从而促进相关地区的生态和经济可持续发展。

1.1" 数据收集和处理

1.1.1" 秦艽存在点的采集和处理

本文检索了中国数字植物标本馆(http://www.cvh.org.cn/)和全球生物多样性信息设施(GBIF)的数据,为获取中国秦艽的已知分布点提供了便利。在消除重复坐标和缺乏完整信息的标本后,筛选出245个分布记录。利用ArcGIS绘制网格图,网格尺寸为1 km×1 km。为了解决存在点成群造成的潜能偏见问题,每1 km2网格单元只有一个存在记录,排除了多余的存在点,通过此过程保留了164个存在点数据。

1.1.2" 环境因素数据的收集和处理

19个全球生物气候变量(BIO1—BIO19)来自WorldClim全球气候数据库(http://www.worldclim.org/)。然后,利用ArcGIS 10.2对这些变量进行掩膜操作,以提取在中国的环境数据,裁剪每个生物气候变量层,以实现30 s的空间分辨率。此外,高程数据来自美国宇航局提供的全球数字高程模型(SRTM 4.1版,http://datamirror.csdb.cn/),具有100 m的空间分辨率。利用Arc Toolbox中的表面分析功能,从高程数据中导出坡度和坡向层。

为确保分析的一致性,本研究中考虑的所有环境变量均被标准化为1 km2的统一空间分辨率,并在统一的地理坐标系内对齐。随后,对研究区域的数据进行精确提取并转换为ASCII格式。这一过程最终收集了包含19个生物气候因子(BIO1—BIO19)的综合气候数据,以及包含3个因子(高程ALT、坡度SLP和坡向ASP)的地形数据,共计22个不同的环境因子。

1.2" 不确定性研究设计

1.2.1" 变量选择

共线性是指解释变量的相互依赖性,是生态数据的共同特征。许多方法被用来解释环境变量。本研究采用2种变量选择方法来筛选变量因子:主成分分析(PCA)和生态变量组法(EVGM)。

1)PCA在计算中涉及所有原始变量,去除密切相关的变量,构建尽可能少的新变量,确保新变量不相关,并最大限度地保留反映物种潜在分布的信息。

2)EVGM根据前人对秦艽的研究,了解对秦艽生长特性相关的主要环境因子,选择这些环境因子(称为生态变量组)参与MaxEnt模型中进行物种分布建模、预测。

1.2.2" 模型参数的设置

本研究主要侧重于模型测试参数的设置和分析。参数设置包括使用25%的存在点数据(许多研究中常见的比例[6])和2种假缺失点数据(Random Selection, RS和Buffer-out方法)作为3种方法的测试数据。模型基于3个参数设置构建,在MaxEnt平台下,75%的存在点数据作为训练数据,其余25%作为测试数据,随机选择种子,迭代次数设置为5,迭代类型设置为子样本,使用PCA和EVGM 2组变量进行建模。选择这2个变量集是因为它们在变量选择过程中不涉及测试比例,从而避免了对这部分研究的干扰。在每个变量集下建立了2个模型,结合两类缺失点作为试验数据,共构建了6个模型。根据训练和预测曲线下面积(AUC)值比较了3个参数设置的有效性,选择最佳模型,然后将随机测试抽样比例设置为10%、15%、20%、25%、30%、35%、40%、45%和50%。在保持原有2组变量的前提下,共构建了18个模型。通过比较训练AUC值、检验AUC值和预测结果的分布面积,评估最佳模型的测试数据集比例。

2" 结果

2.1" 变量筛选结果

为了完善建模的环境变量,本研究采用PCA和EVGM方法作为初步筛选机制。PCA有助于将22个影响因素浓缩为最重要的5个主成分,这些部分的累计贡献率为93.108%。选取载荷大于0.8的因子,结合22个环境因子中相关系数,排除相关系数小于0.85的因子,构成主成分法变量集。

根据参考文献[7],获得了与秦艽生长特性相关的10个因子,包括8个气候变量和2个地形因子。使用SPSS进行Pearson相关系数分析,确保变量之间的相关性小于0.85(表1),并得到最终的EVGM变量集进行建模。

最终,本研究生成了2组变量(PCA,EVGM),利用这些变量对秦艽的分布进行建模和预测,有助于对变量集之间的不确定性因素进行定量比较,详见表2。这种综合方法通过最小化共线性和优化环境变量的选择来确保稳健的分析,从而对秦艽的分布进行准确的建模和预测。

2.2" 3种参数设置的比较

在模型预测精度方面,2组变量的3种参数设置下的模型训练AUC值在0.856 4~0.890 9之间(表3),表明模型模拟精度较好,预测差异很小。对于25%存在点参数设置,测试AUC值在0.844 1~0.851 4之间,表明模型拟合精度较好;而对于RS伪缺席点参数设置,测试AUC值在0.4862~0.6659之间波动较大,性能较差。同样,对于Buffer-out伪缺席点参数设置,测试AUC值在0.734 9~0.750 3之间(表4),表明模型拟合精度适中。可以看出,存在点参数设置为25%的模型具有更高的拟合精度,这就是为什么在许多研究中通常使用该比例进行测试。然而,使用25%的存在点比例获得的模型精度是否总是最好的还有待讨论,这是下一小节的方向。

2.3" 不同测试比例的性能评价

从图1(a)可以看出,在PCA集下,不同采样比例下模型的训练AUC值在0.855 2~0.870 9之间,差异不大,表明模型拟合精度较高。测试AUC值范围为0.814 8~0.853 5,拟合精度较好。值得注意的是,当采样比例为10%时,测试AUC值最高,表明测试精度最高。同样,由图1(b)可以发现,在EVGM变量集下,各采样比例下模型的训练AUC值在0.884 8~0.894 9之间,具有很好的拟合精度。测试AUC值在0.826 3~0.869 7之间,具有较好的测试精度。值得注意的是,当采样比例为20%时,测试AUC值最高,表明测试精度最高。对比PCA和EVGM变量集对模型的检验结果,选择20%的存在点数据进行检验时,模型的检验精度最高为0.853 75,预测精度最好。

2.4" 预测分布面积对比

经过MaxEnt模型预测分析, 依据自然分割法将秦艽的潜在分布区分为4个等级, 按照分布概率P确定秦艽适生区等级划分:Plt;0.2为非适生区, 0.2≤Plt;0.5为低适生区, 0.5≤Plt;0.7为中适生区, P≥0.7为高适生区。将2种变量集下不同测试抽样比的高适生区面积与最小适生区面积(164个分布点的20 km缓冲区面积)对比(图2),无论是在PCA变量集还是EVGM变量集下,模型预测的分布面积都呈现出一致的趋势。当测试抽样比例为10%和20%时,分布面积范围最接近实际分布范围。但是,当测试抽样比例为20%时,测试精度更高。对于其他测试采样比例,预测的空间分布范围随着比例的增加而略有减小,这与用于训练的存在点的比例有关。然而,这种关系并不是严格线性的,并且与各个采样点的环境和位置属性高度相关。考虑到最接近实际分布和准确指导秦艽生产活动的能力,20%的随机抽样比例被认为是最佳的。

3" 结论

模型参数估计的不确定性是建模过程中信息不完整的必然结果。本文以秦艽为例,基于MaxEnt模型,探讨了在3个参数设置和2个变量集下预测其分布的不确定性。模型精度和分布面积预测分析表明,采用25%的存在点数据进行测试,模型拟合精度较高。通过基于存在点测试的建模分析,综合考虑模型精度和与实际指导的接近性,确定20%的随机测试抽样比例为最优,为确定最优物种分布预测模型提供了有价值的参考。

参考文献:

[1] YAN H Y, FENG L, ZHAO Y, et al. Prediction of the spatial distribution of Alternanthera philoxeroides in China based on ArcGIS and MaxEnt [J]. Global Ecology and Conservation, 2020(21): e00856.

[2] YAN H Y, HE J, ZHAO Y, et al. Gentiana macrophylla response to climate change and vulnerability evaluation in China [J]. Global Ecology and Conservation, 2020(22): e00948.

[3] YAN H Y, FENG L, ZHAO Y, et al. Predicting the potential distribution of an invasive species, Erigeron canadensis L., in China with a maximum entropy model [J]. Global Ecology and Conservation,2020(21):e00822.

[4] CHEN X M, LEI Y C, ZHANG X Q, et al. Effects of sample sizes on accuracy and stability of maximum entropy model in predicting species distribution[J]. Scientia silvae sinicae,2012,48(1):53-59.

[5] LIN Y P, DENG D, LIN W C, et al. Uncertainty analysis of crowd-sourced and professionally collected field data used in species distribution models of Taiwanese moths[J]. Biological Conservation,2015(181):102-110.

[6] BYEON D H, JUNG S, LEE W H. Review of CLIMEX and MaxEnt for studying species distribution in South Korea [J]. Journal of Asia-Pacific Biodiversity,2018,11(3):325-333.

[7] 尚忠慧.基于MaxEnt的物种空间分布预测不确定性分析——以当归为例[D].西安:陕西师范大学,2016.

基金项目:重庆市教委科学技术研究项目(KJQN202215901)

第一作者简介:严胡勇(1984-),男,博士,副教授。研究方向为生态信息学。

*通信作者:张婧月(1990-),女,硕士,副教授。研究方向为数据挖掘。

猜你喜欢

秦艽参数设置
基于Python的激光传感器参数设置与调试软件设计
秦艽专用肥料田间试验
秦艽花化学成分、药理作用及其临床应用的研究进展
秦艽不同配伍的抗炎镇痛作用分析
自拟吉杰呐博“粗茎秦艽”散外敷治疗类风湿性关节炎肿痛40例
RTK技术在放线测量中的应用
动车环境下U900异频切换参数设置探讨
基于STM32处理器的大棚温湿度监控系统设计
TLC法测定骨刺消痛胶囊中白芷、秦艽
中药秦艽治疗风湿痹症的综述