最大熵模型在海洋生物适生区预测中的应用
2023-12-22杨继超董民星种衍飞徐勤增
杨继超,董民星,种衍飞,徐勤增
(1.山东科技大学,山东 青岛 266590;2.山东省煤田地质局第一勘探队,山东 青岛 266404;3.自然资源部第一海洋研究所,山东 青岛 266061)
最大熵模型(Maximum Entropy Model, Maxent)最早由Phillips等[1]于2006年在最大熵原理的基础上结合物种分布模型所提出,并在之后不断更新完善。相较于其他物种分布模型,Maxent的优点是在数据量很小的情况下也可以取得较好的精度,此外使用正则化算法避免了曲线过度拟合。
近年来,Maxent在陆地环境中得到了广泛应用,算法不断改进优化,成为了预测濒危物种潜在分布区、外来物种入侵范围预测、研究气候变化对物种分布的影响、规划保护区保护生物多样性等多领域的重要研究方法[2],为生态学和生物地理学研究提供了新的思路。Maxent在陆地环境应用的成熟促使其在海洋中的应用进入了快速发展阶段[3]。Maxent在海洋中的应用研究方法虽然与陆地上的类似,但也充分考虑了海洋环境的特殊性,如深度、静水压力、光线、复杂的水动力等对环境产生的影响。目前,Maxent在预测海洋物种适生区[4-7]、水产物种养殖地[8]以及预防外来物种入侵[9-11]等方面取得了很好的成果。
本文首先简述了最大熵及物种分布模型的原理,接着对Maxent的发展进行简要的叙述,对其在生物适生区预测的应用方面进行了系统的总结,综述了其在海洋环境应用的发展,为该方法将来在海洋生态学和海洋生物地理学中更广泛的应用和发展提供参考。
1 最大熵模型基本原理
Maxent是一种基于最大熵原理的物种分布模型[12]。早期的Maxent在具体的应用过程中,涉及大量的计算公式,晦涩难懂。经Phillips等不断的调整和优化,Maxent目前已经形成一套完整、便捷的算法,并提供了开源代码[13],极大方便了开展应用研究的学者使用。现将Maxent的基本原理做以下简述,方便应用研究的学者理解。
1.1 最大熵原理
“熵”(Entropy)一词最早于1856年由德国物理学家Clausius提出,以描述一个系统的混乱程度。在封闭系统中熵随时间而增大(即从有序变无序)。1948年,Shannon将“熵”的概念引入到信息论中[14],用信息熵来表示信源X的平均不确定性。信息熵即每收到信源X中的一个事件时,所获得的平均信息量。事件的概率越小则事件的不确定性就越高,即信息量越高。
(1)
式(1)中:对数基底b取值不同时,对应信息量的单位也不同。b取值为2时,单位为bit;b取值为10时,单位为hart;b取值为自然常数e时,单位为nat。
1957年,Jaynes在信息熵的基础上提出了最大熵原理[15-16]:在没有掌握信源X全部信息的情况下对其做出推断,选择满足约束条件下使熵具有最大值的概率分布,即在未能获取信源X的全部约束条件时,通过已知的约束条件求解出熵的最大值。最大熵理论的提出不仅将统计学理论与物理学知识联系起来,也使“熵”这一概念走出了热力学的领域。
1.2 物种分布模型
物种分布模型(Species Distribution Models,SDMs),是将目标物种的分布信息及其生活环境的环境数据相关联起来,得出物种分布和环境因子之间的联系,并将这种联系映射到待研究区域中,从而对目标物种进行分布估计的一种模型[17]。根据Hutchinson于1957年提出的概念,物种在自然环境中同时受到多个环境因子的限制和影响,每个因子对该物种生存繁衍都存在一个适合的阈值,若地理范围内某一点位上所有影响因子均满足该阈值,该点便是该物种的适宜生存点,将其映射到目标区域即可得出该物种的潜在地理分布[18]。环境因子包括气候变量、海拔、植被分布和其他类型的环境变量,以及盐度、深度、溶解氧含量等针对海洋物种的环境因子。
目前,SDMs已经成为生态学的重要研究工具,被广泛应用于分析物种分布和气候之间的关系、预测物种的潜在适生区分布、外来入侵物种入侵范围的预测、珍稀动物适生区及保护地规划等。常见的SDMs有生物气候分析系统BIOCLIM模型[19]、广义线性模型(Generalized Linear Model,GLM)[20]、广义加法模型(Generalized Additive Model,GAM)[21]、基于规则集的遗传算法(Genetic Algorithm for Rule-set Prediction, GARP)[22]等。
1.3 最大熵模型
根据最大熵理论,一个非均衡的生命系统必须通过与环境的物质和能量交换来维持其存在。换句话说,任何一个客观存在的生命系统都是“耗散”的。“耗散”导致系统熵增,直到生命系统与环境的熵呈最大状态,也就是系统与环境之间的平衡状态。Maxent就是使用物种分布数据和环境因子数据,依据物种分布模型算法探究生态位的约束条件,计算系统在最大熵状态下的概率分布函数H(X),并依据该函数拟合最大熵的潜在分布状况[17],从而构建出物种地理尺度上空间分布的物种分布模型[23]。
Maxent在生物适生区预测的基本思路是:依据待研究物种的分布数据(包含经纬度坐标信息)构建环境变量的函数H(X),H(X)表示待研究物种的存在概率,求H(X)的最大值。
若已知n个环境因子(X1,X2,…Xn,Xi的取值集合为Wi)共有m个约束条件(φ1,φ2,…φm,m 具体做法是以村集体(村委会)为主体成立农宅合作社,通过转让、租赁、入股、合作经营等方式,将村民闲置的房屋资产整合利用,村民自愿入社,引入专业的旅游企业进行经营,打造休闲旅游、度假养老、娱乐营地等产业,盘活经营现有农村闲置房屋,促进农民当地就业,赋予农民更多的财产权和收益权,入社农民每年不仅有固定的租金,年底还有分红。 (2) 此时将n个环境因子的联合熵H(X)定义为: H(X)=H(X1,X2,…Xn) (3) 式(3)中: p(x1,x2,…xn)=P(X1=x1,X2=x2,…Xn=xn) (4) 此时,问题转化为(X1,X2,…Xn)取何值时,即各环境因子取值为多少时,H(X)最大。 使用拉格朗日乘子法对此问题进行求解,构建函数F(X1,X2,…Xn): F(X1,X2,…Xn)=H(X)+λ1φ1 +λ2φ2+…+λmφm (5) 式(5)中:(λ1,λ2,…λm)为拉格朗日算子。 依次对F(X1,X2,…Xn)求偏导,并令偏导数等于0: (6) 利用式(2)和式(6)联立解出(X1,X2,…Xn)和(λ1,λ2,…λm)的值,此时H(X)最大。通过对比不同区域H(X)的最大值,数值越高的区域待研究物种的存在性越高。 物种分布模型的建立有两种情况:第一种是已知待研究物种明确的分布区及非分布区,这种情况下建立物种分布模型较为容易;另一种是只了解待研究物种的部分适生区而不了解其非适生区,这种情况建立物种分布模型较为困难。实际应用中,第二种更为常见。传统的预测方法在面对第二种小样本量的情况时,预测结果会出现较大的偏差[24],而Maxent在样本量很小的情况下(≤20)[25]也有良好的效果。 2004年,Phillips等[26]使用北美繁殖鸟类数据作为样本,首次应用最大熵原理预测生物适生区,并与GARP模型进行对比实验。结果表明,最大熵原理方法在实验中取得了更佳的效果,在物种分布建模方面有很大的应用前景。基于此次实验,Phillips等于2006年建立了最大熵模型(Maxent)[1],并成功应用于低地树獭(Bradypusvariegatus)和小型山地鼠类(Microryzomysminutus)的适生区预测中。 早期的Maxent算法较为复杂,大众理解起来较为困难,而且在建立不同物种模型时,需要改动大量的参数,因此实际的应用实例比较少。经过Phillips等对Maxent的不断优化[26],并在训练数据构建中增加了更复杂的“铰链特征”[26],极大提高了模型性能。Elith等对Maxent输出的结果进行了统计学解释[27],从而使Maxent更容易被不同专业背景的学者理解。 在全球气候变暖的背景下,以及受人类活动的强烈影响,许多物种因生态环境的恶化和栖息地的丧失而濒临灭绝。基于Maxent较为准确的物种潜在适生区预测结果,为珍稀、濒危野生物种制定保护政策、选划保护区域等,已成为目前研究的热点。目前,基于Maxent预测物种的潜在地理分布、保护区规划及全球气候的变化对物种潜在地理分布影响的相关研究已经超过了2 000多次(以陆地环境为主),体现了Maxent在该领域内的巨大优势[17]。 Maxent在实际使用中,最关键的步骤是环境因子的选择。基于大量的研究结果,Maxent在陆地环境中的应用非常成熟[28]。经筛选,适用于陆地的环境因子基本固定为4组27个。这些因子通常包括:19个气候因子(表1)、3个生物地理因子(海拔、坡度和坡向)、2个地被因子(地被类型和植被覆盖度)和3个人为因子(人类足迹、人类影响和人口密度)。在这27个环境因子中,使用率最高的有11个:温度季节性变化标准差(Bio4)、最冷月最低温(Bio6)、最湿季度平均温度(Bio8)、年均降水量(Bio12)、最干季度降水量(Bio17)、最暖季度降水量(Bio18)、树木覆盖率、土地覆盖率、坡度、人类足迹和坡向。在陆地环境的Maxent的实际应用过程中,需要根据目标物种的特殊习性,从上述的因子中筛选、试验最佳的环境因子组合。 表1 19个气候因子描述Tab. 1 Description of 19 climatic factors 海洋覆盖了地球表面70%以上的面积,约95%的面积尚未被调查。与陆地物种分布数据库的完整性和环境因子的可获取性相比,海洋物种数据及其环境数据更为匮乏。Maxent在小样本量预测方面的优势,可以作为进行海洋生物地理学研究的最有效手段。目前,在海洋环境中Maxent的主要作用是判断某块区域是否为生物适生区,在此基础上演化为海洋生物适生区域预测、预防外来物种入侵、水产物种养殖场址规划等方面的研究方法。 随着Maxent日趋成熟,其在海洋环境中的应用进入快速发展阶段。目前,最大熵模型对海洋生物适生区预测实例共涉及脊索动物门(Chordata)[29]、腔肠动物门(Coelenterata)[30]、软体动物门(Mollusea)[31]及节肢动物门(Arthropoda)[32]等生物门类。其中最热门的是哺乳纲(Mammalia)、珊瑚纲(Anthozoa)和软甲纲(Malacostraca),分别占实例总数的16.2%、13.0%和8.9%,此外热度较高的是Ceratium、Pteroisvolitans、Penaeusmonodon等[33-35]海洋入侵物种。相对来说,Maxent针对海豚和珊瑚这两类物种的适生区预测比较成熟。 海豚是最为常见的鲸豚类海洋哺乳动物,根据世界自然保护联盟(IUCN)红色名录显示,其中多数种类处于极危、濒危、易危的状态,是人们极力保护的海洋物种之一。海豚的游泳能力很强,活动范围极广,对其栖息地的分布的数据资料相对匮乏。Maxent则成为预测海豚适生区进而为其制定保护政策、选划保护区域提供依据的最佳手段。现有的Maxent应用结果,还进一步锁定了与海豚分布有关的关键环境因子。如,海豚的分布密度与海水温度呈良好的正相关,而与离岸距离呈负相关[36-38]。此外,在同一地点,海豚分布密度随海表温度的变化而变化,这有助于我们开展海豚迁徙路径的相关研究,同时也可以研究海豚适生区的季节变化规律。 Maxent对海豚适生区的预测结果,也揭示出现有的海豚保护区与海豚适生区之间的偏差,例如,印度尼西亚海域海豚适生区与油气勘探地区及海洋交通路线重叠[36];越南的凯普群岛(Kep Archipelago)附近的伊洛瓦底海豚(Orcaellabrevirostris)适生区绝大部分位于凯普海洋渔业管理区以外[37]。这些偏差为重新规划海豚保护区提供了依据。Maxent对海豚适生区的预测,还可以帮助规划最佳的海豚观赏路径[38],在减少人类活动对适生区造成破坏的前提下,统筹生物多样性保护和当地经济和谐发展。可以预见,Maxent将在改善海洋生物保护、管理策略方面发挥更加重要的作用。 珊瑚作为海洋的重要物种之一,以其为基础构建的栖息地孕育的复杂生态系统具有极高的生物多样性[39]。但是,珊瑚对生长环境要求苛刻,以珊瑚为基础的生态系统相对脆弱,尤其是在人类活动和全球变暖的双重因素下,极易遭受不可逆转的破坏。因此,以珊瑚为目标的适生区预测是Maxent应用热点中的热点。与海豚的应用类似,Maxent的结果锁定了温度、溶解氧是影响珊瑚分布的最重要的两个环境因子[40]。除了全球变暖,海洋酸化也是造成大面积珊瑚消亡的因素,尽管如此,Maxent的结果明确的提出全球变暖对珊瑚造成的影响要比海洋酸化大的多[41]。在我们制定珊瑚的保护策略时,这个结果将是十分关键的依据。此外,珊瑚及其提供的栖息地能够维持多样性极高的生物群落。所以,Maxent可以通过预测珊瑚的适生区而获知整个生物群落的分布情况[42],这个结果可以帮助研究人员、管理人员构建宝贵的生物多样性分布模型[43],从而影响海洋生物保护政策的制定和实施。 海洋外来物种入侵大多是由人类活动所导致的。外来物种通过迅速的繁殖挤占本地物种的生态位,通过捕食破坏本地原有的食物网,进而导致本地物种的灭绝。早期海洋外来物种的繁衍规模往往难以观测,Maxent则可以通过入侵物种(或者有潜在入侵风险的物种)在原始生境中积累的数据来准确预测其在侵入区域的适生区,从而为高风险区制定检疫、管控等预防措施提供依据。 Maxent在外来物种入侵方面的应用具有非常重要的社会意义。针对巴西南部的Chromislimbata[44]、波罗的海内的Neogobiusmelanostomus[45]等鱼类的研究结果发现,此类入侵物种主要通过跟随船只的方式侵入当地。这个结果的意义是,我们通过加强对来往船只的检查就可以减少这类入侵事件的发生。对于引入埃及的Hydrocotyleumbellata和Salviniaauriculata[46]等观赏水生植物,Maxent的结果表明随气候的变化,这两种植物将逐渐由低纬度地区向高纬度地区迁移,这一成果帮助当地提前在极易受到入侵的地区制定了针对性的监测行动和预防措施,从而减少了入侵事件对当地生态和社会经济造成的负面影响。 Maxent还可以在充分评估入侵风险的前提下,为水产物种挑选适宜的养殖地址,从而将与水产养殖活动的环境风险降到最低。来自印度洋-太平洋地区的原生热带海藻Kappaphycusalvarezii是卡拉胶工业的主要原料来源[47]。巴西在引进该海藻时,使用Maxent预测了该物种的适生区,在评估了所有适生区可能存在的生态风险后,剔除了珊瑚礁发育的几个区域,最终圈定了最适宜养殖该海藻的区域[47],从而避免了因为盲目引进而导致的生态灾难。同样,在澳大利亚南部,Wiltshire等[48]使用Maxent为8种海藻建立模型并确定了最佳的海藻养殖潜力地区,极大的提高了养殖的效益。 在应用Maxent时,最关键的一步是环境因子的选择[49]。与陆地环境相比,海洋应用中环境因子的选择还处于探索阶段。海洋环境中垂向上的距离是深度,与陆地上的海拔不同,深度的变化不仅仅意味着温度的变化,还意味着光线、压力甚至是营养结构的变化。海洋表层区域,光线充足但静水压力较低,而海洋的底层全年无光且静水压力剧增[50]。这就天然的将海洋生物分为了表层营游泳生活的类群和海底营底栖生活的类群。这也就导致了在研究海洋生物的适生区时,必须考虑到该物种所处的海洋环境,进而选择不同的环境因子。综合目前的研究,适用于海洋的环境因子大体为3组21个(表2)。这些因子通常包括:13个非生物因子、1个生物因子和7个地形因子。其中,平均光照度是海洋表层生物的特有因子,而地形因子则只适用于底栖生物的预测。 表2 用于海洋生物研究的环境因子Tab. 2 Environmental variables for marine organism research 我们筛选了120°—130°E,5°S—5°N范围的海绵动物门(Porifera)分布数据和环境因子数据,以此开展Maxent适生区预测的应用说明。环境因子则使用了表2中所有的底栖类因子。 首先,为保持数据的统一分辨率,将物种分布数据和环境因子数据进行重采样,采样后的分辨率为15″。将处理好的物种分布数据和环境因子数据,选择75%的数据作为训练集,剩余25%的数据作为测试集,代入基于R语言编写的Maxent开源代码中,进而构建出海绵动物门在研究区域内的适生区最大熵分布模型。然后,使用ROC(Receiver Operating Characteristic Curve)曲线下的面积AUC评估Maxent模型的准确性。本次结果训练集的AUC值为0.818,测试集的值为0.780(图1)。表明本次研究的预测结果良好,可信度较高。 图1 Maxent模型应用ROC分析法检验海绵动物预测结果Fig. 1 Maxent model using ROC analysis to test the prediction results of Porifera 其次,使用自然点间断法,将海绵动物门在区域内潜在分布的适宜性等级划分为最适宜分布区、较适宜分布区、低适宜分布区、不适宜分布区4类(表3)。结果显示,海绵动物门的潜在适生区(P>0.511 770)占到研究区域总面积的27.8%,但大多分布于近岸的浅水地区(图2)。 图2 基于Maxent的海绵动物潜在分布图Fig. 2 Potential distribution map of Porifera based on Maxent 表3 海绵动物门潜在适宜分布区占比统计Tab. 3 Statistics for the proportion of potential suitable distribution areas of Porifera 再次,确定各环境因子对海绵动物分布的贡献率和置换重要性。结果显示,深度的贡献率和置换重要性最大,分别为61.9%和91.0%(表4),其次是浮游植物(代表了来自表层的营养供给)。同时,使用刀切法分析每个环境因子对预测结果所产生影响的大小。结果表明,深度因子对最终预测结果的贡献最为显著,而地形粗糙度、平面曲率、溶解铁等对最终预测结果影响相对较小(图3)。这说明对海绵动物分布影响最大的是深度因子。 图3 对于海绵动物门的刀切法检验Fig. 3 Knife cut test for Porifera 表4 环境因子贡献率和置换重要性统计Tab. 4 Statistics for environmental factor contribution rate and replacement importance 最后,综合以上结果,选出浮游植物、深度、溶解氧和叶绿素a这4个因子绘制响应曲线(图4)。以存在概率>0.5为适宜范围,海绵动物的适宜生长的环境的深度大于2 200 m,而代表海表生产力的浮游植物、溶解氧、叶绿素a含量的增高并没有提高海绵动物的适宜度,因为具有较高海表生产力的区域往往在更靠近海岸的浅水区域。 图4 环境因子响应曲线Fig. 4 Response curve of environmental factors(a)浮游植物响应曲线;(b)深度响应曲线;(c)溶解氧响应曲线;(d)叶绿素a响应曲线。 Maxent在陆地生物适生区分布预测应用上已经非常成熟且系统。海洋生物分布数据和环境因子数据更加难以获取,由于Maxent在处理小样本数据的情况下仍旧可以取得较好的预测结果,所以在海洋生物适生区预测方面具有独特的优势,从而促使其在海洋中的应用探索进入到了快速发展的时期。 尽管Maxent有着稳定性较好、样本量大小对其预测精度影响不大、随着样本量增大预测精度趋于稳定等优点,但在海洋生物适生区预测的实践中,对于环境因子的筛选仍旧需要继续探索。陆地上的环境因子,即使包含海拔,本质上仍旧是一套气候因子。而海洋的环境因子,除了水体的环境要素还需考虑水深(静水压力、光线)等。如何对处于不同环境中的物种筛选适合的环境因子,仍需进行更多的研究和实践。 此外,数据量的匮乏也会对海洋生物分布模型的建立产生影响。在建模过程中,海洋中普遍存在的数据空白区域可能会被忽略,而仅仅进行插值又会导致模型的数据异常。此外,建模结果仅仅能够说明某些适宜地区与该物种的生存环境极度相似,却无法进一步剔除诸如构造运动、地质活动等难以掌握的因子对这些“适宜”区域的影响。数据的缺乏,也导致无法掌握适宜区域的天敌或竞争物种的信息。这些因素,都会导致预测的适生区与真实情况产生偏离。通过更加强大的机器学习模型,基于生态位的方法选取非分布点的数据,是能较好削弱上述影响的方法之一,需要开展更加系统的研究。 综上所述,Maxent为获取海洋物种分布数据提供了一种新的方法,相关结果不仅能够约束物种保护政策的制定和保护区域的选划,而且可以平衡生态保护与经济发展的需求,还可以指导制定应对生物入侵事件的预防性措施。Maxent还为诸如海洋古生态学的研究提供了新的思路。通过选取不同时期的环境数据及物种分布数据,可以反演在不同时期物种的分布模型,从而帮助我们更好的了解海洋古生态环境的演变历史。此外,Maxent在海洋生物基因资源获取、海洋极端环境生物多样性保护等方面也极具发展前景。2 最大熵模型在生物适生区预测中的发展
3 最大熵模型在海洋生物适生区预测中的应用现状
3.1 海洋生物适生区预测
3.2 预防外来物种入侵
3.3 水产物种养殖场址规划
3.4 海洋生物适生区预测的应用实例
4 总结与展望