基于国家标本资源共享平台数据的中国杜鹃花科植物标本采集地理偏差分析
2018-05-20张玉雪任敏肖翠
张玉雪,任敏,肖翠
1.中国科学院遗传与发育所农业资源研究中心,河北 石家庄 050021
2.安徽农业大学资源与环境学院,安徽 合肥 230036
3.中国科学院植物研究所,北京 100093
1 背景
1.1 研究背景
杜鹃花科 (Ericaceae) 有 967 种,多为落叶灌木、半常绿灌木、常绿灌木、常绿小乔木,分布遍及欧洲、亚洲、北美洲和大洋洲,其中亚洲是杜鹃花科植物的集中分布地区[1]。据记载,杜鹃花科植物起源时间约为晚白垩纪至早第三纪的过渡期,中国西南至中国中部最有可能是杜鹃花属植物的起源地[2]。我国有杜鹃花科 15 属,约 757 种,分布于全国各地,主产地在西南部山区,尤以西藏、四川、云南三省区相邻地区为盛[3]。目前对于杜鹃花的资源保护利用并不成熟,由于人为的过度采伐促使野生杜鹃花资源受到严重破坏[4]。
杜鹃花科植物在我国西藏、四川、云南等地区分布广泛,在区域或全国尺度已进行了对杜鹃花属区系组成、地理分布格局的研究。青藏高原的川西地区与藏东南地区杜鹃花属植物类群及其分布格局的异同,揭示了我国杜鹃花属植物地理区系及其垂直分布特征由东至西的趋异化过程与性质[5]。庄平分析探讨了我国杜鹃花属植物地理分布格局,喜玛拉雅山、狭义横断山、川西山地既是杜鹃花属的集中分布区,也是某些类群扩散、迁移的地理屏障,对我国现代杜鹃花分布区及其分布格局的形成影响重大[6]。
物种丰富度是生物多样性最基本的衡量指标之一,目前关于物种丰富度格局的研究先后有学者提出了气候、地质历史过程、环境异质性以及随机过程等众多假说机制[7-13]。尽管物种丰富度格局受到多种环境因子的共同影响,但气候对物种丰富度格局的影响被认为是最主要的决定因子[14-15]。其中水热动态假说最受关注,其认为水分和能量共同决定植物物种丰富度格局[16-17],该观点在中国黑戈壁[18]、内蒙古草原[19]等地区研究中已得到验证。另外,气候稳定性假说也是讨论较多的,该假说认为气候稳定性越高的地区,物种分布区受气候变化影响越低,动植物的种类越丰富[20]。
1.2 研究意义
植物标本是植物学家长期从事科研活动的积累和人类自然遗产的永久记录之一,是研究物种的分布及其历史、现状、系统演化的重要资料。针对标本数据的地理采集偏差检验和评估的研究有部分学者已经着手,如张大才等收集了有关数据库和标本馆的标本资料分析了横断山区树线以上区域种子植物标本的采集现状和物种丰富度[21],前人对杜鹃花科植物多是在杜鹃花属水平以下进行其多样性、区系与地理分布的研究[2,5,6],但是基于国家标本资源共享平台 (NSII) 的数据对中国杜鹃花科植物标本采集偏差的分析很少且在杜鹃花科水平上很少见到关于其多样性空间分布格局与气候因子关系的研究。本研究拟以国家标本资源共享平台收录的中国杜鹃花科植物的植物标本采集记录为研究对象,选取县级行政单位为地理单元,进行我国杜鹃花科植物采集现状以及偏差分析;通过对该科植物地理分布与气候因子关系的探讨,结合 ArcGIS10.2 软件和 SPSS 软件开展杜鹃花科植物在我国的适生区分布预测,拟探讨以下问题:(1) 各气候因子变量对杜鹃花科物种丰富度的影响;(2) 水分、能量对杜鹃花科物种丰富度的影响。本研究结果为今后开展杜鹃花科植物区系的调查及生物多样性的保护和资源开发利用提供理论参考。
2 材料与方法
2.1 数据的筛选与校对
本研究中选取的杜鹃花科植物数字化标本信息全部来源于国家标本资源共享平台 (NSII) (National Specimen Information Infrastructure,” (http://www.nsii.org.cn/)。经初步筛选后得到 149,559 份杜鹃花科的标本信息,为进一步提高标本数据质量,现对标本数据进行以下的校对工作。
步骤如下:(1) 植物拉丁名称校对。利用 (http://tnrs.iplantcollaborative.org/TN RSapp.html 拉丁文名称核对网站对标本拉丁名称的标准化与错误数据进行剔除,对标本拉丁名称进行查询,将准确率得分在 0.9 以下的标本数据剔除,准确率得分在 0.9 以上的标本数据接收为正确的拉丁名称。(2) 剔除数据缺失的采集地点 (香港、澳门特行政区、台湾省以及南海诸岛数据不全) 以及在中国行政区以外的采集记录。(3) 对于采集地点在自然保护区内的标本记录,根据电子地图查询自然保护区所在地,若自然保护区完整地在某个县级地区内,将保护区名更改为该县名。(4) 县级行政单位名称校对。根据中国县级行政区划地图确定县名。部分旧县名经过行政区划的合并和重新划分,在查找其历史沿革后,确定最新的县名。最终经过整理后共获取了约 124, 940 条地标化至县级的杜鹃花科植物标本数据,共包含有杜鹃花科植物 1611 种。
2.2 采集完整程度的评估方法
标本采集偏差指在植物标本采集过程中受地理条件,天气,交通,采集人的主观意识等条件的影响导致采集时采集地区分布不均匀,部分地区采集遗漏,或采集数量过少导致数据不完整。本研究共使用两种方法来评估各个县杜鹃花科植物在该地的标本采集完整程度。第一种为差值法,第二种为斜率法。
2.2.1 差值评估法
该方法是由 Chao 提出了一种基于评估稀有种数量的群落丰富度估算方法,常称为 Chao1 估计量。Chao1 的估计以已有取样中物种个体数量的分布频率为基础,当取样中每个物种都是两个或两个以上的个体时,Chao1 认为该地区的取样比较完全;而当取样中每个物种只有一个个体时,Chao1 认为该地区仍有新物种有待发现。
其计算方程为:
其中,Sobs 是采集到的物种数,a 是取样中只有一个个体的物种数,b 是取样中只有两个个体的物种数,S*是 Chao1 估计的物种数[11]。根据该公式可得知每个县中稀有种数量越多,该地区新物种未被发现的概率越大,估计丰富度越高;而每个县中稀有种数量越少,该地区新物种未被发现的概率越小,估计丰富度越小。由于稀有种的存在和野外调查的限制,植物群落中记录在案的物种数量一般少于真实的物种数量。并经 Shen 等和 Chao 等证实,对于大部分数据集来说,Chao1 估计量是一种计算物种丰富度的良好指标,阳文静使用 Jackknife 和 Bootstrap 等模型计算出的估计结果和 Chao1 估计量的结果基本相似,说明 Chao1 估计量具科学性[22]。
本研究选取物种丰富度 Chao1 估计量来计算中国各个县的杜鹃花科植物物种丰富度,并用 Chao1 估计量与记录在案的物种丰富度之间的差值来评估一个县的采集完整程度。在评估时,本研究中使用 Spade 软件进行计算,并在计算过程中本研究将稀有种个数定为 10。最终计算结果差值越大表明稀有种出现的概率越大,该县中稀有种数量越多,新物种未被发现的概率越大;反之越小。
2.2.2 斜率评估法
该方法是由李巧等提出的利用物种累积曲线 (species accumulate on curve, SAC) 末端百分之十的斜率的大小作为标本采集完整程度的标准[23]。物种累积曲线用于描述随机抽取采集记录情况下,随着抽样强度增加,物种丰富度随之积累的情况,是理解调查样地物种组成和预测物种丰富度的有效工具,在生物多样性和群落调查中,被广泛用于抽样量充分性的判断。
本研究假设,对于每一个县级行政单位,其取样完整度越低对应的物种累积曲线越趋近于直线,而取样完整度越高对应的物种累积曲线的弯曲程度越高。其中物种累积曲线的弯曲程度体现了物种的不完整程度,物种积累曲线的弯曲程度可以用物种积累曲线尾端 10% 的斜率表示[24]。
本研究中使用“R”软件计算物种累积曲线尾端 10% 部分的斜率,表示物种各积累曲线的弯曲程度,代表某个县采集数据的不完整程度。当斜率值趋近于 0 时,说明取样较为完整;当斜率近于 1 时,说明取样较为不完整。该斜率值还表示如果采集强度增加,将会有新物种被发现。
2.3 气候因子变量数据筛选
19 个气候因子从世界气候数据库下载 (http://www.world-climates.com),并将其进一步归类为水分因子和能量因子。应用 ArcGIS10.2 获得与中国分布区相关的 19 个气候因子数据变量,GIS 分析底层是杜鹃花科标本匹配的每个县经纬度数据 (表 1)。
2.4 数据处理
得到气候因子数据及杜鹃花科植物的 3 个物种丰富度数据,在 SPSS 22.0 进行下一步分析,包括:
(1) 气候因子的 Spearman 秩相关检验
影响杜鹃花科分布的气候因子有 19 个,但由于变量的多重共线性会导致物种分布模型过度拟合[23-24],所以需要将高度相关的气候因子剔除掉。利用 Spearman 秩相关检验在 spss 22.0 中筛选出相关性最小的变量 (Spearman's Rho b 0.75),相关变量的 Spearman Rho 大于 0.75 时只保留一个生态逻辑上最有意义的气候因子。
表1 影响杜鹃花科植物空间分布的 19 个气候因子Table 1 19 climatic factors affecting the spatial distribution of rhododendron plants
(2) 逐步回归分析
将气候因子分为能量和水分两组,通过逐步回归分析筛选出对 3 个物种丰富度最重要的气候因子变量,同时记录每组的相关性指数 R square。逐步回归的思路是将物种丰富度作为因变量,将气候因子作为自变量逐个添加到回归模型中,每添加一个解释变量后都要进行 F 检验,并对已经选入的解释变量逐个进行 t 检验,如果原来引入的解释变量由于后面解释变量的加入变得不再显著时,则将其删除。以确保每次加入新的变量之前回归方程中只包含显著性变量。
(3) 一元线性回归分析
探究不同气候因子变量与杜鹃花科物种丰富度之间关系。
(4) 分析气候因子、物种丰富度与纬度之间相关性
通过显著性水平检验发现气候因子、物种丰富度与纬度之间用一元二次回归解释时相关性较高,所以利用一元二次回归分析来探讨气候因子、物种丰富度与纬度之间相关性。
3 结果与分析
3.1 我国杜鹃花科植物标本采集现状
从采集数目上来看,杜鹃花科植物标本采集主要集中于长江以南地区,尤其西南地区分布最多,西北与东北地区分布较少。四川最多,云南次之,其标本数据均过万,第三为西藏,占我国杜鹃花科植物标本数目一半以上,见表 1。
由图一 A 可以看出长江以北地区,如黑龙江省、河北省、山西省、山东省、江苏省等省份的标本采集地区零星分布,其中标本采集数目最少的是山东省,仅有四份。黑龙江共 273 分标本,主要集中在大兴安岭地区的三个县:呼玛县、漠河县、塔河县;河北省标本共 361 份,主要集中于张家口市内恒山、太行山、燕山三山交汇之处。江苏省仅 239 份标本,主要集中于无锡市与宜兴市多丘陵地区。综上,杜鹃花科植物标本集中于我国西南地区:青藏高原东南部、横断山区、四川平原、云贵高原、大巴山区等,该地区有着丰富多样的小生境类型,是我国的植物特有种中心,稀有种种类丰富,四川盆地的标本分布较少,可能是由于其热量比周边山区高,而降雨则低于周边山区,不适宜杜鹃花科植物生长,且耕地连片,植被破坏较严重,故分布较少。其中分子生物学证据也表示,这些地区地形的复杂性造成了植物种间隔离,加速了物种的分化。
3.2 物种丰富度估计值与观察值的差值分析
由图 1B、C 中可以看出物种丰富度记录值和 Chao1 估计值最大的均为云南省的贡山独龙族怒族自治县、德钦县和西藏自治区的墨脱县。物种丰富度记录值较高的地点多集中于横断山区、云贵高原、青藏高原西部以及四川盆地。物种丰富度记录值低的地区主要是新疆维吾尔族自治区、藏北高原、内蒙古中部、大兴安岭山区、巴颜喀拉山脉、云贵高原东北部。同一个省内,各县采集强度参差不齐。
图1 A.标本采集数量;B.原始丰富度 (物种数);C.丰富度估计值;D.残差 (丰富度估计值-实际值);E.物种积累曲线尾端 10% 斜率Fig.1 A: Number of collected specimens; B: Original richness; C: Richness estimates; D: Richness residue (estimated value minus actual value); E: Gradient of the last 10% section of the accumulated species curve
图 1D 差值图中可直观看出差值的范围是 0 至 84 种。差值的大小代表采集的完整程度,现将如图所示的差值分为五个区间:0-3.7,3.7-9.4,9.4-18.9,18.9-33.0,33.0-84.2,并定义五个区间分别代表:极完整、较完整、中等完整、较不完整、极不完整。结果表明标本数目较多的横断山区有存在采集不完整的县,差值法得出的极不完整的县如表 4。
根据差值法,可由图二看出,采集完整程度与采集数目并没有较大关联性,如采集数目最多的峨眉山市 Chao1 估计值与物种丰富度记录值的差值为 34.6,属于采集极不完整的县;仁化县标本采集数仅 72 份,物种丰富度观察值为 15,差值仅 0.9,属于采集极完整的县。说明差值法在一定程度上反映了采集完整程度,但其可靠性受标本基数、稀有种数目的设定影响。
3.3 物种积累曲线尾端 10% 斜率分析
以 0.05 为阈值,在有标本采集记录的县级行政单位中,标本采集不完整程度指数 (SAC slope) 在 0.012500-0.818182 之间变化,有 73 个县 (全部县的 0.12%) 的斜率值 (SAC slope) 小于或等于 0.05,可以认为是名录较为完整的县。根据斜率法计算得出完整性较高的县主要集中于横断山区、云贵高原、藏南谷地、大兴安岭山区以及大巴山区,与标本采集数目多的地区相符。对于采集完整的县,Chao1 估计值与采集丰富度的差值取值范围是 0-40.8,而采集不完整的县,Chao1 估计值与采集丰富度的差值取值范围是 0-84.2,差值的取值范围缩小;斜率值最高的二十个县标本采集数量均低于 50 份 (表 5),以云县为例,云县位于云南省西南地区,地处横断山系纵谷区南部,地貌类型丰富,为亚热带季风气候,自然资源丰富,适宜杜鹃花科植物生长,但标本数量只有 15 份,这说明该县确实采集不完整,需加强标本采集工作。故经过斜率法对标本进行质量评估后,使用采集完整性高的数据在一定程度上可以提高数据分析的科学性。
表2 Spear man 秩相关检验出的气候因子变量Table 2 19 climatic factors affecting the spatial distribution of rhododendron plants
表3 标本分布总数及比例Table 3 Distribution of specimen and the proportion
3.4 气候因子对杜鹃花科物种丰富度的影响
由 Spearman 秩相关检验 (表 2) 以及一元线性回归结果显示,影响杜鹃花科物种丰富度的气候因子主要包括昼夜温差与年温差比值 (bio3)、年温度变化范围 (bio7)、年平均雨量 (bio12) 和最暖季度平均雨量 (bio18) 等 4 个气候因子 (图 3)。研究分析发现,观察物种丰富度、估计物种丰富度、估计与观察物种丰富度的差值与年温度变化范围 (bio7) 均呈显著的负相关,即随着年温度变化范围的升高,3 个物种丰富度呈递减趋势 (图 3B,F,J) ;而 3 个物种丰富度与昼夜温差与年温差比值 (bio3)、年平均雨量 (bio12)、最暖季度平均雨量 (bio18) 等气候因子均呈显著的正相关 (图 3A,C,D,E,G,H,I,K,L)。其中年温度变化范围 (bio7) 对 3 个物种丰富度提供的解释率最高 (图 3B,F,J),这说明反映温度季节性分异 (气候稳定性) 的年温度变化范围 (bio7) 在很大程度上决定了杜鹃花科物种丰富度的分布格局。通过估计与观察物种丰富度的差值与 4 个气候因子的线性关系可以看出,在雨水充足、气温稳定且较高的生境中杜鹃花科新物种未被发现的概率较大 (图 3I,J,K,L),综合可以看出杜鹃花科喜爱雨水充足、气温稳定且较高的气候环境。
表4 极不完整县 (差值法)Table 4 Counties of incomplete collection (difference method)
图2 差值与标本采集数目的相关性Fig.2 Relevance of differentials and specimen quantities
图3 杜鹃花科物种丰富度与气候因子的关系Fig.3 Relevance of rhododendron species richness and climatic factors
图3 杜鹃花科物种丰富度与气候因子的关系Fig.3 Relevance of rhododendron species richness and climatic factors
表5 斜率最高的 20 个县及其标本数目Table 5 20 counties with the highest gradients and respective specimen quantities
表6 能量与水分对杜鹃花科物种丰富度的解释 (R square)Table 6 Implication of energy and moisture on rhododendron species richness (R square)
3.5 能量、水分对杜鹃花科物种丰富度的影响
多元逐步回归分析表明,进入回归方程的能量气候因子为昼夜温差与年温差比值 (bio3)、年温度变化范围 (bio7) (表 6)。由分析可知,能量因子对 3 个物种丰富度的解释率均高于水分因子,并且能量、水分对 3 个物种丰富度的单独解释率均小于二者共同作用对 3 个物种丰富度的解释率,表明相对于水分因子对杜鹃花科物种丰富度的影响,能量因子对杜鹃花科物种丰富度的影响更为显著,并且能量水分共同作用的影响最为显著。
4 结论与讨论
经以上两种评估方法,发现我国杜鹃花科地理采集偏差十分严重,标本采集工作仍需更进。
植物标本的采集工作是一个长期的历史过程。我国国土面积辽阔,植被类型多样,生境类型复杂,地形地貌复杂多变,系统化的进行标本采集几乎难以实现。杜鹃花科植物物种丰富度与标本采集数目最高的区域位于横断山区。横断山脉地跨川滇藏三省,独特的地貌和高海拔低纬度的特点,使得该地区自然条件独具一格,生物区系绚丽多彩,如轿子山自然保护区、高黎贡山自然保护区、点苍山自然保护区等[25]。杜鹃花科植物分为落叶与常绿两大类,常绿类居多且喜高山深山。故高山及亚高山是杜鹃花科植物的分布中心。
标本采集的完整性使用两种方法进行评估,本研究中两种评估方法得出的结果相似性一致 (图 1D;图 1E)。仅有不到1%的县级行政单位被评估为采样完全,表明未来野外调查的任务仍然十分艰巨。我国西南三省是世界杜鹃花科植物的发源地与现代分布中心,特别是常绿种类,由于未合理开发利用以及管理不当,我国对于杜鹃花科植物引种驯化程度不高,甚至有部分高山资源遭到破坏[4]。因此,针对专科专属的普查十分重要,并对于建立杜鹃花科自然保护区有重要意义。
根据滇西北县域生物多样性本底调查与评估,尽管中国已在生物多样性调查方面做了大量的工作,也初步在大尺度上掌握了其基本组成。但是中国生物多样性本底调查工作仍十分薄弱,物种分布数据掌握不够详尽,如部分县级区的物种分布数据仅与物种数相当,馆藏标本的代表性较差,各地区、各类群的采集程度十分不均衡,而取样的偏差直接影响到生物多样性丰富度统计的准确性[26-27]。如今越来越多的学者在使用标本数据前进行质量评估,如覃海宁,杨永在中国高等植物受威胁物种名录的确立过程中就进行了标本质量评估[28]。
研究结果表明,在影响杜鹃花科 3 个物种丰富度的 4 个气候因子中,年温度变化范围 (bio7) 显著影响物种丰富度 (图 3)。如上所述,年温度变化范围 (bio7) 表示的是研究县内温度的季节性分异,即该县气候的稳定性。根据气候稳定性假说,在气候稳定性越高的地区,物种分布区受气候变化影响越低,动植物的种类越丰富[20],因此年温度变化范围小的地区杜鹃花科物种丰富度可能高于年温度变化范围大的地区。根据 Rapoport 法则,从南到北随着纬度的升高,年温度变化范围 (bio7) 呈上升趋势,所以物种丰富度呈下降趋势[29],这在一定程度上解释了本研究中杜鹃花科物种丰富度从南至北的递减趋势。在神农架、云南独龙江等地区植物物种垂直分布格局的研究中,Rapoport 法则均得到验证[30-31]。在研究中国种子植物物种多样性大尺度分布格局中也发现,年温度变化范围在一定程度上决定了物种丰富度的空间分布格局[31]。
水热动态假说在研究影响区域植物物种丰富度格局中最受关注,该假说认为水分和能量共同决定植物物种丰富度分布格局[16-17]。该观点在中国黑戈壁[18]、内蒙古草原[19]等地区研究中已得到验证。水分不仅是植物生物化学反应过程中不可缺少的溶剂,更是光合作用中光反应阶段的关键反应物,水分和能量共同控制着植物的生长,进而影响植物多样性格局[19]。本文对能量、水分与物种丰富度的回归结果显示,能量和水分共同作用对杜鹃花科 3 个物种丰富度的解释率均高于能量、水分单独对杜鹃花科 3 个物种丰富度的解释率,这表明了能量、水分对 3 个物种丰富度的单独解释力较弱,唯有二者共同作用才能对杜鹃花科物种丰富度有着强有力的解释力,该结果与上述研究结果一致。