APP下载

中国动植物自然物候长序列数据集研制

2021-12-06罗岚心陈东辉任芝花

气候与环境研究 2021年6期
关键词:木本植物样本量物候

罗岚心 陈东辉 任芝花

国家气象信息中心,北京 100081

1 引言

动植物的物候现象是指动植物在自然环境中随着季节变化的生长响应,对于草本植物与木本植物,主要观测记录其芽、叶、花、果的状态变化;对于候鸟、昆虫及两栖动物,主要观测记录其行踪与鸣叫的始终日期。动植物的物候现象能反应环境的变化程度,是研究和适应气候变化最有利的证据和重要参考资料,被称为全球气候变化的指纹(van Vliet et al.,2003;张凤华等,2011;Hur et al.,2014;刘亚辰等, 2014; Fang et al., 2015; 徐韵佳等, 2015; Casey and Daehler,2018)。

从18世纪初西方国家陆续开始现代自然物候学的研究,并将研究结果应用于农业、园艺等领域 (Lieth, 1975)。瑞典植物学家 Carolus Linnaeus(1707~1778年)因系统地记录了瑞典18个地区开花的气候条件,被称为现代气候学之父。紫丁香观测网(The Lilac Network)、美国国家物候观测网(Rosemartin et al.,2018)、加拿大PlantWatch社群、法国TEMPO项目、瑞典物候观测网、荷兰物候观测项目de natuurkalender、印度物候网SeasonWatch以及欧洲物候观测网(van Vliet et al.,2003)为世界物候研究提供海量观测资料,观测点分布密集且最早观测记录在1936年。全球变化科学研究数据出版系统为中国地区的物候研究提供大量数据集产品,如中国物候观测网北京站典型植物物候观测数据(http://www.geodoi.ac.cn/WebCn/doi.aspx?Id=123[2021-10-20]);中国白蜡树春季物候期网格数据(http://www.geodoi.ac.cn/WebCn/doi.aspx?Id=130[2020-10-20]);中国2000~2010年东北森林遥感监测物候期分布数据(http://www.geodoi.ac.cn/WebCn/doi.aspx?Id=136[2020-10-20]);其 他的植被生长指数数据如江西、长江中游、湖北、湖南等地的植被生长季时长数据集,由南京师范大学地理科学学院贡献。此外,中国生态系统研究网络 (CERN)也开展了一系列观测与科研活动,发布CERN22个生态站1988~2018年观测的植物物种名录数据集(张琳等,2020)。2009~2018年神农架17种优势植物物候观测数据集(马博宇等,2020)、2003~2015年CERN植物物候观测数据集(宋创业等,2017),是国内多种草本、木本植物物候期综合整编的数据集产品。

中国气象局农业气象观测站自20世纪80年代起就开始大规模的自然物候专业观测,相同站点的观测植株相对固定,观测持续时间长,是国内难得的空间覆盖率大、持续时间长、质量稳定的自然物候历史观测资料。早期的数据服务以抄录为主,因格式复杂、物种名不规范等问题,该资料没有得到有效的利用,资料价值体现不明显,随着国中国气象局历史档案保护行动开展(张强等,2016;高静等, 2018),历史农业气象观测档案通过光学自动文字识别技术与机器学习分类技术完成数字化,再经正确性检查、资料完整性检查、人工数据质检、格式整编和质量控制等过程,形成中国动植物自然物候长序列数据集(1981~2018年)。该数据集分草本、木本与候鸟昆虫3个子集,具备完整的站点元数据说明,并标注了数据质量控制码,可作为卫星遥感数据矫正的验证数据,也可为全球气候变化研究、动植物生态学研究提供基础数据支撑。

2 数据集简介

2.1 资料来源

数据来源于中国气象局农业气象站业务观测记录,观测数据质量稳定。站点纬度跨越18°50′N~51°44′N,经度跨越75°59′E~134°17′E。其中1981~2012年数据是中国农业气象纸质年报表的数字化成果,2013~2018年数据来自于各省农业气象站的农业气象观测电子年报表。数据集包含草本、木本、动物3类物候期子集,木本植物物候期18项 (表1),草本植物物候期12项(表2),候鸟、昆虫与两栖动物物候期两项,即初鸣(初见)、终鸣(终见)日期。各物候期的相关概念界定可参考 《中国物候观测方法》(宛敏谓和刘秀珍,1979)与《农业气象观测规范》(中国气象局,1993)。数据为日期格式,精确到天。

表1 中国动植物自然物候观测数据集中木本植物物候期名Table 1 Phenology of woody plants in the Phenophase Dataset of plants and animals in China

表2 中国动植物自然物候观测数据集中草本植物物候期名Table 2 Phenology of herbaceous plants in the phenophase dataset of plants and animals in China

2.2 数据预处理

预处理过程包含格式标准化、物种名标准化、台站元数据处理处理。

2.2.1 格式与物种名标准化

由于1993年农业气象观测规范修订,木本植物的物候期被细化(如:花芽与叶芽的“芽开放期”分为两项,新增“果实脱落期”等项目),物候观测项目从12项增至18项。为统一数据集格式,均采用特征值-999表示该时间段内无观测记录,但在计算数据集实有率时,刨除无观测任务的数据缺失值影响。

因早期观测对象名不规范、手写体识别偏差等原因,同一物种在不同地区的记录中存在多种别称 (如车前、车前子、车前草),需要统一。通过非恒定Jaccard相似度评价系数(Niwattanakul et al.,2013)作为聚类算法的簇距,将物种名集合聚类分组。以分组清单作为物种名匹配的参考指标,对照观测规范、农气观测数据编码表和植物百科全书,生成物种名对照替换列表。对照替换列表在经过农气专家逐一审核修订后,再用于物种名标准化处理,同时保留各站物种名标准化前的物种信息作为补充说明文档。相似度评价系数计算公式为

其中,物种名A、B分别作为一个单词,采用二元变量类型,将每个中文字符作为二元变量w的一个属性,计算A、B相似度评价系数D。标准化成效可见表3。相似度评价系数D非物种名标准化的唯一指标,如“玉兰”与“黄玉兰”虽相似度很高,但前者多指落叶乔木,后者是常绿乔木,物候期有所不同,故标准化过程不会将二者合并到同一物种,“大叶榆”与“大叶杨”也不会被处理为一个物种。

表3 物种名标准化成效Table 3 Standardization of species name

2.2.2 台站元数据处理

统一台站位置信息表示形式,将经纬度单位统一转换为两位小数的“度”,海拔高度转化为一位小数的“米”,统一修正经纬度倒置错误;以站号为索引,利用前后资料的站点元数据补充缺失的位置信息;对照台站沿革数据,分析同一站点是否有迁移史或单纯的位置飘移,再次修订,具体数据见表4。

表4 台站元数据处理成效Table 4 Standardization of stations information

2.2.3 数据处理

数据处理过程包括要素提取、正确性检查、完整性检查、格式检查、人工核对、数据清洗、数据整编。其中数据清洗对象有非观测规范指定的物种记录、非自然物候观测任务站点的零碎记录、被错误分类的资料和其他错误记录。一个样本指一个物种一年完整的物候观测记录。完成清洗的各物种样本量随时间的变化情况如图1所示,完成清洗的观测站点数时间序列如图2。1981~1993年农业气象观测对象未统一标准,随着农气站点数的增加,观测样本量也上升。1994年观测业务规范出台,部分物种停止继续观测,导致样本量下降,以木本植物样本量下降最为明显。随后观测样本量趋于稳定。2012年农业气象观测业务变更,试运行第一年,部分站点未上报草本植物与虫鸟动物的观测资料,部分木本植物观测资料上报不全,导致样本量骤减,之后数据再次回归平稳。

图1 中国动植物自然物候观测数据集样本量时序Fig.1 Annual records of the Phenological Observation Dataset

图2 中国动植物自然物候观测数据集站点数时序Fig.2 Records per station of the Phenological Observation Dataset

2.3 数据质量控制与评估

2.3.1 数据质量控制

数据集质量控制分为两级。初级质控基于数据完整性、气候界限值进行检验,先标记缺测数据,再根据质控结果标记疑误数据。由于生物多样性,各物种的物候期不尽相同,故基于3-σ标准原则,判断物候期所在的气候学界限。以42种草本植物物12种候期为例,i表示物种编码,j表示物候期编码,计算各物种各物候期的多年儒略日平均值M矩阵为

第i个物种第j个物候期的数据质量情况Datei,j如下:

其中σ为标准差。

二级质控基于积温理论,结合逐日气温资料,利用SW春暖物候模型对草本、木本植物的展叶期进行检验,将不符合模型的物候期标记为可疑(Parmesan and Yohe,2003;Rosenzweig and Tubiello,2007;Wang et al.,2015a)。积温S与生长强迫函数Rf的关系如下:

其中,t1表示物候期开始日温度,tb表示物候期出现当日温度,生长强迫Rf函数基于Sigmoid函数 (S型生长曲线)拟合:

其中α与β为拟合参数,随物种改变,因篇幅所限这里省略各物种拟合参数表。

2.3.2 数据质量评估

统计每个物候期的完整率和可用率,并分析其时空变化情况:

其中,PI为数据集实有率,Pr为可用率,PE为错误率,PS为可疑率,PL为缺测率。实际评估工作中,n代表观测对象(物种)数量,木本植物111个,草本植物42个,虫鸟动物18个。Yi为应有数据量,是第i个物种的样本总数:以虫鸟动物子集为例,假设i=10表示“大雁”,有样本306条,则Y10=306×2(物候期项数)。其中,1993年前木本植物有6项物候无观测任务,不计入应有数据量。Si为实有数据量,是第i个物种非缺测的数据总量;Ri为正确数据量,是第i个物种通过质量控制,质控码标记正确的数据总量。Ei为错误数据量,是第i个物种通过质量控制,质控码标记为错误的数据总量。Di为可疑数据量,是第i个物种通过质量控制,质控码标记为可疑的数据总量。

经统计数据集共有木本植物样本36495条,草本植物样本13936条,虫鸟两栖动物样本15513条,数据错误率均小于1/10000,其余评估指标结果如表5:草本植物、虫鸟动物子集的可用率都超过90%,木本植物因自身生物特性,部分物候期无法观测,又不属于无观测任务条件,故可用率相对较低。其中“花芽膨大期”“花芽开放期”“果实脱落期”的可用率都在60%左右,但是展叶、开花相关的物候期,可用率均高于90%;草本植物数据可疑率小于1/1000,近似为0,以“果实脱落期”的质量最次,可用率78.2%,可疑率12.8%;虫鸟两栖动物子集中“始鸣期(始见期)”的数据完整性和可用率都略高于“终鸣期(绝见期)”,整体数据可用率95.9%,质量较好。

表5 中国动植物自然物候观测数据集质量评估结果Table 5 Assessment of the Phenophase Dataset of plants and animals in China

表6为处理后样本实有率。因木本植物自身的生长特点导致部分物候期天然缺失,如刺槐等裸芽植物,无芽膨大期观测记录,故实有率平均值偏低。数据集中,可用率超过95%的物种12个,介于80%~95%的物种50个,占物种总量的44.6%。处理后的草本植物样本实有率见表7,虫鸟两期动物样本实有率见表8。

表6 木本植物样本实有率Table 6 Integrity of each woody species

表7 草本植物样本实有率Table 7 Integrity of each herbaceous species

表8 虫鸟两栖动物样本实有率Table 8 Integrity of insects,birds,and amphibious animals

如图3为中国动植物自然物候观测数据集各子集的样本量空间分布,数据集观测站点分布覆盖我国华中、华南、华东、华北、西南与西北部分地区。不同物种的每年观测记录记为一次观测样本,同站的木本植物观测样本量略多余其他两个子集。因为数据预处理过程中剔除数据不规范的观测样本,而虫鸟两栖动物和部分草本植物此类问题严重,导致草本植物和虫鸟两栖动物的观测站点数低于木本植物的观测站点数。从空间分布来看,三类物种的观测样本量以黄河流域为峰值向南北两侧递减,东部地区观测样本量更多。

图3 中国动植物自然物候观测数据集站点及样本量空间分布:(a)木本植物观测;(b)草本植物观测;(c)虫鸟两栖动物Fig.3 Special distribution of agrometeorological observation stations:(a)Woody plants;(b)herbaceous plants;(c) birds,insects,and amphibious animals

3 北京地区木本植物物候对气候变化的响应

气温是影响我国木本植物物候的主要气象因子 (张福春,1995)。20世纪80年代以后,华北地区春季物候期提前(郑景云等,2003),北京地区秋季物候有推迟趋势(徐雨晴等,2005;仲舒颖等,2008)。本节以北京地区两个站点(40.38°N, 116.83°E)和(39.93°N,116.63°E)的木本植物的观测资料为基础,统计当地木本植物物候期变化趋势,再利用日平均气温数据统计当地年积温变化趋势,分析植物对气候变化的响应程度。按观测物种的开花和展叶先后顺序,分为先开花组:玉兰、旱柳、杨树和先展叶组:榆树、枣树、槐树分开讨论近30年来北京地区木本植物的物候变化趋势。以1月1日为起点计算各物候期的儒略日距平序列,其中展叶始期、盛期表示展叶期,开花始期、盛期、末期代表开花期,叶变色始期、全变期表示叶变色期,落叶始期、末期代表落叶期。最后利用线性方程拟合物候期距平序列的平均值,得到北京地区木本植物4个主要物候期的变化趋势。利用同站的日平均气温数据,计算日均气温稳定≥5℃的年积温与积温始日、终日序列(如图4)。从20世纪80年代中期为界,北京地区年积温先有降低趋势,后持续呈现波动增高趋势。积温始日从上世纪80年代中期起表现出提前趋势。

图4 北京积温(a)始日序列和(b)终日序列及(c)1981~2018年北京地区年积温序列Fig.4(a)First day and(b)last day of the effective accumulated temperature in Beijing;(c)effective accumulated temperature in Beijing from 1981 to 2018

先开花组的物候期距平变化如图5,资料时间为1981~2018年。展叶期、秋叶变色和落叶期都有延后趋势,延迟率分别为2.9 d/10a,5.1 d/10a和4.5 d/10a。而开花期表现出微弱提前趋势,约10年提前1.9 d,与趋势变化与积温始日相同。

图5 1981~2018年北京地区玉兰、杨树、旱柳(a)展叶期、(b)开花期、(c)变色期、(d)落叶期距平与变化趋势Fig.5 Phenological phase anomalies and variation trends of Magnolia denudate,Salix matsudana,and Populus davidiana in(a)leaf expansion,(b)flowering,(c) leaf coloring,and (d)leaf fall in Beijing during 1981-2018

先展叶组如图6,资料时间为1981~2002年,展叶期、开花期都表现显著的提前趋势,提前率分别为19 d/10a和26 d/10a,秋叶变色和落叶期有轻微延后趋势,延后率分别为5.1 d/10a和4.5 d/10a,与积温终日波动延迟趋势相当。

图6 1981~2002年北京地区枣树、槐树和榆树(a)展叶期、(b)开花期、(c)变色期、(d)落叶期距平与变化趋势Fig.6 Phenological phase anomalies and variation trends of Ziziphus jujuba,Sophora japonica,and Ulmus pumila in(a)leaf expansion,(b)flowering,(c) leaf coloring,and (d)leaf fall in Beijing during 1981-2002

对比两组木本植物物候期可以得知,北京地区木本植在过去30余年的生长期都延长,对应当地年积温的增加趋势,是木本植物对环境平均温度升高的响应表现。

4 小结与应用研究展望

以农业气象纸质年报表数字化成果(1981~2012年)与电子农业气象年报表(2013~2018年)为基础数据源,通过数据预处理、规范整编、质量控制、质量评估等过程,建立高质量的动植物自然物候历史长序列观测数据集。

(1)数据集分为3个子集,含有42种草本植物,111种木本物种和18个虫鸟两栖动物的自然物候期观测资料,平均实有率分别是94.8%、78.3%、95.9%。其中,木本植物因物种自生的生物特性,没有观测内容导致整体样本实有率较低,如无花果没有开花期观测。

(2)中国动植物自然物候长序列数据集有木本植物观测站401个,分布中国大陆31个省(市、自治区),草本植物观测站231个,虫鸟两栖动物观测站229个,观测样本量以黄河流域为峰值向南北两侧递减。

(3)草本植物、木本植物、虫鸟两栖动物非缺测数据的可用率中位数分别为96.0%、87.5%和83.0%,整体数据质量较好。

(4)基于本产品北京地区的木本植物物候数据与同站的气温数据分析,认为近38年北京地区的年积温增长趋势明显,同时木本植物的生长期延长:春季物候提前,秋季物候延后。该结论与现有相关研究结论一致。

本数据集是中国气象局农业气象观测站的业务观测产物,近40年间虽经历过两次业务调整,数据本身仍具有一定的代表性,站点资料能反映站点所属区域的动植物物候情况。该数据集站点分布密集,每个站点观测的物种连续,适用于局地农气指导研究。数据集所含物种相对丰富,同物种在多个站点均有观测记录,适用于针对物种的地理分布研究或大范围的生物生长研究。未来将升级优化该数据集内容,补充牧草类草本植物的物候资料。

猜你喜欢

木本植物样本量物候
一种基于进化算法的概化理论最佳样本量估计新方法:兼与三种传统方法比较*
样本量与东方蜜蜂微卫星DNA遗传多样性参数稳定性的关系
GEE平台下利用物候特征进行面向对象的水稻种植分布提取
海南橡胶林生态系统净碳交换物候特征
网络Meta分析研究进展系列(二十):网络Meta分析的样本量计算及精确性评估
医学研究中样本量的选择
气候增暖对3种典型落叶乔木物候的影响1)
——以长白山区为例
气候变化对民和杏发育期影响分析
花序最大的木本植物
铅锌矿区土壤重金属含量及木本植物吸收特征