中国1940年代“偏暖”的资料问题

2022-04-06朱亚妮赵平曹丽娟余予唐国利

气候与环境研究 2022年2期

朱亚妮赵平曹丽娟余予唐国利

1 国家气象信息中心，北京 100081 2 中国气象科学研究院，北京 100081

1 引言

20世纪80年代以来，全球变暖现象及其潜在影响引起了公众和国内外科学家的广泛关注。根据最新的全球表面温度数据集（Li et al., 2021），1900～2019年全球陆地平均增温趋势分别为1.19°C/100 a，全球平均表面温度升高趋势为0.91°C/100 a。不同地域的变暖速率也各不相同（Yun et al., 2019; Sun et al., 2021）。一般来说，大陆变暖高于海洋，中高纬度陆地区域变暖高于低纬度地区。比如西伯利亚到蒙古一带的北亚大陆升温高达2°C/100 a（Zhao et al., 2014; Wang et al., 2018;Yan et al., 2019），是近一个世纪以来升温最显著的区域之一。

中国地处欧亚大陆东端，其气温主要受上游北亚大陆冬季风的强弱变化影响，年际变率较大。关于中国地区的近百年长期气温变化也有不少研究，然而结果却不尽相同（张先恭和李小泉, 1982; 唐国利和林学椿, 1992; 王绍武等, 1998; Wang and Gong,2000; 陈隆勋等, 2004; Zhai et al., 2004; 唐国利和任国玉, 2005; 闻新宇等, 2006）。唐国利等（2009）基于不同学者各自提出的序列构建方法，将几条主要的中国百年气温序列延长到2007年，并做了对比分析，发现各序列在1951年之后比较一致，但在1951年之前存在较大差异。需要指出的是，尽管这些基于原始资料构建的序列在早期存在较大差异，但在20世纪40年代却较为吻合，都表现为明显的气温高值。这一早期暖期的存在，导致了上述研究对中国近百年气温变化趋势估计普遍偏低，为0.49～0.92°C/100 a（Li et al., 2020）。

但基于均一化气温资料的研究成果却有不同结论。闻新宇等（2006）利用英国CRU-TS2.1资料（Jones and Briffa, 1996）得到的中国区域平均气温序列显示20世纪40年代并不是一个明显暖期。Li et al.（2017）和Cao et al.（2013, 2017）的研究结果同样表明20世纪40年代并不明显偏暖。可见，对20世纪40年代是否是中国近百年的一个暖期仍存在明显分歧。

表1给出了20世纪80年代以来我国气候工作者建立的10条中国平均温度序列及其建立方法。由表可见，基于原始资料构建的序列在20世纪40年代均存在明显暖期，而基于均一化资料构建的序列未出现此暖期。Yan et al.（2020）回顾了始于20世纪80年代的中国百年气温序列的研究，亦指出基于均一化的气温观测序列集，1900 年以来中国气温升高趋势 1.3～1.7°C/100 a，远高于使用原始资料的评估结果。但除了使用的资料是否均一化以外，上述序列所用的气温资料和序列建立的方法也各不相同，因此无法充分地评估影响中国百年气温变化趋势的因素。

表1 10条中国百年年平均气温序列Table 1 Ten centennial-scale annual mean temperature series across China

本文聚焦于20世纪40年代“暖期”存在与否这一问题，运用早年研究使用的长期气温观测数据，仿照早年方法重建百年气温序列，代以插补后资料和均一化资料构建百年气温变化序列，通过对比上述序列的差异，细致分析了资料缺失、非均一性问题对20世纪40年代“暖期”的影响，其中特别分析了20世纪50年代初期台站迁址等导致的观测序列非均一性及其对百年气温趋势评估的影响。

2 数据与方法

1951年之前的原始气温观测数据来源于国家气象信息中心收集整理的中国长年代温度、降水数据集、数字化全国60个重点城市序列气温数据集和中国24个城市长年代气温数据集以及中国科学院大气物理研究所研制发布的两个长期仪器记录数据库中的逐月气温资料（Tao et al., 1991），上述数据集里均包含台站沿革信息。1951年以来的气温观测资料、均一化气温资料和台站历史沿革信息分别来自国家气象信息中心公开发布的基础资料数据集（任芝花等, 2012）、中国国家级地面气象站均一化气温月值数据集（Cao et al., 2016）和气象台站元数据数据集。

资料处理过程包括不同来源资料的拼接、质量控制、插补和均一化等4个环节。由于1951年前的资料存在多个来源或多个观测点，为延长资料长度和提高资料完整性，第一步，对不同来源、相同站名的资料进行拼接，资料拼接遵循以下原则（Cao et al., 2013, 2017）：优先考虑海拔高度差异，选择与近60年观测站点海拔最接近的数据源，其次考虑水平距离，如果海拔高度和水平距离差异均不大，则选择资料较长的序列。第二步，对拼接后的序列进行基本的质量控制，包括气候极值检验、主要变化范围检查和内部一致性检查，将质量控制甄别出的错误和可疑数据剔除。第三步，对质量控制后的气温资料进行插补，具体插值算法采用包含标准序列法（余予等, 2012）、偏最小二乘回归、多元线性回归和梯度距离权重反比法的综合插补方案（integrated method）（Cao et al., 2013, 2017）。第四步，对插补后的数据再做第二步的质量控制，检查插补是否引进了新的错误数据。最后，采用Wang et al.（2008）发展的RHtest方法对年平均气温序列进行非均一性检测与订正。该方法已被应用于中国近60年及百年尺度均一化气温序列研制（Cao et al., 2013, 2016）。

3 “偏暖”的原因

中国器测资料大体上可分为1950年前后两个系统。由于历史原因，1950年以前的气温资料除时空覆盖不完整等问题以外，还由于台站位置变动频繁、观测规范不统一等问题存在严重的非均一问题。本文采用WYG序列构建使用的长期气温观测数据，仿照WYG序列构建方法重建百年气温序列，在成功还原WYG序列的基础上，从资料缺测和资料非均一性等方面分析了中国20世纪40代“偏暖”的原因。

3.1 还原WYG序列

王绍武等（1998）利用观测气温、敦德及古里雅冰芯资料及有关史料、树木年轮资料，构建了东北、华北、华东、华南、台湾、华中、西南、西北、新疆、西藏10个区1880～1996年的年平均气温序列，然后根据每个区的面积平均得到了中国近百年气温序列。1880～1910年在东北、华北、华东和华南使用中心站观测资料，其他地区使用墩德及古里雅冰芯、树木年轮及有关史料；1911～1950年新疆依然使用古里雅冰芯，西藏使用拉萨的气温观测和树木年轮资料，台湾地区使用代表站观测资料，其他7个地区使用气温等级资料；1951～2008年10个区全部使用代表站观测气温资料。这项研究详细给出了构建中国百年气温序列的代表台站，这是重建这一序列的重要基础。为便于讨论，简记该序列为WYG序列。图1给出了构建WYG序列的45个代表站的空间分布。由图可见，作为早期相关研究成果的代表，WYG序列所用的代表站覆盖范围相对较广，且在东西部分布较为均衡，较好地反映了中国全区的信息。

图1 构建中国百年气温序列的45个代表站的空间分布（圆点代表110°E以东台站，三角形代表110°E以西台站）Fig. 1 Spatial distribution of 45 stations used in the calculation of 100-a time series of the mean temperature in China (dots denote the stations at the east of 110°E and triangles denote the stations at the west of 110°E, respectively)

由于未能获取1951年以来的台湾地区资料，本文使用台湾以外9个区域的平均气温来计算全国平均气温距平序列。表2给出了9个区45个代表站的分区和平均气温起始年、序列长度以及自观测起始年至2010年的气温资料缺测年份。然后利用这45个代表站的气温资料，仿照WYG序列构建方法，对WGY序列进行了重建。

表2 （续）Table 2 (Continued)

具体来说，首先利用中国大陆45个代表站的气温观测资料得到9个区的平均气温序列，然后将9个区气温进行算术平均，最终得到中国地区气温距平序列（T45）。图2 给出了1910～2010年二者的变化曲线。T45与WYG序列长期变化较为接近，在1940年代均出现了明显暖期。二者在1911～1950年阶段相关系数为0.88，在1911～2008年阶段相关系数为0.93。特别在1951～2008年期间，两条序列变化非常一致，相关系数高达0.96。另外，从表3中可以看到，二者在1911～1950年、1951～2008年和1911～2008年等时段的变化趋势和平均气温都较一致。在6个不同的时段，它们的变化趋势和平均气温的差异都不大，平均气温差异仅为0.03～0.14°C。上述结果说明WYG和T45序列具有较高一致性。

表3 中国年平均气温WYG序列和T45序列在3个时期的变化趋势和平均值Table 3 Trends and mean temperature between the results obtained by WYG series and T45 series in China during the three periods

图2 1911～2010年中国年平均气温的WYG序列和T45序列Fig. 2 WYG series and T45 series of the annual mean temperature in China during the period 1911-2010

尽管T45序列与WYG序列在资料类型和数据来源等方面存在一定差异，从而导致二者在年际尺度上存在一些细节差异，但二者的年代际变化特征基本一致，特别是在20世纪40年代，都表现出了偏暖的特征。可见，上述因素对序列中20世纪40年代暖期存在与否并无决定性的影响。基于这一结论，下文将仿照WYG列的构建方法，先后代以45个站插补完整和均一化的观测资料建立中国近百年气温序列，讨论资料缺失和非均一性对20世纪40年代“偏暖”的影响。

3.2 数据缺测的影响

由于战争频发等原因，1950年以前的气温观测存在严重的时间不连续问题。由表2给出的45个代表站的资料缺测情况可知，资料长度在60年以上（即观测起始年在1951年之前）的台站有40个，新疆喀什、哈密，青海甘孜、玛多和四川玉树5个台站在1951年前没有观测数据。在1951年前有资料的40个台站中，徐家汇、重庆、贵阳、昆明和酒泉5个站气温数据完整；济南等16个台站的缺测率低于10%，广州等17个台站缺测率低于20%；乌鲁木齐和长沙的缺测率最高，在30%以上。

图3给出了1911～2010年台站数量的变化情况，直观地显示了20世纪40年代受战争影响突然加剧的资料缺失现象。1911～1936年，有数据台站数呈上升趋势，1937～1949年，受战争影响，台站数有所减少；1950年，台站数大幅增多，1951年以后基本维持稳定。

图3 1911～2010年45个代表站的数据量Fig. 3 Number of stations with yearly temperature data during 1911-2010

首先，按照Cao et al.（2013, 2017）的方法对气温序列中的缺测值进行插补，然后再计算插补后45个台站的算术平均值（Tint），并与WYG序列进行了比较。另外，为了考察基于45个台站的序列是否具有较好的代表性，图4给出了基于中国825个基准、基本站得到的1951～2010年的全国气温距平序列（T825）。由图4可见，在1951～2008年，Tint和WYG序列与T825高度吻合，增温速率也十分接近。在这一时段，Tint和WYG序列与T825的相关系数分别为0.99和0.96，说明尽管Tint和WYG序列采用的台站数量较少，但仍能比较好地代表中国区域的气温变化。同时，上述结果也表明，Tint和WYG序列之间也存在可比性。从更早的时段来看，Tint和WYG序列表征的中国百年气温变化特征也较为相似，二者在1911～1950年的相关系数高达0.91。同时，对于20世纪40年代的偏暖现象，Tint显示的结果与WYG序列也较为一致。由此推测，对于20世纪40年代暖期存在与否这一问题，20世纪40年代的资料缺测和观测台站的减少并非主要影响因素。

图4 1911～2010年中国气温的Tint、WYG和T825序列Fig. 4 Three annual time series of the surface air temperature anomaly in China from 1911 to 2010

3.3 资料非均一性影响

由于观测台站站址迁移以及观测时制、观测方法和观测仪器变化等情况，百年气温序列存在非常严重的非均一性。通过详细考察台站历史沿革发现，本文所用45个台站中，有40个台站观测起始年在1951以前，这当中有36个台站站址在1950年前后发生了变动，迁站比例高达90%。例如，昆明站在1951年由太华山下迁到下西坝武家堆；重庆站（2004年撤站）1959年后的资料为温江站的观测资料。同时，由于1950年前缺乏统一的观测规范和观测方法，观测仪器、观测时制、时次也各不相同，使得该阶段资料序列均一性难以保证。而均一化的气候序列是气候变化研究的基础（严中伟等, 2014），对于正确评估阶段性的气候变化特征尤其重要。因此，利用Wang（2008）发展的RHtest方法对45个台站建站～2010年期间的平均气温进行了非均一性检验与订正。

45个台站的年平均气温序列由1～12月气温值平均而得，缺测1个月或以上的年气温值即为缺测。由于解放前观测台站分布稀疏，较难选到合适的参考站，因此，采用PMF方法对百年气温序列进行均一化检验。再结合元数据，对不连续点逐一进行判别，保留通过99%显著性检验并有元数据支持的不连续点。解放后的资料采用国家气象信息中心发布的中国国家级地面气象站均一化气温月值数据集（Cao et al., 2016），由于1950年后的数据已经经过均一化处理，因此检验得到的断点皆出现在百年序列起始年到1950年之间。应用上述方法检验出18个台站总计20个不连续点，另外27个台站没有出现不连续点。对照台站历史沿革，台站迁移是不连续点产生的主要原因，部分台站还伴有观测时制、平均气温计算方法的变化，这些变化可能加剧观测偏差。表4给出了这18个站的具体订正信息。由表可见，这18个站气温序列的订正量幅度较大，有6个不连续点的订正量甚至超过2°C，仅4个不连续点的订正量低于0.8°C。这些订正量足以影响资料自起始年至2010年气温变化的总体线性趋势，导致订正后18个序列的增温趋势增大。

图5给出了45个台站自建站至2010年的气温变化趋势。从百年尺度来看，订正前我国南方和西南很大范围都出现变冷趋势（图5a）；订正后，除个别站点的微小偏冷趋势外，全国大部分地区都表现为增暖趋势（图5b）。订正后的百年尺度气温变化趋势与近60年（1951～2010年）订正后的气温变化趋势（图5c）相似，后者在全国大部分地区也表现为增暖趋势，进一步说明订正后百年气温序列变化趋势可能更可信。

图5 45个台站建站至2010年年平均气温序列订正（a）前、（b）后趋势和（c）1951～2010年年平均气温序列订正后趋势Fig. 5 Annual average temperature trends of 45 stations during the periods from the starting time of measurements to 2010 (a) before and (b) after adjustment; (c) the annual average temperature trends of 45 sites after adjustment during 1951-2010

图6给出了哈尔滨等8个站点订正前、后年平均气温序列。这些站的气温原始序列最高值出现在1950年前。芷江等站在这段时间的平均气温甚至比2000～2010年高出1～2°C。对照台站历史沿革，发现这些台站在1950年前后迁址，其序列已不能正确描述现址真实的气候变化特征。特别是在20世纪40年代，很多站点在迁站前出现了偏暖状态，但在迁站后出现了剧烈的系统性降温。这种变化对40年代“暖期”的出现可能产生重要影响。

图6 （a）哈尔滨、（b）沈阳、（c）济南、（d）成都、（e）芷江、（f）徐州、（g）厦门和（h）湛江年平均气温序列订正前、后对比Fig. 6 Raw and adjusted annual time series of the mean temperature at (a) Harbin, (b) Shenyang, (c) Jinan, (d) Chengdu, (e) Zhijiang, (g) Xiamen, (f)Xuzhou, and (h) Zhanjiang station

资料长时间的缺失，可能会导致序列非均一性断点检验和订正的不确定性。为了考察资料不同程度的缺失对均一化序列可能存在的影响，分别选取45个站在20世纪40年代资料缺测年数少于5年和资料完整站点的均一化资料构建中国百年气温序列，并对比分析了其表征的中国气温变化特征。需要指出的是，缺测不长于5年的17个站点以及资料完整的10个站点的分布都相对较为广泛（图7），大体上可以代表全国而不是某一小范围的气温变化。1951年以来基于45站、17站、10站与825站气温数据计算的中国气温序列高度一致，这也说明由这些站计算的中国气温序列具有相当好的代表性。比较这3条序列发现，它们所反映的年代际变化特征基本一致，且在20世纪40年代均不再呈现明显的“暖期”（图8）。上述分析结果表明资料的缺失程度引起的均一化的不确定性、选用站点数量的变化对全国气温序列的年代际变化特征的影响并不明显，而是否对数据进行均一化处理则是决定20世纪40年代“暖期”存在与否的主导因素。

图7 （a）缺测不长于5年的17个站点以及（b）资料完整的10个站点的空间分布Fig. 7 Spatial distributions of (a) 17 stations with no more than five years’ missing records and (b) 10 stations with full records

图8 1911～2010年基于45个站（T45）、缺测不少于5年的17个站（Tamiss_5yr）和资料完整的10个站（Tamiss_0yr）、825站（T825）订正资料构建的气温序列Fig. 8 Annual time series of the mean temperature in China during 1911-2010 using the results of T45, Tamiss_5yr, Tamiss_0yr, and T825,respectively

进一步地，为了完全避免资料缺测可能造成的均一性检验和订正的不确定性，基于20世纪40年代资料完整的10个台站，对比分析了均一化气温构建序列（Tamiss_0yr）和气温原始资料构建序列（Tmiss_0yr）的差异。如图9所示，这两条序列站点数量等其他条件完全相同，因此可以更纯粹地反映均一化处理的影响。二者在1951～2010年都表现为明显的增暖，气温变化趋势也相差不大，分别为2.01°C/100 a和1.93°C/100 a；而1911～1950年期间，Tmiss_0yr明显偏高，其增暖速率达到3.58°C/100 a，明显高于Ta_miss_0yr的增暖速率（2.30°C/100 a）。特别是在20世纪20～40年代，Tmiss_0yr序列表现出了显著的暖期，而Tamiss_0yr序列在这一时段则没有明显的偏暖。由以上分析可知，均一化后的气温序列Tamiss_0yr在1951～2010年期间的变化趋势与Tmiss_0yr接近，而在1911～1950年，前者的变化趋势明显低于后者。相应地，Tamiss_0yr序列没有表现出20世纪40年代的偏暖特征。进一步证实了资料未经均一化处理可能是20世纪40年代出现气温偏暖的主要原因，这个在早期研究结果中十分突出的偏暖期可能是虚假的。

图9 基于资料完整的10个台站资料构建的订正（Tamiss_0yr）和原始（Tmiss_0yr）气温序列Fig. 9 Annual time series of the mean temperature in China during 1911-2010 calculated by raw (Tamiss_0yr) and adjusted (Tmiss_0yr) data from the ten stations with full records

4 结论与讨论

利用最新收集整理的气温观测资料，通过重建早期研究的代表性成果WYG序列，针对20世纪40年代“暖期”是否存在这一焦点问题进行了深入分析，本文探讨了早期气温资料缺失和非均一性对中国百年气温序列变化趋势的影响。结果表明：

（1）利用原始器测资料成功还原了WYG序列，并再现20世纪40年代的“暖期”；在此基础上，采用相同的序列构建方法，分别利用经过插补、均一化处理的观测资料建立中国近百年气温序列，前者 “暖期”仍然存在，后者则“暖期”消失。

（2）基于插补后资料构建的中国百年气温序列在20世纪40年代仍然存在“暖期”，说明资料缺失可能不是暖期形成的主要原因。进一步通过比较不同数量台站构建的多条序列发现，对于20世纪40年代“暖期”存在与否这一问题，资料缺测和观测台站的减少并不是主要影响因素。

（3）基于均一化资料构建的全国气温序列在20世纪40年代并未出现突出的偏暖现象，因此原始观测资料的非均一性很可能是导致20世纪40年代出现虚假偏暖的主要原因。由台站历史沿革可知，20世纪50年代初频繁的站址迁移是造成这种非均一性的最大原因。

（4）采用早期序列的构建方法，基于20世纪40年代资料完整站点均一化资料计算的中国百年气温序列在1911～2010年的变化趋势为1.41°C/100 a，大于早期大部分研究的估算结果。

相对于以往的大部分工作，本文考虑了气温观测时间不连续性、台站迁移、观测时制不统一等对资料非均一性的影响，对数据进行了插补和均一化处理。在成功还原WYG序列的基础上，采用同样的序列构建方法，分别利用插补、均一化处理后的数据重新得到中国近百年气温变化序列，并比较分析与WYG序列的差异，更细致地从资料缺失、非均一性等多角度探讨了资料问题对20世纪40年代 “暖期”的影响。需要指出的是，尽管在20世纪40年代资料缺失和观测台站减少的影响不起决定性作用，但这是由于该时段有效台站数量不算太少，大体上分布均匀并可代表全国广大地区。实际上，当台站个数极少的情况下，台站数变化的影响还是十分重要的。因此，对于中国百年气温序列的构建来说，早期资料和台站较少的影响仍需得到足够重视。现有的中国气温百年序列存在的不确定性，尚有进一步完善的潜力。