APP下载

机器学习在土壤无机碳高光谱反演模型中的应用进展

2021-03-24郝梦洁张丽鲁新新

安徽农学通报 2021年4期
关键词:应用进展机器学习

郝梦洁 张丽 鲁新新

摘 要:土壤无机碳库作为陆地生态系统中第二大碳库,在吸收大气中CO2以维持陆地生态系统碳循环稳定方面发挥着重要作用。高光谱数据具有维度大、强冗余性等特点,不利于土壤无机碳快速反演建模,而使用机器学习方法可实现对土壤无机碳的快速、高效测定。该文综述了利用机器学习方法对土壤无机碳高光谱反演建模的研究现状,以期为土壤无机碳在全球碳循环中的研究提供参考。

关键词:机器学习;土壤无机碳;高光谱;反演模型;应用进展

中图分类号 S153.6+1文献标识码 A文章编号 1007-7731(2021)04-0108-04

Abstract: As the second largest carbon pool in terrestrial ecosystems, soil inorganic carbon pool plays an important role in absorbing CO2 from the atmosphere to maintain the stable carbon cycle in terrestrial ecosystems. The hyperspectral data are characterized by large dimension and strong redundancy, which is not conducive to the rapid inversion modeling of soil inorganic carbon. The machine learning method can be used to realize the rapid and efficient determination of soil inorganic carbon. In this paper, the research status of soil inorganic carbon hyperspectral inversion modeling by machine learning method is reviewed, which can provide theoretical reference for the research of soil inorganic carbon in the global carbon cycle.

Key words: Machine learning; Soil inorganic carbon; Hyperspectral; Inversion model; Application progress

溫室效应的加剧加速了全球变暖进程,导致全球大气中二氧化碳浓度不断增加,加重了人类维持陆地生态系统碳循环稳定的负担。土壤无机碳库作为陆地生态系统中仅次于土壤有机碳库的第二大碳库,主要存储于干旱、半干旱地区,在吸收大气中CO2以维持陆地生态系统碳循环稳定方面发挥着重要作用[1,2]。干旱、半干旱地区生态系统普遍脆弱,因此土壤无机碳极易受到人类活动影响而产生碳失汇现象,导致大气中CO2浓度增加、陆地生态系统碳平衡遭到破坏,最终不利于延缓全球变暖的步伐[3]。长期以来,众多研究主要集中于土壤有机碳库对维持土壤肥力、调节全球碳循环的作用以及其随环境变化的动态演变过程,忽视了土壤无机碳库在吸收干旱、半干旱地区大气CO2以调节气候的作用。已有研究表明,土壤无机碳在干旱、半干旱地区的碳循环中发挥着至关重要的作用[4]。高光谱数据具有维度大、强冗余性的特点,不利于土壤无机碳快速反演建模,使用机器学习方法可极大提高反演建模速率,有效提升建模精度,实现对土壤无机碳的快速高效测定[5]。采用机器学习方法实现土壤无机碳高光谱数据反演模型已成为近年来的研究热点。为此,笔者对采用机器学习方法实现土壤无机碳高光谱数据反演建模的研究现状进行了综述,以期为土壤无机碳在全球碳循环中的研究提供参考。

1 土壤无机碳特征及研究现状

1.1 土壤无机碳储量 土壤无机碳主要包含原生碳酸盐和次生碳酸盐,次生碳酸盐的形成是土壤无机碳积累的主要途径[6,7]。土壤无机碳在土壤碳库中的储量远低于土壤有机碳,但我国干旱、半干旱地区总面积约占国土面积的50%以上,因此掌握土壤无机碳含量有利于科研人员加深对荒漠生态系统碳固存行为的认识与理解[8]。研究发现,天然土壤表层中的无机碳含量远高于有机碳[9,10]。人类一系列的农业土地开发利用方式在一定程度上会加速土壤无机碳发生淋失或淋溶,这会对当地生态系统的稳定和土壤无机碳库造成极大的不利影响[11]。

1.2 土壤无机碳测定方法 土壤无机碳存在3种形式,即固相、液相和气相,固相主要由石灰性母质和风积灰尘构成,液相的来源是CO2和H2O反应所产生的HCO[_3]与H2CO3溶液,气相则是土壤呼吸所释放的CO2[12]。通常采用气量法、CO2吸收法和总有机碳分析仪法测定土壤无机碳的含量[13]。

1.3 土壤无机碳的影响因素 土壤无机碳是土壤碳库的一部分,陆地生态系统中所有的生物因素(土壤生物中的植物、动物、微生物)、物理化学因素(土壤容重、土壤盐度、pH值)和人为因素(土地利用方式)都会对其造成直接或间接影响。其中,土壤容重、土壤盐度、pH值等物理化学因素会作用于CaCO3溶解度而对溶解平衡常数造成影响,进而改变CaCO3沉淀机制[14]。研究发现,东北表层土壤(0~50cm)中的土壤无机碳随土壤容重、pH值的增加而增加,不同的土地利用方式会导致土壤无机碳储量发生明显变化[15-17]。一般来说,某研究区域内的土壤无机碳含量高,则该研究区域内的土壤有机碳含量会偏低。但研究发现,新疆艾比湖湿地自然保护区的土壤无机碳和土壤有机碳之间存在正相关关系[18,19]。由于土壤生物中的植物、动物生理活动以及微生物具备形成碳酸盐的能力,因此生物因素也是影响土壤无机碳的重要因素。研究表明,土壤中的草酸盐会通过生物氧化来提高土壤pH值,进而对土壤无机碳造成影响;热带地区白蚁会对土壤次生碳酸盐的形成产生影响[20,21]。由此可见,研究土壤次生碳酸盐的形成时忽视生物因素会对土壤无机碳形成和变化造成认识偏差。人为因素中土地利用方式对土壤无机碳的影响巨大,如更改作物类型、转变土壤所在的生态系统类型、改变耕作方式、改变施肥方式、改变灌溉方式等都会对土壤无机碳造成显著影响。通过比较黄土地区不同土地利用方式下的土壤无机碳分布差异发现,荒地的土壤无机碳分布高于草地和林地,林地的无机碳分布最少[22]。

2 机器学习方法建模过程

2.1 高光谱数据来源 采集土样研磨过筛后使用波长在350~2500nm的FieldSpec Pro FR型光谱仪测量土样,获得高分辨率且连续的地物光谱曲线,将曲线进行处理即可得到高光谱数据。

2.2 高光谱数据特征选择 特征选择是为了解决数据间存在的相关性和冗余性而对原始数据进行特征选取以满足给定特征标准的过程[23]。高光谱数据因其维度大增加了建模过程的工作量并减缓了模型的运行时间,不利于研究人员开展后续研究工作。在领略了机器学习方法处理高维数据的快速便捷后,诸多研究人员开始使用机器学习中的支持向量机、遗传算法和连续投影算法等进行土壤理化性质高光谱数据的特征选取工作[24,25]。为了实现算法结构风险最小化,支持向量机方法通过核函数将非线性可分样本数据映射到高维线性可分空间,使用优化法求解超平面,获取决策函数的参数。遗传算法是一种随机搜索算法,依赖于生物进化机制,通过比较、选择、交换等操作来进行多次迭代,即可在保留目标函数值较优的变量前提下,剔除其中较差的变量,获得该算法的最优参数[26]。连续投影算法(SPA)将变量投影操作用于数据矩阵,可在大量高光谱数据中提取小部分变量数据的过程中,有效提取关键光谱信息的同时概括大部分的光谱信息[25]。

2.3 模型构建 在构建高光谱数据反演模型时,模型因变量是选取土壤无机碳含量,自变量是不同波段的高光谱数据。建模结果可用于模型评价,参考模型评价来选取最优反演建模方法。土壤理化性质高光谱数据建模主要以机器学习方法为主[27-29]。机器学习中,BP神经网络算法的结构和大小取决于土壤光谱数据的复杂程度,它将高光谱数据作为网络的输入层,土壤无机碳含量作为输出层,在隐含层中进行训练,可实现对土壤无机碳高光谱数据的反演建模。使用随机森林算法在解决回归问题建立反演模型时,遵循算法中每一棵决策树之间不存在关联性并且模型的最终输出取决于算法中所有决策树的共同制订的原则。支持向量机是一种受监督的模式识别模型,能够较好地解决在研究土壤无机碳高光谱数据反演模型中出现的非线性、小样本等问题。

2.3.1 BP神经网络算法建立反演模型流程 BP神经网络算法流程等同于非线性映射,算法结果实现了一个多层反馈模型用来学习有用知识,再对算法进行训练,熟悉训练集的模式后,按照已经学習得出的模式对数据进行预测,同时为了提高模型精度需适时调整算法参数[30]。算法流程如下:(1)输入训练数据集,调整参数设置,如交叉验证次数、初始权值阈值、激活函数等,即可构建网络的基本结构;(2)对网络初始化,确定参数设置;(3)确定模型隐含层的节点数和计算输出(见公式1、2);(4)计算输出层的输出;(5)误差计算;(6)更新权值后更新阈值;(7)确定算法迭代是否结束或者预测的目标精度是否已经达到预测目标精度,若算法尚未结束迭代过程,则需要到算法流程的第二步继续进行算法训练;(8)待训练完成,将测试集数据放入已经调试好的BP神经网络中进行预测或反演,可得到最终的预测或反演结果。

2.3.2 随机森林算法建立反演模型流程 随机森林算法是为了解决决策树算法所存在的过拟合或无法保证取得全局最优的问题而加以改进的算法。它立足于重采样方法来抽取样本并对这些样本进行决策树建模,再组合多棵决策树以期实现预测并构建反演模型[31]。算法流程如下:(1)训练数据样本集需要进行有放回抽样,即可获得M个样本子集;(2)对样本子集进行特征子集选取;(3)根据数据样本子集和获得的特征子集训练单棵决策树;(4)组合已经训练完毕的决策树,用投票的方式对数据进行预测。

2.3.3 支持向量机算法建立反演模型流程 支持向量机算法可以在建立高光谱反演模型时实现非线性回归。借助映射将非线性的原函数转化成线性可分的高维特征空间中的样本函数,在降低计算复杂度的同时有效提升算法的鲁棒性[32]。算法流程如下:(1)高维空间中寻找超平面用作决策边界,使所有数据满足到达该平面距离最近的要求;(2)计算预测值和实际值之间的差值,并与设置好的预测误差作比较,当差值小于预测误差时可不计算损失,当不满足该条件时需要引入松弛变量和拉格朗日函数求解该问题,即可获得反演结果。

3 机器学习在土壤无机碳反演建模中的应用

随着人工智能的蓬勃发展和计算机技术的高效应用,研究人员发现使用率极高的线性建模方法中偏最小二乘法并不能获得较好的土壤理化性质反演建模精度,因此逐渐转向了运用机器学习来进行土壤理化性质的反演建模。史杨[33]发现非线性建模方法可以对土壤成分进行建模精度更高的预测研究。Patrick Filippi等[34]通过随机森林模型实现了对新南威尔士州西南部拉克兰河河谷下游的半干旱灌溉棉花种植区0.3~0.5m土壤无机碳含量建模,可以用来预测整个研究区域的0.3~0.5m地下土层土壤无机碳的存在。Kandrika Sreenivas等[35]使用随机森林模型构建印度无机碳密度的估测模型,发现采样点的数据分布对随机森林模型的预测结果没有显著影响。L. Wang等[36]采用统计技术和机器学习技术相组合的增强回归树对土壤受到雨水侵蚀后沉积物中的无机碳含量实现优化预测。由此可知,运用机器学习对土壤无机碳反演建模精度更高,适用范围更广。高光谱遥感技术在土壤理化性质定量反演中的不断拓展也加快了机器学习在高光谱遥感技术中的进步。

4 小结

及时了解干旱、半干旱地区生态系统土壤无机碳的动态变化对于了解全球碳循环极其重要,可为今后精确估算某一研究区域碳储量提供可靠依据,快速高效实现土壤无机碳的反演建模可以为土壤无机碳在全球碳循环中的研究提供理论依据。科技的蓬勃发展推动了机器学习方法的进步,研究人员应根据研究内容因地制宜对现有学习方法进行诸多模型耦合,有效提升反演模型精度,并实现具备创新性的模型耦合。相比于传统的线性建模方法,机器学习方法对土壤无机碳反演建模精度更高,适用范围更广,更有利于实现土壤理化性质的定量反演。

参考文献

[1]张谦,张建国,王丽梅,等.塔克拉玛干沙漠公路防护林不同咸水滴灌下土壤有机碳与无机碳垂直分布特征[J].西北林学院学报,2019,34(4):1-7.

[2]李巧玲,閻欣,吴秀芝,等.荒漠草原沙漠化对土壤无机碳和有机碳的影响[J].水土保持学报,2019,33(1):98-103,110.

[3]李小涵,李富翠,刘金山,等.长期施氮引起的黄土高原旱地土壤不同形态碳变化[J].中国农业科学,2014,47(14):2795-2803.

[4]Hui An,Qiao-Ling Li,Xin Yan,et al.Desertification control on soil inorganic and organic carbon accumulation in the topsoil of desert grassland in Ningxia,northwest China[J].Ecological Engineering,2019,127:348-355.

[5]孙俊,金夏明,毛罕平,等.基于高光谱图像光谱与纹理信息的生菜氮素含量检测[J].农业工程学报,2014,30(10):167-173.

[6]孙向阳.土壤学[M].北京:中国林业出版社,2005:96-97.

[7]BUGHIO M A,WANG P,MENG F,et al. Neoformation of pedogenic carbonates by irrigation and fertilization and their contribution to carbon sequestration in soil[J]. Geoderma,2016,262:12-19.

[8]孟延,周建斌,郝平琦,等.土壤无机碳研究进展及意义[J].北方农业学报,2017,45(3):54-57.

[9]Suleiman S. Tagiverdiev,Sergei N. Gorbov,et al.The content and distribution of various forms of carbon in urban soils of southern Russia on the example of Rostov agglomeration[J].Geoderma Regional,2020,21:e00266.

[10]雒琼,王玉刚,邓彩云,等.干旱区土壤剖面无机碳分布及其与盐碱性的关系[J].水土保持学报,2017,31(5):240-246.

[11]雒琼,王玉刚,邓彩云,等.不同农业土地利用年限干旱区土壤剖面碳存储动态变化[J].农业工程学报,2017,33(19):287-294.

[12]于天仁,陈家坊.土壤发生中的化学过程[M].北京:科学出版社,1989.

[13]王莲莲,杨学云,杨文静.土壤碳酸盐几种测定方法的比较[J].西北农业学报,2013,22(5):144-150.

[14]隋晓敏.胶州湾典型河口湿地土壤无机碳储量分布特征及影响因素[D].青岛:青岛大学,2019.

[15]祖元刚,李冉,王文杰,等.我国东北土壤有机碳、无机碳含量与土壤理化性质的相关性[J].生态学报,2010,31(18):5207-5216.

[16]王恒俊,张淑光,蔡风岐.黄土高原地区土壤资源及其合理利用[M].北京:中国科学技术出版社,1991.

[17]刘哲,陈懂懂,李奇,等.土地利用方式对高寒草甸生态系统土壤无机碳的影响[J].水土保持通报,2016,36(5):73-79.

[18]Pan G X.Some features of carbon cycling in humid subtropical karst region:an example of Guilin Yaji Karst experiment site[J].China Geography,1997,7(3):48-57.

[19]张雪妮,吕光辉,贡璐,等.新疆艾比湖湿地自然保护区不同土壤类型无机碳分布特征[J].中国沙漠,2013,33(4):1084-1090.

[20]Cailleau G,Braissant O,Dupraz C,et al. Biologically induced accumulations of CaCO3 in orthox soils of Biga,Ivory Coast[J]. Catena,2005,59(1):1-17.

[21]Cowie R H.Tropical ecology and physical edaphology[J].Trends in Ecology & Evolution,1988,3(5):120-120.

[22]崔丽峰,刘丛强,涂成龙,等.黄土地区不同覆被下土壤无机碳分布及同位素组成特征[J].生态学杂志,2013,32(5):1187-1194.

[23]黄铉.特征降维技术的研究与进展[J].计算机科学,2018,45(S1):16-21,53.

[24]杨爱霞,丁建丽.新疆艾比湖湿地土壤有机碳含量的光谱测定方法对比[J].农业工程学报,2015,31(18):162-168.

[25]朱建伟,刘玉学,吴超凡,等.施用生物炭后土壤有机碳的近红外光谱模型研究与应用[J].生态学报,2020,40(20):7430-7440.

[26]于雷,洪永胜,周勇,等.高光谱估算土壤有机质含量的波长变量筛选方法[J].农业工程学报,2016,32(13):95-102.

[27]章海亮,罗微,刘雪梅,等.应用遗传算法结合连续投影算法近红外光譜检测土壤有机质研究[J].光谱学与光谱分析,2017,37(2):584-587.

[28]白婷,丁建丽,王敬哲.基于机器学习算法的土壤有机质质量比估算[J].排灌机械工程学报,2020,38(8):829-834.

[29]曹肖奕,丁建丽,葛翔宇,等.基于光谱指数与机器学习算法的土壤电导率估算研究[J].土壤学报,2020,57(4):867-877.

[30]何宇峰.基于改进PCA-MEA-BP神经网络的瓦斯涌出量预测研究[D].西安:西安科技大学,2020.

[31]乔黎伟,王静怡,郭炜,等.基于随机森林算法的中短期用电量预测[J].电力科学与技术学报,2020,35(2):150-156.

[32]边泽山.基于SVM的温室大棚温湿度预测预警系统研究[D].包头:内蒙古科技大学,2020.

[33]史杨.基于可见光近红外光谱的土壤成分预测模型研究[D].合肥:中国科学技术大学,2018.

[34]Patrick Filippi,Stephen R. Cattle,Matthew J. Pringle,et al.A two-step modelling approach to map the occurrence and quantity of soil inorganic carbon[J].Geoderma,2020,371:114382.

[35]Kandrika Sreenivas,V.K. Dadhwal,Suresh Kumar,et al.Digital mapping of soil organic and inorganic carbon status in India[J].Geoderma,2016,269:160-173.

[36]L.Wang,X.Huang,N.F.Fang,et al.Selective transport of soil organic and inorganic carbon in eroded sediment in response to raindrop sizes and inflow rates in rainstorms[J].Journal of Hydrology,2019,575:42-53.

(责编:徐世红)

猜你喜欢

应用进展机器学习
金属材料热处理节能技术应用进展
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究