基于支持向量机的CloudSat卫星云分类算法

2011-01-09韩丁严卫任建奇赵现斌

大气科学学报 2011年5期

关键词：云团识别率准确率

韩丁，严卫，任建奇，赵现斌

(解放军理工大学气象学院，江苏南京211101)

基于支持向量机的CloudSat卫星云分类算法

韩丁，严卫，任建奇，赵现斌

(解放军理工大学气象学院，江苏南京211101)

从基于云角色的分类思想出发，利用星载毫米波雷达探测资料提取云的特征参数，建立支持向量机(support vector machine，SVM)模型实现云的分类。通过与BP(back propagation)网络模型的分类结果进行对比，发现两种模型都具有较好的分类能力，但SVM模型的识别准确率更高，计算速度更快。基于CloudSat资料的云分类实例表明，SVM模型的分类结果与CloudSat数据处理中心(Data Processing Center，DPC)发布产品具有很好的一致性。

支持向量机;BP网络;云分类;毫米波;CloudSat

0 引言

云在地球大气的能量和水汽收支中具有重要的调节作用，是影响气候变化的重要因子，深入理解其物理结构及演变规律对科学实施人工影响云作业尤为重要(周毓荃和赵姝慧，2008)。因此，研究云的物理特性具有十分重要的意义。由于不同类型的云具有不同的动力过程和微物理特性，能够产生不同的辐射强迫(Chen et al.，2000)，从而对地—气系统的能量收支和气候预测产生不同的影响，而且云中粒子半径、液态(冰)水含量等微物理参数的反演也与云的类型密切相关。因此，对云的正确分类是进行云物理特性研究的重要前提。

云分类的研究始于20世纪70年代，由英国的NOWCASTING计划提出(Liljas，1981)，在随后的几十年中，基于云的光谱、纹理和物理特征发展了多种分类算法，如多光谱法(郁凡和陈渭民，1994)、线性判别法(傅德胜和王新芝，1995)、最大似然估计法(Lee et al.，1990)以及模糊逻辑法(Baum et al.，1997)等。Welch et al.(1992)利用微波辐射计测量的云光谱和纹理特征，结合地面分布特征，分别采用逐步判别法、BP网络法和PNN网络法将极地云分为薄层云、卷云、层云、积云和多层云5种类型。Williams et al.(1995)利用915 MHz风廓线雷达数据将降水云分成层状对流云、混合层状对流云、对流性对流云和深(浅)层对流云4种类型。国际卫星云气候计划(ISCCP)结合云顶气压和光学厚度将云分成积云、层积云、层云、高积云、高层云、雨层云、卷云、卷层云和深对流云9种类型(Rossow and Schiffer，1999)。Wang and Sassen(2001)结合地基主被动传感器的探测资料，将云分为层云、层积云、积云、雨层云、高积云、高层云、深对流云以及高云等8种类型。Bankert(1994)利用PNN网络将北半球沿海地区的云分为10类。这些云分类算法的发展为深入研究云的物理特性打下了坚实的理论基础。

2006年4月28日，全球第一颗可以对云垂直结构进行全球探测的卫星——CloudSat发射升空，其上搭载的一部94 GHz云廓线雷达(Cloud Profiling Radar，简称CPR)不仅可以探测从薄云到浓厚云的垂直剖面特征，而且可反演剖面上云粒子的有效半径、液态(冰)水含量等微物理参量，为云的研究提供了全新的平台。CPR采用两种方法实现云的分类，即基于云顶特征和基于云角色的分类方法。其中，前者会丢失云顶以下的重要信息，不利于云物理特性的研究;后者对大尺度且物理性质均一的云团识别率较高，但对小尺度且物理性质复杂的云团识别率较低(严卫等，2009)。主要原因有两个方面:1)两种方法都采用阈值法进行分类，而阈值的选取具有很强的局地性，获取适用于各种地域的统一阈值比较困难;2)云类型的识别是逐条廓线进行的，并未考虑整个云团的云厚、云底高、云顶高及降水等信息，因而识别准确率不高。支持向量机作为一种智能学习方法，既可处理非线性数据，又能有效解决训练样本较少时的过拟合问题(赫英明和王汉杰，2009)，且其分类结果不依赖于阈值，分类速度快、准确率高。因此，本文基于支持向量机的分类原理，利用CloudSat数据产品提取云的特征参数，综合单条廓线和整个云团的信息实现云的分类，并与BP网络分类结果及CloudSat数据处理中心(DPC)发布产品进行对比，分析利用支持向量机算法进行CloudSat云分类的可行性。

1 CloudSat数据产品及云参数提取

1.1 数据产品

CloudSat卫星主要有两类数据产品，即标准数据产品(standard data products，简称SDPs)和辅助数据产品(auxiliary data products，简称ADPs)。其中，标准数据产品分为4级(level1，level2，level3和level4)，辅助数据产品主要有4类(1A-AUX，ECMWF-AUX，MODIS-AUX和LIDAR-AUX)。标准数据产品的主要信息如表1所示(Cooperative Institute for Research in the Atmosphere Colorado State University，2008)。而辅助数据产品中1A-AUX包含CPR原始数据、地理和高度信息等，ECMWF-AUX代表欧洲中期天气预报中心(简称ECMWF)提供的温度、气压和比湿等辅助数据，MODIS-AUX和LIDAR-AUX分别表示中分辨率成像光谱仪(简称MODIS)和正交极化云—气溶胶激光雷达(简称CALIOP)提供的与云有关的辅助信息。

表1中2B-CLDCLASS数据产品综合运用星载主被动传感器探测资料实现云的8类分类，分类依据为云的宏观尺度、降水特征、ECMWF-AUX和MODIS-AUX提供的温度及云盖数据。分类时，首先对云进行检测并获取其各种物理特征参数，然后通过设定回波强度阈值的方法进行降水云与非降水云的分类，最后分别设计降水云和非降水云分类方案，得到云的8种分类结果(Wang and Sassen，2007)。其中，云检测时云盖的取值范围为20～40，雷达反射率为Ze＜50 dBZ。

1.2 参数提取

从基于云顶特征和云角色的分类思想出发，以图1所示各类云的最大反射率与相应温度之间的T-Ze频率分布(Wang and Sassen，2007)及表2所示8类典型云的基本特征(Wang and Sassen，2001)为依据，利用CloudSat数据产品提取云的特征属性，建立支持向量机模型实现云的分类，并与BP网络分类结果进行对比分析。在参数提取过程中，由于CloudSat的云分类产品2B-CLDCLASS中层云出现概率很小，无法满足提取大量特征参数的要求，因此本文仅提取常见7类典型云的8种基本特征，即云顶的平均高度、气压和温度，云团平均的厚度和水平尺度，降水概率，雷达反射率的最大值及对应温度等特征。其中，降水概率特征的提取参照地基雷达的研究成果，即雷达回波经去噪后，若距地面2 km范围内最大反射率因子Zmax＞－15 dBZ，则可判断该廓线内存在降水，从而统计整个云团内降水廓线的比例作为该云团的降水概率。云特征提取的流程如下:1)根据2B-CLDCLASS云分类产品提取各类云的坐标信息，确定其空间位置;2)读取2B-GEOPROF和ECMWF-AUX数据，利用云的坐标信息提取其物理特征;3)分别建立训练样本集和测试样本集。

表1 CloudSat标准数据产品Table 1 CloudSat standard data products

图1 不同类型云的T-Ze频率分布(High、As、Ac和St分别代表高云、高层云、高积云和层云;Sc、Cu、Ns和Deep分别代表层积云、积云、雨层云和深对流云)Fig.1 The frequency distribution of different type clouds in temperature and maximum reflectivity factor Zespace(High，As，Ac and St stand for high clouds，altostratus，altocumulus and stratus，respectively;Sc，Cu，Ns and Deep stand for stratocumulus，cumulus，nimbostratus and deep convective clouds，respectively)

2 支持向量机

表2 8种主要类型云的典型特征Table 2 Classical features of eight major type clouds

支持向量机(support vector machine，简称SVM)由Cortes and Vapnik(1995)提出，是一种建立在统计学习理论和结构风险最小化原理基础上的小样本学习方法。算法通过求解二次型寻优问题得到全局最优解，避免了神经网络中的局部极值问题。同时，算法利用非线性变换将实际问题转换到高维特征空间，在该空间中构造线性分类器实现原空间中的非线性分类，巧妙地处理了“维数灾难”问题，并已成功应用于模式识别、回归估计、概率密度估计以及卫星遥感等诸多领域，成为继人工神经网络之后得到广泛应用的一种智能学习方法。

2.1 基本原理

支持向量机从两类线性分类问题出发，寻找能将两类样本集正确划分并使其间隔最大的超平面，即最优超平面。其基本思想如图2所示。

图2 最优分类超平面Fig.2 Optimal separating hyperplane

具体描述(邓乃扬和田英杰，2009)54为:给定训练样本集(x1，y1)，(x2，y2)，…，(xm，ym)，其中xi∈Rn，yi∈Y={1，－1};通过求解如下二次凸规划问题，得到最优解

利用该最优解计算w*和b*，并构造分划超平面(w*·x)+b*=0，得到决策函数

对于非线性分类而言，通过非线性变换转化为高维空间的线性分类，并利用满足Mercer条件的核函数K(xi，xj)代替点积运算，得到决策函数

2.2 多类分类问题

前面主要介绍两类分类问题，而实际生活中常遇到多类分类情形。解决多类分类问题的方法有两种:一对多方法和一对一方法。其中，前者是将某一类样本看作正类，其余样本看作负类，利用两类分类器决定样本所属类别，该方法结构简单，需要的分类器少，但进行大样本分类时所需时间较长;后者是将每类样本分别与剩余各类进行两类分类，分类结束后采用投票的方式决定样本所属类别，该方法分类精度较高，但当样本类数较多时，分类器数目增加，决策速度变慢，且当得票最多的类不止一类时，无法进行样本的判别。

本文主要实现7类典型云的多类分类，采用一对一方法需构造21个两类分类器，必然使决策速率变慢，而实验所用样本数较少，因此采用一对多方法将得到较快的分类速度，然而此时不能仅通过fi(x)是否大于0来决定样本的归属，因为使fi(x)＞0的类可能不存在或存在多类，于是取gi(x)的最大值所对应的类作为样本所属类。另外，在处理不对称的两类分类问题时，正负类样本数之间悬殊的差异会引起分类结果的较大误差，解决方法是对不同的类选用不同的惩罚因子，如正类样本数较少，则选取较大的惩罚因子(邓乃扬和田英杰，2009)191。

2.3 核函数及其参数的选取

利用支持向量机进行分类时，核函数的选择无疑成为最核心的问题。目前常用的核函数主要有线性核函数、多项式核函数、径向基核函数和Sigmoid核函数4种，其中径向基核函数由于计算难度小、调整参数少且可处理非线性问题而得到广泛应用。本文选用径向基核函数作为支持向量机分类时的核函数，相应的核参数为惩罚因子C和径向基宽度γ，由于核参数的不同会直接影响分类器的性能，因此下面采用网格搜索法确定最优参数对(C，γ)，具体步骤如下。

1)设定参数C和γ的范围。采用指数增长的方式可以快速确定(C，γ)的大小，取参数范围为C=(2－4，2－3，2－2，…，210，211，212)，γ=(2－5，2－4，2－3，…，26，27，28)。

2)利用交叉验证的方法寻找最优参数对。具体做法为:选取每类云各100个样本，随机分成10份，将其中的9份作为训练样本，剩余1份作为测试样本，取10次测试准确率的平均值作为最终的分类准确率。

3)选取分类准确率最高时的(C，γ)作为核参数对测试样本进行分类。本例中当C=211，γ=24时，分类准确率最高。

3 建立支持向量机模型

考虑云的物理属性在不同时空范围内的变化较大，在进行云的特征参数提取时，分别从2008年1月、4月、7月、10月的CloudSat云分类产品2BCLDCLASS中各抽取25轨数据代表冬季、春季、夏季和秋季4个不同季节、全球不同区域内的云物理特性，相应的轨道号范围分别为80941—80965、10251—10275、11581—11605及12921—12945，从中提取7类典型云的各200个样本进行云分类实验。实验中根据支持向量机原理建立分类模型，以云的特征参数为分类依据，利用训练样本训练后的模型对测试样本进行测试，将测试结果与BP网络分类结果进行对比，分析该模型分类的特点。

3.1 基于支持向量机的云分类

下面采用一对多方法构造7个支持向量两类分类器，核函数取径向基函数，核参数采用前面网格搜索法得到的结果，分类决策时取gi(x)的最大值作为判决条件。分别选取各类云的140个样本作为训练样本集，60个样本作为测试样本集进行云的分类。分类流程如图3所示，得到如表3所示的分类结果。

根据表3可计算出支持向量机云分类的整体准确率为82.4%。其中，卷云的识别率最高，达到93.3%，主要是因为卷云的水平和垂直尺度小，且云底明显高于其他云层，仅依赖其宏观尺度特征就能较准确识别;低云的分类效果一般，主要是由于低云云底较低，云体受局地影响较大，物理性质复杂，因而识别率不高;高积云和高层云的识别率最低，仅有百分之七十几，原因在于两类云的物理属性相近，仅在是否含有降水方面略有差异，对于本文仅依赖云的宏观特征进行分类的支持向量机算法而言，分类灵敏度不高。

3.2 与BP网络的比较

BP网络作为神经网络的重要模型之一，已在多个领域得到广泛应用，其拓扑结构由输入层、隐层和输出层3部分组成，每层包含多个神经元节点，相邻两层节点之间两两相连。本文基于MATLAB的BP工具箱构建三层BP网络实现云的分类，网络采用newff函数作为创建函数，trainrp函数作为训练函数，logsig函数作为隐层和输出层的传递函数，并设定性能参数为0.04，最大训练步数为10 000，训练步长为100，输入、输出层神经元个数分别设定为9和3。隐层节点数的选取通过实验确定，实验中假设其在［4，15］范围内变化，分别选取各类云的150个样本作为训练样本集，通过训练发现隐层节点数为14时，网络的误差达到最小，因而确定隐层节点数为14。三层BP网络实现云分类时的误差变化曲线如图4所示，可知经9 228步迭代后网络误差达到0.039 98，此时的分类结果如表4所示，分类整体准确率为78.8%。对比表3和表4可以发现，两种方法分类结果相似，高云的识别率最高，低云次之，而中云的识别率最低，但支持向量机对高积云、高层云和层积云的识别能力明显优于BP网络，且其整体识别准确率也高于BP网络，主要是因为BP网络存在过学习、欠学习和局部极小等问题，难以保证得到全局最优解，而支持向量机不仅可以处理非线性、高维数的分类问题，而且可得到变量的全局最优解。因此，相对于BP神经网络方法，支持向量机算法本身所具有的优势使其得到更好的分类结果。

表3 基于支持向量机的云分类结果Table 3 Results of cloud type classification based on SVM

图3 基于支持向量机的云分类流程图Fig.3 Flow chart of cloud type classification based on SVM

图4 BP网络的误差特性曲线Fig.4 Error feature curve of BP network

4 反演个例分析

个例所用数据轨道号为14312，起止时间为2009年1月5日04:23:06至04:28:02，经、纬度范围为139.0～134.7°E、14.2～32.0°N，基于BP网络和支持向量机两种方法得到如图5所示的分类结果。

图5a为基于CPR云盖和云边界的雷达反射率因子回波图，垂直范围为0～20 km;图5b为基于CPR云盖和雷达反射率因子的云边界廓线，给出了云分布的清晰轮廓;图5c、d分别为基于BP网络和支持向量机的云分类结果，图5e为DPC发布的云分类产品。

对比图5c、d和e可知，支持向量机和BP网络的分类结果与DPC发布产品保持较好的一致性，说明两种方法对云的识别基本满足云分类的要求，且支持向量机的识别准确率更高。但对于A处的卷云，两种方法都误识别为高层云，从图5b可以看出，云团的云底高度在8 km以上，厚度达到4 km，水平分布也较广，根据提取的参数可知该云团的降水概率为0，这些特征与表2中高层云的特征十分接近(云底高除外)，从而导致卷云被误识别为高层云，说明虽然两种方法对卷云的识别率都很高，但仅通过云底高的不同尚不能对其正确识别，需综合考虑多个特征参数的差异。对于B和C处的云团，支持向量机识别结果与DPC发布产品一致，都为高积云，但BP网络却识别为高层云，从前面的分析可知，BP网络对中云的识别率较低，而表2中两类云的基本特征十分相近，仅在降水方面略有差异，同时由图5a和b可知，两块云团的雷达反射率和宏观尺度都比较小，说明强降水和冰晶粒子存在的可能性较小，因此对两块云团进行准确识别的难度较大，这再次表明支持向量机算法具有更强的分类能力。位于D处的积云，两种方法都未正确识别，可能由于此云团尺度较小，云底较低，受局地影响较大，物理性质复杂，仅依赖云的宏观特征进行识别较为困难，若能加入云的其他信息，如云滴谱分布、差分反射率因子等，将会提高识别的准确率。

5 小结

基于云角色分类的思想，利用星载毫米波雷达CloudSat的实测数据，提取常见7类典型云的8种基本特征，采用支持向量机算法实现云的分类，并与BP网络分类结果及DPC发布产品进行对比分析，得出如下结论:

1)支持向量机不仅较好地解决了非线性、高维数和局部极小等问题，而且其在模式识别、回归估计等众多领域的成功应用使其成为一种具有极大应用潜力的智能学习方法。通过与BP网络云分类结果的对比发现，支持向量机具有更高的分类精度，尤其对高积云、高层云和层积云的识别准确率明显优于BP网络。与CloudSat的云分类方法相比，支持向量机方法不仅综合考虑了雷达回波中逐条廓线与整个云团的信息，而且充分发挥了其作为智能学习算法本身所具有的优势，取得了较好的分类识别结果。因此，基于支持向量机的云分类算法对提高Cloud-Sat的云分类准确率具有重要的指导意义。

表4 基于BP网络的云分类结果Table 4 Results of cloud type classification based on BP network

图5 个例云分类结果a.雷达反射率因子;b.基于CPR云盖和雷达反射率因子的CPR云边界;c.BP云分类结果;d.支持向量机云分类结果;e.DPC发布的云分类产品Fig.5 Cloud type classification results of one casea.CPR radar reflectivity factor;b.CPR cloud boundary based on CPR cloud mask and radar reflectivity factor;c.cloud type classification based on BP network;d.cloud type classification based on SVM;e.products of cloud type classification published by DPC

2)通过对比分析支持向量机和BP网络对测试样本及个例数据的分类结果，发现两种方法对宏观物理属性相对均一的大尺度云团的识别率较高，而对云底较低的小尺度云团的识别率较低，可能由于小尺度的低云云团物理特性复杂，时空变化快，对依赖云的宏观特征进行分类的算法不够敏感。在实现高云的分类时，两种算法的分类精度都比较高，识别率都在90%以上，原因在于高云云底较高，位置相对确定，且基本不含有降水，仅利用其宏观特征便很容易识别。对于物理属性比较接近的高积云与高层云，支持向量机的识别率明显优于BP网络，但两种方法的识别准确率都在80%以下，说明仅利用云的宏观特征实现中云的准确分类，难度较大，需综合考虑云的其他特征信息。低云中深对流云和雨层云云层较厚，内部常伴随有强降水，而层积云云层较薄，降水发生概率较小，因此深对流云和雨层云易与层积云区分，但层积云与积云的识别难度较大，主要是因为两类云的物理属性比较接近，特征差异不够明显。另外，低云受局地影响较大，物理性质复杂，因此识别难度较大。

3)基于支持向量机的云分类算法取得了较好的分类结果，一方面体现了支持向量机在小样本学习方面所具有的优势，另一方面表明提取的特征参数对云的准确分类起到积极作用。然而，对于部分宏观物理属性相近的云而言，其分类识别结果仍存在一定误差。因此，若能通过主被动联合探测等方式，获取不同时空范围内各种典型云更多的宏微观物理特征实现CloudSat的云分类，将会进一步提高分类的准确率，这将是下一步的努力方向。

邓乃扬，田英杰.2009.支持向量机:理论、算法与拓展［M］.北京:科学出版社.

傅德胜，王新芝.1995.云图纹理特征的抽取与云的自动分类［J］.南京气象学院学报，18(4):530-535.

赫英明，王汉杰.2009.支持向量机在积雪检测中的应用［J］.南京气象学院学报，32(1):134-139.

严卫，杨汉乐，叶晶.2009.星载毫米波测云雷达资料的云特征分析［J］.遥感学报，13(4):570-579.

郁凡，陈渭民.1994.双光谱云图分类的探讨［J］.南京气象学院学报，17(1):117-124.

周毓荃，赵姝慧.2008.CloudSat卫星及其在天气和云观测分析中的应用［J］.南京气象学院学报，31(5):603-614.

Bankert R L.1994.Cloud classification of AVHRR imagery in Maritime regions using a probabilistic neural network［J］.J Appl Meteor，33(8):909-918.

Baum B A，Tovinkere V，Titlow J，et al.1997.Automated cloud classification of global AVHRR data using a fuzzy logic approach［J］.J Appl Meteor，36(11):1519-1535.

Chen T，Rossow W B，Zhang Y.2000.Cloud type radiative effects from the international satellite cloud climatology project［C］//Proc 11th Symposium on Global Change Studies.Long Beach，California:A-merican Meteorological Society:86-89.

Cooperative Institute for Research in the Atmosphere Colorado State U-niversity.2008.CloudSat standard data products handbook［EB/OL］.［2010-03-31］.http://www.cloudst.cira.colostate.edu/cloudsat_documentation/CloudSat_Data_Users_Handbook.pdf.

Cortes C，Vapnik V.1995.Support-vector networks［J］.Machine Learning，20(3):273-297.

Lee J，Weger R C，Sengupta S K，et al.1990.A neural network approach to cloud classification［J］.IEEE Trans Geosci Remote Sens，28(5):846-855.

Liljas E.1981.Automated techniques for the analysis of satellite cloud imagery［C］//Nowcasting:Mesoscale Observations and Short-Range Prediction:Proc of an International Symposium.331-339.

Rossow W B，Schiffer R A.1999.Advances in understanding clouds from ISCCP［J］.Bull Amer Meteor Soc，80:2261-2287.

Wang Z，Sassen K.2001.Cloud type and macrophysical property retrieval using multiple remote sensors［J］.J Appl Meteor，40:1665-1682.

Wang Z，Sassen K.2007.Level 2 cloud scenario classification product process description and interface control document［EB/OL］.［2010-03-31］.http://www.cloudsat.cira.colostate.edu/ICD/2B-CLDCLASS_PDICD_5.0.pdf.

Welch R M，Sengupta S K，Goroch A K.1992.Polar cloud and surface classification using AVHRR imagery:An intercomparison of methods［J］.J Appl Meteor，31(5):405-420.

Williams C R，Ecklund W L，Gage K S.1995.Classification of precipitation clouds in the tropics using 915-MHz wind profilers［J］.J Atmos Oceanic Technol，12:996-1012.

Cloud type classification algorithm for CloudSat satellite based on Support Vector Machine

HAN Ding，YAN Wei，REN Jian-qi，ZHAO Xian-bin

(Institute of Meteorology，PLA University of Science and Technology，Nanjing 211101，China)

According to the role-based cloud classification method，a SVM(Support Vector Machine)model is established to achieve cloud type classification by extracting characteristic parameters of spaceborne millimeter-wave radar sounding data.By comparing with the classification results using BP(back propagation)network model，it is found that both two models have good classification capability，but the SVM model has better identification accuracy and faster calculation speed.An example of cloud type classification based on CloudSat data shows that the results of SVM model are well consistent with products published by CloudSat DPC(Data Processing Center).

Support Vector Machine;BP network;cloud classification;millimeter wave;CloudSat

TN95;P426.5

1674-7097(2011)05-0583-09

2010-04-20;改回日期:2011-05-06

国家自然科学基金资助项目(41076118)

韩丁(1986—)，男，山西襄汾人，博士生，研究方向为卫星遥感应用与研究，handing_ok@126.com.

韩丁，严卫，任建奇，等.2011.基于支持向量机的CloudSat卫星云分类算法［J］.大气科学学报，34(5):583-591.

Han Ding，Yan Wei，Ren Jian-qi，et al.2011.Cloud type classification algorithm for CloudSat satellite based on Support Vector Machine［J］.Trans Atmos Sci，34(5):583-591.

(责任编辑:倪东鸿)