第二十七讲 SVR对小样本缺失数据的挖掘处理

2018-08-04徐静安都丽红

上海化工 2018年7期

徐静安吴芳都丽红

第二十六讲“支持向量机（SVM）简介及DPS应用操作”简要介绍了SVM的概念、原理、模型、算法及支持向量回归（SVR）案例在DPS系统中的操作应用。由于SVM是基于小样本的统计理论，在小样本案例中，计算结果能获得较好的统计效果。一些情况下，难以获得“充分大”的大样本实验数据，例如：难以安排大范围考察的试验设计的场合，如中试以上规模的装置；实验周期较长的响应，如材料老化、蠕变，稳定性同位素平衡时间，农化盆栽试验，弱腐蚀体系甲醇汽油的腐蚀行为等；实验费用大的对象，如部件的破坏性检测；等等。而与传统的、经典的基于大样本统计理论的算法相比，SVR在统计分析、数据挖掘中有其独特功能。

此外，在数据样本的收集中，有涉及历史性的过去记录，有涉及地域性的宏观尺度记录，也有在实验中因种种原因导致部分输入变量的缺失，难以保证数据的完整性。一般回归算法无法处理缺失数据，而SVR算法具有处理缺失数据的功能。下面采用一个案例对一般回归算法和SVR算法进行回归精度对比，同时采用SVR对含缺失项数据进行回归处理。

案例摘编于唐启义著《DPS数据处理系统——实验设计、统计分析及数据挖掘》（第二版）第25.1节第658页，该案例为研究医院所需要的人力，对某地区17家医院调查了一组数据，考察5个变量因子［日平均病人数x1，月平均 X光透视人数x2，月平均所占用的床位天数x3，当地人口数相关的参数（人口数除以1000）x4，平均每个病人住院天数x5］与月平均使用的人小时数y之间的关系，数据表如表1所示。

在医院所需要的人力数据例子中，有9个样本含有缺失数据，数据缺失率达到9/17=53%，含缺失项的数据表如表2所示。

表1 17组完整数据

该案例包含M=5个输入变量，共N=17组随机数据，由于没有可能进行试验设计，属于社会统计类随机数据，N/M=17/5=3.4，为小样本问题。对表1中的17组完整数据和表2中含缺失项的17组数据，分别采用二次多项式逐步回归方法和SVM算法进行学习建模，比较其回归效果。

一 SVR的拟合计算

1 对17组完整数据的计算

（1）将表1中的17组完整数据输入DPS，选中数据块，在菜单下选择“多元分析”→“支持向量机（SVM）”→“SVM回归”，各参数设为默认值，计算结

表2 17组含缺失项的数据

果如下：

支持向量机系数

项目 rho Prob.

Const -0.4281 0.0693

α1 SV1 SV2 SV3 SV4 SV5

-1 -1 -0.9902-1 -0.9531-0.8401

-1 -0.885-1 -0.8848-1 -0.1221

………………

0.5101 1 1 1 1 -0.2878

各样本实际值与拟合值对比：

样本序号观察值拟合值拟合误差

1 566.52 1009.6226 -443.1026

2 696.82 1087.6993 -390.8793

3 1033.15 1158.4982 -125.3482

4 1603.62 1421.6036 182.0164

5 1611.37 1428.2817 183.0883

6 1613.27 1801.5872 -188.3172

7 1854.17 1546.367 307.803

8 2160.55 1699.5056 461.0444

9 2305.58 2516.8053 -211.2253

10 3503.93 3692.2467 -188.3167

11 3571.89 2955.2134 616.6766

12 3741.4 3927.4732 -186.0732

13 4026.52 3835.5278 190.9922

14 10343.81 10166.245 177.5647

15 11732.17 11543.797 188.3732

16 15414.94 15232.666 182.2737

17 18854.45 18664.536 189.9138

2 对17组含缺失项数据的计算

将表2中17组含缺失项的数据输入DPS，选中数据块，在菜单下选择“多元分析”→“支持向量机（SVM）”→“SVM回归”，默认ε-SVR回归，核类型默认RBF核函数，设置参数Gamma=0.5，Cost=20，点“确定”进行计算，结果如下：

支持向量机系数

项目 rho Prob.

Const -0.240427 0.171624867

α1 SV1 SV2 SV3 SV4 SV5

-0.8623-1.0000-0.9902-1.0000-0.9531-0.8401

-1.1279-0.8850-1.0000-0.8848-1.0000-0.1221

………………

0.5758 1.0000 1.0000 1.0000 1.0000-0.2878

各样本实际值与拟合值对比：

样本序号观察值拟合值拟合误差

1 566.52 746.4817 -179.9617

2 696.82 876.8195 -179.9995

3 1033.15 1219.5511 -186.4011

4 1603.62 1418.2401 185.3799

5 1611.37 1420.9649 190.4051

6 1613.27 1798.8477 -185.5777

7 1854.17 2034.3811 -180.2111

8 2160.55 1979.5489 181.0011

9 2305.58 2486.7392 -181.1592

10 3503.93 3694.4714 -190.5414

11 3571.89 3382.0229 189.8671

12 3741.4 3555.2059 186.1941

13 4026.52 4184.9494 -158.4294

14 10343.81 10167.4259 176.3841

15 11732.17 11552.0609 180.1091

16 15414.94 15234.8054 180.1346

17 18854.45 18674.3155 180.1345

3 计算结果对比及相关讨论

上述计算中拟合模型相关指数对比见表3。

从计算结果可知，采用SVM算法，对17组完整数据的拟合相关指数R和对17组含缺失数据的拟合相关指数R相当，说明SVR算法在处理8组完整数据加9组缺失数据，即数据缺失率达到53%时，仍可以提取出缺失数据中的有用信息，充分体现出其在处理小样本问题时的优势。

表3 拟合模型相关指数对比

二算法预报计算

上述计算、比对、分析仅限于统计上的拟合功能，而当今数理统计领域开发出不同算法软件的功能模块，大都具有较强的拟合功能，评价一种算法模型的好坏，更需要考察不同算法的预报功能，可惜原案例无此项内容。

对算法模型预报功能的评价通常有两种方法：一种是对训练集，采用“留一法”求出press，进行比对分析；第二种是建立测试集进行验证计算。

为了探索不同算法的预报功能，现从17组数据中随机提取3组（第2，4，13组）作为测试集样本，剩余的N=14组作为训练集样本，N/M=14/5=2.8，小样本问题，采用二次多项式逐步回归算法和SVR进行回归计算，评价预测结果的好坏。

（1）采用二次多项式逐步回归算法对17组完整数据中的剩余14组建立回归模型，对第2，4，13组数据进行预测，结果如下：

回归方程：

y=-7426.28906-1845.1406302×X1-

0.4271682968 ×X2+63.26921322×X3-44.40050542×

X4+3519.913415×X5-385.8870710×X5×X5+

375.6553905 ×X1×X5+0.07593567801×X2×X5-

12.443195223 ×X3×X5

方差分析表

变异来源平方和自由度均方 F值 p值

回归 4.59×1089 50972674 5559.168 1×10-7

残差 36676.48 4 9169.119

总变异 4.59×10813

回归系数标准回归系数偏相关 t值 p值

X1-1845.14 -53.2561 -0.96444 7.297596 0.001875

X2-0.42717 -1.6416 -0.97505 8.784748 0.000926

X363.26921 55.68987 0.965787 7.448154 0.001736

X4-44.4005 -0.85545 -0.98688 12.22365 0.000257

X53519.913 0.969894 0.978138 9.407209 0.000712

X5×X5-385.887 -1.59376 -0.98364 10.91892 0.0004

X1×X5375.655 4 89.93544 0.968777 7.81486 0.001447

X2×X50.075936 2.09125 0.980267 9.917849 0.00058

X3×X5-12.4432 -90.7839 -0.9687 7.804232 0.001455

复相关系数R=0.999960 决定系数R2=0.999920

剩余标准差SSE=95.7555 Durbin-Watson统计量d=2.5854

调整相关系数Ra=0.999870

调整决定系数Ra2=0.999740

训练样本拟合值：

样本序号观察值拟合值拟合误差

1 566.52 610.4081 -43.8881

3 1 033.15 963.0159 70.13408

5 1611.37 1751.8510 -140.481

6 1 613.27 1 612.7010 0.569138

7 1854.17 1764.7250 89.44493

8 2160.55 2148.5900 11.95987

9 2305.58 2270.0490 35.53089

10 3503.93 3506.5050 -2.57484

11 3571.89 3579.4300 -7.54024

12 3741.40 3762.2790 -20.8793

14 10343.81 10331.0000 12.81042

15 11732.17 11735.6200 -3.44694

16 15 414.94 15 413.1500 1.79406

17 18854.45 18857.8800 -3.432 97

测试样本预测值：

样本序号观察值预测值预测偏差预测标准偏差

2 696.82 843.9442 147.1242

4 1603.62-794.921 -2398.54 1971.8

13 4026.52 2611.822 -1414.7

（2）针对 17组完整数据，采用 SVR，以第 2、4、13组数据作为测试样本，其他数据作为训练样本进行建模计算，默认ε-SVR回归，核类型默认RBF核函数，设置参数 Gamma=0.3，Cost=20，点“确定”进行计算，结果如下：支持向量机系数

项目 rho Prob.

Const-0.356110.063326

α1 SV1 SV2 SV3 SV4 SV5

-4.66463-1 -1 -1 -0.97101 -0.94769

3.726036 -0.98039-0.96486-0.98042-1 -1

… … … … … …

0.553303 1 1 1 1 -0.36308训练样本拟合值：

样本序号观察值拟合值拟合误差

1 566.52 756.746 -190.226

3 1033.15 855.7748 177.3752

5 1611.37 1788.403 -177.033

6 1613.27 1800.227 -186.957

7 1854.17 1876.436 -22.2655

8 2160.55 1968.713 191.8368

9 2305.58 2491.968 -186.388

10 3503.93 3313.772 190.1577

11 3571.89 3380.206 191.6835

12 3741.40 3921.155 -179.755

14 10343.81 10170.09 173.7226

15 11732.17 11556.64 175.5282

16 15414.94 15259.42 155.5162

17 18854.45 18668.6 185.8466

三分析讨论

预报功能对比计算结果汇总见表4。

从上述结果汇总表可以看出：

15 11732.17 11 915.03 -182.859

16 15414.94 15234.02 180.9159

17 18 854.45 18668.4 186.0548

猜你喜欢

决定系数标准偏差序号

倾斜改正在连续重力数据预处理中的应用

基于Python语言路径分析矩阵算法运演

不同规格香港牡蛎壳形态性状对重量性状的影响

2种贝龄合浦珠母贝数量性状的相关与通径分析

第二十七讲 SVR对小样本缺失数据的挖掘处理