第二十七讲 SVR对小样本缺失数据的挖掘处理
2018-08-04徐静安都丽红
徐静安 吴 芳 都丽红
第二十六讲“支持向量机(SVM)简介及DPS应用操作”简要介绍了SVM的概念、原理、模型、算法及支持向量回归(SVR)案例在DPS系统中的操作应用。由于SVM是基于小样本的统计理论,在小样本案例中,计算结果能获得较好的统计效果。一些情况下,难以获得“充分大”的大样本实验数据,例如:难以安排大范围考察的试验设计的场合,如中试以上规模的装置;实验周期较长的响应,如材料老化、蠕变,稳定性同位素平衡时间,农化盆栽试验,弱腐蚀体系甲醇汽油的腐蚀行为等;实验费用大的对象,如部件的破坏性检测;等等。而与传统的、经典的基于大样本统计理论的算法相比,SVR在统计分析、数据挖掘中有其独特功能。
此外,在数据样本的收集中,有涉及历史性的过去记录,有涉及地域性的宏观尺度记录,也有在实验中因种种原因导致部分输入变量的缺失,难以保证数据的完整性。一般回归算法无法处理缺失数据,而SVR算法具有处理缺失数据的功能。下面采用一个案例对一般回归算法和SVR算法进行回归精度对比,同时采用SVR对含缺失项数据进行回归处理。
案例摘编于唐启义著《DPS数据处理系统——实验设计、统计分析及数据挖掘》(第二版)第25.1节第658页,该案例为研究医院所需要的人力,对某地区17家医院调查了一组数据,考察5个变量因子[日平均病人数x1,月平均 X光透视人数x2,月平均所占用的床位天数x3,当地人口数相关的参数(人口数除以1000)x4,平均每个病人住院天数x5]与月平均使用的人小时数y之间的关系,数据表如表1所示。
在医院所需要的人力数据例子中,有9个样本含有缺失数据,数据缺失率达到9/17=53%,含缺失项的数据表如表2所示。
表1 17组完整数据
该案例包含M=5个输入变量,共N=17组随机数据,由于没有可能进行试验设计,属于社会统计类随机数据,N/M=17/5=3.4,为小样本问题。对表1中的17组完整数据和表2中含缺失项的17组数据,分别采用二次多项式逐步回归方法和SVM算法进行学习建模,比较其回归效果。
一 SVR的拟合计算
1 对17组完整数据的计算
(1)将表1中的17组完整数据输入DPS,选中数据块,在菜单下选择“多元分析”→“支持向量机(SVM)”→“SVM回归”,各参数设为默认值,计算结
表2 17组含缺失项的数据
果如下:
支持向量机系数
项目 rho Prob.
Const -0.4281 0.0693
α1 SV1 SV2 SV3 SV4 SV5
-1 -1 -0.9902-1 -0.9531-0.8401
-1 -0.885-1 -0.8848-1 -0.1221
………………
0.5101 1 1 1 1 -0.2878
各样本实际值与拟合值对比:
样本序号 观察值 拟合值 拟合误差
1 566.52 1009.6226 -443.1026
2 696.82 1087.6993 -390.8793
3 1033.15 1158.4982 -125.3482
4 1603.62 1421.6036 182.0164
5 1611.37 1428.2817 183.0883
6 1613.27 1801.5872 -188.3172
7 1854.17 1546.367 307.803
8 2160.55 1699.5056 461.0444
9 2305.58 2516.8053 -211.2253
10 3503.93 3692.2467 -188.3167
11 3571.89 2955.2134 616.6766
12 3741.4 3927.4732 -186.0732
13 4026.52 3835.5278 190.9922
14 10343.81 10166.245 177.5647
15 11732.17 11543.797 188.3732
16 15414.94 15232.666 182.2737
17 18854.45 18664.536 189.9138
相关指数R=0.99869
决定系数=0.99738
计算结果与《DPS数据处理系统——实验设计、统计分析及数据挖掘》第43.4节第1 079页的计算结果一致,证明软件及操作正常。
(2)SVR计算时需要根据经验对模型参数进行合适的调整,针对表1中的17组完整数据,默认ε-SVR回归,核类型默认RBF核函数,设置参数Gamma=0.5,Cost=20,点“确定”进行计算,结果如下:支持向量机系数
项目 rho Prob.
Const -0.39725 0.063673778
α1 SV1 SV2 SV3 SV4
-6.3964-1.0000 -0.9902 -1.0000 -0.9531
-0.5338-0.8850 -1.0000 -0.8848 -1.0000
… … … … …
0.5281 1.0000 1.0000 1.0000 1.0000
各样本实际值与拟合值对比:
样本序号 观察值 拟合值 拟合误差
1 566.52 754.3669 -187.8469
2 696.82 885.3938 -188.5738
3 1033.15 852.3373 180.8127
4 1603.62 1422.6666 180.9534
5 1611.37 1544.7208 66.6492
6 1613.27 1799.0961 -185.8261
7 1854.17 1699.2218 154.9482
8 2160.55 1971.2461 189.3039
9 2305.58 2490.3879 -184.8079
10 3503.93 3683.8212 -179.8912
11 3571.89 3384.1579 187.7321
12 3741.40 3927.6738 -186.2738
13 4026.52 3880.1318 146.3882
14 10343.81 10162.0147 181.7953
15 11732.17 11548.3234 183.8466
16 15414.94 15226.429 6 188.5104
17 18854.45 18668.4301 186.0199
相关指数R=0.99959
决定系数=0.99917
计算结果表明,计算参数的调整、优化、有助于提高SVR的统计效果。
2 对17组含缺失项数据的计算
将表2中17组含缺失项的数据输入DPS,选中数据块,在菜单下选择“多元分析”→“支持向量机(SVM)”→“SVM回归”,默认ε-SVR回归,核类型默认RBF核函数,设置参数Gamma=0.5,Cost=20,点“确定”进行计算,结果如下:
支持向量机系数
项目 rho Prob.
Const -0.240427 0.171624867
α1 SV1 SV2 SV3 SV4 SV5
-0.8623-1.0000-0.9902-1.0000-0.9531-0.8401
-1.1279-0.8850-1.0000-0.8848-1.0000-0.1221
………………
0.5758 1.0000 1.0000 1.0000 1.0000-0.2878
各样本实际值与拟合值对比:
样本序号 观察值 拟合值 拟合误差
1 566.52 746.4817 -179.9617
2 696.82 876.8195 -179.9995
3 1033.15 1219.5511 -186.4011
4 1603.62 1418.2401 185.3799
5 1611.37 1420.9649 190.4051
6 1613.27 1798.8477 -185.5777
7 1854.17 2034.3811 -180.2111
8 2160.55 1979.5489 181.0011
9 2305.58 2486.7392 -181.1592
10 3503.93 3694.4714 -190.5414
11 3571.89 3382.0229 189.8671
12 3741.4 3555.2059 186.1941
13 4026.52 4184.9494 -158.4294
14 10343.81 10167.4259 176.3841
15 11732.17 11552.0609 180.1091
16 15414.94 15234.8054 180.1346
17 18854.45 18674.3155 180.1345
相关指数R=0.99957
决定系数=0.99914
计算结果表明,SVR算法对小样本缺失数据处理能获得较好的统计效果。
3 计算结果对比及相关讨论
上述计算中拟合模型相关指数对比见表3。
从计算结果可知,采用SVM算法,对17组完整数据的拟合相关指数R和对17组含缺失数据的拟合相关指数R相当,说明SVR算法在处理8组完整数据加9组缺失数据,即数据缺失率达到53%时,仍可以提取出缺失数据中的有用信息,充分体现出其在处理小样本问题时的优势。
表3 拟合模型相关指数对比
二 算法预报计算
上述计算、比对、分析仅限于统计上的拟合功能,而当今数理统计领域开发出不同算法软件的功能模块,大都具有较强的拟合功能,评价一种算法模型的好坏,更需要考察不同算法的预报功能,可惜原案例无此项内容。
对算法模型预报功能的评价通常有两种方法:一种是对训练集,采用“留一法”求出press,进行比对分析;第二种是建立测试集进行验证计算。
为了探索不同算法的预报功能,现从17组数据中随机提取3组(第2,4,13组)作为测试集样本,剩余的N=14组作为训练集样本,N/M=14/5=2.8,小样本问题,采用二次多项式逐步回归算法和SVR进行回归计算,评价预测结果的好坏。
(1)采用二次多项式逐步回归算法对17组完整数据中的剩余14组建立回归模型,对第2,4,13组数据进行预测,结果如下:
回归方程:
y=-7426.28906-1845.1406302×X1-
0.4271682968 ×X2+63.26921322×X3-44.40050542×
X4+3519.913415×X5-385.8870710×X5×X5+
375.6553905 ×X1×X5+0.07593567801×X2×X5-
12.443195223 ×X3×X5
方差分析表
变异来源 平方和 自由度 均方 F值 p值
回归 4.59×1089 50972674 5559.168 1×10-7
残差 36676.48 4 9169.119
总变异 4.59×10813
回归系数 标准回归系数 偏相关 t值 p值
X1-1845.14 -53.2561 -0.96444 7.297596 0.001875
X2-0.42717 -1.6416 -0.97505 8.784748 0.000926
X363.26921 55.68987 0.965787 7.448154 0.001736
X4-44.4005 -0.85545 -0.98688 12.22365 0.000257
X53519.913 0.969894 0.978138 9.407209 0.000712
X5×X5-385.887 -1.59376 -0.98364 10.91892 0.0004
X1×X5375.655 4 89.93544 0.968777 7.81486 0.001447
X2×X50.075936 2.09125 0.980267 9.917849 0.00058
X3×X5-12.4432 -90.7839 -0.9687 7.804232 0.001455
复相关系数R=0.999960 决定系数R2=0.999920
剩余标准差SSE=95.7555 Durbin-Watson统计量d=2.5854
调整相关系数Ra=0.999870
调整决定系数Ra2=0.999740
训练样本拟合值:
样本序号 观察值 拟合值 拟合误差
1 566.52 610.4081 -43.8881
3 1 033.15 963.0159 70.13408
5 1611.37 1751.8510 -140.481
6 1 613.27 1 612.7010 0.569138
7 1854.17 1764.7250 89.44493
8 2160.55 2148.5900 11.95987
9 2305.58 2270.0490 35.53089
10 3503.93 3506.5050 -2.57484
11 3571.89 3579.4300 -7.54024
12 3741.40 3762.2790 -20.8793
14 10343.81 10331.0000 12.81042
15 11732.17 11735.6200 -3.44694
16 15 414.94 15 413.1500 1.79406
17 18854.45 18857.8800 -3.432 97
测试样本预测值:
样本序号 观察值 预测值 预测偏差 预测标准偏差
2 696.82 843.9442 147.1242
4 1603.62-794.921 -2398.54 1971.8
13 4026.52 2611.822 -1414.7
(2)针对 17组完整数据,采用 SVR,以第 2、4、13组数据作为测试样本,其他数据作为训练样本进行建模计算,默认ε-SVR回归,核类型默认RBF核函数,设置参数 Gamma=0.3,Cost=20,点“确定”进行计算,结果如下:支持向量机系数
项目 rho Prob.
Const-0.356110.063326
α1 SV1 SV2 SV3 SV4 SV5
-4.66463-1 -1 -1 -0.97101 -0.94769
3.726036 -0.98039-0.96486-0.98042-1 -1
… … … … … …
0.553303 1 1 1 1 -0.36308训练样本拟合值:
样本序号 观察值 拟合值 拟合误差
1 566.52 756.746 -190.226
3 1033.15 855.7748 177.3752
5 1611.37 1788.403 -177.033
6 1613.27 1800.227 -186.957
7 1854.17 1876.436 -22.2655
8 2160.55 1968.713 191.8368
9 2305.58 2491.968 -186.388
10 3503.93 3313.772 190.1577
11 3571.89 3380.206 191.6835
12 3741.40 3921.155 -179.755
14 10343.81 10170.09 173.7226
15 11732.17 11556.64 175.5282
16 15414.94 15259.42 155.5162
17 18854.45 18668.6 185.8466
相关指数R=0.99966
决定系数=0.99932
测试样本预测值:
样本序号 观察值 预测值 预测偏差 预测标准偏差
2 696.82 1593.944 897.124
4 1603.62 749.4422 -854.18 894.9
13 4026.52 3767.107 -259.41
(3)17组含缺失项的数据,采用SVR,以第2、4、13组数据作为测试样本,缺失率9/14=64%,其他数据作为训练样本进行建模计算,默认ε-SVR回归,核类型默认RBF核函数,设置参数Gamma=0.3,Cost=1,点“确定”进行计算,结果如下:
支持向量机系数
项目 rho Prob.
Const-0.35402 0.142411
α1 SV1 SV2 SV3 SV4 SV5
-0.64801-1 -1 -1 -0.97101 -0.94769
-0.77518-0.96486-0.98042-1 -1 0
… … … … … …
0.464509 1 1 1 1 -0.36308
训练样本拟合值:
样本序号 观察值 拟合值 拟合误差
1 566.52 747.4165 -180.897
3 1033.15 1214.047 -180.897
5 1611.37 1436.007 175.363
6 1613.27 1794.589 -181.319
7 1854.17 2094.739 -240.569
8 2160.55 1173.97 986.5798
9 2305.58 2796.808 -491.228
10 3503.93 5938.361 -2434.43
11 3571.89 2222.868 1349.022
12 3741.4 3549.414 191.986 2
14 10343.81 10160.17 183.6415
三 分析讨论
预报功能对比计算结果汇总见表4。
从上述结果汇总表可以看出:
15 11732.17 11 915.03 -182.859
16 15414.94 15234.02 180.9159
17 18 854.45 18668.4 186.0548
相关指数R=0.98984
决定系数=0.97978
测试样本预测值:
样本序号 预测值 观察值 偏差 预测标准偏差
2 3013.668 696.82 2316.85
4 539.3487 1603.62 -1064.3 1927.9
13 3060.658 4026.52 -965.86
(1)在N/M=2.8小样本条件下,由于训练集是随机组合样本,二次多项式逐步回归算法尽管表现出良好的R,S拟合功能,但预测标准偏差比拟合S大了1~2个数量级,预报功能欠佳。
表4 预报功能对比计算结果汇总
(2)用SVR计算得到的预测标准偏差远小于用二次多项式逐步回归算法得到的预测标准偏差。因为对于随机样本而言,N/M=2.8,显然是小样本数据,说明基于小样本统计理论的SVR算法具有稀疏性、稳健性特点;而二次多项式逐步回归算法是基于样本“充分大、无限大”的大样本统计理论,样本不够“充分大”,会影响统计结果的稳定性,尤其影响预报精度。
(3)二次多项式逐步回归算法的预测标准偏差和用SVR计算含缺失项数据的预测标准偏差相当,充分说明了SVR对缺失数据及小样本问题的处理能力。但是对于N/M=2.8的小样本,缺失率高达64%时,SVR预测标准偏差还是偏高,因此需要尽可能控制缺失率。
(4)关于样本量大小问题,《化学计量学方法》指出,对无试验设计的随机样本,采用一般回归分析,根据经验规则应满足N/M>5。笔者理解这是样本“充分大”的条件。对基于试验设计及二次多项式逐步回归算法,N/M有所降低,我们将作进一步讨论。但SVR处理小样本、含缺失数据的独特功能值得学习、应用、推广。
都丽红在天津大学读博士期间就关注人工神经网络等算法,我们时有讨论。这段时间她也支持吴芳等青年同志,结合在研项目探索学习SVR算法。
本文定稿于2015年五一假期,科技工作者要善于学习新知识,敢于探索新领域,勤于实践“数字化技术+”的科技创新开发的新模式。五一假过后是五四青年节,青年同仁们努力啊,劳动托起梦想。
帝斯曼Arnitel HTTPC为汽车行业带来柔性增压热进气管新标准
最近,荷兰皇家帝斯曼集团的耐高温材料家族又添新成员——Arnitel HTTPC。
利用Arnitel HT TPC材料方案帮助汽车厂商打造极具创新性的一体式柔性热增压管,实现生产工艺一步成型,不仅极大地提高了生产效率,还可将生产成本减少约50%,减重达40%。同时,大幅降低了发动机运行中热增压管变形、泄漏和脱开的风险,为汽车行业带来柔性增压热进气管新标准。