APP下载

第二十七讲 SVR对小样本缺失数据的挖掘处理

2018-08-04徐静安都丽红

上海化工 2018年7期
关键词:决定系数标准偏差序号

徐静安 吴 芳 都丽红

第二十六讲“支持向量机(SVM)简介及DPS应用操作”简要介绍了SVM的概念、原理、模型、算法及支持向量回归(SVR)案例在DPS系统中的操作应用。由于SVM是基于小样本的统计理论,在小样本案例中,计算结果能获得较好的统计效果。一些情况下,难以获得“充分大”的大样本实验数据,例如:难以安排大范围考察的试验设计的场合,如中试以上规模的装置;实验周期较长的响应,如材料老化、蠕变,稳定性同位素平衡时间,农化盆栽试验,弱腐蚀体系甲醇汽油的腐蚀行为等;实验费用大的对象,如部件的破坏性检测;等等。而与传统的、经典的基于大样本统计理论的算法相比,SVR在统计分析、数据挖掘中有其独特功能。

此外,在数据样本的收集中,有涉及历史性的过去记录,有涉及地域性的宏观尺度记录,也有在实验中因种种原因导致部分输入变量的缺失,难以保证数据的完整性。一般回归算法无法处理缺失数据,而SVR算法具有处理缺失数据的功能。下面采用一个案例对一般回归算法和SVR算法进行回归精度对比,同时采用SVR对含缺失项数据进行回归处理。

案例摘编于唐启义著《DPS数据处理系统——实验设计、统计分析及数据挖掘》(第二版)第25.1节第658页,该案例为研究医院所需要的人力,对某地区17家医院调查了一组数据,考察5个变量因子[日平均病人数x1,月平均 X光透视人数x2,月平均所占用的床位天数x3,当地人口数相关的参数(人口数除以1000)x4,平均每个病人住院天数x5]与月平均使用的人小时数y之间的关系,数据表如表1所示。

在医院所需要的人力数据例子中,有9个样本含有缺失数据,数据缺失率达到9/17=53%,含缺失项的数据表如表2所示。

表1 17组完整数据

该案例包含M=5个输入变量,共N=17组随机数据,由于没有可能进行试验设计,属于社会统计类随机数据,N/M=17/5=3.4,为小样本问题。对表1中的17组完整数据和表2中含缺失项的17组数据,分别采用二次多项式逐步回归方法和SVM算法进行学习建模,比较其回归效果。

一 SVR的拟合计算

1 对17组完整数据的计算

(1)将表1中的17组完整数据输入DPS,选中数据块,在菜单下选择“多元分析”→“支持向量机(SVM)”→“SVM回归”,各参数设为默认值,计算结

表2 17组含缺失项的数据

果如下:

支持向量机系数

项目 rho Prob.

Const -0.4281 0.0693

α1 SV1 SV2 SV3 SV4 SV5

-1 -1 -0.9902-1 -0.9531-0.8401

-1 -0.885-1 -0.8848-1 -0.1221

………………

0.5101 1 1 1 1 -0.2878

各样本实际值与拟合值对比:

样本序号 观察值 拟合值 拟合误差

1 566.52 1009.6226 -443.1026

2 696.82 1087.6993 -390.8793

3 1033.15 1158.4982 -125.3482

4 1603.62 1421.6036 182.0164

5 1611.37 1428.2817 183.0883

6 1613.27 1801.5872 -188.3172

7 1854.17 1546.367 307.803

8 2160.55 1699.5056 461.0444

9 2305.58 2516.8053 -211.2253

10 3503.93 3692.2467 -188.3167

11 3571.89 2955.2134 616.6766

12 3741.4 3927.4732 -186.0732

13 4026.52 3835.5278 190.9922

14 10343.81 10166.245 177.5647

15 11732.17 11543.797 188.3732

16 15414.94 15232.666 182.2737

17 18854.45 18664.536 189.9138

相关指数R=0.99869

决定系数=0.99738

计算结果与《DPS数据处理系统——实验设计、统计分析及数据挖掘》第43.4节第1 079页的计算结果一致,证明软件及操作正常。

(2)SVR计算时需要根据经验对模型参数进行合适的调整,针对表1中的17组完整数据,默认ε-SVR回归,核类型默认RBF核函数,设置参数Gamma=0.5,Cost=20,点“确定”进行计算,结果如下:支持向量机系数

项目 rho Prob.

Const -0.39725 0.063673778

α1 SV1 SV2 SV3 SV4

-6.3964-1.0000 -0.9902 -1.0000 -0.9531

-0.5338-0.8850 -1.0000 -0.8848 -1.0000

… … … … …

0.5281 1.0000 1.0000 1.0000 1.0000

各样本实际值与拟合值对比:

样本序号 观察值 拟合值 拟合误差

1 566.52 754.3669 -187.8469

2 696.82 885.3938 -188.5738

3 1033.15 852.3373 180.8127

4 1603.62 1422.6666 180.9534

5 1611.37 1544.7208 66.6492

6 1613.27 1799.0961 -185.8261

7 1854.17 1699.2218 154.9482

8 2160.55 1971.2461 189.3039

9 2305.58 2490.3879 -184.8079

10 3503.93 3683.8212 -179.8912

11 3571.89 3384.1579 187.7321

12 3741.40 3927.6738 -186.2738

13 4026.52 3880.1318 146.3882

14 10343.81 10162.0147 181.7953

15 11732.17 11548.3234 183.8466

16 15414.94 15226.429 6 188.5104

17 18854.45 18668.4301 186.0199

相关指数R=0.99959

决定系数=0.99917

计算结果表明,计算参数的调整、优化、有助于提高SVR的统计效果。

2 对17组含缺失项数据的计算

将表2中17组含缺失项的数据输入DPS,选中数据块,在菜单下选择“多元分析”→“支持向量机(SVM)”→“SVM回归”,默认ε-SVR回归,核类型默认RBF核函数,设置参数Gamma=0.5,Cost=20,点“确定”进行计算,结果如下:

支持向量机系数

项目 rho Prob.

Const -0.240427 0.171624867

α1 SV1 SV2 SV3 SV4 SV5

-0.8623-1.0000-0.9902-1.0000-0.9531-0.8401

-1.1279-0.8850-1.0000-0.8848-1.0000-0.1221

………………

0.5758 1.0000 1.0000 1.0000 1.0000-0.2878

各样本实际值与拟合值对比:

样本序号 观察值 拟合值 拟合误差

1 566.52 746.4817 -179.9617

2 696.82 876.8195 -179.9995

3 1033.15 1219.5511 -186.4011

4 1603.62 1418.2401 185.3799

5 1611.37 1420.9649 190.4051

6 1613.27 1798.8477 -185.5777

7 1854.17 2034.3811 -180.2111

8 2160.55 1979.5489 181.0011

9 2305.58 2486.7392 -181.1592

10 3503.93 3694.4714 -190.5414

11 3571.89 3382.0229 189.8671

12 3741.4 3555.2059 186.1941

13 4026.52 4184.9494 -158.4294

14 10343.81 10167.4259 176.3841

15 11732.17 11552.0609 180.1091

16 15414.94 15234.8054 180.1346

17 18854.45 18674.3155 180.1345

相关指数R=0.99957

决定系数=0.99914

计算结果表明,SVR算法对小样本缺失数据处理能获得较好的统计效果。

3 计算结果对比及相关讨论

上述计算中拟合模型相关指数对比见表3。

从计算结果可知,采用SVM算法,对17组完整数据的拟合相关指数R和对17组含缺失数据的拟合相关指数R相当,说明SVR算法在处理8组完整数据加9组缺失数据,即数据缺失率达到53%时,仍可以提取出缺失数据中的有用信息,充分体现出其在处理小样本问题时的优势。

表3 拟合模型相关指数对比

二 算法预报计算

上述计算、比对、分析仅限于统计上的拟合功能,而当今数理统计领域开发出不同算法软件的功能模块,大都具有较强的拟合功能,评价一种算法模型的好坏,更需要考察不同算法的预报功能,可惜原案例无此项内容。

对算法模型预报功能的评价通常有两种方法:一种是对训练集,采用“留一法”求出press,进行比对分析;第二种是建立测试集进行验证计算。

为了探索不同算法的预报功能,现从17组数据中随机提取3组(第2,4,13组)作为测试集样本,剩余的N=14组作为训练集样本,N/M=14/5=2.8,小样本问题,采用二次多项式逐步回归算法和SVR进行回归计算,评价预测结果的好坏。

(1)采用二次多项式逐步回归算法对17组完整数据中的剩余14组建立回归模型,对第2,4,13组数据进行预测,结果如下:

回归方程:

y=-7426.28906-1845.1406302×X1-

0.4271682968 ×X2+63.26921322×X3-44.40050542×

X4+3519.913415×X5-385.8870710×X5×X5+

375.6553905 ×X1×X5+0.07593567801×X2×X5-

12.443195223 ×X3×X5

方差分析表

变异来源 平方和 自由度 均方 F值 p值

回归 4.59×1089 50972674 5559.168 1×10-7

残差 36676.48 4 9169.119

总变异 4.59×10813

回归系数 标准回归系数 偏相关 t值 p值

X1-1845.14 -53.2561 -0.96444 7.297596 0.001875

X2-0.42717 -1.6416 -0.97505 8.784748 0.000926

X363.26921 55.68987 0.965787 7.448154 0.001736

X4-44.4005 -0.85545 -0.98688 12.22365 0.000257

X53519.913 0.969894 0.978138 9.407209 0.000712

X5×X5-385.887 -1.59376 -0.98364 10.91892 0.0004

X1×X5375.655 4 89.93544 0.968777 7.81486 0.001447

X2×X50.075936 2.09125 0.980267 9.917849 0.00058

X3×X5-12.4432 -90.7839 -0.9687 7.804232 0.001455

复相关系数R=0.999960 决定系数R2=0.999920

剩余标准差SSE=95.7555 Durbin-Watson统计量d=2.5854

调整相关系数Ra=0.999870

调整决定系数Ra2=0.999740

训练样本拟合值:

样本序号 观察值 拟合值 拟合误差

1 566.52 610.4081 -43.8881

3 1 033.15 963.0159 70.13408

5 1611.37 1751.8510 -140.481

6 1 613.27 1 612.7010 0.569138

7 1854.17 1764.7250 89.44493

8 2160.55 2148.5900 11.95987

9 2305.58 2270.0490 35.53089

10 3503.93 3506.5050 -2.57484

11 3571.89 3579.4300 -7.54024

12 3741.40 3762.2790 -20.8793

14 10343.81 10331.0000 12.81042

15 11732.17 11735.6200 -3.44694

16 15 414.94 15 413.1500 1.79406

17 18854.45 18857.8800 -3.432 97

测试样本预测值:

样本序号 观察值 预测值 预测偏差 预测标准偏差

2 696.82 843.9442 147.1242

4 1603.62-794.921 -2398.54 1971.8

13 4026.52 2611.822 -1414.7

(2)针对 17组完整数据,采用 SVR,以第 2、4、13组数据作为测试样本,其他数据作为训练样本进行建模计算,默认ε-SVR回归,核类型默认RBF核函数,设置参数 Gamma=0.3,Cost=20,点“确定”进行计算,结果如下:支持向量机系数

项目 rho Prob.

Const-0.356110.063326

α1 SV1 SV2 SV3 SV4 SV5

-4.66463-1 -1 -1 -0.97101 -0.94769

3.726036 -0.98039-0.96486-0.98042-1 -1

… … … … … …

0.553303 1 1 1 1 -0.36308训练样本拟合值:

样本序号 观察值 拟合值 拟合误差

1 566.52 756.746 -190.226

3 1033.15 855.7748 177.3752

5 1611.37 1788.403 -177.033

6 1613.27 1800.227 -186.957

7 1854.17 1876.436 -22.2655

8 2160.55 1968.713 191.8368

9 2305.58 2491.968 -186.388

10 3503.93 3313.772 190.1577

11 3571.89 3380.206 191.6835

12 3741.40 3921.155 -179.755

14 10343.81 10170.09 173.7226

15 11732.17 11556.64 175.5282

16 15414.94 15259.42 155.5162

17 18854.45 18668.6 185.8466

相关指数R=0.99966

决定系数=0.99932

测试样本预测值:

样本序号 观察值 预测值 预测偏差 预测标准偏差

2 696.82 1593.944 897.124

4 1603.62 749.4422 -854.18 894.9

13 4026.52 3767.107 -259.41

(3)17组含缺失项的数据,采用SVR,以第2、4、13组数据作为测试样本,缺失率9/14=64%,其他数据作为训练样本进行建模计算,默认ε-SVR回归,核类型默认RBF核函数,设置参数Gamma=0.3,Cost=1,点“确定”进行计算,结果如下:

支持向量机系数

项目 rho Prob.

Const-0.35402 0.142411

α1 SV1 SV2 SV3 SV4 SV5

-0.64801-1 -1 -1 -0.97101 -0.94769

-0.77518-0.96486-0.98042-1 -1 0

… … … … … …

0.464509 1 1 1 1 -0.36308

训练样本拟合值:

样本序号 观察值 拟合值 拟合误差

1 566.52 747.4165 -180.897

3 1033.15 1214.047 -180.897

5 1611.37 1436.007 175.363

6 1613.27 1794.589 -181.319

7 1854.17 2094.739 -240.569

8 2160.55 1173.97 986.5798

9 2305.58 2796.808 -491.228

10 3503.93 5938.361 -2434.43

11 3571.89 2222.868 1349.022

12 3741.4 3549.414 191.986 2

14 10343.81 10160.17 183.6415

三 分析讨论

预报功能对比计算结果汇总见表4。

从上述结果汇总表可以看出:

15 11732.17 11 915.03 -182.859

16 15414.94 15234.02 180.9159

17 18 854.45 18668.4 186.0548

相关指数R=0.98984

决定系数=0.97978

测试样本预测值:

样本序号 预测值 观察值 偏差 预测标准偏差

2 3013.668 696.82 2316.85

4 539.3487 1603.62 -1064.3 1927.9

13 3060.658 4026.52 -965.86

(1)在N/M=2.8小样本条件下,由于训练集是随机组合样本,二次多项式逐步回归算法尽管表现出良好的R,S拟合功能,但预测标准偏差比拟合S大了1~2个数量级,预报功能欠佳。

表4 预报功能对比计算结果汇总

(2)用SVR计算得到的预测标准偏差远小于用二次多项式逐步回归算法得到的预测标准偏差。因为对于随机样本而言,N/M=2.8,显然是小样本数据,说明基于小样本统计理论的SVR算法具有稀疏性、稳健性特点;而二次多项式逐步回归算法是基于样本“充分大、无限大”的大样本统计理论,样本不够“充分大”,会影响统计结果的稳定性,尤其影响预报精度。

(3)二次多项式逐步回归算法的预测标准偏差和用SVR计算含缺失项数据的预测标准偏差相当,充分说明了SVR对缺失数据及小样本问题的处理能力。但是对于N/M=2.8的小样本,缺失率高达64%时,SVR预测标准偏差还是偏高,因此需要尽可能控制缺失率。

(4)关于样本量大小问题,《化学计量学方法》指出,对无试验设计的随机样本,采用一般回归分析,根据经验规则应满足N/M>5。笔者理解这是样本“充分大”的条件。对基于试验设计及二次多项式逐步回归算法,N/M有所降低,我们将作进一步讨论。但SVR处理小样本、含缺失数据的独特功能值得学习、应用、推广。

都丽红在天津大学读博士期间就关注人工神经网络等算法,我们时有讨论。这段时间她也支持吴芳等青年同志,结合在研项目探索学习SVR算法。

本文定稿于2015年五一假期,科技工作者要善于学习新知识,敢于探索新领域,勤于实践“数字化技术+”的科技创新开发的新模式。五一假过后是五四青年节,青年同仁们努力啊,劳动托起梦想。

帝斯曼Arnitel HTTPC为汽车行业带来柔性增压热进气管新标准

最近,荷兰皇家帝斯曼集团的耐高温材料家族又添新成员——Arnitel HTTPC。

利用Arnitel HT TPC材料方案帮助汽车厂商打造极具创新性的一体式柔性热增压管,实现生产工艺一步成型,不仅极大地提高了生产效率,还可将生产成本减少约50%,减重达40%。同时,大幅降低了发动机运行中热增压管变形、泄漏和脱开的风险,为汽车行业带来柔性增压热进气管新标准。

猜你喜欢

决定系数标准偏差序号
倾斜改正在连续重力数据预处理中的应用
基于Python语言路径分析矩阵算法运演
不同规格香港牡蛎壳形态性状对重量性状的影响
2种贝龄合浦珠母贝数量性状的相关与通径分析
基于颜色读数识别物质浓度的数学模型研究
平滑与褶皱表面目标的散射光谱的研究
技术指标选股
技术指标选股
技术指标选股
技术指标选股