逐步回归在统计软件中的实现及实证分析
2019-08-07潘春燕
潘春燕
【摘 要】本文首先介绍相关理论,其次借助统计软件SPSS,运用逐步回归来分析酿酒葡萄与葡萄酒理化指标之间的联系。最后得到对葡萄酒理化指标影响较大的酿酒葡萄理化指标。
【关键词】SPSS;逐步回归;理化指标
中图分类号: O212.1文献标识码: A 文章编号: 2095-2457(2019)18-0041-002
DOI:10.19694/j.cnki.issn2095-2457.2019.18.020
Stepwise Regression With Statistical Software and Eampirical Analysis
PAN Chun-yan
(School of mathematics and statistics
【Abstract】Firstly, this paper introduces the related theories. Secondly, with the help of statistical software SPSS, stepwise regression is used to analyze the relationship between physical and chemical indexes of wine grapes and wine. Finally, the physiochemical indexes of wine grape which have great influence on wine grape physiochemica indexes are obtained.
【Key words】SPSS; Stepwise Regression; Physicochemical Indexes
0 引言
葡萄酒的质量直接受酿酒葡萄好坏的影响,葡萄酒和葡萄的质量在一定程度上可由葡萄酒和酿酒葡萄检测的理化指标反应出来[1-4]。本文基于逐步回归来探索酿酒葡萄理化指标和葡萄酒理化指标之间的联系,以红葡萄酒为例。
1 逐步回归概述
运用普通最小二乘估计(OLSE)建立回归方程时,要求影响因变量的自变量个数p一定小于样本量个数n,即要求n>p[5],逐步回归对n
1.1 偏F检验
因变量y对自变量x1,x2,x3,…,xp线性回归的残差平方和为SSE,回归平方和为SSR,SSE(j)、SSR(j)为方程剔除掉xj后得到的残差平方和、回归平方和,由此得SSE(j)=SSR-SSRj为自变量xj对回归的贡献,构造偏F统计量Fj为[6]:
当原假设H0j:βj=0成立时,统计量Fj~F(1,N-p-1),其中n为样本量,p为自变量个数。
1.2 逐步回归
自变量个数为p的所有可能子集可构2p-1成个方程,最优回归方程可通过选元准则找出,逐步回归法是一种较优的选元方法。每引入一个自变量,逐步回归会对已选入的每个变量逐个进行偏F检验,如果由于新引入的变量而使原来显著的变量不再显著时,需要将不再显著的变量剔除,这个过程反复进行,直到所得到的方程自变量都显著[6]。
2 实证分析
实证数据来自2012年全国大学生数学建模竞赛A题葡萄酒的评价。
2.1 数据预处理
取附件2红葡萄酿酒葡萄中的氨基酸总量、天门冬氨酸、果色颜a*等59个理化指标作为自变量X,取红葡萄酒中的花色苷、H(D65)、C(D6)等14个理化指标作为因变量Y。其中如蛋白质、VC含量、葡萄总黄酮等理化指标有二组或三组观测数据均取其均值,为消除量纲的影响,在分析数据之前先对因变量Y与自变量X进行标准化处理。
2.2 理化指标相关性分析
通过观察可知,葡萄酒理化指标和酿酒葡萄理化指标有相同成份,分别为Y1(花色苷)与X20(花色苷)、Y2(单宁)与X28(单宁)、Y12(b*)与X53(b*)等11种,通过统计软件SPSS 20.0分析模块的分析→回归→相关→双变量,得到相同成份的葡萄酒理化指标与酿酒葡萄理化指标简单相关系数为表1。
表中**表示在0.01水平(双侧)上显著相关,从上表可知,葡萄酒理化指标与酿酒葡萄理化指标中的花色苷、单宁、酒总黄酮高度正相关;总酚是显著正相关;a*(D65)是显著负相关;L*(D65)是低度正相关;顺式白藜芦醇、b*(D65)为微弱正相关;反式白藜芦醇、反式白藜芦醇苷、顺式白藜芦醇苷是微弱负相关,微弱相关可视为不相关。
2.3 建立模型
为进一步探索葡萄酒理化指标与酿酒葡萄理化指标之间的联系,通过统计软件SPSS 20.0分析模块的分析→回归→线性→逐步,逐个对因变量Y1~Y14与自变量X1~X59建立线性回归方程,所得到模型汇总如表2所示:
从模型汇总表可知,Y1~Y14与X1~X59建立的逐步回归方程中除Y6无变量被选入,Y7的模型不理想外,其他模型样本决定系数R方都达到0.813以上,最高达到0.99;调整R方均在0.798以上,最高达到0.985;模型标准估计误差最大为0.4497,最低至0.12189,说明逐步回归模型拟合的效果较好。Y1~Y14与X1~X59建立的逐步回归方程如下:
根据回归模型可知酿酒葡萄理化指标对葡萄酒理化指标有正向或负向的影响,在此主要介绍对葡萄酒理化指标影响较大的酿酒葡萄理化指标。其中酿酒葡萄理化指标中的X1(天门冬氨酸)对红酒葡萄理化指标的花色苷、顺式白藜芦醇有影响。X2(苏氨酸)对花色苷、单宁、反式白藜芦醇苷、a*(D65)有影响。X3(脯氨酸)对反式白藜芦醇苷、C(D6)有影响。X4(谷氨酸)对a*(D65)、C(D6)有影响。X6(甘氨酸)、X17(精氨酸)、X38(总糖)都对a*(D65)、C(D6)有影响。X18(蛋白质)、X19(VC含量)都对a*(D65)、H(D65)、C(D6)有影响。X20(花色苷)对花色苷、L*(D65)、a*(D65)、b*(D65)、C(D6)有影响。X27(总酚)对单宁、总酚、DPPH半抑制体积有影响。X30(反式白藜芦醇苷)对花色苷、总酚、DPPH半抑制体积、a*(D65)有影响。X33(顺式白藜芦醇)对反式白藜芦醇苷、b*(D65)有影响。X37(异鼠李素)对单宁、L*(D65)有影响。X40(葡萄糖)对a*(D65)、H(D65)、C(D6)有影响。X50(果皮质量)对花色苷、反式白藜芦醇有影响。X59(C3)对L*(D65)、a*(D65)、C(D6)有影响。
3 总结
本文借助统计软件SPSS,基于逐步回归得到红葡萄酿酒葡萄理化指标和红葡萄酒理化指标之间的联系。根据回归模型结果可知对红葡萄酒理化指标影响较大的酿酒葡萄指标有苏氨酸、谷氨酸、蛋白质、VC含量、花色苷、总酚、反式白藜芦醇苷、葡萄糖、C3共九种理化指标。
【参考文献】
[1]丁亮,許文,武林,刘清民.基于多元统计分析的葡萄酒评价与指标关联研究[J].科学技术创新,2017(23):7-8.
[2]朱哲,董星池,许力戈,许明辉,高翔,魏楠.葡萄酒的检验与评价[J].中国新通信,2019,21(06):237.
[3]毛园园.基于多种统计分析模型的葡萄酒评价[J].中国酿造,2018,37(04):159-163.
[4]赵建国,何嘉玉,李怡婷,祝利杰.数学建模经典案例分析——以葡萄酒质量评价为例[J].无线互联科技,2018,15(09):105-106.
[5]何晓群.应用回归分析.北京:中国人民大学出版社,2015.
[6]何晓群.回归分析与经济数据建模.北京:中国人民大学出版社,1997.