多元非线性回归分析在葡萄酒质量评价中的应用
2014-12-09向华艳周洪健
方 壮,向华艳,周洪健
( 湖北民族学院 理学院,湖北 恩施445000)
葡萄酒口感丰富,有较好的保健功能,深受世界各地饮酒者的喜爱.葡萄酒的质量是葡萄酒的一种特性,它代表了葡萄酒优秀的程度.复杂性和协调性构成了葡萄酒质量的主要属性.在评价葡萄酒质量时一般是通过聘请一批有资质的评酒员进行感官评定,每个评酒员在对葡萄酒品尝后进行打分,然后确定出葡萄酒的质量.但是在感官评定中,由于品酒员间存在评价尺度、评价位置和评定方法等方面的差异,导致不同品酒员对同一种酒的评价差异性较大,从而影响到葡萄酒的质量的评价结果,所以找出更准确的评价葡萄酒质量的方法是必要的.酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量.因此,研究葡萄酒和酿酒葡萄的理化标之间的联系对综合评价葡萄酒的质量有着重要意义[1],很多学者利用统计方法进行了研究[2-6],李珠等[7]利用模糊决策方法,为酿酒葡萄的分级提供了依据.本文依据酿酒葡萄及葡萄酒的理化指标,通过建立多元非线性回归分析模型,研究了葡萄酒质量与葡萄酒理化指标之间的关系.
1 数据的处理及相关性分析
1.1 数据标准化
本文数据来自文献[8],为了消除量纲影响和变量自身变异大小和数值大小的影响,利用标准化后的数据进行数据分析.数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score 标准化”和“按小数定标标准化”等.经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析.本文采用的是Z-score 标准化法,即对序列x1,x2,…,xn进行变换:
以葡萄酒的第一个理化指标和葡萄各项理化指标部分数据组成的数据矩阵A(表1)为例,其结果见表2.由表1 可以看出不同的理化指标数据相差较大,而由表2 可见,经过标准化了的数据在0 附近上下波动.
表1 原始数据ATab.1 Initial data A
表2 标准化的数据矩阵A*Tab.2 Standardized data A*
1.2 相关分析
1.2.1 求解相关系数 相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法.为了度量变量之间关联程度,常用的指标是相关系数.相关系数r的计算公式为:
其中Xi,Yi分别为两个变量序列分别为两个变量序列的均值.相关系数的取值范围为-1≤r≤1,且相关程度与相关系数的取值关系为:当时,极强相关;当时,强相关;当0.4≤时,中等程度相关;当时,弱相关;当时,极弱相关或无相关.
根据式(2)对数据矩阵A*进行相关分析,然后得出葡萄酒的各项理化指标与酿酒葡萄的理化指标的相关系数矩阵,但本文所需要的是葡萄酒的理化指标与葡萄各项理化指标的相关系数,所以只需要从矩阵中提取出第1 行及第2 到第31 列的数据,这些数据即为葡萄酒的第一个理化指标与葡萄的各项理化指标的相关系数,结果见表3.
表3 相关系数RTab.3 Correlation coefficent R
1.2.2 筛选相关系数 筛选出酿酒葡萄的理化指标与葡萄酒的理化指标相关系数的酿酒葡萄的理化指标,组成新的变量G,F,因为这些理化指标与葡萄酒的理化指标相关程度较大.计算可得,葡萄酒的第一个理化指标f1与酿酒葡萄理化指标之间相关系数的分别是g4,g6,g9,g11,g12,它们代表的理化指标分别是花色苷、苹果酸、褐变度、总酚、单宁,其相关系数见表4.
表4 葡萄酒第一个理化指标与葡萄理化指标的相关性Tab.4 Ccrrelations between the physicochemi indexes of wine grapes and wine
同理,葡萄酒的其它各项理化指标与酿酒葡萄理化指标相关系数的理化指标和相关系数,见表5.
表5 相关分析结果Tab.5 The result of correlation aralysis
结果显示,与葡萄酒第2 个、第3 个、第4 个、第6 个、第7 个理化指标相关性较强的葡萄理化指标都只有5 项,它们分别是花色苷、DPPH 自由基、总酚、单宁、葡萄总黄酮,而没有与葡萄酒第5 个、第8 个、第9 个理化指标相关性较强的葡萄理化指标,所以在求解多元非线性回归方程时有5 个自变量,只有6 个方程.
2 葡萄酒质量评价模型
2.1 模型的建立
将筛选出的酿酒葡萄理化指标G作为自变量,与其对应的葡萄酒的理化指标F作为因变量,多个自变量对因变量的影响是非线性的,其数学模型可看成由三部分组成:各自变量单个变化的影响,各自变量自乘方次的影响和各自变量互相组合的影响之和[9].因此,多元非线性回归分析模型则是:
其中m为自变量个数,也是自变量的最高次幂;N为试验次数,即葡萄的样品数.Q为回归方程项数,且Q=模型中要使差值Di最小,即:
使Z最小.利用最小二乘法和极值原理,先去掉b和b*的原下角和上角,再按各项先后顺序命名为b0,b1,…,bQ-1,分别对b0,b1,…,bQ-1求偏导,并令其等于零,则有:
再继续求导,可得规范方程组:
可推出非线性回归方程的系数矩阵为:
其中:
2.2 模型的求解
多元非线性回归方程求解(以葡萄酒第一个理化指标为例)
此方程反应了酿酒葡萄的理化指标与葡萄酒的理化指标之间的关系.然后重复上述步骤即可求解出葡萄酒的质量与葡萄酒理化指标的多元非线性回归方程,结果如下.
3 结果及分析
将用多元非线性回归模型求解出的葡萄酒的质量的拟合值与实际值数据对比结果如图1 示.
图1 葡萄酒质量拟合值与实际值对照图Fig.1 Actual values and fitted values comparison chart
由图1 可以看出,通过方程求出的葡萄酒质量值与葡萄酒质量实际值的变化趋势是几乎一致的.差别较大的是葡萄酒样品23 质量的实际值与回归方程求解出的值相差较大,因为葡萄样品23 等级最高,品质最好,在同种条件下由其酿造出的葡萄酒质量最好,但由品酒员给出的分数较低.而由回归方程求解出的值较为合理,由此也说明了多元非线性回归模型评价葡萄酒质量的合理性.
[1] 李记明.关于葡萄品质的评价指标[J].中外葡萄与葡萄酒,1999(1):56-59.
[2] 谢辉,樊丁宇,张雯,等.统计方法在葡萄理化指标简化中的应用[J].新疆农业科学,2011(8):1434-1437.
[3] 李运,李记明,姜忠军.统计分析在葡萄酒质量评价中的应用[J].酿酒科技,2009(4):79-82.
[4] 凌佳,言方荣.K 均值聚类在葡萄酒分级中的应用[J].食品工业科技,2013(6):104-107.
[5] 张威强,颜孙强,叶杨烽,等.基于建模分析方法对葡萄酒质量的评价[J].酿酒科技,2014(1):118-120.
[6] 高鑫,杨如艳,官晓飞,等.葡萄酒评酒专家评价的可信度量化模型及应用[J].云南农业大学学报:自然科学版,2014(2):235-240.
[7] 李珠,蒋辉,杨国强,等.葡萄酒和葡萄数据的统计分析方法——2012 年全国数模竞赛题的实证研究[J].中国酿造,2013(4):136-140.
[8] 全国大学生数学建模竞赛组委会.2012 年全国大学生数学建模竞赛A 题数据[EB/OL].(2012-09-08)[2014-09-28].http://www.mcm.edu.cn/html_cn/block/c61dfec317d7a5bd9b2b8efed81c8af3.html.
[9] 方中行.多元非线性数据拟合模型的数学推论及其回归方程的计算机拟合[J].数据采集与处理,1992,17(4):246-252.