葡萄酒的评价模型
2014-05-26李东旭
李东旭
摘 要:该文首先对数据进行预处理剔除误差数值,对数据进行分布检验,通过Lillifors统计法修正Shapiro-Wilk统计量后确定评价得分的分布,由Shapiro-Wilk检验的显著水平值Sig.可判断数据是否符合正态分布,当数据的显著水平值Sig.<0.05时可拒绝数据的正态分布假设。同时考虑数据的正态分布偏度Skewness以及数据的正态分布峰度Kurtosis。计算得评价结果不属于标准正态分布。对两组数据的红、白两种葡萄酒的评价结果各进行显著性差异分析,数据处理的方法采用Wilcoxon符号秩检验法,同时对比符号检验得到的数据,结果为红葡萄酒相伴概率为4.8995e-005,白葡萄酒的相伴概率为5.25641e-006均小于显著性水平0.05,因此可认为两组品酒员评价结果中红、白葡萄酒均具有显著性差异。
关键词:Wilcoxon符号秩检验 Cronbach alpha信度系数 Q型层次聚类分析 逐步回归分析 累积贡献率
中图分类号:C81 文献标识码:A 文章编号:1674-098X(2014)01(c)-0246-02
1 问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的品酒员进行品评。每个品酒员在对葡萄酒进行品尝后对其分类指标打分,然后通过求和得到其总分,从而确定葡萄酒的质量。同时,酿酒葡萄的好坏亦与所酿葡萄酒的质量有直接关系,葡萄酒与酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。根据附件所提供的有关数据建立适当的数学模型以解决下列问题:
(1)分析两组品酒员的评价结果有无显著性差异,说明哪一组的数据可信度更高。
(2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
(3)分析酿酒葡萄与葡萄酒理化指标之间的联系。
(4)分析酿酒葡萄与葡萄酒理化指标对葡萄酒质量的影响,并论证用葡萄和葡萄酒理化指标来评价葡萄酒质量的可行性。
2 模型假设
(1)题目附件中所提供的各项理化指标数据均真实可靠;
(2)酿酒葡萄和葡萄酒的理化指标和芳香物质在一定时间内不发生改变;
(3)酿酒工艺和贮存条件等对葡萄酒质量及理化指标无影响;
(4)评酒员打分是公平可信的。
3 问题分析
3.1 问题一:葡萄酒评价结果的显著性差异及可信度分析
由题知葡萄酒质量的评价是通过品酒员对酒样进行的评分数值来评价的,由于品酒员间存在的个体差异,因而在进行数据显著性差异检验之前,首先对所给数据进行预处理以排除错误的数据对最后结果的影响。对每种酒的得分数据检验其分布,根据具体的分布特征确定合理的数据处理方式以检验其显著性差异;对于两组品酒员评价结果的可信度。
3.2 问题二:酿酒葡萄的分级分析
葡萄酒的质量很大程度上取决于酿酒葡萄的质量,对酿酒葡萄进行分级时考虑将葡萄酒的质量评分作为参考标准,同时加入酿酒葡萄的理化指标作为参考。首先对附件所给数据进行预处理,排除错误的数据对最后结果的影响。同时对数据进行标准化处理,得出综合理化指标。对酿酒葡萄进行分级时选取合适的聚类分析方法确定酿酒葡萄分级层数并分级。
3.3 问题三:理化指标对葡萄酒质量评价的分析
由于需要考量能否可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,分析两者间关系时还应考虑到附件3中所给的芳香物质是否也对前两者有一定的影响。由于附件所给数据繁多,在评价分析之前应先对数据进行筛选,选出更具有代表性的值。同时在筛选之后将酿酒葡萄理化指标、葡萄酒理化指标以及芳香物质分别对葡萄酒的评价得分进行分析。
4 模型的建立与求解
4.1 葡萄酒评价结果的显著性差异及可信度分析模型
4.1.1 葡萄酒评价结果数据预处理
对附件1中数据通过Excel筛选观察时可发现某些数据错误,如:第一组红葡萄酒品尝评分中酒样品20号下4号品酒员对于外观分析的色调评价数据缺失;第一组白葡萄酒品尝评分中酒样品3号下7号品酒员对于口感分析的持久性评价数据为77,明显超过该项上限8;第一组白葡萄酒品尝评分中酒样品8号下9号品酒员对于口感分析的持久性评价数据为16,明显超过该项上限8等。对这些异常数据为减少其对于总体评价结果的影响,采取预处理:取该酒样对应误差项目其余品酒员评价结果平均值替代该异常数据。
4.1.2 葡萄酒质量评价模型建立与求解
由于样本容量大,为方便计算以及更好地突出单项指标与评价结果的关系,对酿酒葡萄理化指标、葡萄酒理化指标以及芳香物质分别进行主成分分析。当主成分分析的累积贡献率达到85%以上时取相应的数据项目作为该数据的主要成分。其基本原理为:
(1)确定分析变量,搜集数据资料
假如搜集到的来自原始变量样本观测数据矩阵一矩阵。
(2)对原始数据进行标准化变换
原始数据标准化变换是为了消除由于量纲的不同可能带来的一些不合理影响。
(3)计算原始观测变量样本数据矩阵经标准化变换后的协方差
(4)用样本协方差代替总体协方差阵,计算的所有特征根及相应的特征向量,并按的大小顺序排列,为经过标准变化后的值。
(5)计算主成分的贡献率及积累贡献率;各变量的信息提取率。其中,贡献率为;累积贡献率为;变量的信息提取率为。
4.1.3 酿酒葡萄分级的型聚类模型建立与求解
Q型聚类是层次聚类分析的一种形式,其根据观察值或变量之间的亲疏程度将最相似的对象结合在一起,以逐次聚类拟合的方式(Agglomerative Clustering)将观察值分类,直到最后所有样本都聚成一类。endprint
Q型聚类可以使具有共同特点的样本聚集在一起,以便对不同类的样本进行分析。其中,样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。当样本有个变量,则可以将样本看成是一个k维空间的一个点,样本和样本之间的距离就是k维空间点和点之间的距离,这反映了样本之间的亲疏程度。聚类时,距离相近的样本属于一类,距离较远的样本属于不同类。
在度量距离时常采用样本距离测量方法有:欧式平方距离、距离、距离等。其中,表示么个样本有个变量;表示第一个样本在第个变量上的取值;表示第二个样本在第个变量上的取值。
在处理样本数据各数据之间的亲疏关系时,常用的亲疏程度测量方法有:离差平方和法、类内平均链锁法、重心法等。由于前面距离度量采取了欧式平方距离,因而此处选用离差平方和法,使得小类内各个样本的欧式距离总平方和增加最小的两小类合并成一类。
4.1.4 数据预处理标准化及综合理化指标
在处理附件2中数据时可以发现某些存在异常的数据值,如:葡萄理化指标中白葡萄百粒质量的第三次检测值为2226.1 g,明显超过其它两次的检测值。为避免异常数据值对分级结果的影响,取其它两次值的平均值替代该异常值。同时对数据进行标准化处理,取其分数:
其中,为变量值,为平均数,为标准差。分数表示的是此变量大于或小于平均数几个标准差。由于分数分母的单位与分子的单位相同,故分数没有单位,因而可以用分数来比较两个从不同单位总体中抽出的变量值。同时将原始数据直接转化为分数时,常会出现负数和带小数点的值。
由于数据中所需分析的红、白葡萄酒指标有114个,指标间存在一定的内部联系并具有明显的共线性,首先对数据进行降维处理:
(1)以红、白酿酒葡萄的理化性质(一级指标)为自变量,以葡萄酒得分作因变量做线性回归,表示第中葡萄酒的分数,对于红葡萄酒,;对于白葡萄酒,;为第种酒的第个理化指标,为系数。所得线性方程形式如下:
(2)由于对葡萄的所有理化指标进行分析过于繁琐,因而将所有理化指标降维综合成一个理化指标。对于上式所得的31个系数其中数值有正负。将系数为正的项提取出来作为有利项,系数为负的项作为有害项。将所有有利、有害项与其所对应指标相乘并取绝对值,计算两者间的平方根之和的差值,分别得红、白葡萄的综合理化指标模型,形式如下:
其中,为第种葡萄的第个有利项,;为第种葡萄的第个有害项,;为第种葡萄的综合理化指标。
5 模型的评价与改进
5.1 问题一模型的评价与改进
模型显著性差异评价系统准确。引入了系数作为评价可信度的标准,可综合评价信度但计算得到两组间可靠性系数差值小,区分度不够。模型在改进和推广时,除了讨论同两种酒之间的可信度系数,也可以继续讨论两组评价结果组内结果得可信度系数。
5.2 问题二模型的评价与改进
模型引入综合理化指标,对多维数据进行降维简便易行。采用型层次聚类分析得到树状图清晰,可准确描述分级级别数。引入聚类方法评价指标可以准确解释分级级数的选择。模型虽然在分类等级上分为“品质优秀”、“品质良好”和“品质较差”三类,但类目下葡萄样本分布不能在样本数上体现三种等级的差异。同时各对应葡萄酒平均值差值小,说明模型区分度不够。
5.3 问题三模型的评价与改进
模型对理化指标进行筛选后逐步回归分析,数据拟合程度较好。减少了庞大数据所造成的相关性不明显的情况。但酿酒葡萄理化指标分类少,不能更全面地涵盖酿酒葡萄与葡萄酒的理化指标之间的联系。
5.4 问题四模型的评价与改进
模型突出单项指标与评价结果的关系,排除了庞大数据中不重要的项,结果更有针对性。在对四类理化指标与葡萄酒评分进行相关分析时,应对所有筛选指标进行考察,选出最少项数对应的对应理化指标单项进行进一步的相关性分析,则结果会更为准确。
参考文献
[1] 陈胜可.SPSS统计分析从入门到精通[M].北京:清华大学出版社,2010:453.
[2] 卢纹岱.SPSS for Windows统计分析[M].3版.北京:电子工业出版社,2006:153.
[3] (加)乔治(George,D.),(加)马勒瑞(Mallery,P.)著;SPSS统计分析简明教程何丽娟,李征,韦玉译.[M].10版.北京:电子工业出版社,2011:96.
[4] 倪雪梅.精通SPSS统计分析[M].北京:清华大学出版社,2010:158.
[5] 柯惠新,沈浩.调查研究中的统计分析法[M].2版.北京:中国传媒大学出版社 2005:330.
[6] 庄宇,徐欢,任更新.应用数据可信度分析重构科技创新指标体系[J].情报杂志,2006(1):12-13.
[7] 谢蕾蕾,宋志刚,何旭洪.SPSS统计分析实用教程[M].2版.北京:人民邮电出版社,2013:51、205.
[8] 王岩,隋思涟.试验设计与MATLAB数据分析[M].北京:清华大学出版社,2012.
[9] 王力宾.多元统计分析:模型、案例及SPSS应用[M].北京:经济科学出版社,2010:31、e208.endprint
Q型聚类可以使具有共同特点的样本聚集在一起,以便对不同类的样本进行分析。其中,样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。当样本有个变量,则可以将样本看成是一个k维空间的一个点,样本和样本之间的距离就是k维空间点和点之间的距离,这反映了样本之间的亲疏程度。聚类时,距离相近的样本属于一类,距离较远的样本属于不同类。
在度量距离时常采用样本距离测量方法有:欧式平方距离、距离、距离等。其中,表示么个样本有个变量;表示第一个样本在第个变量上的取值;表示第二个样本在第个变量上的取值。
在处理样本数据各数据之间的亲疏关系时,常用的亲疏程度测量方法有:离差平方和法、类内平均链锁法、重心法等。由于前面距离度量采取了欧式平方距离,因而此处选用离差平方和法,使得小类内各个样本的欧式距离总平方和增加最小的两小类合并成一类。
4.1.4 数据预处理标准化及综合理化指标
在处理附件2中数据时可以发现某些存在异常的数据值,如:葡萄理化指标中白葡萄百粒质量的第三次检测值为2226.1 g,明显超过其它两次的检测值。为避免异常数据值对分级结果的影响,取其它两次值的平均值替代该异常值。同时对数据进行标准化处理,取其分数:
其中,为变量值,为平均数,为标准差。分数表示的是此变量大于或小于平均数几个标准差。由于分数分母的单位与分子的单位相同,故分数没有单位,因而可以用分数来比较两个从不同单位总体中抽出的变量值。同时将原始数据直接转化为分数时,常会出现负数和带小数点的值。
由于数据中所需分析的红、白葡萄酒指标有114个,指标间存在一定的内部联系并具有明显的共线性,首先对数据进行降维处理:
(1)以红、白酿酒葡萄的理化性质(一级指标)为自变量,以葡萄酒得分作因变量做线性回归,表示第中葡萄酒的分数,对于红葡萄酒,;对于白葡萄酒,;为第种酒的第个理化指标,为系数。所得线性方程形式如下:
(2)由于对葡萄的所有理化指标进行分析过于繁琐,因而将所有理化指标降维综合成一个理化指标。对于上式所得的31个系数其中数值有正负。将系数为正的项提取出来作为有利项,系数为负的项作为有害项。将所有有利、有害项与其所对应指标相乘并取绝对值,计算两者间的平方根之和的差值,分别得红、白葡萄的综合理化指标模型,形式如下:
其中,为第种葡萄的第个有利项,;为第种葡萄的第个有害项,;为第种葡萄的综合理化指标。
5 模型的评价与改进
5.1 问题一模型的评价与改进
模型显著性差异评价系统准确。引入了系数作为评价可信度的标准,可综合评价信度但计算得到两组间可靠性系数差值小,区分度不够。模型在改进和推广时,除了讨论同两种酒之间的可信度系数,也可以继续讨论两组评价结果组内结果得可信度系数。
5.2 问题二模型的评价与改进
模型引入综合理化指标,对多维数据进行降维简便易行。采用型层次聚类分析得到树状图清晰,可准确描述分级级别数。引入聚类方法评价指标可以准确解释分级级数的选择。模型虽然在分类等级上分为“品质优秀”、“品质良好”和“品质较差”三类,但类目下葡萄样本分布不能在样本数上体现三种等级的差异。同时各对应葡萄酒平均值差值小,说明模型区分度不够。
5.3 问题三模型的评价与改进
模型对理化指标进行筛选后逐步回归分析,数据拟合程度较好。减少了庞大数据所造成的相关性不明显的情况。但酿酒葡萄理化指标分类少,不能更全面地涵盖酿酒葡萄与葡萄酒的理化指标之间的联系。
5.4 问题四模型的评价与改进
模型突出单项指标与评价结果的关系,排除了庞大数据中不重要的项,结果更有针对性。在对四类理化指标与葡萄酒评分进行相关分析时,应对所有筛选指标进行考察,选出最少项数对应的对应理化指标单项进行进一步的相关性分析,则结果会更为准确。
参考文献
[1] 陈胜可.SPSS统计分析从入门到精通[M].北京:清华大学出版社,2010:453.
[2] 卢纹岱.SPSS for Windows统计分析[M].3版.北京:电子工业出版社,2006:153.
[3] (加)乔治(George,D.),(加)马勒瑞(Mallery,P.)著;SPSS统计分析简明教程何丽娟,李征,韦玉译.[M].10版.北京:电子工业出版社,2011:96.
[4] 倪雪梅.精通SPSS统计分析[M].北京:清华大学出版社,2010:158.
[5] 柯惠新,沈浩.调查研究中的统计分析法[M].2版.北京:中国传媒大学出版社 2005:330.
[6] 庄宇,徐欢,任更新.应用数据可信度分析重构科技创新指标体系[J].情报杂志,2006(1):12-13.
[7] 谢蕾蕾,宋志刚,何旭洪.SPSS统计分析实用教程[M].2版.北京:人民邮电出版社,2013:51、205.
[8] 王岩,隋思涟.试验设计与MATLAB数据分析[M].北京:清华大学出版社,2012.
[9] 王力宾.多元统计分析:模型、案例及SPSS应用[M].北京:经济科学出版社,2010:31、e208.endprint
Q型聚类可以使具有共同特点的样本聚集在一起,以便对不同类的样本进行分析。其中,样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。当样本有个变量,则可以将样本看成是一个k维空间的一个点,样本和样本之间的距离就是k维空间点和点之间的距离,这反映了样本之间的亲疏程度。聚类时,距离相近的样本属于一类,距离较远的样本属于不同类。
在度量距离时常采用样本距离测量方法有:欧式平方距离、距离、距离等。其中,表示么个样本有个变量;表示第一个样本在第个变量上的取值;表示第二个样本在第个变量上的取值。
在处理样本数据各数据之间的亲疏关系时,常用的亲疏程度测量方法有:离差平方和法、类内平均链锁法、重心法等。由于前面距离度量采取了欧式平方距离,因而此处选用离差平方和法,使得小类内各个样本的欧式距离总平方和增加最小的两小类合并成一类。
4.1.4 数据预处理标准化及综合理化指标
在处理附件2中数据时可以发现某些存在异常的数据值,如:葡萄理化指标中白葡萄百粒质量的第三次检测值为2226.1 g,明显超过其它两次的检测值。为避免异常数据值对分级结果的影响,取其它两次值的平均值替代该异常值。同时对数据进行标准化处理,取其分数:
其中,为变量值,为平均数,为标准差。分数表示的是此变量大于或小于平均数几个标准差。由于分数分母的单位与分子的单位相同,故分数没有单位,因而可以用分数来比较两个从不同单位总体中抽出的变量值。同时将原始数据直接转化为分数时,常会出现负数和带小数点的值。
由于数据中所需分析的红、白葡萄酒指标有114个,指标间存在一定的内部联系并具有明显的共线性,首先对数据进行降维处理:
(1)以红、白酿酒葡萄的理化性质(一级指标)为自变量,以葡萄酒得分作因变量做线性回归,表示第中葡萄酒的分数,对于红葡萄酒,;对于白葡萄酒,;为第种酒的第个理化指标,为系数。所得线性方程形式如下:
(2)由于对葡萄的所有理化指标进行分析过于繁琐,因而将所有理化指标降维综合成一个理化指标。对于上式所得的31个系数其中数值有正负。将系数为正的项提取出来作为有利项,系数为负的项作为有害项。将所有有利、有害项与其所对应指标相乘并取绝对值,计算两者间的平方根之和的差值,分别得红、白葡萄的综合理化指标模型,形式如下:
其中,为第种葡萄的第个有利项,;为第种葡萄的第个有害项,;为第种葡萄的综合理化指标。
5 模型的评价与改进
5.1 问题一模型的评价与改进
模型显著性差异评价系统准确。引入了系数作为评价可信度的标准,可综合评价信度但计算得到两组间可靠性系数差值小,区分度不够。模型在改进和推广时,除了讨论同两种酒之间的可信度系数,也可以继续讨论两组评价结果组内结果得可信度系数。
5.2 问题二模型的评价与改进
模型引入综合理化指标,对多维数据进行降维简便易行。采用型层次聚类分析得到树状图清晰,可准确描述分级级别数。引入聚类方法评价指标可以准确解释分级级数的选择。模型虽然在分类等级上分为“品质优秀”、“品质良好”和“品质较差”三类,但类目下葡萄样本分布不能在样本数上体现三种等级的差异。同时各对应葡萄酒平均值差值小,说明模型区分度不够。
5.3 问题三模型的评价与改进
模型对理化指标进行筛选后逐步回归分析,数据拟合程度较好。减少了庞大数据所造成的相关性不明显的情况。但酿酒葡萄理化指标分类少,不能更全面地涵盖酿酒葡萄与葡萄酒的理化指标之间的联系。
5.4 问题四模型的评价与改进
模型突出单项指标与评价结果的关系,排除了庞大数据中不重要的项,结果更有针对性。在对四类理化指标与葡萄酒评分进行相关分析时,应对所有筛选指标进行考察,选出最少项数对应的对应理化指标单项进行进一步的相关性分析,则结果会更为准确。
参考文献
[1] 陈胜可.SPSS统计分析从入门到精通[M].北京:清华大学出版社,2010:453.
[2] 卢纹岱.SPSS for Windows统计分析[M].3版.北京:电子工业出版社,2006:153.
[3] (加)乔治(George,D.),(加)马勒瑞(Mallery,P.)著;SPSS统计分析简明教程何丽娟,李征,韦玉译.[M].10版.北京:电子工业出版社,2011:96.
[4] 倪雪梅.精通SPSS统计分析[M].北京:清华大学出版社,2010:158.
[5] 柯惠新,沈浩.调查研究中的统计分析法[M].2版.北京:中国传媒大学出版社 2005:330.
[6] 庄宇,徐欢,任更新.应用数据可信度分析重构科技创新指标体系[J].情报杂志,2006(1):12-13.
[7] 谢蕾蕾,宋志刚,何旭洪.SPSS统计分析实用教程[M].2版.北京:人民邮电出版社,2013:51、205.
[8] 王岩,隋思涟.试验设计与MATLAB数据分析[M].北京:清华大学出版社,2012.
[9] 王力宾.多元统计分析:模型、案例及SPSS应用[M].北京:经济科学出版社,2010:31、e208.endprint