APP下载

基于主成分分析法对乳制品营养成分分析

2013-10-13傅祎旭

红河学院学报 2013年2期
关键词:成份乳制品特征值

傅祎旭

(东南大学机械工程学院,南京 211189)

引言

主成分分析(PCA)已成为一种传统的数据分析方法,乳制品(dairy products)以生鲜牛(羊)乳及其制品为主要原料,经加工制成的各种食品,也叫奶油制品,含有丰富的营养成分.将主成分分析方法应用于乳制品营养成分的分析具有泛化能力强和预测准确度高等优点.在对乳制品营养成分的研究中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律.多变量、大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时给分析带来不便.如果分别分析每个指标,分析又可能是孤立的,而不是综合的.盲目减少指标会损失很多信息,容易产生错误的结论.因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析.由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息.主成分分析与因子分析就是这样一种降维的方法.

1 原理与算法

1.1 原理

主成份分析法也称主分量分析或矩阵数据分析,是将一些实测变量转换为较少不相关的综合指标的多元统计分析方法.

若研究对象有两项指标ζ1和ζ2,从总体ζ(ζ1,ζ2)中抽取N个样品,它们散布在椭圆平面内(见图1),指标ζ1与ζ2有相关性.η1和η2分别是椭圆的长轴和短轴, η1⊥η2,故η1与η2互不相关.其中η1是点ζ(ζ1,ζ2)在长轴上的投影坐标,η2是该点在短轴上的投影坐标.从图1可以看出点的N个观测值的波动大部分可以归结为η1轴上投影点的波动,而η2轴上投影点的波动较小.

若η1作为一个综台指标,则η1可较好地反映出N个观测值的变化情况,η2的作用次要.综合指标η1称为主成份,找出主成份的工作称为主成份分析.

主成份分析要选择恰当的投影方向,将高维空间的点投影到低维空间上, 且使低维空间上的投影尽可能多地保存原空间的信息,使低维空间上投影的方差尽可能地大.

图1 主成份分析法示意图

由于综合指标往往是不能直接观测到的,但它却更能反映事物的本质.因为实际的变量间有一定的相关关系,所以可以使用较少数的综合指标分别综合存在于各变量中的各类信息,而综合指标之间彼此不相关,即各指标代表的信息不重叠.

1.2 算法

综合指标称为因子或主成分(提取几个因子),一般有两种方法:

特征值>1

累计贡献率>0.8

x1,x2,...,xP为原变量指标,新变量指标为z1,z2,...,zm(m≤p),则

z1,z2,...,zm分别称为原变量指标x1,x2,...,xP的第1,第2,...,第m主成分,在实际问题的分析中,常挑选前几个最大的主成分.

主成分析的数学特征:

找主成分就是确定原来变量Xj(j=1,2,...,p)在诸主成分zi(i=1,2,...,m)上的载荷lij(i=1,2,...,m;j=1,2,...,p).它们分别是x1,x2,...,xP的相关矩阵的m个较大的特征值对应的特征向量.

z1,z2,...,zm分别称为原变量指标x1,x2,...,xP的第1,第2,...,第m主成分,在实际问题的分析中,常挑选前几个最大的主成分.

2 实验部分

2.1 数据选取及获得

通过对超市乳制品的调查,数据来源于产品包装上厂家给定的值,价格取多家超市的均值,7个产品营养值的数据.样品的常规组分,即:平均价格,能量,蛋白质,脂肪,碳水化合物,钠,钙以及单一产品的净含量.

表1为乳制品营养成分统计表,营养成分中的“/+数字”为该营养成分在该产品中的参考值.

表1 乳制品各项成分统计表

2.2 数据处理及计算结果

由于不同的产品受产品本身净含量的限制,无法做出直接的比较,在此我们将各项营养指标根据售价与净含量的关系进行单位化,得表2.表2中的“/Y”表示每元所对应的营养值

表2 单位化后统计表

对原始数据进行标准化处理.计算公因子方差,特征值、方差的%、累积%以及各指标的成分矩阵.笔者利用SPSS软件对标准处理的数据进行处理.公因子方差如表4所示,特征值、方差的%、累积%的结果如表5所示,特征值为图2.

表3 处理的数据

表4 公因子方差

表5 解释的总方差

图2 特征值

2.3 结果分析

乳制品的价格显然是受多方面因素所影响的,但是不同的因素对价格的影响作用是不一样的,主成分分析法是将所有的影响因子中提取出最有影响力的因子出来的一种统计方法,本文侧重于分析营养成分对乳制品的价格的影响,统计数据有不同乳制品的价格和营养成分的含量,通过SPSS统计软件处理后,最后结果如表 5 所示,主成分分析的结果表明,提取前 2 个特征值的主成分,成分1对应为能量,方差的百分比为61.615%,成分2对应的是钙,方差的百分比为21.355%,这两个主成分的累计方差贡献率达到82.970%可以基本反映全部 7 个指标所具有的信息,能在一定程度上代表乳制品的综合因素.这个结果意味着乳制品营养成分里面主要由于能量含量和钙质含量的多少而影响到乳制品的售价,市面上乳制品日趋丰富,根据本文通过统计计算得出的较为科学的结论,面对琳琅满目的乳制品,消费者在选购时可以从乳制品的钙含量和能量含量两个指标来考量,更加理性消费.

2.4 结论

乳制品的品质受多方面因素的影响,但是不同的因素影响作用不同,主成分分析法是将主要的影响因子中提取相关的影响力因子,本文分析研究后表明,乳制品最主要的营养成分分为两类:能量和脂肪组成的第一主成分以及钙和蛋白质组成的第二主成分,其中每种主成分中所包含的成分一定程度上是正相关的,因此对乳制品的品质进行初步评定或检测的时候,完全可以抽取易于检测且成本较低的成分,以一定程度上代表其他成份,所得出的结论与全部检测所有指标得出的结论相近程度较高(可达到82.970%),可以大大降低检测成本和工作量.其结论对于乳制品消费者的选择、政府对乳制品的管理和生产企业的自检等都具有一定的指导作用.

[1]汪应洛.系统工程[M].北京:机械工业出版社,2009:54-60.

[2]薛成伟.基于主成分分析的农民收入预测[J].现代经济信息,2011(23).

[3]范通达.基于主成分分析的生活垃圾产生量模型研究[J].环境卫生工程,2009(2):41-43.

[4]林徐达.基于主成份分析法的饮用水特征性指标分类[J].科技创新导报,2012(12).

[5]郭宇翔,熊黑钢,李宝富.新疆奇台县粮食生产影响因素与模拟预测研究[J].新疆农业科学,2010(5):1009-1017.

[6]刘丹丹,冯利华,王宁,石磊.基于BP神经网络的义乌市水资源需求量预测[J].水资源与水工程学报,2010,24(4):(114-117).

[7]方开泰.实用多元统计分析[M].上海:华东师范大出版社,1989:291-302.

[8]王学仁,王松桂.实用多元统计分析[M].上海:上海科技出版社,1990:270-272.

猜你喜欢

成份乳制品特征值
一类带强制位势的p-Laplace特征值问题
单圈图关联矩阵的特征值
绩优指数成份变更与一周表现
两市主要成份指数中期成份股调整
2018年1~2月乳制品产量同比增长8%
Variational Mode Decomposition for Rotating Machinery Condition Monitoring Using Vibration Signals
通过乳制品源头控制提高原料奶品质的措施
杜马斯燃烧法快速测定乳制品的含氮量
图形在乳制品包装设计中的应用分析
基于商奇异值分解的一类二次特征值反问题