基于PCA和BP神经网络的葡萄酒品质预测模型

2014-05-02曾祥燕赵良忠孙文兵蒋盛岩

食品与机械 2014年1期

曾祥燕赵良忠孙文兵蒋盛岩

ZENG Xiang－yan 1 ZHAO Liang－zhong 1 SUN Wen－bing 2 JIANG Sheng－yan 1

（1.邵阳学院生物与化学工程系，湖南邵阳 422200；2.邵阳学院理学与信息科学系，湖南邵阳 422200）

（1.Department of Biology and Chemical Engineering，Shaoyang University，Shaoyang，Hunan 422000，China；2.Department of Mathematics and Information Science，Shaoyang University，Shaoyang，Hunan 422000，China）

产品品质的控制与预测对食品的生产具有重要的意义，可以减少原材料的浪费、降低生产成本和减少试验误差等。已有研究［1－4］表明，国外科学家已将人工神经网络应用于农产品和食品品质的预测，取得了满意的效果。中国学者秦万广等［5］模仿生物嗅觉系统，由气敏传感器阵列结合神经网络模式识别技术构成了仿生鼻。用它对几种白酒进行了分类和识别试验，结果表明其不仅能识别不同的白酒，而且还可以识别真假白酒。任亦贺等［6］使用主成分分析、遗传算法和神经网络建立啤酒感官评价模型，该模型对50种啤酒的感官得分进行预测，预测最大相对误差为16.08%，经过对感官评价的分析，最大相对误差小于20%认为可信。结果表明，该方法能有效地预测啤酒感官评价。

葡萄酒具有抗氧化作用，能降低心血管疾病的发病率。但是葡萄酒质量的评价非常复杂，一般由专业的品酒师进行打分评价，以分数的高低来决定酒的质量，同一种酒因不同的品酒师给出的分数相差很大。在正常酿造的情况下，葡萄酒的质量与酿酒所用的葡萄的质量密切相关。文章以27种葡萄酒样品、酿酒葡萄和葡萄酒的理化指标、品酒师对该葡萄酒的评分数据为依据，运用主成分分析和BP神经网络，进行葡萄酒品质的预测，对减少人为误差具有重要意义。

1 材料与方法

1.1 材料与数据

数据来源于2012年中国大学生数学建模竞赛题目——葡萄酒的评价，题目提供了评酒员对酒的外观分析（15）、香气分析（30）、口感分析（44）、整体评价（11）的评分，酿造该葡萄酒所用葡萄的26种一级理化指标，以及葡萄酒的7种一级理化指标，共33种理化指标可能影响啤酒的质量。

1.2 分析方法

1.2.1 主成分分析法该研究共有27种葡萄酒样品，33种理化指标，如果直接利用BP神经网络进行分析，网络的输入层数多，网络结构复杂，网络收敛步数长，运行效率低，运用主成分和BP神经网络相结合，能对以上问题进行简化。主成分分析也称主分量分析，旨在利用降维的思想，把多指标转为少数几个综合指标；它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变，使第一变量具有最大的方差，称为第一主成分，第二变量的方差次大，并且和第一变量不相关，称为第二主成分，依次类推。主成分的分析方法主要有以下步聚构成：

（1）原始指标数据的标准化：

（2）对标准化阵Z求相关系数矩阵：标准化后的样本相关矩阵为Z，然后计算R的特征值λk（k＝1，2，…，a）以及各个特征值对应的标准化正交特征向量αk＝（αk1，αk2，…，αkp）T。

1.2.2 BP神经网络 BP神经网络是一种多层前馈神经网络，可以实现从输入到输出的任意非线性逼近，具有良好的自组织、自适应和容错性，应用十分广泛，其模型拓扑结构包括输入层、隐含层和输出层。BP网络设计的最大特点就是网络的权值是通过使用输入与输出样本之间的误差平方和达到期望值而不断调整网络的权值训练出来的。因此BP网络的设计过程是一个参数不断调整的过程。以酿酒葡萄的26种一级理化指标和葡萄酒的7种一级理化指标，品酒师对该葡萄酒的评分为依据，通过主成分分析法，并利用SPSS软件可以求出酒质量与各理化指标的相关系数矩阵，并确定它们之间的影响程度，找出方差的累积率达85%以上各主成分因素，进行网络建模。本模型采用3层拓扑结构，以各主成分得分作为输入层数据，每种葡萄酒的得分为输出层数据，结构见图1。

2 结果与讨论

2.1 主成分分析结果

对27种红葡萄酒的7种一级理化指标和酿造该葡萄酒所用葡萄的26种一级理化指标建立M27－33矩阵，运用SPSS19.5软件对原始数据进行主成分分析，得初始特征值和解释的总方差，具体见表1。由表1可知，前9个主成分，方差的累积率已达到86.577%，可以认为取前9个主成分已经能够代表葡萄酒质量的绝大部分信息。

表1 主成分的特征值及方差贡献率Table 1 Eigenvalues and variance contribution of principal components

对因子矩阵按照最大方差法进行正交旋转，得旋转成分矩阵见表2。由表2可知，第1个主成分代表葡萄酒中的花色苷、单宁、总酚、酒总黄酮、白藜芦醇、DPPH半抑制体积和酿酒葡萄中的花色苷、DPPH自由基、总酚、单宁、葡萄总黄酮；第2个主成分代表葡萄酒中的花色苷、色泽和酿酒葡萄中的花色苷、苹果酸、褐变度；第3个主成分代表，酿酒葡萄中的氨基酸总量、总糖、可溶性固形物、干物质含量；第4个主成分代表，酿酒葡萄中的p H值、总糖、可滴定酸、固酸比；第5个主成分代表，酿酒葡萄的果穗质量、百粒质量、果皮质量；第6个主成分代表，酿酒葡萄中的黄酮醇、果梗比；第7个主成分代表，酿酒葡萄中的酒石酸、柠檬酸；第8个主成分代表，酿酒葡萄中的VC含量、果梗比、多酚氧化酶活力；第9个主成分代表，酿酒葡萄中的黄酮醇、果梗比、VC含量。

表2 旋转因子负荷矩阵Table 2 Cotation component loading matrix

使用主成分分析法提取其中9个主成分进行分析，可以用较少的变量解释所有的变量，使相关性很高的变量转换成相互独立或不相关的变量。葡萄酒生产企业可以通过检测这些主成分的质量指标，来评价葡萄酒的风味和质量，能对葡萄酒的生产和质量控制起到一定的指导作用。

2.2 BP神经网络的建立

2.2.1 神经网络各层数和模型的确定将原始矩阵通过主成分分析以后，提取出来的9个主成分得分作为输入数据，即输入接点为9，具体数据见表3，将评酒员对酒的综合评分作为输出数据，既输出层为1，隐含层的单元数目选择是个十分复杂的问题，往往需要根据设计者的经验和多次试验来确定，因而不存在一个理想的解析式来表示隐含层的单元数目，经选择不同的隐含层的单元数目建模比较，隐含层的单元数选用35个单元，误差小，模型较好，即建立9－35－1拓扑结构的神经网络图。输入层到隐含层的α1采用Tansig作为训练函数，隐含层到输出层的α2采用purelin作为传递函数；网络训练函数为Levenberg－Marquardt；训练函数trainlm；学习速率为0.01：net.trainParam.lr＝0.01；动量系数为0.9：net.train－Param.mc＝0.9；训练次数为1 000：net.trainParam.epochs＝1 000；训练目标为0.01：net.trainParam.goal＝0.01［7，8］。

表3 BP神经网络的输入和输出数据Table 3 Input and output data of BP neural network

2.2.2 神经网络分析以1号到25号作为网络的训练数据，以26和27号数据作为预测样品，以检验模型的准确性和可靠性。利用以上程序进行网络训练，PCA－BP神经网络预测结果见表4。同样以酿造该葡萄酒所用葡萄的26种一级理化指标，以及葡萄酒的7种一级理化指标，共33种理化指标作为输入层，将评酒员对酒的综合评分作为输出层，其余的参数、函数同以上的模型一致，建立33－35－1拓扑结构的神经网络图进行网络训练。在相同的学习速率、迭代次数和误差范围，PCA－BP神经网络19步就可以收敛，而BP神经网络需要150步才可以收敛。用PCA－BP网络模型不仅简化了网络结构，而且加快了网络的收敛速度。

表4 PCA－BP神经网络预测结果Table 4 Predictive result of PCA－BP neural network

在隐含层都为35，采用主成分和BP神经网络模型比单纯采用BP神经网络模型收敛速度更快，运行20次就能满足模型要求；由表4可知，模型绝对误差的最大值为0.35，能完全满足模型试验误差要求。基于主成分－BP神经网络模型，不改变样本的数据结构，能减少变量的输入，消除网络因子之间的相关性，能更好地提高网络的学习速率和识别能力。

3 分析与结论

BP神经网络有较好的泛法能力，主成分分析通过降维，把多指标转为少数几个综合指标，两种方法相结合，运用葡萄和葡萄酒的一级指标对葡萄酒质量进行评价，可以有效地克服品酒师的人为误差，更能准确地反映葡萄酒的内在品质。从输入层神经元的个数来看，BP网络的输入神经元个数是33个，基于主成分分析的BP网络的输入神经元个数为9个，减少了输入层的层数，简化了神经网络结构；主成分分析方法与BP神经网络方法相结合，建立的9－35－1拓扑结构的神经网络，模型绝对误差的最大值为0.35，能完全满足模型试验误差要求；该模型利用已知信息，能减少变量的输入，消除网络因子之间的相关性，能更好地提高网络的学习速率和识别能力，尤其对大量而非线性的样品数据而言，该模型具有更优的性能，比单纯采用BP神经网络模型收敛速度更快，运行20次即可满足模型要求。

1 Adnan Topuz.Predicting moisture content of agricultural prod－ucts using artificial neural networks［J］.Advances in Engineering Software，2010（41）：464～470.

2 Poonpat Poonnoy，Ampawan Tansakul，Manjeet Chinnan.Artificial neural network modeling for temperature and moisture content prediction in tomato slices undergoing microwave－vacuum drying［J］.Journal of Food Science，2007，72（1）：42～47.

3 Kamyar Movagharnejad，Maryam nikzad.modeling of tomato drying using artificial neural network ［J］.Computers and Electronics in Agriculture，2007（59）：78～85.

4 S Lertworasirikul，Y Tipsuwan.Moisture content and water activity prediction of semi－finished cassava crackers from drying process with artificial neural network［J］.Journal of Food Engineering，2008（84）：65～74.

5 秦万广，赵成军.基于神经网络的仿生鼻及其在酒类识别的试验研究［J］.食品与机械，2005，21（5）：33～35.

6 任亦贺，骆学雷，丰水平，等.基于主成分分析、遗传算法和神经网络对啤酒感官评价预测的研究［J］.中国酿造，2010（2）：50～53.

7 彭波，李旭宇.TCS230颜色传感器结合BP神经网络在颜色识别系统上的研究［J］.食品与机械，2010，26（3）：108～112.

8 黎移新.基于前馈神经网络的脐橙糖度及有效酸度检测［J］.食品与机械，2009，25（2）：78～81.