一种基于数据挖掘的面条品质综合评价方法
2011-10-12周妍张然杨斌
周妍 张然 杨斌
(铜陵学院,安徽铜陵244000)
一种基于数据挖掘的面条品质综合评价方法
周妍 张然 杨斌
(铜陵学院,安徽铜陵244000)
为了准确评价面条品质,文章以46种不同品牌的市售面条为材料,通过实验采集面条样本的力学性能数据和其他属性数据,对构建的数据集进行主成分分析,并借助其结果进行聚类分析,样本最终被划分成5个类,对面条样本进行感官评价。参考感官评价的指标再对每一个簇中的样本进行评价,描述出每个簇中面条样本的品质特性。该方法融合了多种数据分析和评价方法,既具备数据分析的客观性,又不失主观评价的优势。
评价方法;面条品质;聚类分析;感官评价;主成分分析
面条是我国传统的主食面制品,对其品质进行有效的评价很有必要,而评价方法的选取则是其中的关键问题。目前国内外对面条品质的评价尚未建立严格统一的标准,专门的研究并不多见,很多关于面条的评价方法大都借鉴了通心粉的评价方法[1-4]。多年来,国内外有关专家学者一直致力于研究客观鉴定面条品质的方法[5-8]。这些方法大致可分为感官评价方法(主观评价)、仪器测量评价(客观方法)以及它们相结合的方法。感官评价结果主观性强,而且往往在信息交流、定量表达、科学再现性等方面难以满足食品工业化生产的要求。但另一方面,评价员凭借该领域的专业知识和大量经验,对评价结果做出判断,这是仪器无法做到的。特别是在嗜好评价方面,目前其地位是任何仪器检测也无法取代的。因此,感官评价方法常作为校对其他化学和仪器测量评价的参考标准,以感官评价结果为主要依据,可以为其他评价方法的可行性与可靠性提供一定的依据。
对于仪器测量评价,利用质构仪进行评价是其主要手段,此方法在我国也取得了一定的进展。该方法操作简单,再现性较高,评价时需要根据不同的物性要求设计模型,属于传统的手工建模方法。但是采用仪器测定面条的性质较难,且有很多难以发现的因素无法综合考虑,精度和敏感性在某些情况下还不如感官检测[9]。也有学者从食品的单一特性或指标研究它们与面条品质的关系[10-14],其操作过程比较繁琐。
综上所述,仪器测量评价操作简单易行,可再现性高,但是在食品嗜好等方面无法取代感官分析。本文将数据挖掘方法纳入到面条品质评价方法中,以仪器测量的各种数据为基础,采用数据挖掘算法进行数据处理和分析,并结合感官评价的结果,充分利用评价员的经验知识修正评价结果,从而得到对面条品质客观、有效的评价。
1.材料与方法
1.1 试验材料
试验材料为市面购置各种品牌面条共46种,具体名称见表1。
1.2 试验方法
1.2.1 力学性能数据的测量
对于每一种面条样本,取干面条20根放入恒温水浴锅中,煮至最佳煮制时间[15],立刻将面条捞出,置于漏网容器中,用自来水冲淋3秒钟。
将煮制好的面条装夹在便携式食品力学性能检测仪(安徽农业大学研制)上,对其进行拉伸、剪切操作,在PC机上采集得到的拉力、剪切力变化情况以及面条被拉断、剪断时的数据。把最大值作为拉力、剪切力的测量值,并予以记录。
1.2.2 物理属性数据和其他环境数据的测量
物理属性数据包括面条样本如下属性:(1)横截面尺寸。对于圆形截面的面条,用卡尺测量其直径;对于矩形截面的面条,用卡尺测量其宽度和厚度。(2)延伸度。将煮制好的面条进行拉伸处理,记录原始长度和刚刚断裂时的长度,计算其延伸度。(3)糊化时间。记录面条样本煮至糊化的时间。另外,其他环境数据包括各个面条样本是否含盐以及是否有添加成分,可以通过面条的外包装获得。
1.2.3 感官评价
感官评价参照国家企业标准SB/T10068-92,分别从色泽(10分)、表观状态(10分)、适口性(20分)、韧性(25分)、粘性(25分)、光滑性(5分)、食味(5分)共7个方面对面条样本进行打分。评价小组由5名评价员组成。面条样本各项指标的得分为5个评价员打分的平均值,总分为各项指标得分之和。由于在感官评价方法中对不同的质地剖面设定的分值有差别,实际上,感观评价的总得分就是面条样本各个质地剖面的加权平均总得分。感官评价得分越高,说明该样本的筋道感、韧性及口感等食用品质越好。
1.2.4 统计分析
将上述各测量指标作为属性组成面条样本模式:面条名称(拉力最大值,剪切力最大值,直径,宽度,厚度,是否含盐,延伸度,糊化时间)。面条名称和各属性具体的值共同组成了面条样本数据。
对每个属性的值进行归一化处理,以消除量纲的影响,即把每个面条样本看作超空间中的一个点。
通过主成分分析、聚类分析对面条品质进行分析,并对其结果进行综合评价。
(1)主成分分析
利用SPSS软件对46个面条样本进行主成分分析,计算出主成分表达式如下:
其中A1~A8对应于面条样本模式中的8个属性,即拉力最大值,剪切力最大值,直径,宽度,厚度,是否含盐,延伸度,糊化时间。由上述公式可计算出46种面条品质的主成分得分,利用Z=0.51807Z1+0.18974Z2+0.14222Z3得到各种试样面条品质的主成分总得分(表1)。
(2)聚类分析
用k-means算法对数据集进行聚类分析,利用PCA的结果指导初始聚类个数k。从主成分得分(表1)可以看出,同一系列的面条品质较相近,不同品牌,特别是不同系列的面条品质有较大的差异,因此可将这些样本大致分为5类,故取k=5。然后以PCA划分出的五个类中样本的均值作为初始聚类中心。
2.试验结果与分析
2.1 对46种面条样品的评价结果
为了方便起见,将主成分得分、感官评价得分和聚类分析的结果列在同一个表内(表1)。样本按照其主成分得分由低到高的顺序排列,并按此顺序进行编号。考虑得到评价结果可能对面条生产企业产生不可预知的影响,故将各面条样本名称中的品牌部分略去。
图1 聚类结果
表1 样本及主成分得分、感官评价总得分和簇
从表1中可以看出,感官评价的得分和主成分分析的得分基本一致;聚类结果中,每个类中样本的感官评价得分也相近。这说明聚类的结果是有意义的模式,同一个类中的样本具有相似性,可以从中提取有价值的信息。因此,由参与感官评价的专业人员对聚类结果进行评价,即描述出同一类面条样本的品质特征,结果如下:
第一类:营养面条,筋道感、韧性、弹性一般,口感好。因为该类面条中多数添加了盐和其他物质,如鸡蛋、绿豆等,以改善其口感,而恰恰削弱了面条的筋道感。
第二类:精加工干白面条,筋道感、韧性、弹性好,口感一般。该类面条大都模仿了手工面条的特点,制作工艺注重提高面条的筋道感等品质。但是延伸度和糊化时间这两个指标略低于第三类,因此影响了其口感。
第三类:优质干白面条,筋道感、韧性、弹性较好,口感滑爽。该类面条大都是干白面条,在制作工艺上也模仿了手工面条的特点,这些手工工艺对其力学性能指标有直接的贡献。
第四类:营养面条,筋道感、韧性、弹性较差,口感一般。该类面条样本中大部分添加了杂粮、鸡蛋等添加物,且面条的较细,因此其力学性能指标,如拉力、剪切力,大大被削弱,延伸度、糊化时间也明显受到了影响。
第五类:优等面条,筋道感、韧性、弹性好,口感好。考虑到该类面条的制作工艺有异于其他类别,其各项指标均很好,属于食用品质最好的一类。
2.2 综合评价方法各步骤中应该注意的问题
步骤一:构造数据集。通过实验采集面条样本的属性数据,包括力学性能属性和其他属性并对采集的原始数据进行适当的预处理,便于数据分析。对面条样本各属性的采集应尽可能准确,必要的时候,可以采用适当的数据预处理算法处理原始数据集。
步骤二:主成分分析。对数据集进行主成分分析,根据得分得到面条样本的大致分类,用于指导k-means算法的初始参数k。主成分分析可以利用成熟的软件辅助计算(本文即采用SPSS软件),如果主成分分析的得分对于指导k存在模糊,可以尝试取多个k值进行试验。
步骤三:聚类分析。对数据集进行聚类分析,收集聚类结果。
步骤四:感官评价。对面条样本进行针对质地剖面的感官测定与分析。感官评价指标的选取要尽可能直接反映面条的品质特征,以便于下一步的评价。
步骤五:形成最终评价结果。对每一个聚类簇中的样本进行评价,评价的过程参考感官评价的指标,描述出每个簇中面条样本的品质特性。评价结果要精练,既要能准确描述出面条样本的品质特征,又要利于相关人员阅读理解。
3.讨论与结论
3.1 面条品质综合评价方法的优点
从表1中可以看出,聚类分析的结果和主成分得分、感官评价得分基本一致。具体表现在:主成分得分和感官评价的得分基本一致;属于同一个聚簇中的样本的主成分得分和感官评价得分也相近。
但是,有个别样本,如14号、16号、39号样本,虽然主成分得分和感官评价得分与序号相邻的样本相近,但却被聚类分析划分到了不同的类别。k-means算法根据数据集进行处理,得到的是隐含在数据集中的信息,这些信息往往是难以通过普通方法得到的。得分相近却最终被划分到不同的聚簇中,这一现象恰恰说明了主成分分析和感官评价方法中可能存在的某些不客观、不合理的问题,这也正是使用数据挖掘算法的优势和目的所在。
若单独使用主成分分析方法进行评价,数据处理的过程较简单,而且有成熟的软件可以使用。但主成分分析是通过对属性集中“主要成分”的线性组合,从而达到降维、压缩的目的,在这个过程中原始数据中隐含的信息会有损耗。鉴于该特性,会导致最终结果和实际情况有一定的偏差。但由于其得分是根据数据的“主要成分”得到的,因此也具有指导意义,可以通过PCA的得分得到样本大致的分类。
若单独使用k-means算法实现也很简单。聚类结果对于一般人(或机器)来说,可能难以有效地提取出簇中有价值的信息,但对于专业人士或业务知识丰富的人员,凭借他们丰富的专业知识和大量的实践经验,可以迅速理解聚类结果的含义。k-means算法的关键问题是初始聚类个数k的设定问题。可以通过PCA的结果予以指导k的取值。与PCA类似,聚类也是建立在面条样本的力学性能数据及其他环境数据的基础之上,这些数据无法显式地描述与面条样本品质特征相关的指标(如韧性),例如通过数据直接反映出与韧性相关的属性,或得到韧性和某些属性之间的函数关系。因此给最终的评价过程带来了困难。
若单独使用感官分析方法,如前所述,主观性较强,评价过程易受干扰。但由于其评价的指标与面条样本的品质特征较接近,因此可以利用感官评价中得分高的或权重高的指标直接形成最终的评价,比较方便和简单。
3.2 结论
综上所述,以上各种评价方法各有优缺点,单独使用均存在缺陷。而本文提出的方法以聚类分析为核心,利用主成分分析指导初始聚类个数,结合感官评价的指标和结果,对每一个聚簇中的样本进行评价,从而形成面条品质的最终评价。
本文提出的面条品质综合评价方法有一定的实用价值,如对于某一种面条,可以根据其评价结果,突出其品质特征,制定相应的生产、宣传和营销策略。但如何从聚类的结果中提取面条品质的形式化描述(例如物理属性和评价得分之间的函数关系),用于指导面条的生产,将是下一步将要研究的问题。
[1]Matuso R R,Irvine GN.spaghetti tenderness testing apparatus[J].Cereal Chem,1969,46:1-6.
[2]Dexter J E.Grain reseach laboratory compression tester,Instrumentral measurement of cooked spaghetti stickiness[J].Cereal Chem,1983,60:139-142.
[3]Oh N H,Seib P A,Deyoe C M,et al.Noodles I.Measuring the texture characteristics of cooked noodles[J].Cereal Chem,1983,60(6):433-438.
[4]远山良·种谷真一.Relationship between sensory evaluation and tensipressor analysis of reimen(Korean noodle)[J].日本食品科学工学会志,1999,46(3):155-164.
[5]李梦琴,张剑,冯志强,等.面条品质评价指标及评价方法的研究[J].麦类作物学报,2007,27(4):625-629.
[6]张艳,阎俊,H.Yashida,等.中国面条的标准化实验室制作与评价方法研究[J].麦类作物学报,2007,27(1):158-165.
[7]雷激,刘仲齐.面条品质评价方法研究[J].中国食品学报,2003,3(4):21-26.
[8]王灵昭,陆启玉,袁传光.用质构仪评价面条质地品质的研究[J].郑州工程学院学报.2003.24(3):29-33.
[9]屠康,姜松,朱文学.食品物性学[M].南京:东南大学出版社,2006,137-139.
[10]刘建军,何中虎,赵振东,等.小麦品质性状与干白面条品质参数关系的研究[J].作物学报,2002,28(6):738-743.
[11]宋建民,刘建,等.济麦19面团流变学和淀粉特性与面条品质分析[J].麦类作物学报,2004,24(1):15-17.
[12]杨秀改,陆启玉,尹寿伟.面筋蛋白与面条品质关系研究[J].粮食与油脂,2005,26(5):26-28.
[13]雷昌贵,卢大新,陈锦平.小麦蛋白质的特性与面条品质[J].食品与药品,2006,8(6):27-30.
[14]雷激,刘仲齐,秦文.蛋白质、淀粉、硬度和色泽与小麦面条品质的关系[J].西南农业学报,2003,16(4):122-125.
[15]师俊玲.蛋白质和淀粉对挂面及方便面品质影响机理研究[D].杨凌:西北农林科技大学,2001.
An Integrated Evaluation Approach of Noodles Quality Based on Data Mining
Zhou Yan,Zhang Ran,Yang Bin
(Tongling University,Tongling Anhui 244000,China)
To evaluate the noodles quality accurately,an integrated evaluation approach of noodles quality based on data mining was proposed in this paper.The dataset was composed of noodles mechanical performance data and other attribute data through experiment by using 46 different noodles in various brands as material.Principle Component Analysis(PCA)was used on this dataset.Than clustering analysis was used on this dataset based on PCA’s result.At last,dataset was divided into 5 clusters.Sense evaluation was used on noodles samples at the same time.Than the quality character of each cluster was described by evaluating noodles samples in each cluster referred to sense evaluate indexes.This approach integrated several data analysis methods and evaluation approaches,which not only had objectivity in data analysis,but also had advantage in sense evaluation.
evaluation method;noodles quality;clustering analysis;sense evaluation;principle component analysis
TP311
A
1672-0547(2011)01-0086-03
2010-08-11
周妍(1979-),女,安徽铜陵人,铜陵学院机械工程系讲师,硕士,研究方向:数据分析与处理;张然(1981-),男,安徽铜陵人,铜陵学院数学与计算机科学系讲师,硕士,研究方向:群体智能,数据挖掘。
安徽省高校自然科学研究项目《融合智能算法的面条品质评价方法研究》(编号:KJ2010B233),安徽省高校自然科学研究项目《结合群体智能的混合文化算法研究》(编号:KJ2010B234)成果。