基于灰色关联分析的SOM神经网络在葡萄分类中的应用
2018-01-15侯淼刘陈帅王保荣
侯淼+刘陈帅+王保荣
摘要: 关键词: 中图分类号: 文献标志码: A文章编号: 2095-2163
Abstract: With the increase in the demand for wine, more and more attention has been paid to the quality of wine. In general, the quality of wine is assessed by the results of sensory tasting, but it is often influenced by a variety of factors, and the quality of the wine is not uniform, so the quality of the wine evaluation system needs to be solved, and the quality of wine grapes directly determines the quality of the wine. In order to get a better wine, the grapes should be screened first. Based on the many physical and chemical indexes of grapes, the data are processed by gray correlation analysis firstly, and several main physical and chemical indexes affecting the quality of grape are extracted. And then the SOM neural network technology is used in data mining to cluster analysis of grapes. The simulation results show that the SOM neural network can classify the original 27 grape samples into seven categories intuitively and accurately, and the samples of each grape have some similarity.
0引言
現如今,喝葡萄酒已成为人们庆祝时的一种普遍方式,而所酿葡萄酒的质量与酿酒葡萄的好坏有直接的关系,依据酿酒葡萄的理化性质对酿酒葡萄进行聚类,通过对酿酒葡萄进行分级筛选而得到的优质葡萄来酿出高质量的葡萄酒是一种可选的方法。先用灰色关联分析提取影响葡萄质量的数个主要指标,再依据这些指标建立SOM自组织特征映射对葡萄进行聚类分析,本文方法可以很好地对葡萄进行聚类分析。
国内外学者把SOM用于故障识别[1-3],人脸识别[4];还有一些学者将SOM用于生物学领域,如用SOM对森林进行健康的评价[5-6],土壤的分析[7-8]等;更多的是将SOM用于对地表水质的分析[9-10],而将SOM用于对葡萄进行分类,筛选出优质葡萄方面的研究很少[11]。一般学者仅用模糊聚类或统计的方式将葡萄进行聚类[12-13]。而基于葡萄的理化性质较多,且各理化性质之间的关系不大,对葡萄的影响未知,故常规方法对葡萄进行分类较为困难。SOM可以通过自动寻找样本中的内在规律和本质属性,自组织自适应地改变网络参数与结构[14-18],从而实现对葡萄的准确聚类。本文的研究正是基于SOM的葡萄聚类分析。
1理论基础
1.1灰色关联度
灰色关联分析是发展态势的量化比较分析,是几何曲线间几何形状的比较,即几何形状越接近,则发展变化态势越接近,关联度越大。关联度是事物与事物之间的度量,可以通过从随机的序列中找到关联性,为分析因素提供基础[19-24]。灰色关联度描述了因素间相对变化的情况,根据因子与目标之间的关联度,剔除掉关联度较小的各因子,保留下与目标关联度较大的各因子,这多个关联度较大的因子即可以代替所有因子反映目标。
为保证建模的质量与系统分析的结果的好坏,首先应对原始数据进行一系列的变换和处理,以消除量纲的影响,使数据具有可比性。
1. 2SOM自组织特征映射
1.2.1SOM网络结构
SOM自组织特征映射是非监督竞争式学习的前馈神经网络,属于神经网络的一部分。SOM可以通过模拟人大脑的自组织特征映射,其网络结构主要包括两部分,输入层和输出层(竞争层)。输入层的每个神经元与竞争层神经元之间具有权重,竞争层中神经元之间是全连接,神经元与神经元之间也有权重,即竞争层是由神经元组成的二维平面阵列。这里,则给出网络拓扑结构如图1所示。
SOM自组织特征映射是由各个神经元之间相互竞争,最终寻找到获胜神经元,再依据获胜神经元将数据自动分类的过程。其首要、也是其核心任务就是寻找到获胜神经元。由图1可知,由于其网络为特殊的拓扑结构,因此在竞争层权值的更新过程中,不仅获胜神经元的权值向量得到更新,而且与获胜神经元邻近的神经元的权值向量也按一定的规律发生微小变动。这样随着神经元之间不断地调整权值,最终确定出竞争胜出神经元,依据竞争胜出神经元来对物体进行聚类分析。
1.2.2SOM算法及实现
设定了网络的学习速率、竞争层神经元的个数、传递函数和距离函数。其中,竞争层神经元的个数确定较为关键,因为竞争层神经元的个数越多,分出的种类越细,种类与种类之间的相似度越低。传递函数有两种:一种是compete函数,其输出只能是0和1;另一种是softmax函数,该函数是软最大传递函数,其输出为[0-1]内的数值。SOM的距离函数较多,有4个距离函数。具体如下:endprint
③Manhattan距离函数,即曼哈顿距离函数。也就是研究中的出租车几何距离函数,运算上相当于向量之差的范数。为此可得计算公式为:d=x1-y1+x2-y2+…+xn-yn(15)④distance函数。即通常所说的欧式距离函数。
3)随机选取训练样本输入网络。
4)更新权值。对获胜神经元采用KOHONEN规则来定制求取权值的更新,即:ω(k+1)=ω(k)+η(x-ω(k))(16)5)更新学习速率。就是拓扑领域对学习后的权值进行重归一化。学习速率和领域大小的调整按排序阶段和调整阶段两步来进行,在训练的过程中,学习的速率随时间减小,邻近的区域也随时间减小。6)判断网络是否收敛。即训练是否达到最大值,训练的修正量是否小于一定的阈值。若不符合条件,则将返回3)步,若符合条件,则结束训练,输出网络。
研究至此,可得训练SOM网络的流程设计如图2所示。
2SOM葡萄的聚类
1)数据预处理。基于葡萄的理化性质较多,因此首先运用关联分析法,将葡萄的主要理化指标提取出来。葡萄的蛋白质种类有多种,以总蛋白质为参考数列,经过关联分析得出其余各氨基酸与总氨基酸的关联系数如表1所示。
2)为了消除各指标的量纲影响,对各指标数据进行归一化处理。
3)训练SOM神经网络。由于葡萄的指标较多,因此设置竞争层神经元数目为12个。神经元的学习速率为0.001,距离函数为linkdist距离,迭代次数设定1 000次,为了方便观察聚类的结果,使用compet传递函数。
4)保存网络并用网络进行聚类分析。
5)結果分析。 通过SOM的自主织竞争,得到如图3所示的各神经元之间的关系图。
图3中,正六边形表示竞争层的神经元,红色线表示各神经元之间的全连接过程,相邻神经元之间的六边形表示神经元之间的距离,颜色越浅则神经元之间的距离越短。由图3可以看出,右上侧神经元之间的距离较短,则可大致推知其所属的样本属于一类。图4表示各因子在不同神经元的权重分布,是图3的分解图。其中,颜色越深,权重越小。
图5表示各神经元的权重位置图。其中,蓝色部分表示各个神经元,绿色表示葡萄的样本。由图5可看出神经元的位置和样本的位置集中分布在左下方。图6是聚类结果的间接表达。其中,正六边形表示竞争神经元,而蓝色部分表示竞争胜出神经元,竞争胜出神经元的个数即为葡萄所分的种类数,神经元中的数字表示该种类所拥有的样本数。
3结束语
与传统聚类分析相比较,用SOM自组织特征映射实现聚类其效果更好,所需时间更短,人为干预程度较低。在运用SOM进行聚类分析时,先用关联分析对相关因子展开分析,降低了分析的难度,使模型更加科学可靠。
参考文献:
[1] 姚海妮,王珍,邱立鹏,等. EMD马氏距离与SOM神经网络在故障诊断中的应用研究[J]. 噪声与振动控制,2016,36(1):138-140,162.
[2] 岳宇飞,罗健旭. 一种改进的SOM神经网络在污水处理故障诊断中的应用[J]. 华东理工大学学报(自然科学版),2017,43(3):389-396.
[3] 张全德, 陈果, 林桐,等. 基于自组织神经网络的滚动轴承状态评估方法[J]. 中国机械工程,2017,28(5):550-558.
[4] 王晓燕. K均值算法与自组织神经网络算法的改进研究及应用[D]. 太原:中北大学,2017.
[5] 段翔. 基于SOM神经网络的新化县森林健康评价[D]. 株洲:中南林业科技大学,2016.
[6] 樊国敬,田秀华. 基于SOM神经网络的区域复合生态系统健康评估[J]. 统计与决策,2017(11):85-88.
[7] 付强,王志良,梁川. 自组织竞争人工神经网络在土壤分类中的应用[J]. 水土保持通报,2002,22(1):39-43.
[8] 马媛媛,王淑芬,赖营帅,等. 基于SOM神经网络的土壤重金属空间分异性研究[J]. 石河子大学学报(自然科学版), 2017,35(1):102-107.
[9] 雷璐宁,石为人,范敏. 基于改进的SOM神经网络在水质评价分析中的应用[J]. 仪器仪表学报,2009, 30(11):2379-2383.
[10]刘博,肖长来,梁秀娟. SOM-RBF神经网络模型在地下水位预测中的应用[J]. 吉林大学学报(地球科学版),2015,45(1):225-231.
[11]霍双红,胡红萍,白艳萍,等. 基于PCA-K-means和PCA-SOM神经网络的葡萄酒分类[J]. 数学的实践与认识,2016,46(17): 168-173.
[12]王葳,赵国亮. 基于模糊C均值的酿酒葡萄分级[J]. 高师理科学刊,2016,36(11): 18-20.
[13]刘美迎,李小龙,梁茁. 基于模糊数学和聚类分析的鲜食葡萄品种综合品质评价[J]. 食品科学,2015,36(13):57-64.
[14]陈万振,张予瑶,苏一丹,等. 贝叶斯正则化的SOM聚类算法[J]. 计算机工程与设计,2017,38(1):127-131.
[15]宋莉娜,冯旭鹏,刘利军,等. 基于SOM聚类的微博话题发现[J/OL]. [2017-04-01]. http://www. arocmag. com/article/02-2018-03-039. html.
[16]尹春华,王祖伟,尹红生. 基于SOM神经网络的人力资本聚类分析[J]. 辽东学院学报,2006,13(1):1-5.
[17]许逸凡,李杰,魏义涛. 基于SOM网络的机场天气聚类分析[J]. 数学的实践与认识, 2016,46(17):210-217.
[18]刘焕海,叶剑锋,阿斯耶姆. 基于自组织特征映射网络(SOM)的聚类分析方法[J]. 软件导刊,2016,15(12):133-135.
[19]孙玉刚. 灰色关联分析及其应用的研究[D]. 南京:南京航空航天大学,2007.
[20]刘思峰,蔡华,杨英杰,等. 灰色关联分析模型研究进展[J]. 系统工程理论与实践,2013,33(8):2041-2046.
[21]苏博,刘鲁,杨芳延. 基于灰色关联分析的神经网络模型[J]. 系统工程理论与实践,2008(9):98-104.
[22]陈伟清,史丽娜,吕东妮. 等. 基于灰色关联聚类分析的智慧城市建设领域发展水平实证研究[J]. 科技管理研究,2017(6):59-64.
[23]任东风,尤静静,尤明英,等. 基于灰色理论与回归模型的土壤类型预测研究[J]. 土壤通报,2017,48(3):520-524.
[24]高明,吴雪萍. 基于熵权灰色关联法的北京空气质量影响因素分析[J]. 生态经济, 2017,33(3):142-147.
[25]申卯兴,薛西锋,张小水. 灰色关联分析中分辨系数的选取[J]. 空军工程大学学报(自然科学版),2003,4(1):68-70.endprint