APP下载

基于数据挖掘技术的红酒评分预测模型的设计与分析

2019-03-21王柏

现代商贸工业 2019年7期
关键词:机器学习红酒数据挖掘

王柏

摘要:随着现代社会的快速发展,红酒行业已慢慢走向全球化与大众化,更多的红酒品牌和品种也逐渐被世人所知。然而,红酒品质也分三六九等,如何判断一款红酒是优是劣?利用SPSS,Excel等软件,使用回归、决策树、聚类等经典机器学习算法,对红酒的价格、评分、产地等因素进行统计与分析。最终得出红酒的原产国,省份以及品种基本可以决定红酒的优劣。

关键词:红酒;数据挖掘;机器学习

中图分类号:TB文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.07.100

1前言

红酒,是一种有着漫长历史的饮品。早在公元前1000年,红酒就在地中海沿岸大部分地区繁衍传播,并逐漸发展成为高档饮品。在全世界的基督教信徒的眼中,红酒被视为耶稣的血液,这一点也促进了红酒的平民化。红酒不仅仅给人以高雅和浪漫的感觉,在很多女性心中还有美容驻颜的功效,随着时间的推移,社会也在快速发展,人们生活水平逐步提升,红酒市场目前拥有着巨大的发展潜力和良好的发展前景,红酒也将逐渐走向全球化与大众化,让越来越多的人有机会去品尝。

近年来,越来越多的人更加讲究红酒的品质,传统红酒的品鉴,要考虑红酒的香气、口感、结构、酿造工艺、风土和价格等综合因素。但这些复杂的品鉴技术需要积年累月的品酒经验,对于大多数普通人来说,学习这门技术并不容易。因此,人们对于红酒的品质界定十分地模糊,并不清楚哪些红酒档次较高,而哪些红酒档次相对较低。为了帮助人们通过更简单直接的方法去了解红酒的品质,本文根据Kaggle网站上Wine Reviews专题提供的129970组数据,使用决策树,聚类等经典机器学习算法,分析数据规律,建立了根据红酒产地、品种、制造商等因素预测红酒品质的模型;并探索了影响红酒档次的最主要因素。该模型可以为喜欢红酒的人们提供参考,从而使他们对于红酒品质有着更加清晰的认识。

2数据介绍和预处理

本文使用的Wine Reviews数据集的原始出处是WineEnthusiast网站上不同国家用户对众多红酒的评论。本数据集主要包含了129970款红酒的产地国(Country)、省份(Province)、城市(Region)、评分(Points)、描述(Description)、制造商(Winery)、品种(Variety)、价格(Price)等重要因素。

数据集中,评分和价格都是数值型属性,为了构建决策树模型,在预处理过程中,要对这两个属性进行离散化处理。本文根据分数的高低初步划分这些红酒的档次,大于等于90分的为高等(High),大于等于85分,小于90分的为中等(Medium),小于85分的则为低等(Low)。同时,本文对价格进行排序,将红酒的价格划分为三个档次:大于等于500美元的为贵(Expensive),大于等于100美元,小于500美元的为普通(Normal),小于100美元的为便宜(Cheap)。

同时在这129970组数据当中,缺失部分数据的红酒样本会对计算产生影响,为消除这部分影响,本文删除了部分数值或资料缺失的样本,保证红酒数据的完整性,为后文中的预测模型的准确性提供更加科学的依据。

3单因素数据分析

3.1原产国、价格与评分

首先,本文将对129970款红酒按照国家(country)分类,分别求出不同国家红酒的平均价格和平均评分。使用了Excel的“分类汇总”功能,将国家作为“分类字段”,将“价格”和“评分”作为“汇总方式”,使用“平均值”作为汇总项。得到分类汇总的结果后,本文使用“定位”功能,将汇总结果单独取出,使用EXCEL图表中的“组合图”,分别用柱形图表示“评分”,用折线图表示“价格”,得到结果如图1所示。

通过比较每个国家红酒的平均价格与平均评分,我们可以判断哪些国家的红酒更加物美价廉。根据图1我们分析得出,法国、匈牙利、卢森堡、德国、意大利等这些我们熟知的红酒发展历史悠久的欧洲国家的红酒性价比反而比较低。反而,如印度、摩洛哥、阿尔巴尼亚、塞尔维亚、智利、土耳其等国家,其红酒拥有不俗的品质,但是价格并不高,他们出产的红酒往往是性价比高的选择。

其次,我们重点观察了高品质红酒的原产地。红酒平均得分最高的五个国家均在欧洲,分别是英国、奥地利、法国、德国和意大利。在亚洲国家中,评分最高的三个国家是土耳其、印度和以色列。韩国、中国、黑山共和国的红酒的平均评分是最差的。

由此可见,原产国对于红酒的评分与价格或多或少产生了一定的影响,本文会将在多因素分析中进一步解释与说明。

3.2省份、价格与评分

本文使用同3.1相似的办法,对各个原产国中不同省区(province)的性价比进行了计算,发现每个原产国都会有至少一个较大的红酒产区。这些较大的红酒产区出产的红酒评分都相对较高,同时价格也相对较昂贵。例如,我们熟知的法国波尔多红酒产区,其红酒的平均得分在所有的省份中并不算很高,但红酒的平均价格高达57.3美元(约合372.45元人民币)。

由此可见,出自著名产区的红酒并不一定都是性价比可行的红酒。同样,本文将会在多因素分析中运用决策树算法进一步研究省份对于价格与评分的影响。

3.3描述、价格与评分

如何预测一款红酒的价格与评分,评价者们对红酒的描述(description)也成为了一个不可或缺的因素。我们使用python NLTK package对描述中词进行解析统计。其中,出现频率最高的Top10名词是:wine,flavor,fruit,acid,cherri,aroma,tannin,palat,spice,间接说明了描述的内容主要是以红酒的气味、口味为主,“果味”、“香料”、“酸甜度”都是评价一款红酒很重要的因素。

为了简单分析红酒描述对于价格和评分的影响,本文主要提取了6个不同方面的关键词:丝滑(Smooth),纯正(Pure),余味(Aftertaste),百分百(100%),颜色(Color)和新鲜(Fresh),并计算出含有这些高频词汇的红酒平均价格与平均评分的关系。在性价比方面含有“新鲜”关键词的红酒性价最低,含有“百分百”关键词的红酒性价比最高。在评分方面,平均得分最高的是描述中含有“纯正”关键词的红酒,为9041;但这些红酒价格不菲,平均价格为51.12美元。同时我们发现,性价比相对较低的红酒组平均得分也不是很高。

由于描述众多,不便于统计,并且经过初步分析,描述对于红酒的性价比影响并不是很大,因此在下面的多因素分析中将暂时不作为自变量进行分析。

3.4品种、價格与评分

如何更加全面准确地预测红酒的评分,红酒的品种也是一个不可或缺的重要因素。本文运用Excel当中的“分类汇总”功能,将红酒的性价比根据红酒的种类进行分类汇总并进行比较。其中Nebbiolo的性价比最高,为0.68;最低的是Rosé,为0.20。而Nebbiolo品种的红酒得分普遍较高,为90.22分,但价格也较为昂贵,平均价格为61.70美元(约合401.05人民币),总体来看,评分较高的红酒品种价格都相对较高,评分较低的红酒品种也相对较便宜,因此红酒的品种对于红酒评分的预测基本呈正相关,即越高档的品种,预测的评分也会越高。

3.5综述

在单因素数据分析中,本文主要通过比较平均价格与平均得分的比值,初步对各个影响因素进行初步的分析。本文初步认为,原产国有可能会成为预测红酒得分、价格模型中一个较为重要的评分标准;描述也会有所影响,但是由于描述众多,暂不作为预测红酒评分的标准之一。本文将会在下一章中,运用决策树等经典机器学习算法,进一步分析各个因素对于红酒品质的影响,构建评分预测模型。

4多因素数据分析

为使该模型更加简洁,本文通过计数的方式将48个国家分为US,France,Italy,Spain,Chile,Argentina,Portugal,Australia和Others九大类,其中前八类占总数据的90.75%;将446个省区分为California,Washington,Tuscany,Northern Spain,Mendoza Province,Oregon,Burgundy,Veneto,South Australia,Piedmont,Bordeaux,New York,Sicily & Sardinia和Others十四类,其中前十三类占总数据的68.14%;将620个红酒品种分为Chardonnay,White Blend等和Others共二十类,其中除Others以外的其他类别占总数据的7316%。这样的提取基本可以为下面红酒评分预测系统的测试提供可靠的规律。

进行该处理后,本文在每条数据后添加随机数函数 RAND,生成一个所在行的随机数,根据随机数的大小对样本进行重新排序,并选取其中最先出现的20000款红酒的数据,作为我们的随机样本数据,建立决策树模型进行分类和预测。在该决策树模型中,本文以得分作为因变量,原产国,省区和品种作为自变量,价格为影响变量。选取这20000款中70%作为训练样本,剩余的30%作为测试样本。训练样本的决策树模型如图2所示。

根据计算结果分析,该决策树模型的正确率约为87.8%,树的深度为6,共有43个节点。其中,来自Tuscany,Burgundy,Bordeaux, Piedmont和South Australia的Merlot, Syrah和Bordeaux-Style White Blend品种红酒的预测得分最高,为93.602;来自Chile, Argentina, Spain和Portugal的Zinfandel, Sauvignon Blanc,White Blend, Rosé, Merlot, Nebbiolo和Shiraz品种的红酒预测得分最低,为85.100.大多数红酒的分数都在87分至92分之间。据此,该模型基本可以准确根据红酒的原产国,省区和红酒的品种对红酒的评分进行预测。

5总结

本文首先单因素分析了原产国,产地和品种对红酒的价格与评分进行了简单的分析,之后以此为基础,运用决策树算法,建立了较为简单的红酒评分预测系统的模型。从实验结果来看,该系统的准确率较高,因此基本可以说明红酒的原产国,省份以及品种大致决定了红酒的评分。

但是,该红酒评分预测系统也有一定的局限性。首先,随机选取的样本当中不排除平均数值较实际数值偏低或偏高的情况,因此不一定能够准确地反映一款红酒的整体水平;其次,该红酒评分预测模型也只是通过分析红酒的原产国、省份和品种而建立的,忽略了酒厂,描述以及品牌对于预测红酒评分的影响,因此有可能会错误地预测红酒的评分。

虽然有一定的局限性,但是该红酒评分预测系统提供的数据依然有值得参考的价值,人们可以通过这个系统初步了解一款红酒的得分,从而了解这款红酒处于什么样的档次。同时随着服务业的快速发展,该红酒评分预测系统也将具有根据人们的需求为人们推荐评分较高或性价比较高的红酒的功能,同时也会根据用户对于这款红酒的评论不断更新红酒的评分,使该红酒评分预测系统更加完善。

然而,无论该红酒评分预测系统有多么地完善,真正评分高的红酒,依然需要专业的品酒师进行品鉴,提供更可靠,更科学的结论。

参考文献

[1]尚朝轩.基于类决策树分类的特征层融合识别算法[J].控制与决策,2016,31(6):1009-1014.

[2]Wang size.The Study on Evaluation System of Wine Based on Data Mining[J].Advances in Applied Mathematics,2015,4(4):376.

[3]Li,Weishu,et al.Improved Wine Quality Recognition Based on Particle Swarm Optimization Neural Network[Z].2018.

猜你喜欢

机器学习红酒数据挖掘
菠菜红酒防痔疮
红酒中毒案
基于并行计算的大数据挖掘在电网中的应用
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
一种基于Hadoop的大数据挖掘云服务及应用
2015年最酷红酒标签
基于GPGPU的离散数据挖掘研究