关联规则挖掘在旅游市场研究中的应用
2011-10-17四川大学工商管理学院朱超何跃
四川大学工商管理学院 朱超 何跃
改革开放30年来,旅游业持续快速发展,引人瞩目。西部地区是我国旅游资源最为富集的地区,资源总量约占全国总量的40%。特别是实施西部大开发战略10年来,西部地区的旅游基础设施、公共服务设施以及产业体系不断完善,产业功能和素质不断拓展和提升,旅游业成为西部地区的重要产业,对促进农民增收和脱贫致富,推进生态环境和文化的保护,促进民族团结和边疆稳定,实现区域协调发展发挥了重要作用。四川作为具有丰富旅游资源的西部大省,在旅游业的建设和发展上有自身的优势和特色。
关于旅游市场的研究,目前大多数都是采用定性的研究方法,或者统计方法,例如,周子波[1]等人从国内旅游业中存在的问题入手,阐释了中国旅游业的内部结构调整,并提出了发展国内旅游业的几点意见。李江帆[2]等人运用投入产出理论,以广东省投入产出表为依据,对旅游业的产业关联和产业波及效应作了定量分析;周欣胤等[3]曾经使用Apriori关联规则挖掘模型,对四川省2007年卷烟市场数据进行过研究,找出了其中的关联规则;以及苏振扬,赵庆国[4]曾论述了基于关联规则的数据挖掘技术在中小学师资管理系统中的应用。
通过文献查阅,还没有发现应用关联规则的Apriori算法,对旅游市场进行研究的论文。本文用收集的四川旅游市场调查资料,用数据挖掘中的关联规则算法,对消费者喜爱的四川旅游景点进行挖掘分析,为四川旅游业的发展提供辅助决策依据。
1 数据挖掘中的关联规则
关联规则[5]是美国IBM Almaden Research Center的Rakesh Agrawal等人于1993年首先提出来的KDD研究的一个重要课题。关联规则挖掘问题[7]就是事务数据库中,找出具有用户给定的最小支持度minsup和最小置信度minconf的关联规则。数据挖掘[6-8]又称知识发现,是指从大量数据中提取可信的、新颖的、有效的并最终能被人们理解的模式处理过程。
关联规则挖掘算法分为两个步骤:(1)发现频繁项目集。通过用户指定的最小支持度,寻找所有频繁项目集;(2)生成关联规则。通过用户指定的最小可信度,在最大频繁项目集中,寻找可信度不小于最小可信度的关联规则。
经典算法Apriori是一种宽度优先的多趟扫描算法,第一步扫描数据库,计算数据库中所有单个项目的支持计数,并把大于最小支持计数的项目组成1维频繁项集,称之为1_项集,即L1。然后重复扫描数据库,第k次扫描产生K_项集Lk,第k+1次扫描时,首先通过对Lk中的项目集的连接操作生成(K+1)_项集的候选集Ck+1,再利用剪枝操作删除Ck+1中小于最小支持计数的项集,从而得到Lk+1,直到无频繁项集生成为止,最后的频繁项集的集合为[1]。
Apriori算法利用Apriori性质(频繁项目的所有非空子集都必须是频繁的)有效地对项集进行剪枝,尽可能不生成和不计算那些不可能是频繁项集的候选项集,从而生成较小的候选项集的集合。
2 基于关联规则的四川旅游系统的应用
2.1 原始数据的准备阶段
四川省2007年旅游业数据来源是四川省城调队专项处调查问卷数据。在四川省境内不同地州市共发出500份调查问卷,收回416份有效问卷。数据分析使用Clementine软件建立Apriori关联规则挖掘模型,对四川省2007年旅游市场数据进行研究,找出其中的关联规则。在分析中用到的被调查者的基本信息包括被访者的年龄、文化程度、被访者的月收入水平;用到的调查问题有:最近十个月出游过的四川旅游景区、印象最深刻的景区、挑选游玩景区时影响最大的因素、满意度评价(包括:住宿、餐饮、游客拥挤程度等)。被访者回答问题时,答案是用1、2、3、4等来表示的,如:导游服务态度这个问题:1表示不满意,2表示不太满意,3表示一般,4表示较满意,5表示满意。其他问题类似。部分数据信息如表1所示。
表1 部分调查数据表
2.2 建立数据挖掘模型及进行数据预处理
数据预处理是对数据源进行加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行平滑,对丢失的数据进行填补,消除不合格数据,消除重复记录等,使之符合数据挖掘的要求。主要工作有检查拼写数据,完成数据类型转换。
问卷数据不能直接作为数据源使用,因为Apriori算法只能处理布尔型的数据,因此,需要将原始数据全部转换成布尔型的数据。具体做法是每个问题的每个选择项都作为新表的一个字段,如果原表选择了该选项,则对应字段的值为1,否则为0。
转换后的部分数据信息视图如表2所示,其中,A1表示问题A的第一个选项。B1表示消费者背景的第一个选项,余此类推。
表2 转换后的部分调查数据表
2.3 数据挖掘结果与分析
分析收入水平、受教育程度、年龄、职业与最喜爱的景区的关联规则。将转换好的旅游者收入水平、受教育程度、年龄、职业与旅游者最喜爱的景区的数据存入Excel文件并作为数据源在Clementine软件中输入,将旅游者收入水平、受教育程度、年龄、职业设定为“输入”,最喜爱的景区设定为“输出”,支持度设为15%以上,置信度25%以上,建立Apriori 关联规则挖掘模型得到输出结果如表3所示。
表3 家庭收入、受教育程度、年龄、职业与最喜爱的景区的关联规则
由表1可知,九寨沟是最受欢迎的景区之一。就收入水平而言,收入为2001-3000元,大专及以上文化程度的旅游者最喜爱的景区为九寨沟,其支持度在15.1%,说明了收入水平在2001-3000元,大专及以上文化程度的旅游者在调查人群中所占的比例是15.1%,置信度45.2%,说明了该类旅游者有45.2%的概率到九寨沟旅游消费。从年龄来看,25~44岁的旅游者中,最受欢迎的也为九寨沟景区,这部分人群收入较稳定,有一定的消费能力;就受教育程度而言,中专和高中、大专及以上学历的旅游者偏好九寨沟;就职业而言,公务员最喜爱的景区也为九寨沟,而离退休人员则喜爱成都武侯祠,因为离市区近,方便且消费较低,适合离退休人员。同时,可以看到收入水平为1501~2000元的旅游者最喜爱的景区为峨眉山,说明峨眉山的消费水平较九寨沟略低,受较低收入者的喜爱;因此,四川旅游业相关部门应从多个方面着手,针对旅游人群的不同特征,加大景区宣传力度,开展针对性的活动以吸引旅游者,例如,针对潜力消费者开展优惠活动,开发具有吸引力的文化、兴趣爱好、休闲等多种模式的旅游产品,集中力度解决交通、食宿等突出问题,同时大力开发其他景区,促进四川旅游业全面、较快发展,使人们看到更美好的四川。
3 结语
文章采用了数据挖掘方法中的Apriori算法分析了四川省旅游市场相关数据,从纷繁复杂的数据中找出了游客消费行为的本质特征,突出解决了收入水平、年龄、职业、受教育程度及四川境内最受欢迎的景区之间的关联规则问题,从而为有针对性的制定营销策略,提供了辅助决策依据。
同时,我们知道旅游景区的受欢迎程度往往也是气候、季节等因素的综合反映。本文由于没有考虑旅游景区季节气候等自然界因素,挖掘的结果有一定局限性,因此在今后研究中,挖掘出的关联规则最好结合旅游市场的季度信息进行综合分析,以提高其有效性。
[1]周子波,韩鹏辉.浅谈我国国内旅游业[J].中国商贸,2009(17).
[2]李江帆,李冠霖,江波.旅游业的产业关联和产业波及分析——以广东为例 [J].旅游学刊,2001(03).
[3]周欣胤,何跃.基于Apriori算法的四川省卷烟市场的研究[J].中国商贸,2010(04).
[4]苏振扬,赵庆国.基于关联规则的中小学师资管理系统应用研究[J].软件导刊,2009(2).
[5]Mehmed Kantardzic.闪四清,陈茵,程雁等译,数据挖掘-概念、模型、方法和算法[M].北京:清华大学出版社,2002.
[6]Jiawei Han, Micheline Kamber.范明,孟小峰等译.数据挖掘——概念与技术[M].北京:机械工业出版社,2001.
[7]Usama Fayyad, Gregpru Oatesdu-Shapiro, Padhraic Smyth, RAMASACY UTHURU SAMYMY, ETAL .Advances in Knowledge Discovery and Data Mining [M].AAAI Press/The MIT Press, 1996.
[8]Gregory Piatesdy-Shapiro, Willam J Frawley, Editors .Knowledge Discover y in Databases [M].AAAI Press,1991.