APP下载

个性化消费模式在旅游商务系统中的应用

2013-11-20耿向华谭晶晶

关键词:景点商务数据挖掘

耿向华,谭晶晶

(郑州旅游职业学院 旅游商贸系,河南 郑州 450009)

个性化旅游线路的设计,已成为目前旅游消费者对旅游产品的热点需求.用Apriori优化算法来产生旅游商务系统中的消费模式,可满足消费者的个性化需要.

1 旅游商务系统框架

图1 旅游商务系统数据挖掘模型图Fig.1 Travel business system data mining model

数据挖掘技术在实际应用中应处理好三个环节,一是原始数据的处理,二是模式库的建立与表示,三是算法的应用.结合常用旅游商务系统的特点,本研究设计了一个基于数据挖掘的个性化旅游电子商务系统框架,整体上仍采用B/S结构,结构模型如图1所示.其中,后台的功能主要是利用前台收集的数据运用数据挖掘算法找出相应的规则,前台的功能主要是利用后台提供的规则模型对旅游消费者进行个性化的消费模式推荐.后台模块和前台模块的处理过程大致上是一致的,前台和后台相互作用,保证了旅游商务系统呈现给用户的信息是实时的、最新的和合理的.

图2 后台系统结构图Fig.2 The structure of the system

由于该模型实现了前台和后台的分离,所以能够应对海量的数据信息,提高了个性化旅游商务系统的伸缩能力和实时响应速度.再则,由于引入了Web挖掘技术,即使Web站点的内容变化比较频繁,也能提供高质量的个性化服务.

1.1 后台模块

后台模块主要负责数据的预处理和Web挖掘,为个性化查询提供支持,其系统结构如图2所示.

(1)数据库管理系统(DBMS)

在个性化旅游商务系统中,每一步都需要从数据库中检索相应的数据,如景区景点基本信息数据库、用户信息数据库和订单信息数据库等.

(2)数据预处理

数据预处理主要对Web使用数据、Web内容数据和Web结构数据进行各种处理,从而为后续的Web挖掘提供可以直接处理的数据源.通过关联规则挖掘获取用户的访问特征,由于数据预处理和Web挖掘历时比较长,不能满足个性化旅游商务系统的实时性要求,所以将这两项操作置于后台进行,挖掘结果可供前台模块的查询引擎直接引用.

(3)模式分解

模式是系统能够产生个性化服务的重要基础,而模式分析的职能就是运用数据挖掘的方法生成个性化查询需要的模式.

图3 前台系统结构图Fig.3 The system structure diagram

1.2 前台模块

前台模块获取的最终目的是为用户提供高质量的个性化查询服务,所以在线部分的设计对整个个性化商务系统至关重要,其模块示意图如图3所示.

对标准数据库使用Apriori算法来完成关联规则的挖掘,把挖掘到的关联规则写入规则库.前台模块的作用就是通过Web端直接为旅游消费者服务,它能够记录用户访问的基本信息作为模块的输入数据.在消费者不知情的情况下,不需要他们提供其他信息即可为旅游消费者提供服务,也不会造成个人信息的泄露.

2 数据源的获取

数据挖掘在Web中的应用主要有三种:Web内容挖掘、Web结构挖掘和Web应用挖掘.其中,Web应用挖掘主要是通过对访问者行为模式数据的研究,从中获取更有价值的信息,所以在旅游商务系统中游客个性化消费模式的研究主要属于Web应用挖掘的研究.当前Web数据挖掘领域的热点问题便是Web应用挖掘,它能有效地将数据挖掘技术应用于电子商务活动中,使电子商务获得更好的发展.

旅游商务系统中可供应用挖掘的数据量极大,但仅从优化消费者消费模式的角度而言,主要可以从如下几个方面进行挖掘:

(1)访问日志数据信息

访问日志信息是进行数据挖掘时最可信赖的数据源.消费者在访问每一个旅游商务系统时,都会在Web服务器端留下相应的日志数据,它详细记录了用户的各种访问信息,并且它们一般都有通用的格式,比如目前比较流行的W3C格式.

(2)查询数据信息

查询数据是旅游电子商务系统中获取挖掘数据的另一个主要数据来源,主要指消费者在旅游商务系统上进行查询操作时,产生在Web服务器的典型数据信息,如用于记录用户状态或访问路径的Cookie信息,但如果用户不接受Cookie,这部分就无意义可言.

(3)用户订单信息

该类信息主要来源于消费者通过旅游商务系统产生的各类订单,如旅游产品订单、宾馆和餐饮订单等.

(4)用户注册信息

该部分主要是指消费者访问旅游电子商务系统时,所填写的系统设计人员事先设定好的表单信息,主要记录了用户的基本情况.

该系统数据检测建模的样本数据为随机抽取的旅游商务系统的客户数据,主要是用户信息表、订单信息表及套餐信息表.数据挖掘的数据格式为SQL Server表结构.各表概况信息如表1所示.

表1 数据源原始样本表概况Tab.1 The data source original sample surface profiles

3 数据源预处理

预处理是数据挖掘过程中必不可少的阶段.对于数据挖掘而言,必须保证输入数据的正确性,同时需要将现实中各式各样的数据加工处理后才可以被挖掘算法应用,所以需要抽取有用的数据.数据预处理主要就是用来完成修补现实世界数据的不完整或不一致,剔除噪声数据,将现有的数据转化为挖掘算法可用的格式,抽取有用的数据等工作.

3.1 数据源的清理

本次挖掘中所用到的关键属性主要包括users表中的客户号、性别、年龄、收入;Tc_orders表中的客户号、订单号、旅游套餐编号;Tc_info表中的旅游套餐编号及具体景点景区信息.在SQL Server环境下,Users表与Tc_orders通过客户号联系在一起,Tc_orders表与Tc_info表通过旅游套餐编号连在一起,并通过如下连接语句获取有用的数据信息:

(1)Select users.客户号,users.性别,users.年龄,users.月收入,Tc_orders.订单号,Tc_orders.旅游套餐编号 into cursor table info1 FROM users,Tc_orders

where users.客户号= Tc_orders.客户号

(2)Select info1.性别,info1.年龄,info1.月收入,info1.订单号,Tc_info.套餐编号,Tc_info.线路信息

From info1, Tc_info

where info1.订单编号=Tc_info.订单编号

into table hz_info

hz_info表的部分内容如图4所示.

图4 hz_info表的部分内容截图Fig.4 The part of hz_info table

分析hz_info表的结果会发现,基本信息相近的消费者所选取的消费模式存在一定的相似之处. 我们从上面数据中选取出年龄在30~40岁、月收入在3 000~5 000元的消费者的交易信息,形成事务数据库sw_db.查询语句伪代码如下:

图5 Sw_db表的部分内容截图Fig.5 The part of Sw_db table

Select hz_info.订单号,hz_info.线路信息

FROM hz_info

where 年龄在30~40岁and 收入在3 000~5 000元

into table sw_db

部分查询结果如图5所示.

3.2 数据转换

数据转换是将事务数据库中的数据转换成适合挖掘的形式,本研究将sw_db事务数据库中的数据转化为十进制信息形式.订单号从数值1开始依次编号,线路中的每个景点信息用一个十进制数来表示,相同的景点用相同的数字表示,转换后的事务数据库zh_db部分内容如表2所示.

表2 转换后的事务数据库zh_db部分信息Tab.2 The converted transaction database part zh_db information

4 系统实现

采用Apriori优化算法对转换后的事务数据库zh_db进行处理,便可产生个性化消费模式,算法主要步骤如下:

(1)系统初始化;

图6 个性化消费模式系统挖掘主界面Fig.6 Personalized consumption pattern system of mining main interface

(2)调用自定义函数 getSubSet(t) //求出zh_db事务数据库中任一交易的所有非空子集.t为zh_db事务数据库中的任一订单号;

(3)把步骤二产生的所有非空子集汇总成数据库sw1_db;

(4)调用函数getSubTDB(sw1_db) //对sw1_db数据库进行扫描,更新各交易子集的支持度;

(5)调用函数getPf(sw2_db) // sw2_db为第四步产生的数据库.

5 运行效果

个性化消费模式挖掘系统主界面如图6所示.

假定输入的最小支持度为0.7,则系统产生的频繁项集及关联规则分别如图7和图8所示.

图7 频繁项集产生结果图Fig.7 The result of frequent itemsets

图8 关联规则产生结果图Fig.8 The result of association rules

上述几条规则的含义如下:

(1)选择景点1,2的旅游消费者可能会同时选择景点4,其可信度为85%.

(2)选择景点2,23的旅游消费者可能会同时选择景点9,其可信度为76%.

(3)选择景点10的旅游消费者可能会同时选择景点2,其可信度为91%.

(4)选择景点20,21的旅游消费者可能会同时选择景点42,其可信度为78%.

(5)选择景点11的旅游消费者可能会同时选择景点22,45,其可信度为87%.

6 挖掘结果

由以上的运行结果可知,当年龄在30~40岁、月收入在3 000~5 000元的消费者在进行旅游模式查询时,可以将{{1,2,4},{23,2,9},{10,2},{21,20,42},{11,22,45}}所代表的旅游线路作为个性化消费模式向其推荐.

参考文献:

[1] 陈冬林,聂规划,刘平峰.基于知识网格的电子商务推荐系统设计[J].计算机应用研究,2006,23(12):307-309.

[2] 齐晓峰.数据挖掘技术在学生成绩管理中的应用研究[D].阜新:辽宁工程技术大学,2006.

[3] 贺红,徐宝文.Web信息系统的安全隐患与网络管理员对策[J].计算机工程与应用,2005(18):151-153.

[4] 李秋丹.数据挖掘相关算法的研究与实现[D].大连:大连理工大学,2004.

猜你喜欢

景点商务数据挖掘
探讨人工智能与数据挖掘发展趋势
完美的商务时光——诗乐全新商务风格MOMENTUM系列
打卡名校景点——那些必去朝圣的大学景点
基于并行计算的大数据挖掘在电网中的应用
英格兰十大怪异景点
国外商务英语演讲研究进展考察及启示(2004—2014)
一种基于Hadoop的大数据挖掘云服务及应用
没有景点 只是生活
景点个股表现
基于GPGPU的离散数据挖掘研究