APP下载

基于模糊朴素贝叶斯方法的客户消费行为预测研究

2013-02-22唐振平陈建华蒋建军韦海峰

湖南科技学院学报 2013年12期
关键词:朴素消费行为贝叶斯

杨 琼 唐振平* 陈建华 蒋建军 韦海峰

(1.南华大学 经济管理学院管理科学与工程系;2.南华大学 经济管理学院信息管理与信息系统系,湖南 衡阳 421001)

1 引 言

客户消费行为预测是每个企业都急需解决的一个难题,因为客户在购买产品时具有多选择性,客户的选择对企业的生存与发展会产生严重影响。就目前研究情况来看,对客户消费分析的大部分成果体现在客户划分及客户价值方面的研究,或仅仅利用历史数据进行常规统计,得到的结果比较肤浅,无法为企业决策人员提供帮助。当前,客户消费已呈现多样化,客户消费数据库不断增大,消费特征发生了根本性变化,基于这种状况,本文针对客户消费行为预测提出了模糊朴素贝叶斯方法。

2 客户属性模糊因子段表示方法

本部分主要使用的变量说明:(1) c:语言变量中的语义值个数; (2) vc,im:

定义于属性m 中,c 个变量语义值中的第i 个语义值,1<= im<=c;(3)a:属性值个数,a>=1。

已有研究提出不同的模糊语义值能用于模式识别及模糊推理[1],因此该方法得到了不同的应用,例如,模式分类[2][3][4],模糊规则[5],空间特征分离应用[6][7]等。在这部分研究中,我们把每个属性看成一个语义变量,该语义变量又分成不同的语义值。一个语义变量的值为自然语言中的语言单词或句子[8][9][10][11]。

贝叶斯网络[12]又称作置信网络,是一种基于概率推理的图形化表达方式,主要以图形化的方式描述变量或事件之间的概率关系或因果关系。贝叶斯网络广泛应用于许多领域,如:故障诊断[13],评价系统可靠性[14]15],可靠性模型[16][17],人工智能[18][19]等等。一般来说,属性值有定量的和定性的,为此,下面分两个部分进行论述。

2.1 定量属性的模糊格表示方法

定量属性能分成c 个不同语义值,例如,属性“年龄”,其范围可以为:[0,60]。

我们可以假设分三种情况,即:c=2,c=3,c=4,为方便描述,下面分别用三个图形来表示:

图1 .对于年龄属性(0到60)当c=2时的图形描述

图2 .对于年龄属性(0到60)当c=3时的图形描述

图3 . 对于年龄属性(0到60)当c=4时的图形描述

上述图中的属性模糊表示方法,如:V2,1age,V2,2age,……V4,4age可看成模糊格1-项集。对于多维模糊格通过类似的方法能够进行描述,例如,如果我们要把年龄(age),用 x1 表示,和薪水(salary)用x2 表示,这两个属性分成三个语义值,那么一个特征空间被分成3*3 的2 维模糊格。如果要表示年龄及薪水这两个属性的任意2 维模糊格,可以这样描述:V3,1age*V3,2salary。

2.2 定性属性的模糊格表示方法

定性属性的可能取值是有限的,且值之间没有顺序关系。如果不同的属性值为n′(n′是有限的),那么这个属性只能被n′个语义值进行划分。例如,每个语义值的语义句子在定义“sex”时可以这样描述:

每个语义值可看成是模糊格1-项集,多维模糊格项集表示方法在定量属性的模糊格表示方法中已经讲述。

3 客户消费行为预测的朴素贝叶斯方法

在很多应用方面,类变量与属性之间的关系很难确定,也就是说,虽然被测试的记录属性与有些训练样本相同,但即便这样也无法保证能完全正确地预测其类标号。这一部分主要讲述客户属性集与客户类变量的概率关系推理方法,是一种把类的先验知识与客户属性之间相结合的条件概率方法,主要是通过朴素贝叶斯方法实现。

3.1 朴素贝叶斯方法定义

假设类标号为y,朴素贝叶斯一般在估计类的条件概率时认为属性之间是独立的。这种独立性可用下面的方式进行表达:

3.2 条件独立性描述

现设,X,Y,Z 表示三个随机变量集合,又设,Z,X 条件独立于Y,则有下式成立:

X 与Y 之间的条件独立性也可用下式表示:

3.3 朴素贝叶斯分类器计算方式

如果条件独立假设成立,就不必计算v 中每一个组合的类条件概率,只要对已知的y,计算每一个vc,k的条件概率。这种方法比较实用,因为该方法不需要计算较大的训练数据就能得到比较好的概率估计。

在分类测试记录时,朴素贝叶斯分类器对每个类y 计算后验概率的表达式为:

3.4 条件概率的m 估计

如果有一个属性的类条件概率为零,则该类的后验概率也为零,而该类在实际情况下是存在的,这样用类条件概率方法计算显得有些单薄了。这种情况的简单描述为:当训练集不能覆盖较多的属性值时,我们就无法得到某些分类预测记录,也就是说,朴素贝叶斯方法无法实现该分类记录。解决这一问题的方法就是使用m 估计来估计条件概率的计算,如下:

n 是yi类中的实例个数, nr是类yi中训练样本取值为vc,aattribute_value的样本数量,m 为等价样本参数,p 是用户指定的参数。

4 实例分析

下面是客户是否购买某个物品的数据表,该表为问卷调查得到,为计算方便,这里只列出10 个事务进行分析,如表1

表1. 客户消费数据表

设:有属性记录,x={婚姻情况=单身,有房=否,月收入<8k}

求:满足该条件的顾客是否购车的情况,即:求,p(是否买车=否|x)及p(是否买车=是|x)?

根据前面讲述的知识,计算步骤如下:

(1)事务中客户属性的表示方法

由定量,定性属性的模糊格表示方法有:

① 婚姻状况属性表示为:vmarry3,1.yes, vmarry3,2.no, vmarry3,3.divorce

② 有房属性表示为:vhouse2,1.yes, vhouse2,2.no

③ 年龄属性:年龄范围定义为四个阶段,20<=age<30; 30<=age<40;40<=age<50; 50<=age<=60。因此,其表示为:vage4,1,vage4,2,vage4,3,vage4,4

④ 月均收入:范围定义为以下几个阶段,4k<=salary<8k; 8k<= salary <12k;12k<= salary <16k; 16k<= salary <=20k。因此,其表示为:vsalary4,1,vsalary4,2,vsalary4,3,vsalary4,4

⑤ 是否有车表示为:vcar2,1.yes, vcar2,2.no

(2) 先验概率的计算

(3)条件概率的m估计

从上面的计算式可以看出,P(vmarry3,2.no | vcar2,1.yes),P(vmarry3,3. divorce | vcar2,2.no),P(vhouse2,2.no | vcar2,1.yes) 及P(vsalary4,1|vcar2,1.yes)的值均为0,这时我们需要根据(7)对这些条件概率进行m估计。

对于P(vmarry3,2.no | vcar2,1.yes),n=3, nc=0,假设m=3,p=1/3,因此根据(7)有:

对于P(vmarry3,3. divorce | vcar2,2.no),n=7, nc=0,假设m=3,p=1/3,因此根据(7)有:

同理:

对于P(vhouse2,2.no | vcar2,1.yes),n=3 nc=0,假设m=3,p=1/3,有:

对于P(vsalary4,1| vcar2,1.yes),n=3 nc=0,假设m=4,p=1/4,有:

(4) 计算:p(是否买车=否|x)及p(是否买车=是|x)

根据(6)及(5)的计算方法,式(8)变为:

原式为:p(是否买车=是|x)=p(vcar2,1.yes|x)的计算结果为:

上述结果可以看出,在满足条件x={婚姻情况=单身,有房=否,月收入<8k}的前提下,顾客不买车的可能性为:80/147;顾客买车的概率为:1/252。

5 结束语

本文针对客户消费行为特点,利用模糊方法对客户属性进行描述,分别提出了客户属性的连续及离散表示方法,并以此为前提,对客户消费行为建立了一种朴素贝叶斯推理方法,对推理过程产生的误差使用条件概率的m 估计方法来弥补,为企业分析客户消费行为提供了计算依据。另一方面,该方法也存在不足,一是:在计算过程中,一般认为客户消费因子相互独立,而实际情况中,有少量因子并非是独立的;二是:m 估计中参数p 很难确定,往往存在偏差,这将是今后继续努力的方面。

[1]L.A Zadeh,Fuzzy sets[J].Information Control,1965,8(3):338–353.

[2]T.Zhang,R.Ramakrishnan,M.Livny.BIRCH: an efficient data clustering method for very large databases[C].Proceedings of the ACM SIGMOD International Conference on Management of Data,June,1996,103–114.

[3]H Ishibuchi, K Nozaki, N Yamamoto and H Tanaka.Selecting fuzzy if–then rules for classification problems using genetic algorithms[J].IEEE Transactions on Fuzzy Systems,1995,3(3):260–270.

[4]H Ishibuchi, K Nozaki and H Tanaka. Distributed representation of fuzzy rules and its application to pattern classification[J].Fuzzy Sets and Systems,1992,52(1):21–32.

[5]L.X Wang and J.M Mendel, Generating fuzzy rules by learning from examples[J]. IEEE Transactions on Systems, Man, and Cybernetics,1992,22(6):1414–1427.

[6]C.T Sun,Rule-base structure identification in an adaptive-network-based fuzzy inference system[J].IEEE Transactions on Fuzzy Systems,1994,2(1):64–73.

[7]J.C Bezdek, Pattern Recognition with Fuzzy Objective Function Algorithms[M].Plenum Press,New York,1981.

[8]L.A Zadeh.The concept of a linguistic variable and its application to approximate reasoning[J].Information Science (Part 1),1975,8(3):199–249.

[9]L.A Zadeh.The concept of a linguistic variable and its application to approximate reasoning[J].Information Science (Part 2),1975,8(4):301–357.

[10]L.A Zadeh.The concept of a linguistic variable and its application to approximate reasoning[J].Information Science (Part 3),1976,9(1):43–80.

[11]S.M Chen and W.T Jong, Fuzzy query translation for relational database systems[J].IEEE Transactions on Systems, Man, and Cybernetics,1997,27(4):714–721.

[12]代余彪,任雪利.基于贝叶斯网络的关键链技术研究[J].计算机应用与软件,2009,26(10):127-129.

[13]Ferat Sahin,M.Cetin Yavuz,Ziya Arnavut,Onder Uluyol.Fault diagnosis for airplane engines using Bayesian networks and distributed particle swarm optimization[J].Patallel computing,2007,(33):124-143.

[14]Ozge Doguc,Jose Emmanuel Ramirez-Marquez.A generic method for estimating system reliability using Bayesian networks[J].Reliability Engineering and System Safety,2009,(94):542-550

[15]Sankaran Mahadevan,Ruoxue Zhang,Natasha Smith.Bayesian networks for system reliability reassessment[J].Structural Safety,2001,(23):231-251

[16]Philippe Weber,Lionel Jouffe.Complex system reliability modelling with Dynamic Object Oriented Bayesian Networks[J].Reliability Engineering and System Safety,2006,(91):149-162

[17]M.A.Barrientos,J.E.Vargas.A Framework for the analysis of dynamic processes based on Bayesian networks and case-based reasonging[J].Expert Systems with Applications,1998,(15):287-294

[18]Vincent Labatut,Josette Pastor,Serge Ruff,Jean-Francois Demonet,Pierre Celsis.Cerebral modeling and dynamic Bayesian networks[J].Artificial Intelligence in Medicine,2004,(30):119-139

[19]Jean-Paul Chevrolat,Jean-Louis Golmard,Salomon Ammar,Roland Jouvent,Jean-Francois Boisvieux[J].Modelling Behavioral syndromes using Bayesian networks.Artificial Intelligence in Medicine.1998,(14):259-277.

猜你喜欢

朴素消费行为贝叶斯
隔离朴素
朴素的安慰(组诗)
他是那样“笨拙”和朴素——30多年后,我们为什么还需要读路遥?
最神奇最朴素的两本书
浅析花卉市场中的消费行为
基于贝叶斯估计的轨道占用识别方法
浅析当代大学生消费行为
基于互信息的贝叶斯网络结构学习
一种基于贝叶斯压缩感知的说话人识别方法
基于大学生消费行为的团购网站建设