基于粗糙集理论的电子商务消费行为预测研究 张艳荣
2014-12-31于晶赵志杰
于晶+赵志杰
摘要:为了解决传统电子商务知识获取瓶颈问题,本文提出了一种改进的基于差别矩阵的属性约简算法,将其应用于电子商务消费行为预测条件属性集约简中,并对产生的规则进行提取和约简,得到了一种新的基于粗糙集理论的电子商务消费行为预测方法。算例表明该方法预测效果良好。
关键词:粗糙集;电子商务;消费行为预测
中图分类号:F71336 文献标识码:A
一、引言
随着网民的日渐增多,全球加入到电子商务购物热潮的人数持续增长。庞大的网民蕴含的是巨大的商业契机, 2013年,欧洲电商交易总额达到4 969亿美元,我国电商销售总额突破10万亿元。Forrester Research研究公司预测,随着移动网络的广泛使用,2014年电子网络购物消费总额将会再上一个新台阶,以重大节庆作为疯狂购物的潮流将成为主流。为在巨大的市场份额中分得一杯羹,电商企业们也是使出浑身解数。但先知先觉,更加充分、科学地挖掘顾客购买特性,并对其消费行为进行准确预测,从而制定有针对性的营销模式,开辟新的市场,保持顾客忠诚,是电商企业获得成功的重要路径。
与传统实体店购物明显不同,电商购物行为具有多样性与不稳定性。电商购物环境下,顾客获得信息更加具有主观自主选择性。一个设计再精美的购物网站,如果顾客没有光顾,就没有市场!一件再怎么物美价廉的商品,如果顾客没有浏览,也不可能为企业创造商机。因此,如何设计开发电商购物平台,在消费者与企业不具备面对面信息交流的情况下,让顾客主动地选择本企业的产品是我们需要关注的。电子商务平台就是为了方便商家与消费者的沟通,支持消费者网上购物活动而建立的商业站点。网站信息呈现的方式和网站模块组织模式,会对消费者产生很强的刺激作用,影响消费者的购买决策和购买行为。如何利用这一信息界面吸引并影响消费者是网络营销的关键。
有关网络营销顾客消费行为的特征以及预测,相当多的学者做出了较为突出的贡献。何明升(2002)研究了网络消费方式的内在结构及其形成机理。罗新星等(2003)把粗糙集理论的数据挖掘方法应用于电子商务中。金玲玲等(2012)探索了基于差别函数的属性约简算法在电子商务中的应用。但这些研究在把粗糙集理论应用到电子商务中时,没有考虑到电子商务消费数据的不可得性与局限性。于是,有相当多的学者对粗糙集理论的改进算法提出了很好的建议。王明娜(2002)提出了一种改进的粗糙集数据挖掘方法。张艳荣(2012)把改进的粗糙集理论应用于森林病虫害预测。王燕(2007)在其硕士论文中探索了基于粗糙集的属性约简研究。
在上述研究的基础上,本文将以电子商务消费个体背景为基础,从信息学的角度审视电子商务顾客消费行为的全过程以及影响消费者购买决策的因素。由于电子商务消费行为相关的知识量比较大,为了能够快速、准确地从杂乱无章的海量数据中挖掘潜在的有利用价值的信息并用于电子商务消费行为的预测中,本文将粗糙集理论应用于电子商务消费行为的预测过程之中。通过对电子商务消费行为的相关数据进行收集、完备化和离散化,本文提出了一种改进的基于差别矩阵的属性约简算法,并基于此算法对电子商务消费行为的条件属性集进行约简,从而对产生的规则进行提取与约简,得出了一种新的基于粗糙集理论的电子商务消费行为预测方法。
二、粗糙集理论
(一 )粗糙集的下近似集和上近似集
K=(U,S)为给定的知识库,U表示论域,S为U上的等价关系簇,则XU和U上的一个等价关系R∈IND(K),子集X关于知识R的上近似和下近似的定义分别为:
R(X)={x|(x∈U)Λ([x]R∩X≠)}
R(X)={x|(x∈U)Λ([x]RX)}
集合X的上近似、下近似和边界域如图1所示。
其中,U为论域,表示整个区域包含的元素;论域在等价关系R下的分类模式U/R表示图1中的所有方格组成的集合; R为等价关系,图中为划分整个区域的横竖线。
(二)知识约简
知识库中的知识并不是同等重要的,有些知识是冗余的。知识约简是将一些无关或多余的特征丢掉,在不影响其原有的分析预测功能的前提下,将信息量减少,即在不影响原知识分类的情况下,将n维信息空间{x1,x2,…,xn}减小为m维{x1,x2,…,xm}(m 以下为约简与核的定义,它们是知识约简中两个最基本、最重要的概念。 对于知识库K=(U,S)和K中的一个等价关系族PS,任意的GP,若G是独立的,且 IND(G)=IND(P),则称G是P的一个约简,记为G∈RED(P)。其中,P的全体约简组成的集合用RED(P)表示。 令P为一个等价关系族PS,R∈P,如果INDP=INDP-{R}成立,则称R为P中不必要的;对给定的知识库K=(U,S)和知识库中的一个等价关系族PS,对任意的R∈P,若R满足INDP-{R}≠INDP,则称R为P中必要的。P中所有必要关系组成的集合称为P的核,记作CORE(P)。 (三)知识表达系统 在智能数据处理中,知识表达占据极其重要的地位。知识表达系统是粗糙集理论中主要的知识表示方法,其基本成分是研究对象的集合。我们可以采用指定对象的基本特征和属性来进行描述,表示为S=(U,A,V,f),通常用S=(U,A)来代替。其中,U表示对象的非空有限集合,即为论域;A表示属性的非空有限集合,即为属性集;V=∪a∈AVa,Va表示属性a的值域;f为U×A→V是一个信息函数,其为每一个对象的每个属性赋予一个信息值,即a∈A,x∈U,f(x,a)∈Va。这样定义的知识表达系统可以方便地用表格表达来实现。知识的表格方法可以看成一种特殊的形式语言,它用符号表达等价关系,这样的数据表成为知识表达系统。
表1即为一个知识表达系统,可以看到全体论域U=(x1,x2,x3,x4,x5,x6),全体属性集合为A=(p1,p2,p3,p4,p5),此外,设VP1=(0,1),VP2=(0,1),VP3=(0,1),VP4=(0,1),VP5=(0,1),这样就构成了一个知识表达系统。
(四)决策表
若知识表达系统S=(U,A,V,f),其中A=C∪D,C∩D=,C表示条件属性集,D表示决策属性集。决策表是具有条件属性和决策属性的知识表达系统,如表2所示。
(五)属性重要度
每一个决策表中的属性在做决策和数据分类时,其角色是不一样的,所起到的作用也不尽相同。为了更好地计算这种属性的重要度,我们可以采取的方法是逐一去掉每个属性,进而检测这个决策系统在做决策和分类时,是否会因为移掉了这个属性而发生明显的改变。如果去掉该属性后,整个系统的决策发生了明显的改变,那么这个属性就具有相当的重要性,计算的重要值越大,表明该属性越不可删除;反之计算的重要值越小,其删除该属性的可能性越大。下面用正区域概念来表达这种思想:关于由属性集C引入的分类,其属性子集B′B的意义就是重要度的描述,用这种差来表示:dB′-B(c)=rB(c)-rB′-B(c),该式表明,如果去掉这个属性子集B′,用属性B的方法分类个体,其正区域是如何被影响的。若B′是一个属性,则说明丢掉这个属性,其正区域是如何被改变的。
(六)区分矩阵和区分函数
设知识表达系统S=(U,A,V,f),U=n·S的区分矩阵是一个n×n矩阵,其任一元素为:
三、基于粗糙集的电子商务消费行为预测
粗糙集作为一种数据处理的分析方法,可在保持知识分类能力不变的情况下,通过对知识进行约简,得出问题的分类或决策规则(张宇、韩春怡,2007)。故本文将粗糙集理论应用到电子商务顾客消费行为的预测中,利用约简算法删除冗余的条件属性,对电子商务消费行为的条件属性集进行约简,得到必要的条件属性集;利用改进的消费行为预测的规则约简算法对电子商务消费行为预测的规则进行提取并进行约简,得出电子商务顾客消费行为的决策规则。
基于粗糙集理论的电子商务顾客消费行为预测具体操作过程如图2所示,主要包括以下几个步骤:(1)通过对电子商务消费数据的收集、完备化及离散化,完成对电子商务顾客消费行为预测基本数据的预处理;(2)去掉电子商务顾客消费行为的冗余数据信息,完成对顾客消费行为预测的条件属性集的约简;(3)通过对电子商务顾客消费行为预测的规则进行提取与约简,得出必要的消费行为预测规则集;(4)通过计算规则的置信度与覆盖度,进行规则过滤,得到电子商务消费行为预测的决策规则。
(一)模型构建与算例
1.粗糙集理论模型
利用粗糙集理论对电子商务消费行为预测数据进行分析之前,首先要对数据进行预处理,收集有效数据,建立电子商务消费行为预测信息表。将所有的消费行为预测数据汇总到一个信息系统里,其可以用二维表来表示。信息表的行对应各对象及其各属性的值,列对应各属性及各对象的属性值。进而将需要处理的数据放在汇总的信息表里。
本文根据电子商务消费行为预测过程以及预测的特点,建立了电子商务消费行为预测知识表,进而构建电子商务消费行为预测体系。在此之前,将顾客消费行为预测的参数值汇总到一个知识表之中。汇总后的电子商务消费行为预测信息表的格式如表3所示。
2.算例原始数据选取和离散化处理
本文以电商网络平台记录的顾客特征作为应用实例来介绍粗糙集理论在电子商务消费行为预测中的应用。经过优选,选出相关程度较好的3个购买因子 ,即顾客年龄、教育水平和收入,以此作为条件属性,研究2005~2013年某电子商务平台顾客购买产品特性,并推测未来该电商平台顾客购买产品的特性。论域为U{X1,X2 … X6},其中X1,X2 … X6,分别表示2005-2013年,所在行的值为对应的各项指标;属性集为A={C,D},C= {r1,r2,r3 }为条件属性集,D={d}则是决策属性集,其中r1、r2、r3为顾客年龄、顾客教育水平和月平均收入。原始数据见表4。
根据粗糙集理论的要求对各个属性的数值进行离散化。对每组数据采取高、中、低分类,高用Y表示,中用H表示,低用N表示。年龄分为高、中、低3个等级,40岁以上为高,20-40岁为中,20岁以下为低;教育水平分为高、中、低3个等级,硕士及以上为高,大学(本科、专科)为中,高中及以下为低;收入水平(月收入) 也分为3个等级,10 000元以上为高,5 000-10 000元为中,5 000元以下为低;购买商品类别为1和2类。初始决策见表5。
(二)条件属性集的约简
1.约简算法描述
采用差别矩阵方法对属性集进行约简。考虑到差别矩阵中如果含有单属性元素,则不能求出约简的决策表,因此本文对电子商务顾客消费行为条件属性集的约简采用一种改进的基于差别矩阵的属性约简算法。该算法首先通过计算决策属性对条件属性的依赖度来对决策表中的数据进行初步处理,再充分利用差别矩阵的优点,快速计算决策表的核,并依据属性的重要度及约简可信度的值,获取合理规则。算法描述如下:
(1)输入K={U,C∪D,V,f}。
(2)计算条件属性a的依赖度γa(D)(a∈C),若γa(D)=0,C=C-{a}。
(3)对γa(D)≠0的条件属性集,写出Mn×n(K)=(cij)n×n的下三角矩阵,其中i,j=1,2,…,n。
cij={α|(α∈C)∧(fα(xi)≠fα(xj))},
fD(xi)≠fD(xj),,fD(xi)≠fD(xj)∧
fC(xi)=fC(xj),-,fD(xi)=fD(xj)。endprint
(4)对差别矩阵进行搜索,若矩阵中的所有元素的值均不等于,则转至(4);若矩阵中有元素的值为,则退出。
(5)对差别矩阵进行搜索,并将其所有单属性元素赋给COREC(D),输出COREC(D)={α|(α∈C)∧(cij,((cij∈Mn×n(K))∧(cij={α})))}。
(6) 得出包含相对D核的所有可能的属性组合,如果满足cij∈Mn×n(K),当cij≠时, B∩cij≠; B独立。则将其赋值给REDC(D),并遍历所有包含相对D核的属性组合。
(7)输出REDC(D),计算REDC(D)中的属性的重要性σCD(a)=γC(D)-γC-{a}(D) 。其中,a∈C,若σCD(a)>09,则RED′C (D)COREC (D)∪a,遍历REDC(D)中所有的属性组合,计算RED′C (D)的可信度。
(8) 输出RED′C (D),算法结束。
2.算例约简
对论域进行划分,可得如下等价类 :U/C={X1, X2, X3, X4, X5, X6}根据上述等价类,我们求取以下指标:
YH的下近似:apr(Yn)={{n2 }, {n3},{n8}}
YH的上近似: {{n2 },{n3 }, {n8},{n4,n5,n6,n9}}
YL的下近似:apr(YL)= {{n1}, {n7}}
YL的上近似: {{n1}, {n7}, {n4,n5,n6,n9} }
计算得到:YL的分类精度=3/7=043,YH的分类精度=2/6=033 ,其分类质量=5/9=056。
由属性a1对论域进行划分,我们可以得到其等价类如下:U/a1={X1,X2,X3,,X4,X5,X6},其中:X1={n1,n3,n8},X2={n2,n4,n5,n6,n9},X3={n7},YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9}
从以上分析可以看到,属性a1的分类质量小于总的分类质量,则说明属性年龄不是约简。
由属性a1、a2对论域进行划分,可得如下等价类 :U/C={X1, X2, X3, X4, X5, X6};其中:X1={n1},X2={n2},X3={n3, n8},X4={n4,n5,n6,n9},X5={n7};YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9},分类质量=5/9=056,与整个属性集的分类质量相同,因此属性子集{a1,a2}是约简。
由属性a1、a3对论域进行划分,可得如下等价类:U/C={X1, X2, X3, X4, X5, X6},其中:X1={n1},X2={n2},X3={n3},X4={n4,n5,n6,n9},X5={n7},X6={n8};YL={n2,n3,n4,n5,n6,n8},YH={n1,n7,n9},分类质量=5/9=056,与整个属性集的分类质量相同。因此,属性子集{a1,a3}是约简。同理可求得属性子集{a2,a3}也为约简。
(三)规则的提取
1.规则的提取说明
以上述消费记录为例,对产生的规则进行提取与约简得到的规则如下:
(教育)且(收入)(购买类别);
(年龄)且(收入)(购买类别)。
其中,消费行为预测的规则约简采用的算法描述如下:
(1)输入K′={U,C∪D,V,f}。
(2)B0=COREC(D),A=C-B0={β1,β2,…,βm}(βi∈A,m≤card(C),i=1,2,…,m),根据属性的重要度排序,分别求取OA,Tl+1(OA)和OTl+1(OA)(0≤l≤m),posB0(D)和posC(D)。
(3)判断相等性。若相等,则输出B0=min{REDC(D)},转至(11);否则转至(4)。
(4)设i=1,flag=0,Z,B,B0。
(5)设Y=OTi(OA)。
(6)取y∈Y,BB0∪{y},计算posB(D),然后判断posB(D)与posC(D)是否相等,若posB(D)=posC(D),且flag=0,则Z=B,flag=1;若card(U/Z)>card(U/B),则Z=B,flag=0。
(7)Y=Y-{y}。
(8)如果Y≠,转至(6)。
(9)如果flag=1,则min{REDC(D)}=Z,转(11)。
(10)i=i+1,如果i≤m,转至(5)。
(11)输出min{REDC(D)},算法结束。
2.结果分析
由约简{a1,a3}构造的规则如下所示:
a1=Y,并且a3=N,则d=N,即在百分百的置信度下,年龄较高,并且收入较低的人会更多地购买1类产品。
a1=H,并且a3=N,则d=Y,即在百分百的置信度下,年龄居中,并且收入较低的人会更多地购买2类产品。
a1=Y,并且a3=Y,则d=Y,即在百分百的置信度下,年龄较高,并且收入较高的人会更多地购买1类产品。
a1=Y,并且a3=H,则d=Y,即在百分百的置信度下,年龄较高,并且收入居中的人会更多地购买1类产品。
a1=N,即在百分百的置信度下,年龄较低人会更多地购买2类产品。
通过上述过程可知,在电子商务消费行为分析中,可在知识系统分类能力不变的前提下,对不必要的属性进行约简,再对规则进行提取与约简,最后得出确定性的规则,这样企业可以很清晰地知道哪些属性是需要深刻掌握的,哪些属性并不能明显地影响到顾客的购买行为,以避免企业在制定电子商务营销决策时对这些属性投入过多的精力。通过粗糙集电子商务消费行为的预测,我们可以帮助企业制定更加契合实际的电子商务营销决策,把有限的人、财、物用于提供更加具有竞争力的产品,从而满足顾客需求,创造最大化的顾客价值。
四、结论
本文采用了一种改进的基于差别矩阵的属性约简算法对电子商务消费行为预测条件属性集进行约简,并对产生的规则进行提取与约简,得出了一种新的基于粗糙集理论的电子商务消费行为预测方法,该方法取得较好的实际效果。
参考文献:
[1] 张宇,韩春怡.电子商务环境下营销渠道的管理[J].哈尔滨工业大学学报,2007,9(1):109-112.
[2] 张艳荣.基于粗糙集理论的森林病虫害预测模型与算法的研究[D].哈尔滨:东北林业大学,2012.
[3] 王燕. 基于粗糙集的属性约简研究[D].成都:四川师范大学,2007.
[4] 金玲玲,朱紫焱,苏莉.基于差别函数的属性约简算法在电子商务中的应用[J].软件导刊,2012,9(12):47-49.endprint
(4)对差别矩阵进行搜索,若矩阵中的所有元素的值均不等于,则转至(4);若矩阵中有元素的值为,则退出。
(5)对差别矩阵进行搜索,并将其所有单属性元素赋给COREC(D),输出COREC(D)={α|(α∈C)∧(cij,((cij∈Mn×n(K))∧(cij={α})))}。
(6) 得出包含相对D核的所有可能的属性组合,如果满足cij∈Mn×n(K),当cij≠时, B∩cij≠; B独立。则将其赋值给REDC(D),并遍历所有包含相对D核的属性组合。
(7)输出REDC(D),计算REDC(D)中的属性的重要性σCD(a)=γC(D)-γC-{a}(D) 。其中,a∈C,若σCD(a)>09,则RED′C (D)COREC (D)∪a,遍历REDC(D)中所有的属性组合,计算RED′C (D)的可信度。
(8) 输出RED′C (D),算法结束。
2.算例约简
对论域进行划分,可得如下等价类 :U/C={X1, X2, X3, X4, X5, X6}根据上述等价类,我们求取以下指标:
YH的下近似:apr(Yn)={{n2 }, {n3},{n8}}
YH的上近似: {{n2 },{n3 }, {n8},{n4,n5,n6,n9}}
YL的下近似:apr(YL)= {{n1}, {n7}}
YL的上近似: {{n1}, {n7}, {n4,n5,n6,n9} }
计算得到:YL的分类精度=3/7=043,YH的分类精度=2/6=033 ,其分类质量=5/9=056。
由属性a1对论域进行划分,我们可以得到其等价类如下:U/a1={X1,X2,X3,,X4,X5,X6},其中:X1={n1,n3,n8},X2={n2,n4,n5,n6,n9},X3={n7},YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9}
从以上分析可以看到,属性a1的分类质量小于总的分类质量,则说明属性年龄不是约简。
由属性a1、a2对论域进行划分,可得如下等价类 :U/C={X1, X2, X3, X4, X5, X6};其中:X1={n1},X2={n2},X3={n3, n8},X4={n4,n5,n6,n9},X5={n7};YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9},分类质量=5/9=056,与整个属性集的分类质量相同,因此属性子集{a1,a2}是约简。
由属性a1、a3对论域进行划分,可得如下等价类:U/C={X1, X2, X3, X4, X5, X6},其中:X1={n1},X2={n2},X3={n3},X4={n4,n5,n6,n9},X5={n7},X6={n8};YL={n2,n3,n4,n5,n6,n8},YH={n1,n7,n9},分类质量=5/9=056,与整个属性集的分类质量相同。因此,属性子集{a1,a3}是约简。同理可求得属性子集{a2,a3}也为约简。
(三)规则的提取
1.规则的提取说明
以上述消费记录为例,对产生的规则进行提取与约简得到的规则如下:
(教育)且(收入)(购买类别);
(年龄)且(收入)(购买类别)。
其中,消费行为预测的规则约简采用的算法描述如下:
(1)输入K′={U,C∪D,V,f}。
(2)B0=COREC(D),A=C-B0={β1,β2,…,βm}(βi∈A,m≤card(C),i=1,2,…,m),根据属性的重要度排序,分别求取OA,Tl+1(OA)和OTl+1(OA)(0≤l≤m),posB0(D)和posC(D)。
(3)判断相等性。若相等,则输出B0=min{REDC(D)},转至(11);否则转至(4)。
(4)设i=1,flag=0,Z,B,B0。
(5)设Y=OTi(OA)。
(6)取y∈Y,BB0∪{y},计算posB(D),然后判断posB(D)与posC(D)是否相等,若posB(D)=posC(D),且flag=0,则Z=B,flag=1;若card(U/Z)>card(U/B),则Z=B,flag=0。
(7)Y=Y-{y}。
(8)如果Y≠,转至(6)。
(9)如果flag=1,则min{REDC(D)}=Z,转(11)。
(10)i=i+1,如果i≤m,转至(5)。
(11)输出min{REDC(D)},算法结束。
2.结果分析
由约简{a1,a3}构造的规则如下所示:
a1=Y,并且a3=N,则d=N,即在百分百的置信度下,年龄较高,并且收入较低的人会更多地购买1类产品。
a1=H,并且a3=N,则d=Y,即在百分百的置信度下,年龄居中,并且收入较低的人会更多地购买2类产品。
a1=Y,并且a3=Y,则d=Y,即在百分百的置信度下,年龄较高,并且收入较高的人会更多地购买1类产品。
a1=Y,并且a3=H,则d=Y,即在百分百的置信度下,年龄较高,并且收入居中的人会更多地购买1类产品。
a1=N,即在百分百的置信度下,年龄较低人会更多地购买2类产品。
通过上述过程可知,在电子商务消费行为分析中,可在知识系统分类能力不变的前提下,对不必要的属性进行约简,再对规则进行提取与约简,最后得出确定性的规则,这样企业可以很清晰地知道哪些属性是需要深刻掌握的,哪些属性并不能明显地影响到顾客的购买行为,以避免企业在制定电子商务营销决策时对这些属性投入过多的精力。通过粗糙集电子商务消费行为的预测,我们可以帮助企业制定更加契合实际的电子商务营销决策,把有限的人、财、物用于提供更加具有竞争力的产品,从而满足顾客需求,创造最大化的顾客价值。
四、结论
本文采用了一种改进的基于差别矩阵的属性约简算法对电子商务消费行为预测条件属性集进行约简,并对产生的规则进行提取与约简,得出了一种新的基于粗糙集理论的电子商务消费行为预测方法,该方法取得较好的实际效果。
参考文献:
[1] 张宇,韩春怡.电子商务环境下营销渠道的管理[J].哈尔滨工业大学学报,2007,9(1):109-112.
[2] 张艳荣.基于粗糙集理论的森林病虫害预测模型与算法的研究[D].哈尔滨:东北林业大学,2012.
[3] 王燕. 基于粗糙集的属性约简研究[D].成都:四川师范大学,2007.
[4] 金玲玲,朱紫焱,苏莉.基于差别函数的属性约简算法在电子商务中的应用[J].软件导刊,2012,9(12):47-49.endprint
(4)对差别矩阵进行搜索,若矩阵中的所有元素的值均不等于,则转至(4);若矩阵中有元素的值为,则退出。
(5)对差别矩阵进行搜索,并将其所有单属性元素赋给COREC(D),输出COREC(D)={α|(α∈C)∧(cij,((cij∈Mn×n(K))∧(cij={α})))}。
(6) 得出包含相对D核的所有可能的属性组合,如果满足cij∈Mn×n(K),当cij≠时, B∩cij≠; B独立。则将其赋值给REDC(D),并遍历所有包含相对D核的属性组合。
(7)输出REDC(D),计算REDC(D)中的属性的重要性σCD(a)=γC(D)-γC-{a}(D) 。其中,a∈C,若σCD(a)>09,则RED′C (D)COREC (D)∪a,遍历REDC(D)中所有的属性组合,计算RED′C (D)的可信度。
(8) 输出RED′C (D),算法结束。
2.算例约简
对论域进行划分,可得如下等价类 :U/C={X1, X2, X3, X4, X5, X6}根据上述等价类,我们求取以下指标:
YH的下近似:apr(Yn)={{n2 }, {n3},{n8}}
YH的上近似: {{n2 },{n3 }, {n8},{n4,n5,n6,n9}}
YL的下近似:apr(YL)= {{n1}, {n7}}
YL的上近似: {{n1}, {n7}, {n4,n5,n6,n9} }
计算得到:YL的分类精度=3/7=043,YH的分类精度=2/6=033 ,其分类质量=5/9=056。
由属性a1对论域进行划分,我们可以得到其等价类如下:U/a1={X1,X2,X3,,X4,X5,X6},其中:X1={n1,n3,n8},X2={n2,n4,n5,n6,n9},X3={n7},YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9}
从以上分析可以看到,属性a1的分类质量小于总的分类质量,则说明属性年龄不是约简。
由属性a1、a2对论域进行划分,可得如下等价类 :U/C={X1, X2, X3, X4, X5, X6};其中:X1={n1},X2={n2},X3={n3, n8},X4={n4,n5,n6,n9},X5={n7};YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9},分类质量=5/9=056,与整个属性集的分类质量相同,因此属性子集{a1,a2}是约简。
由属性a1、a3对论域进行划分,可得如下等价类:U/C={X1, X2, X3, X4, X5, X6},其中:X1={n1},X2={n2},X3={n3},X4={n4,n5,n6,n9},X5={n7},X6={n8};YL={n2,n3,n4,n5,n6,n8},YH={n1,n7,n9},分类质量=5/9=056,与整个属性集的分类质量相同。因此,属性子集{a1,a3}是约简。同理可求得属性子集{a2,a3}也为约简。
(三)规则的提取
1.规则的提取说明
以上述消费记录为例,对产生的规则进行提取与约简得到的规则如下:
(教育)且(收入)(购买类别);
(年龄)且(收入)(购买类别)。
其中,消费行为预测的规则约简采用的算法描述如下:
(1)输入K′={U,C∪D,V,f}。
(2)B0=COREC(D),A=C-B0={β1,β2,…,βm}(βi∈A,m≤card(C),i=1,2,…,m),根据属性的重要度排序,分别求取OA,Tl+1(OA)和OTl+1(OA)(0≤l≤m),posB0(D)和posC(D)。
(3)判断相等性。若相等,则输出B0=min{REDC(D)},转至(11);否则转至(4)。
(4)设i=1,flag=0,Z,B,B0。
(5)设Y=OTi(OA)。
(6)取y∈Y,BB0∪{y},计算posB(D),然后判断posB(D)与posC(D)是否相等,若posB(D)=posC(D),且flag=0,则Z=B,flag=1;若card(U/Z)>card(U/B),则Z=B,flag=0。
(7)Y=Y-{y}。
(8)如果Y≠,转至(6)。
(9)如果flag=1,则min{REDC(D)}=Z,转(11)。
(10)i=i+1,如果i≤m,转至(5)。
(11)输出min{REDC(D)},算法结束。
2.结果分析
由约简{a1,a3}构造的规则如下所示:
a1=Y,并且a3=N,则d=N,即在百分百的置信度下,年龄较高,并且收入较低的人会更多地购买1类产品。
a1=H,并且a3=N,则d=Y,即在百分百的置信度下,年龄居中,并且收入较低的人会更多地购买2类产品。
a1=Y,并且a3=Y,则d=Y,即在百分百的置信度下,年龄较高,并且收入较高的人会更多地购买1类产品。
a1=Y,并且a3=H,则d=Y,即在百分百的置信度下,年龄较高,并且收入居中的人会更多地购买1类产品。
a1=N,即在百分百的置信度下,年龄较低人会更多地购买2类产品。
通过上述过程可知,在电子商务消费行为分析中,可在知识系统分类能力不变的前提下,对不必要的属性进行约简,再对规则进行提取与约简,最后得出确定性的规则,这样企业可以很清晰地知道哪些属性是需要深刻掌握的,哪些属性并不能明显地影响到顾客的购买行为,以避免企业在制定电子商务营销决策时对这些属性投入过多的精力。通过粗糙集电子商务消费行为的预测,我们可以帮助企业制定更加契合实际的电子商务营销决策,把有限的人、财、物用于提供更加具有竞争力的产品,从而满足顾客需求,创造最大化的顾客价值。
四、结论
本文采用了一种改进的基于差别矩阵的属性约简算法对电子商务消费行为预测条件属性集进行约简,并对产生的规则进行提取与约简,得出了一种新的基于粗糙集理论的电子商务消费行为预测方法,该方法取得较好的实际效果。
参考文献:
[1] 张宇,韩春怡.电子商务环境下营销渠道的管理[J].哈尔滨工业大学学报,2007,9(1):109-112.
[2] 张艳荣.基于粗糙集理论的森林病虫害预测模型与算法的研究[D].哈尔滨:东北林业大学,2012.
[3] 王燕. 基于粗糙集的属性约简研究[D].成都:四川师范大学,2007.
[4] 金玲玲,朱紫焱,苏莉.基于差别函数的属性约简算法在电子商务中的应用[J].软件导刊,2012,9(12):47-49.endprint