用户访问模式中数据挖掘的模型与算法
2019-12-02王志俊
文/王志俊
近年来,电子商务的快速发展,使企业纷纷将目光投入到电子商务领域中,越来越多的企业开始在Web中建立相应的商品目录,用户可利用浏览器来随时随地的浏览这些商品目录,并可在浏览器中进行商品订购和网上支付。在Web服务器中存储着大量用户和商家的交互信息,这些信息包括用户的浏览信息、用户的登记信息等,这些交互信息是按照日志的形式存储于数据库中的,而商家需要从数据库中对这些信息进行挖掘,以此找出用户的行为规律性,这对于提高商家的市场销售量具有重大意义。本文便针对该问题对用户访问模式中数据挖掘模型及算法进行研究,以便于帮助企业更加高效的从海量的顾客数据与日志数据中挖掘到所需的潜在客户群体,使企业能够根据这些知识来制定合理的促销策略。
1 用户访问模式中的数据挖掘模型
1.1 E-OEM模型
为了使数据挖掘更加有效,需要对服务器的应用逻辑、用户浏览路径乃至Web页面的拓扑结构进行全方位的考虑,并以此对OEM模型进行扩展,使其成为E-OEM模型。
定义1.对于某个对象S来说,其包括标识id与值val两个组成部分,其中标识id(S)能够对空间中的对象进行标志,该标志具有唯一性。而对象值val(S)则可采用原子形式与引用形式来表示,这两种形式可分别表示为val (S)= {l 1 : d 1 ,… ,l m : d m }与val (S)= {l 1 : id(S1) ,… ,l n : id(Sn ) },在原子形式中,li与di分别表示属性与基本数据类型的属性值,而引用形式中,lj与Sj则分别表示属性与对象,Sj对象的引用为id(Sj)。
定义2,分别设定属性与对象为li与Si,且i=0,1,...,n,如果i= 0,1,… ,n中的(l i : id(S i ) )∈ val (S i- 1 )值无论为多少均是成立的,则对象S0中的p为起始点,而对象Sn中的p为终止点,也就是说Si中含有路径p。可通过有向图来表示E-OEM模型,其结点为对象标识,其值中各对象对(l i : id(Si))的引用均包括一条带标号的li的有向边相对应。当图中有环时,则E-OEM图有环。
定义3 对象空间是由大量可访问且相互独立的对象所构成的,各个对象均可通过E-OEM模型来描述,因此可通过对对象空间内的对象信息进行构造,以此充当领域知识来为数据挖掘提供指导。
1.2 E-OEM模型中的相关问题
在E-OEM模型中,其URL函数可指定为文档对象或其对象标识,对象空间中的各个函数值均具有唯 一性,并且还可从中得到对象的元信息、拓扑信息与一般信息。此外,考虑到各个用户在浏览时,其信息都是在日志表中进行统一登记的,因此在应用数据挖掘技术时必须要对商家和用户间的事务标定问题进行解决。
2 用户访问模式中数据挖掘算法研究
2.1 频繁访问模式挖掘算法
相比于频繁序列模式,频繁访问模式有很多共通之处,但其不同之处在于用户在浏览时存在的不确定性,这也造成不同用户在访问模式上大致相同,但其内部细节却有所不同,因此如果采用频繁序列模式,反而会因算法的敏感度过大而造成模式数量大幅增加,因此难以适用。为了使该问题得到解决,需要将路径相似度引入到用户访问模式之中,考虑到序列众多并且前缀存在许多重复,因此需要采用与Hash树相似的方法来对其序列进行检索与存储,通过在扫描事务数据库时对Hash树进行建立与调成,然后对不同模式的支持度进行计算,即可获得频繁访问模式的Hash树结构。为了避免匹配树宽度过大,同时也为了便于并行处理数据分块,还要在不同匹配树中利用两层Hash来散转访问模式。
2.2 潜在客户群挖掘算法
通常来说,可利用负事务数据库D-的聚类及分类过程来描述潜在客户群挖掘过程。可通过Kean聚类算法对特定模式下D-所具有的相似关系进行计算,频繁访问模式下的数据挖掘结果便是初始K个聚类中心,当然业务人员可以自行指定,按照路径相似关系来确定模式相似关系,当模式为P1 = 〈p 11 - p12 … - p1n 〉及 P2 = 〈p 21 - p22 … - p2n 〉时,可进行以下定义,即
Sim-Pattern(p1,p2)= |{pi |sim path( pi1 ,pi2)) ≥ min sim}|/n
由此便可得到P1与P2这两个模式的相似度,如果Sim-Pattern(p1,p2)超过自定义的阈值,自定义阈值为 MIN SIM [0,1],这时可认为P1与P2模式具有相似关系。
3 结语
总而言之,商家在电子商务战略制定中必须要运用数据挖掘技术从海量的数据中找到潜在客户群,以此探寻更加高效的用户访问模式,这对于商家做出正确的商业决策具有重要意义。本文采用E-OEM模型,从服务器应用逻辑、用户浏览路径和页面拓扑结构等多个方面,对不同用户访问模式下的数据挖掘模型及其算法进行了研究,从而为企业在电子商务发展中提供了行之有效的数据挖掘技术手段。