数据挖掘在电子政务中的应用
2013-08-28王昭
王 昭
(中国人寿保险股份有限公司河北省分公司,河北石家庄 050000)
随着近年来网络的普及和应用,电子政务已经被越来越多的企事业单位、政府机构所应用。然而海量的信息使得用户难以快速找到需要的信息,因此如何根据用户的访问兴趣来进行个性化推荐,更加有针对性的满足用户的需求,从而提供个性化服务变得非常重要。数据挖掘(Data Mining,DM)是从大量模糊的、不确定的、不完全的数据中揭示隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析用户数据,做出归纳性的推理,从中挖掘出潜在的、有意义的模式。关联规则是数据挖掘中比较重要的一种算法。它通过挖掘数据项集之间的潜在关系,从在大量数据中发现有用的知识,这些知识对于用户分析、知识分类、个性推荐等决策的制定起到了很大的作用。本文针对电子政务系统的个性化推荐服务的弊端,提出利用数据挖掘中关联规则及其改进算法实现个性化推荐,以提高电子政务应用效率。
1 关联规则算法
关联规则挖掘是从大量数据项中发现有趣的关联或相关联系。设I={i1,i2,…,im}是项的集合,其中的元素称为项(item)。记D为交易T的集合,这里交易T是项的集合,并且T⊆I。对应每一个交易有唯一的标识,如交易号(TID)。设X是一个I中项的一个集合,如果X⊆T,那么称交易T包含X。
一个关联规则是形如X⇒Y的蕴涵式,这里X⊆I,Y⊂I,并且X∩Y=Φ。规则X⇒Y在事物数据库D中的支持度(support)是事物集中包含X和Y的事物数与所有事物数之比,记为support(X⇒Y),即
规则X⇒Y在事物集中的可信度(confidence)是指包含X和Y的事务数与包含X的事物数之比,记为confidence(X⇒Y),即:
2 关联规则在电子政务网站中的应用
用户使用电子政务系统都会有相对固定的浏览路径。每个浏览路径都代表了一个完整的用户行为,从用户角度看,这些浏览路径满足了用户这次的办公或查询需求,而从政府管理部门的角度看,这些浏览路径有可能被再一次同时点击。当然仅仅通过一个用户行为所反映出来的信息关联不具有普遍性,但是通过大量的用户行为分析,就可以整理出那些隐藏在大量数据中令人感兴趣的联系,从而展开各种个性推荐。
所谓关联,可以理解为用户行为中出现的所有点击路径,因为这些点击路径出现在同一个用户行为中,我们就可以认为这些点击中具有某种联系。关联规则就是发现的联系,可以用规则A→B(S,C)的形式表示,也就是说,用户一旦点击了A功能或信息,他极有可能会点击B功能或路径。支持度和置信度就是衡量指标,是用来描述规则强度的,支持度代表事件发生的频率,支持度很低也就是意味着这种事件只是偶尔发生,是个小概率事件,因此,对于关联分析的第一步,就是用支持度过滤掉那些偶然事件。置信度代表着利用这个规则进行推理的可信程度。置信度越大,表示可能被关联点击的程度越高。
说的简单一点,关联规则就是在给定的事务集中,挖掘出支持度(support)和置信度(confidence)分别大于用户给定的最小支持度(minsupp)和最小置信度(minconf)的规则。
3 实例分析
本文以某电子政务网站为例,利用关联规则算法进行分析。因为系统数据库数量比较大,本文只选取其中的一部分数据进行分析。用户行为路径数据如表1所示,其中ABCDEF分别代表不同信息的路径,设 minsup=0.5,minconf=0.5。关联规则挖掘过程主要包含两个阶段:第一阶段利用支持度寻找频繁项目集,第二阶段再由这些频繁项目集产生关联规则。
首先对表1中的相关数据进行挖掘,得到候选1项集如表2所示。
其中第一条记录A的支持度为0.75,这是因为在表1中共有3条记录包含A,表1中共有4条事件记录,所以A的支持度为3/4=0.75,大于预设的最小支持度0.5,所以保留A作为频繁1项集中的一条记录。表2中的其它记录也可以类似得到。对候选1项集C1的筛选,可得频繁1项集L1。
对频繁1项集分析很简单,却提供了很多有价值的信息,可以对那些初次到访的用户提供热门的内容推荐。除了提供热门信息列表,频繁1项集分析根据支持度过滤掉了非热门信息,减少了做对频繁2项集分析的运算量。
频繁1项集L1经过“连接”和“剪枝”,得到候选2项集C2。如表4所示。
因为最小支持度是0.5,所以舍弃所有支持度小于0.5的项集,只剩下了A->C,并且所有出现了A的三个订单中,同时出现C的有两个,因此置信度是2/3=0.67。
表1 用户行为路径数据表
表2 候选1项集C1
表3 频繁1项集L1
表4 候选2项集C2
A->C的支持度等于0.5,也就是说在所有的用户行为信息中,至少有50%的行为信息出现了A和C被同时点击。而Confidence=0.67则说明在所有点击A的行为信息中,至少有67%的行为会同时点击C。因此,今后若有某用户点击了A,电子政务系统将同时推荐C。因为历史交易数据告诉我们,大部份点击A的用户行为中,会同时点击C。
5 结论
本文利用数据挖掘的关联规则算法对用户访问信息进行挖掘,有效的实现了电子政务的个性化推荐,达到了预期的效果。
[1]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large database[C]∥In Proc.1993 ACM - SIGMOD Int.conf.Management of Data(SIGMOD’93).Washington,DC:[s.n.],1993:207-216.
[2]刘晶.基于数据仓库的高校图书馆管理的设计与实现[J].图书情报工作,2009.15(53).126-128.
[3]刘晶,朱清香,梅群,张蕾.一种基于单处理机的并行关联规则算法及其在数字图书馆中的应用[J].图书情报工作,2011,7(55):114-117.
[4]刘晶,杨万成.基于简易聚合技术对电子商务个性检索的应用[J].计算机工程与设计,2008.29(1):173-174.