APP下载

基于SVMs的微博信息推送系统用户兴趣模型

2013-09-08陈盛双何云丽

关键词:博文类别个性化

缪 平,陈盛双,何云丽

(武汉理工大学理学院,湖北武汉 430070)

1 研究背景

在传统的网络时代,信息的创造者更多的是一些权威的新闻机构,而普通的互联网用户只能是信息的使用者。随着 Web 2.0的兴起,这种格局发生了变化,普通的互联网用户不再仅仅是信息的使用者,一些新兴应用的出现使得他们也有机会成为信息的发布者,而他们所发布的信息,特别是在一些个人信息平台上发布的公开信息,是获取他们作为信息发布者时发布的个性化信息的一个有效途径[1]。在众多的互联网新兴应用中,微博就是一个非常典型的个性化信息发布平台。因此,对于作为信息发布者的互联网用户,笔者以微博为研究环境,探讨以微博用户为个性化信息来源的面向信息发布者的自适应信息推送技术。

对于信息浏览者,由于其行为难以捕捉,其个性化信息往往很难获得。与信息发布者在互联网上显式地发布与自己兴趣相关的文章等个性化信息不同,信息浏览者在互联网活动中所留下的信息非常少(对于搜索引擎用户而言,其查询历史等可以作为个性化信息,但是对于普通的网页浏览者,这样的信息难以获得),因此,对信息浏览者建立个性化模型显得尤为困难。用户当前浏览内容可以在一定程度上反映他们的兴趣,如一个正在浏览体育主题博文的用户对体育会有一定的兴趣,在这种情况下反映出的兴趣是一种即时、短暂类的兴趣。尽管这类兴趣与用户长期稳定的兴趣会有所不同,但笔者认为,对于信息推送系统而言,满足用户即时的需求也可理解为一种个性化的推送方式。因此,对于信息浏览者,笔者以他们当前正在浏览的信息(即上下文信息)为反映他们兴趣的有效渠道,探讨了基于上下文分析的自适应信息推送技术,为当前网页的浏览用户提供与网页内容相关的信息。

2 博客用户个性化建模

博客用户个性化建模是获知博客用户信息、捕捉其兴趣的有效方法。与普通搜索引擎用户的个性化建模不同,在微博中通常可以方便地获取大量用户发表的文本以及图片信息,它们直接反映了用户的兴趣等个性化信息,为博客用户的个性化建模工作提供了丰富的资源。同时,博文中还包含了大量的时间信息,可通过在个性化模型中加入时间维度,模拟用户的兴趣漂移,捕捉用户的长期兴趣和在一段时间内的短期兴趣。

基于以上考虑,通过对博文的分析,获取用户在长时间内逐步形成的长期兴趣和短期内的兴趣,引入衰减因子的概念,模拟人在实际生活中的兴趣衰减规律,对通过文章分析得到的用户个性化模型进行演化。目前,针对博客用户的个性化建模的研究工作还较少,以往针对微博的研究主要集中于博文内容分析及用户社区分析上。其中的内容分析主要包括微博用户的心情分析[2-3]、微博内容分类[4-5]与微博的主题抽取[6]等。

2.1 个性化建模的核心思想

用户的兴趣可以分为长期和短期兴趣。长期兴趣代表用户的总体偏好,是经过长时间积累形成的,并且十分稳定。因此,该类兴趣存在一定的惰性,改变它所需要的时间和形成它所需要的时间成正比,而短期兴趣则相对不稳定,会不定期地变化。例如,在世界杯期间,用户可能会把注意力集中在世界杯上,而世界杯结束后,他们对足球比赛的兴趣便会降低。

在微博环境中可以通过分析这些微博内容来获取微博用户的短期兴趣。目前,利用现有技术了解用户细粒度的兴趣是比较困难的。笔者通过使用文本分类方法从博文级别分析微博用户的兴趣,并在某段短时间内从每条博文中获取用户的短期兴趣。而用户兴趣可能会由于时间的流逝而降低甚至消失,因此,笔者引入兴趣衰减算法来模拟这一现象。

长期兴趣通过分析用户长时期内的注册信息、反馈信息和博文等获得,同时短期兴趣也有可能转化为长期兴趣。由于注册信息等较难获得,笔者根据短期兴趣来对长期兴趣进行建模。

2.2 从博客文章中获取用户兴趣

笔者采用了文本分类的方法利用博客文章获取用户兴趣。目前已有大量的基于统计学和机器学习的技术应用于文本分类,笔者用支持向量机(SVM)作为分类算法[7],对博文进行分类。

在分类原始的博文之前,首先进行停用词消除、降维处理等预处理操作。利用博文内容获取用户兴趣的基本思想是:由于每条博文与一个具体的时间戳相结合,为获得t时刻用户的兴趣,可将该时刻的博文通过分类分配到预先规定的类别中,可以是一个也可以是多个,类别的分配情况即描述了用户该时刻的兴趣情况。整个过程可形式化为:给定某人微博条数m,所有微博内容的集合 D=(d1,d2,…,dm) ,与 D 相对应的时间戳T=(t1,t2,…,tm) ,即每条博文 di都对应于其发布的时间ti。预先设定的类别定义为C=(c1,c2,…,cn),通过SVM,将每条博文di分配到类别cj中,wij≥0是一个与di有关的数值,它代表文章di属于类别cj的概率值。最终,ti时刻用户的兴趣可表示为 Ui=(wi1,wi2,…,win) 。

2.3 用户长短期兴趣建模

引入了衰减因子,用户在ti时刻发布的博文di在当前时间下表现出来的兴趣可形式化为:

在当前时间tcurrent,用户对类别cj所表现出的兴趣为:

对当前时间tcurrent前发表的每条微博所表现出的对类别cj的用户兴趣进行累加。用户总的兴趣建模如下:

从直观上来讲,长期兴趣比较稳定,而短期兴趣容易随时间、环境等的变化而改变,因此长期兴趣的衰减周期是长于短期兴趣的,分别定义hflong和hfshort为长期衰减因子和短期衰减因子,hflong大于 hfshort。

利用所有的微博内容来获取用户兴趣不仅费时,同时也不能精确地模拟出用户的兴趣变化,尤其是用户的短期兴趣。笔者定义两个阈值Tth和Nth,只有发布在Tth时刻之后的微博才被纳入考虑范围;假如在一段时间间隔内,博文数超过了Nth,那就随机抽取其中的Nth篇博文纳入考虑范围。给定t为满足上述条件的最早时间戳,则当前时间下用户在类别cj上的短期兴趣为:

短期兴趣受用户当前偏好影响,不稳定且变化快。但是也有一些稳定的长期兴趣包含在短期兴趣中。用户的长期兴趣是基于短期兴趣产生的,即当短期兴趣积累到一定程度就可以转化成为长期兴趣。

用户的长期兴趣建模如下:

设置阈值k,以限制某个时间段内短期兴趣模型的数量。

3 实验与结果讨论

为验证以上模型的合理性,笔者设计了相应的实验。利用SogouC数据集作为分类训练库,对分类算法进行训练。

在训练之前,对所有的文本文件进行预处理,使用ICTCLAS中文自然语言处理工具对样本进行中文分词处理和词性标注。试验中为了简单,把长度超过20字节的词都过滤掉,之后再用信息增益关键词特征提取方法[8]计算词的信息增益值,除去低于阈值的词从而实现降维。

利用SVM分类器中的rainbow工具包[9],对SogouC中的训练集进行训练。分类器的性能用传统的分类衡量办法查准率,召回率和F1进行评估。表1为分类器的分类结果,数据表明,SVM有较高的文本分类性能。

表1 查准率,召回率和F1的结果 %

衡量整体建模结果,根据经验,取hfshort=10天,hflong=30天,Tth=10天,Nth=20篇,k=3。在初始收集的微博用户及他们发布的微博中,只考虑那些每月发表多于10篇的微博用户。对于过滤后的用户,用兴趣模型进行分析建模,结果表明,用户兴趣能用长短期兴趣模型进行较好的建模。

此外,在对两类不同类型的用户,用户A和用户B,特别选取A为兴趣较为稳定的用户类型而B为兴趣不稳定、变化较快的用户类型。该实验将10次测试的结果记录下来,结果分别如表2和表3所示。

表2 用户A测试结果统计表

表2和表3中,系统推送的微博数是系统主动根据用户的兴趣推送给用户的微博数,用户感兴趣的微博数是用户对系统推送来的消息感兴趣的条数,实际感兴趣的所有微博数是指实际上用户在测试中所有感兴趣的微博数。

表3 用户B测试结果统计表

将两个类别的用户统计出来的结果进行查准率、召回率及F1值的计算,结果如图1~图3所示。

图1 系统查准率的结果

图2 系统召回率的结果

图3 系统F1的结果

由图1可以看出,由于A用户的兴趣相对稳定,用户兴趣模型在更新和学习的过程中也是趋于稳定的,而B用户由于兴趣变化较快,这样对用户兴趣模型的更新会带来很多噪音数据,不能很好地表现用户的真实兴趣。

由图2可以看出,由于A用户的兴趣相对稳定,其召回率也是趋于稳定的,而B用户的召回率波动幅度相对较大。

由图3可以看出,A和B用户的F1平均值基本都在70%以上且大小都很接近,这说明系统对兴趣变化不管是快还是慢的用户都显现了较好的性能,较好地实现了信息推送服务,也说明了笔者提出的用户兴趣模型在构造、更新及学习上都有较好的可行性和高效性。

[1]BELKIN N,CROFT B.Information filtering and information retrieval:two sides of the same coin[J].Communications of ACM,1992,35(12):29-38.

[2]BHARGAVE H K.Paid placement strategies for internet search engines[C]//Proceedings of the 11th International Conference on World Wide Web.[S.l.]:[s.n.],2002:117-123.

[3]FENG J,BHARGAVA H K.Comparison of allocation rules for paid placement advertising in search engines[C]//Proceedings of the 5th International Conference[S.l.]: [s.n.],2003:294-299.

[4]MCCOY S,EVERARD A.The effects of online advertising[J].Communications of the ACM,2007,50(3):84-88.

[5]BRODER A,FONTOURA M.A semantic approach to contextual advertising[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]:[s.n.],2007:559-566.

[6]QAMRA A,TSENG B,CHANG E Y.Mining blog stories using community-based and temporal clustering[C]//Proceedings of the 15th ACM International Conference on Information and Knowledge Management.[S.l.]:[s.n.],2006:58-67.

[7]MISHNE G,RIJKE M D.Language model mixtures for contextual Ad placement in personal blogs[C]//Proceedings of 5th International Conference on NLP(Fin-TAL).[S.l.]:[s.n.],2006:435-446.

[8]DING X W,LIU B.The utility of linguistic rules in opinion mining[C]//Proceedings of the 30th Annual International ACM SIGIR Confernce on Research and Developmentin Information Retrieval. [S.l.]:[s.n.],2007:811-212.

[9]ZHOU M,HUANG C N.An efficient syntactic tagging toll for corpora[C]//Proceedings of the 15th Conference on Computational Linguistics.[S.l.]:[s.n.],1994:949-955.

猜你喜欢

博文类别个性化
第一次挣钱
坚持个性化的写作
新闻的个性化写作
壮字喃字同形字的三种类别及简要分析
谁和谁好
上汽大通:C2B个性化定制未来
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
服务类别
多类别复合资源的空间匹配
满足群众的个性化需求