APP下载

一种基于隐式反馈的用户兴趣模型构建方法

2018-04-16赵文朋丁艳辉金连旭

计算机与数字工程 2018年3期
关键词:网页页面文本

赵文朋 丁艳辉 金连旭 张 骏

(1.山东师范大学信息科学与工程学院 济南 250358)(2.山东省物流优化与预测工程技术研究中心 济南 250358)

1 引言

随着信息技术的发展,“信息过载现象”日益突出[1]。为了帮助用户更好地找到自己所感兴趣的信息,推荐系统通过对用户偏好进行理解和建模,评估待推荐产品或事物对于用户的感兴趣程度。因此,用户兴趣度的获取成为推荐系统研究中的关键问题。

用户兴趣度(InterestDegree,ID)是用来衡量用户对某一主题是否感兴趣以及感兴趣的程度的,常采用0~1之间的实数表示[2]。用户兴趣度的获取有显式反馈与隐式反馈两种方式:出一种基于混合行为兴趣度的兴趣模型。李建廷[4]等提出通过神经网络拟合用户访问同一页面次数和驻留时间来计算用户兴趣度。黄倩[5]等本文主要关注利用隐式反馈行为来获取用户兴趣度。宋章浩[3]等在阅读时间异常情况下提出利用K-means进行主题聚类,并结合用户兴趣度衰减因子得到最终用户主题兴趣度。现有的方法从不同角度对用户兴趣度计算进行了研究,然而缺少对用户页面浏览率方面的考虑,并且没有将用户兴趣度很好的融入兴趣模型的构建。针对以上问题,本文提出一种基于隐式反馈的兴趣模型。首先,获取用户典型页面浏览行为,定义基于页面浏览率和浏览速度的兴趣度度量函数。然后,提出主题兴趣度,构建基于用户浏览行为的主题兴趣度模型。最后,利用构建好的兴趣模型对用户浏览行为进行分析,获得用户兴趣度。

2 基于隐式反馈的用户兴趣度计算方法

2.1 相关概念与定义

定义1(浏览页面)已浏览页面集合,记为VP(ViewedPages),VP={v p1,vp2,…vpn} VPi代表用户在指定时间段tij(即ti-tj时间段内)已浏览的页面。

定义2(用户页面浏览行为)分析用户浏览行为时,用户的浏览动作,以及用户对同一页面的访问次数和用户在网页上的浏览速度这3类典型的浏览行为,用 InterestActive(vpi)、InterestUI(v pi)、InterestSpeed(v pi)计算相应兴趣度。

用户兴趣度的取值范围为0~1,即Interest(vpi)∈[0 , 1] 。

2.2 方法描述

本文关注基于用户浏览行为的兴趣度计算,以基于用户浏览动作InterestActive(v pi)、页面浏览率InterestUI(v pi)和浏览速度InterestSpeed(v pi) 3种兴趣度相结合的方式计算用户兴趣度Interest(v pi)。

本方法主要包含以下四个步骤:

Step1:隐式反馈信息分类;

Step2:计算基于页面浏览率的用户兴趣度;

Step3:计算基于页面浏览停留时间的用户兴趣度;

Step4:计算基于用户浏览动作的兴趣度。

2.3 页面隐式反馈信息来源和分类

基于隐式反馈兴趣度度量主要是基于用户浏览日志挖掘用户的行为及持续的时间。

表1 用户典型动作分类

2.4 计算基于页面浏览率的用户兴趣度

设用户在某段时间内对某一页面vpi浏览次数为Freq(v pi),另设VPi为用户在该段时间内浏览页面总和,则Freq(VPi)为在该时间段内用户共浏览所有页面的总次数,所以,用户对页面vpi的浏览率可表示为

为及时更新用户兴趣,准确表达用户当前兴趣信息,采用下述更新方法更新用户兴趣:

设置周为统计周期,每隔一周,进行用户浏览次数的统计和更新,分别用Freq(old ) 和Freq(new)表示用户上一统计周期内浏览次数和当前周期内浏览次数,设置P为该页面的浏览次数更新比例:

如果P<0.5,则说明用户在当前周期与上一统计周期内对某一页面浏览次数变化不大,则认为用户对该页面的兴趣随着时间的推移变化不大,置

反之,则认为该用户对该页面兴趣已发生较大改变,置

2.5 计算基于页面浏览速度的用户兴趣度

用户在浏览某一页面vpi时,速度越快,表明其对该页面兴趣度越低,反之,兴趣度越高。浏览速度与页面的内容的多少Size(v pi)和在此页面停留时间Time(v pi)都有密切联系:

为避免一些时间异常问题的发生,对停留时间Time(vpi)规定如下:

2.6 计算基于页面浏览动作的用户兴趣度

此外,当用户在浏览页面时有保存、打印和将页面添加到书签其中一个或多个动作时就认为用户对该页面兴趣非常大,即可认为Interest(vpi)=1。

其中α,β为常数,其值可利用样本数据进行估计。文献[3]设置了参数α=18.55,β=0.89用于兴趣度函数的计算,并且在实验模型中保持了较好的查准率和查全率,所以本文默认α,β取值如上。

3 用户兴趣度建模

本文在VSM模型基础上引入主题兴趣度themeInterest(v pi),对VSM模型进行扩展,当用户每浏览一个网页后,都可以通过分析得到一个兴趣向量来反应本次浏览用户的兴趣。

构建主题兴趣度模型的主要步骤:Step1:网页文本内容表征处理;Step2:主题兴趣度计算函数;Step3:构建主题兴趣度模型。

3.1 网页文本内容表征处理

由于VSM模型表征网页文本内容简单可行,本文选择用VSM模型对网页文本进行表征,最终将文本内容转化为低维的文本特征向量[4]:

3.2 主题兴趣度计算函数

主题兴趣度的获取主要对用户浏览过的所有网页文本进行K-means聚类算法进行聚类处理,得到经过聚类算法下的每个兴趣主题下的子兴趣集合。然后根据每一个兴趣集合中文本特征词的兴趣度分布,计算得到最终的主题兴趣度:

其中,themeInteresti表示第i个主题的兴趣度,j表示第i个主题的第个 j网页,l表示第i个主题总共的网页数,Interest(v pj)表示为第 j个网页的兴趣度,aj加权因子的值可以通过该文本和质心之间的相似度来衡量。因此,可以将公式修改为

其中,Sim(dj,dc)为第i个主题中第 j个网页dj与质心dj之间的相似度,该相似度采用文本相似度欧几里得距离公式[5]计算可得。由于兴趣度值维持在0和1之间,为了避免网页兴趣度偏大,所以对主题兴趣度进行归一化处理,得到主题兴趣度函数:

3.3 构建主题兴趣度模型

由于用户的兴趣是多方面的,即用户对不同兴趣主题的兴趣度不同,所以为了表现用户对不同主题感兴趣的程度,引入了主题兴趣度(themeInterest)的概念。引入主题兴趣度后兴趣模型可表征为

通过上述形式表示的用户兴趣模型不但能够表示用户的不同兴趣度主题,同时也对不同兴趣度之间做了较大程度的区分,能够比较全面合理地表达用户真实兴趣情况。

4 实验

4.1 数据来源

本文采用 dynaTraceAJAX Edition 软件[6]获取用户浏览行为,该软件是一个前端性能分析工具。在软件获取的原始数据下选择不同主题下具有代表性的页面350张,对这350个代表页面进行挖掘,对用户在页面上的浏览行为数据进行收集,结合本文提出的主题兴趣度函数,得出相应网页的主题兴趣度,并将主题兴趣度与页面向量相结合,构造用户主题兴趣度模型。

4.2 评价指标

将本文基于用户浏览行为的主题兴趣度的兴趣模型与普通的基于VSM兴趣模型在查准率、查全率、F-调和均值等方面进行比较,从而衡量模型的性能。

本文收集用户集合W1中任意一个用户w感兴趣的页面列表,记为M(w),N(w)为给用户w推荐的页面集合。

查准率(Precision)表示推荐出的用户感兴趣网页与推荐结果网页总量的比率:

查全率(Recall)表示推荐出的用户感兴趣网页与推荐数据集中用户感兴趣网页总数的比率:

F-调和均值能更好地反映出推荐系统的性能,取值在[0,1]之间,F-调和均值随查准率和查全率的增加而增加,其值越大表示模型性能越好:

4.3 实验结果与分析

实验对比发现,本文模型推荐性能明显优于传统的基于VSM的兴趣模型。由图1与图2看出,融合单类兴趣模型的F-调和均值较传统模型有了些许提高,但是整体的提升效果并不理想,这是由于单类兴趣度函数在判断用户兴趣时数据类型太过单一,会造成一定的误差,为此我们将多种兴趣度融合进行对比试验。

图1 融合页面浏览速度的兴趣模型与传统VSM模型对比

图2 融合页面浏览率的用户兴趣模型与传统VSM模型对比

图3表明融合了多种兴趣度的主题兴趣度模型随着网页数目的增加,F-调和均值稳定增长且明显大于传统VSM向量模型的增长,当推荐网页数目超过250时,传统基于VSM模型F-调和均值开始下降,而本文模型依旧保持了良好的推荐性能,表明本文模型能更好地贴近用户的真实兴趣,从而提高了个性化推荐精度和用户满意度。

图3 多类兴趣融合下本模型与传统VSM兴趣模型实验对比

5 结语

本文对兴趣模型的构造进行了全面的介绍,提出了一种基于隐式反馈的用户兴趣度计算方法,并对传统的VSM模型进行扩展,采用主题兴趣度themeInterest衡量用户对网页的喜好程度,能够准确地评价用户在浏览网页时的兴趣度。实验表明,本文构建的兴趣模型能够有效提高个性化推荐质量。

在未来工作中,将对兴趣模型进一步完善,考虑加入用户兴趣漂移策略,用以修正用户兴趣随时间漂移而带来的变化,从而进一步提升模型的推荐准确率。

[1]陆艺,曹健.面向隐式反馈的推荐系统研究现状与趋势[J].计算机科学,2016,43(4):7-15.LU Yi,CAO Jian.Research Status and Future Trends of Recommender Systems for Implicit Feedback[J].Computer Science,2016,43(4):7-15.

[2]夏义国,刘友华.一种用户兴趣度计算与用户兴趣修正的改进方法[J].现代情报,2014,34(1):46-48.XIA Yiguo,LIU Youhua.An Improved Method to Calculate User's InterestDegree and Amend User's Interest[J].Modern Information,2014,34(1):46-48.

[3]宋章浩.基于Web浏览行为的用户兴趣模型研究[D].绵阳:西南科技大学,2015.SONG Zhanghao,XING Ling.Research on User Interest Model based on Web Browsing behaviors[D].Mianyang:SouthwestUniversity of Science and Technology,2015.

[4]李峰,裴军,游之洋.基于隐式反馈的自适应用户兴趣模型[J].计算机工程与应用,2008,44(9):76-79.LI Feng,PEI Jun,YOU Zhiyang.Adaptive user interest model based on the implicit feedback[J].Computer Engineering and Applications,2008,44(9):76-79.

[5]李建廷,郭晔,汤志军.基于用户浏览行为分析的用户兴趣度计算[J].计算机工程与设计,2012,33(3):968-972.LI Jianting,GUO Ye,TANG Zhijun.User interest degree calculating based on analysis users'browsing behaviors[J].Computer Engineering and Design,2012,33(3):968-972.

[6]黄倩,谢颖华.一种基于网页浏览行为的用户兴趣度计算方法[J].信息技术,2015,39(5):184-186.HUANG Qian,XIE Yinghua.Method of computing for user interest degree based on user's browsing behaviors[J].Information Technology,2015,39(5):184-186.

[7]王智圣,李琪,汪静,等.基于隐式用户反馈数据流的实时个性化推荐[J].计算机学报,2016,39(1):52-64.WANG ZhiSheng,LIQi,WANG Jing,et al.Real-Time Personalized Recommendation Based on Implicit User Feedback Data Stream[J].Chinese Journal of Computers,2016,39(1):52-64.

[8]Jawaheer G,Weller P,Kostkova P.Modeling User Preferences in Recommender Systems:A Classification Framework for Explicit and Implicit User Feedback[M].ACM,2014.

[9]印鉴,王智圣,李琪,等.基于大规模隐式反馈的个性化推荐[J].软件学报,2014,25(9):1953-1966.YIN Jian,WANG ZhiSheng,LIQi,etal.Personalized Recommendation Based on Large-Scale Implicit Feedback[J].Journalof Software,2014,25(9):1953-1966.

[10]许昕.基于用户隐式反馈的个性化资讯推荐系统研究与实现[D].北京:北京工业大学,2012.XU Xin.Personalized Recommednder Systerm Based on Implicit Feedback:Resaech and Implementation[D].Beijing:Beijing University of Technology,2012.

[11]崔昊旻.海量视频节目的检索、推荐与反馈学习[D].合肥:中国科学技术大学,2014.CUIMinhao.Retrieval,Recommendation and Feedback Learning forMassive Video Program[D].Hefei:University of Science and Technology ofChina,2014.

[12]陈玉娥,梁永全.基于隐式反馈的用户模型设计与实现[J].情报杂志,2009,28(2):50-52.CHEN Yu-e,LIANG Yongquan.Design and Implementation of User Model Based on Implicit Feedback[J].Journalof Intelligence,2009,28(2):50-52.

[13]尹春晖,邓伟.基于用户浏览行为分析的用户兴趣获取[J].计算机技术与发展,2008,18(5):37-39.YIN Chunhui,DENG Wei.Extracting User Interests Based on Analysis of User Behaviors[J].Computer Technology and Development,2008,18(5):37-39.

[14]伍大清,阳小华,马家宇,等.基于隐式反馈的用户兴趣漂移方法[J].计算机应用与软件,2010,27(9):88-90.WU Daqing,YANG Xiaohua,MA Jiayu,et al.Method of Drifting User's Interests Based on Implicit Feedback[J].Computer Applications and Software,2010,27(9):88-90.

[15]王微微,夏秀峰,李晓明.一种基于用户行为的兴趣度模型[J].计算机工程与应用,2012,48(8):148-151.WANGWeiwei,XIA Xiufeng,LIXiaoming.Personal interest degree model based on consumer behavior.Computer Engineer-ing and Applications,2012,48(8):148-151.

猜你喜欢

网页页面文本
刷新生活的页面
文本联读学概括 细致观察促写作
答案
基于HTML5与CSS3的网页设计技术研究
让Word同时拥有横向页和纵向页
初中群文阅读的文本选择及组织
作为“文本链”的元电影
基于HTML语言的网页制作方法
基于HTML5静态网页设计
搜索引擎怎样对网页排序