APP下载

基于用户行为的个性化搜索建模

2018-01-15叶文权陆兴华

智能计算机与应用 2017年6期
关键词:次数神经网络网页

叶文权+陆兴华

摘要: 关键词: 中图分类号: 文献标志码: A文章编号: 2095-2163(2017)06-0005-04

Abstract: The current search algorithm generally ignores the users' interest behavior. It just relies on the surface of the keywords to predict the users' search preferences, to provide users with contents automatically. This kind of search algorithm cannot reflect users' real needs deeply. It does not customize a personalized search model according to the users' longterm search habits and search interests. This paper proposes a personalized search model based on users' behavior when they browse websites, such as the time, types of websites and whether there are any further actions such as saving or copying when browsing the webpage. All of these can enrich contents about personalized search model proposed in this paper,which makes the search algorithm be more accurate and close to the users' real needs.

0引言

随着互联网逐渐融入人们的日常生活,网络数据呈指数增加,如搜狗、百度等搜索引擎可以为用户带来更方便的数据查找,用户对数据查找的准确性要求也越来越高,希望随时随地地找到所期待的数据,使得数据对于人们来说是更加透明、获取更加快捷、更加智能,创造更加舒适化、安全化、透明化的信息获取环境。中国互联网络信息中心公布了第 39 次《中国互联网络发展状况统计报告》,截止2016年12月,我国网民规模达7.31亿,全年共计新增网民4299万人[1]。由此可见,网络早已深入普通民众的日常生活中,正因为当前网络环境中的数据信息流量十分庞大,网民们才对网络搜索的准确度提出了更高的要求,然而当前众多搜索引擎的搜索准确度均为有限,每个人的上网习惯和事物喜好倾向的不同也就导致了搜索引擎“众口难调”的现状。因此,本文研究的是在基于用户日常的上网习惯中提取用户的兴趣点,并融合计算用户的兴趣度,再进一步设计建立用户的个性化搜索模型,也就相当于为用户量身打造了一个专属于某用户的搜索引擎,以此来提高搜索的准确度。

1用户浏览行为分析

大量研究分析得出,用户对网页的兴趣度通常体现在用户的浏览行为上。用户的许多浏览行为都能映射出用户的兴趣和偏好。例如:浏览网页的时间、浏览网页的类型、在网页中进行保存、复制等操作、把网页加入收藏夹、访问网页的次数等行为都在一定程度上表现出用户的兴趣[2]。

用户兴趣度计算的最小浏览组合为以下五种:保存页面、打印页面、将页面加入收藏夹、访问同一页面的次数、在页面上的浏览时间。分析这五种浏览行为之间的关系可以发现,如果用户进行了收藏页面、保存页面、打印页面等操作,则说明对其兴趣度较高。除此之外,如果用户在浏览页面时对页面内容有复制、粘贴、剪切等行为的话,也从侧面反映了用户对该页面有着较浓的兴趣。

用户的各种浏览行为之间的关系既各自独立,又相互联系,而用户本身的浏览习惯也有着显著不同,因此选择哪些浏览行为来分析用户的兴趣就尤显其研究存在的重要性。若仅选择少数几个浏览行为,则容易导致用户兴趣的精度不高,但选择过多又会造成计算方法的繁冗复杂。经过对用户浏览行为的综合考虑,本文选择了从用户的实际浏览动作、对页面的访问次数、在页面上的浏览时间这三个方面来估算用户的兴趣度。

2基于用户行为的兴趣度估算

如果用户在某时间内依次共浏览了多个页面或者多次访问同一个页面,记用户在该时间内浏览的各页面为ω1, ω2, ω3, …, ωn。在分析用戶的浏览行为时,用户的实际浏览动作、对页面的访问次数、在页面上的浏览时间这三类典型的浏览行为近似地代替所有的浏览行为[3]。因此在本次研究中,用户对页面的兴趣度就可视作为上述三类行为的函数。

2.1基于用户浏览动作的用户兴趣度计算

如果用户对一个页面感到兴趣,则有很大几率会对该页面开展一系列的浏览动作,如:保存、打印、收藏和复制。因此,可以利用用户的这些浏览行为来进行用户兴趣度的计算。

2.2基于用户访问次数的用户兴趣度计算

调查显示,用户在浏览页面时,很少会发生保存页面、收藏页面和打印页面等浏览行为,因此,仅是依托用户的浏览动作来计算用户的兴趣度也未臻至全面,故而还需要对用户的访问次数和浏览时间进行分析,进而计算用户的兴趣度,丰富用户的个性化搜索模型。

用户对一个页面的兴趣度很大程度上反映在其对该页面的访问频度上[4],由此,研究可以定义用户在某段时间内对某一页面的访问次数为Freqω,可知Freqω越大,用户的兴趣度Interestω也就越大。基于用户访问次数的用户兴趣度计算函数可表示为:InterestFreqW=Freqωmaxv∈WFreqω (4)其中,W为某一时间段内用户访问的所有页面的集合。虽然式(4)可以对用户的兴趣度进行量化计算,但是随着时间的推移,用户对某个网页的访问次数会逐渐地累积,这些冗余的数据就未必能够真实地反映当前用户的兴趣,这就导致了对用户兴趣度计算的准确率下降,并且随着时间的推移,精度还会越来越低。因此,这里提出需对用户的浏览次数进行周期性地更新,设定以“周”为单位,每经过一周,就对数据择取1次更新处理[5]。更新方法如下:endprint

2.3基于用户浏览页面的速度计算用户兴趣度

用户对某个页面的浏览时间越长,则从一定程度上表明了用户对该页面具有较高兴趣,因此用户对页面的浏览时间也是分析用户兴趣度的一个重要指标。用户的浏览时间与用户浏览网页的速度密不可分,为了更为有效地规整集成各类因素,本文将用户的浏览时间与浏览速度相对应。基于用户浏览页面的速度来计算用户的兴趣度,不仅要考虑用户在页面的停留时间,还需要考虑页面大小的影响。

2.4利用BP神经网络进行整合建模

三种用户兴趣度之间并不是相互独立的,而是相互依存,相互联系的,只有对这三种用户兴趣度进行整合后,才能真实地反映用户兴趣度。在求用户兴趣度时,要先判断InterestActivitω的取值, 由之前推导可知,当InterestActivitω取值为1时,可直接将Interestω置为1。

当InterestActivitω=0时,则要考虑用户对页面的访问次数以及访问速度下的用户兴趣度的取值了,本文利用三层BP神经网络来支持设计这两者的融合。BP(back propagation)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的思想概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,BP神经网络由输入层、输出层和隐含层构成,隐含层的数量由一层到多层不等,隐含层的数量越多,则神经网络结构越复杂[7]。本次研究中,神经网络的设计结构如图1所示。

3用户个性化兴趣库的建立

基于用户行为计算给出的兴趣度只是一个用户兴趣度的初步模型,该模型是对用户的有限次操作所得到的,分析可知其结果精度还稍显逊色,因为随着时间的推移,用户的兴趣度可能发生多维的变化。基于此,研究拟将建立针对特定用户的个性化兴趣库,将基于用户行为计算出来的用户兴趣度数据保存在用户的个性化兴趣库中,随着用户不断地在网络上发生一些特定的浏览行为,用户的个性化兴趣库即会日趋完善,并更加丰富,而且越来越接近用户的日常搜索习惯。这也相当于是一个随着用户的使用次数越多而渐至达到完善的用户个人兴趣数据库,当该兴趣库积累扩充到一定程度时,其对用户的兴趣度预测将会极其接近用户的真实兴趣。

3.1PageRank算法

PageRank算法是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时研究提出的链接分析算法[8],是Google用来标识一个网页的重要性、衡量一个网站优劣的标准。该算法的主要思想是:首先网页通过链接关系建立起Web图,每个网页都设置一个相同的PR(PageRank)值,如果一个网页通过超链接链向另一个网页,则表示向链出网页投了一票,并将自身PR值平均分配给链出网页。PR值越高,证明该网页越受欢迎,其受欢迎等级分为0~10级,10级为满分。获得更高评分的网页在网页搜索时将会获得较前排名。具体来说,一个网页的PR值主要由三个因素决定[9],基于表述如下:

1)一个网页的链入网页越多,该网页的PR值越高;

2)一个网页链入网页的排名越高,该网页的PR值也会越高;

3)一个网页链入网页的出度越少,该网页的PR值越高。

由以上三个因素,推导可知PageRank算法的原始公式为:PRμ=∑v∈IμPRvOutv(12)其中,Iμ是网页μ的链入页面的集合,Outv是网页v链出页面的数目。

3.2基于用户个性化兴趣库的搜索内容推荐

PageRank虽然是一种堪称经典的搜索分析算法,并且在Google中也占据着举足轻重的地位,但是其缺点却也显而易见,该算法对网页的排名过于公式化,因为每个用户都是有着不同兴趣爱好的独立个体,如果一味追求公式化而忽略用户的兴趣反而会造成搜索精度大幅下降,给用户带来差等体验。因此,如果能将该算法与用户个性化兴趣库有机地结合起来将会大大地提高搜索精度[10]。

用户在转入网络搜索时往往是带有强烈的个人兴趣的,因此,用户在输入关键词展开搜索时,PageRank算法可以计算出每个网页的PR值,先进行预排名,之后再在用户个性化兴趣库中对相应搜索内容进行兴趣度匹配,将兴趣度匹配吻合程度最高的页面的排名提前,将兴趣度匹配程度较低的页面排名移后或者删除,综合所有网页的排名后即可提交給用户。如果用户在排名较前的页面中找到感兴趣的内容并伴随着相应的浏览行为,又可对用户的浏览行为调取兴趣度分析计算,从而将数据返回至用户个性化兴趣库中,最后即使用户个性化兴趣库得以充实与完善。

4实验分析

本节实验分析的关键步骤就是对实验数据进行分析整理,过程中采集实验数据时运用的是Web日志挖掘的方法。该方法主要分为数据预处理、会话识别、模式发现以及模式分析这四个阶段。其基本过程就是根据挖掘的目的,对原始Web日志文件中的数据经由提取、分解、合并后转化为用户会话文件,再运用统计分析、关联规则、聚类、归类、序列模式、依赖关系等技术从Web日志数据中挖掘和发现用户使用Web的各种潜在的规律和模式。最后,在模式分析阶段把在模式发现阶段产生的规则和模式过滤掉,去除那些无用的模式,并把发现的结果模式通过一定的方法直观地展现出来。

采集得到特定用户群一个月内浏览http://www.163.com/网站中的浏览日志文件,使用本文中的兴趣度计算方法来计算用户兴趣度,并与用户对浏览网页的兴趣度自评加以对比,来衡定、并验证本文方法的合理性及对用户兴趣度预测的准确性。通过Web日志挖掘获取到浏览行为数据3 246条,对这些数据进行清洗、筛选,选择其中有效数据为2 951条,再对这些浏览行为设计展开基于用户行为的兴趣度计算,继而利用Matlab软件中的神经网络工具箱实现BP神经网络整合,输出最终的用户兴趣度。不仅如此,研究又将该用户兴趣度与用户对浏览网页的兴趣度自评结果做出了比较对照,部分数据对比结果如表1所示。endprint

由表1实验数据可以分析得到,本文建立的用户个性化搜索模型对用户的兴趣预测精度高,说明了该用户兴趣模型在搜索引擎系统中发挥了突出的作用,能够为用户推荐其真正感兴趣的内容,更加贴近用户的真实需求,大大节省了用户的时间成本,同时更增进了用户的查询信息的满意度。

5结束语

随着目前网络的普及以及信息技术的高速发展,互联网与现代生活早已息息相关,并且产生了重大的影响。特别地,针对当代快节奏的生活方式,在五花八門的各式网页中海量搜索用户感兴趣的内容已经明显滞后于时代的发展。本文通过对用户的浏览行为进行分析,计算用户的兴趣度,建立用户的个性化兴趣库,从而提出用户的个性化搜索模型。在此基础上,由实验分析可知,该模型能够高效反映用户的兴趣点,并在用户进行浏览器搜索时提供用户所感兴趣的内容,大大节省了用户的时间,并给用户带来更好的使用体验。

参考文献:

[1] 郝水龙,吴共庆,胡学钢. 基于层次向量空间模型的用户兴趣表示及更新[J]. 南京大学学报(自然科学版),2012,48(2):190-197.

[6] 史宝明,贺元香,张永. 个性化信息检索中用户兴趣建模与更新研究[J]. 计算机应用与软件,2014,31(3):7-10.

[7] 潘庆先,董红斌,韩启龙,等. 一种基于BP神经网络的属性重要性计算方法[J]. 中国科学技术大学学报,2017,47(1):18-25.

[8] 冯海涛. 基于网页时间权值的PageRank算法改进[J]. 西安邮电大学学报,2013,18(2):121-124.

[9] 邵晶晶,李波,刘汉平. PageRank的改进算法—调整阻尼因子[J]. 应用数学,2008,21(S1):57-61.

[10]孙克雷,陈安东. 基于用户兴趣的个性化推荐算法研究[J]. 安徽建筑大学学报,2017,25(1):65-69.

[11]王冲,纪仙慧. 基于用户兴趣与主题相关的PageRank算法改进研究[J]. 计算机科学,2016,43(3):275-278,312.

[47] LEDERER S,MULLER C,TIMMERER C. Dynamic adaptive streaming over http dataset[C]// Proceedings of the 3rd Multimedia Systems Conference. Chapel Hill, NC, USA:ACM, 2012:89-94.

[48]OYMAN O, SINGH S. Quality of experience for http adaptive streaming services[J]. IEEE Communications Magazine, 2012,50(4):20-27.

[49]ESSAILI A E,SCHROEDER D,STAEHLE D, et al. Qualityofexperience driven adaptive http media delivery[C]// Communications (ICC), 2013 IEEE International Conference on. Budapest:IEEE, 2013:2480-2485.

[50]MOK R K,LUO X,CHAN E W W,et al. Qdash: A QoEaware dash system[C]//Proceedings of the 3rd Multimedia Systems Conference.Chapel Hill, North Carolina: ACM, 2012: 11-22.

[51]HOUDAILLE R,GOUACHE S. Shaping http adaptive streams for a better user experience[C]// Proceedings of the 3rd Multimedia Systems Conference. Chapel Hill, North Carolina:ACM, 2012:1-9.

[52]THANG T C,HO Q D,KANG J W, et al. Adaptive streaming of audiovisual content using mpeg dash[J]. IEEE Transactions on Consumer Electronics, 2012, 58(1):78-85.

[53]MLLER C, LEDERER S, TIMMERER C. An evaluation of dynamic adaptive streaming over http in vehicular environments[C]// Proceedings of the 4th Workshop on Mobile Video. Chapel Hill, North Carolina:ACM,2012:37-42.

[54]PIRES K, SIMON G. Dash in twitch: Adaptive bitrate streaming in live game streaming platforms[C]// Proceedings of the 2014 Workshop on Design, Quality and Deployment of Adaptive Video Streaming. Sydney, Australia:ACM,2014:13-18.endprint

猜你喜欢

次数神经网络网页
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
最后才吃梨
俄罗斯是全球阅兵次数最多的国家吗?
基于自适应神经网络的电网稳定性预测
基于HTML5静态网页设计
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
搜索引擎怎样对网页排序
如何在IMS网络中计算呼叫接通率
网页智能搜索数据挖掘的主要任务