基于艾宾浩斯遗忘的用户兴趣模型更新机制

2012-09-17韩晓吉刘凤鸣

网络安全技术与应用 2012年7期

韩晓吉刘凤鸣

山东师范大学管理科学与工程学院山东 250014

0 引言

信息在开放和互动的网络环境中增长越来越快，同时也出现了信息过剩，知识难获取的状况。个性化搜索引擎针对不同的用户，利用其背景知识、兴趣特征等多种信息，对其检索词和检索结果进行分析和提炼后再呈现给用户，提高检索结果的精准度和用户的满意度，节省用户在检索结果处理上所花费的精力。用户兴趣模型是用来获得、存储、管理用户需求及其兴趣特征，描述用户潜在的需求及兴趣的模型，它不仅仅是用户兴趣的一般描述，而是面向算法、具有特定数据结构、形式化的知识，它是个性化检索的关键。由于用户兴趣模型建立之初缺乏完整的用户描述，系统所获取用户兴趣信息的相关度和准确度低等因素，所以最初建立的用户兴趣模型不能完全反应用户的兴趣需求；而且用户兴趣随环境和时间的变化会不断地发展变化，表现在模型中就是用户兴趣产生了漂移；长久不用的兴趣知识会造成数据冗余，不仅会浪费存储空间，增加计算的复杂度，而且新更新的知识与之前的类似知识会产生冲突。所以用户兴趣模型的更新在个性化检索系统中尤为重要，它决定了系统对用户的适应度，也决定了系统的服务质量。本文在阐述用户兴趣模型更新机制后，基于艾宾浩斯遗忘原理提出了一种新的用户兴趣模型更新机制。

1 用户兴趣模型更新机制

用户兴趣更新是指在用户兴趣模型建立之后，对模型增加新获取的用户兴趣知识或者删除过时不用的用户兴趣知识。更新用户兴趣模型可以降低模型的信息存储量，减少模型中的数据冗余，简化计算复杂度，并提高计算的精度；即使更新的用户兴趣模型能够使个性化检索系统更好的适应用户，提高服务质量。一些建模方法可以基于模型表示技术的特点来更新，如机器学习通过归纳和分析方法来更新、神经网络通过增加和删除无效的神经元来更新、遗传算法通过遗传优化染色体来更新；也有一些模型需要系统和用户一起来更新模型，如基于主题、关键词列表以及空间向量表示法就可以通过修改用户兴趣关键词或者关键词权重的方式来更新，因为本身这些模型兴趣数据的获取就有来源于用户的部分，用户所提交的数据也占据了模型的很大比例。但是所有模型的更新都要涉及到两个方面：用户兴趣漂移和更新用户兴趣模型，但是上面所介绍的用户兴趣的表示技术却不能包含上面的两个方面，他们只有把那两个方面都做好的基础上才能基于自己的特点来更新用户兴趣模型。有关用户兴趣漂移研究较多，其中包括漂移概念研究、兴趣变化规律研究、兴趣漂移模型研究、兴趣漂移机制研究以及兴趣跟踪研究等。1986年Schlimmer和Granger第一次建立了可以更新的用户兴趣模型STAGGER，这是一个逐渐的学习系统，它能够动态的追踪用户的变化，基于贝叶斯网络将用户兴趣分为感兴趣和不感兴趣两种，通过增加新的属性节点和调整兴趣之间的链接权重来更新用户兴趣模型。1994年Mitchell 等使用一种软件助手来安排会议，这种软件采用机器学习方法来获取用户对会议安排的兴趣，学习方法使用至少包含180个样本的时间窗来快速的适应用户的兴趣，这180个样本由新产生的用户兴趣样本与之前存储在模型之中的旧样本一起组成，这种机制主要基于这些样本带来的测试来决定用户兴趣是否发生了偏移。1995年Moloof和Michalski提出基于遗忘部分兴趣的渐进遗忘机制来更新用户兴趣模型，这种更新机制是选择在兴趣描述边界的案例，然后将现在对用户兴趣的相关度小的或者独立的样本移除用户兴趣模型。这种方法用基于时间的遗忘机制将一些超过时间阈的部分用户兴趣模型移除，从而实现更新用户兴趣模型。1996年 Widermer和Kubat提出的FLORA系统引入了遗忘技术，这种遗忘技术是通过可调节的窗口来实现的，所谓遗忘就是删除达到遗忘阈的用户兴趣数据，窗口大小和遗忘频率是假设的，基于这种假设对模型做启发式的动态更新。1997年Widermer提出了基于元学习方法更新用户兴趣模型的方法，这种方法假设用户的背景知识以及用户现在感兴趣的知识能够预测用户下一次要检索的知识，而且提出了2级学习机制，1级是用元学习方法检索用户兴趣漂移，1级是将用户的背景知识和现有兴趣知识信息用在学习过程中。经证明使用2级学习机制可以很好的对用户兴趣模型进行更新。1998年Harrie 、Sammut以及Horn使用元学习方法识别潜在的用户背景，这种方法假设用户兴趣在相当长的时间内是稳定的，它使用批处理学习机制与粗集方法来检测用户兴趣的漂移。1998年Grabtree和Soltusiak 通过监控用户浏览WEB网页和使用电子邮件的习惯来做为更新用户兴趣模型的依据，并使用粗集方法来检测用户兴趣的更改，他们的研究表明用户兴趣可以通过测量用户兴趣度在一段时间内的相似度来查看兴趣是否发生了改变。1999年Billsus和Pazzani引入智能Agent来更新用户兴趣模型，首先要将用户兴趣分为长期和短期两类，短期兴趣模型只要通过观察用户最近的行为就能做出更新与否的决策，但是从长期兴趣模型需要逐渐的来更新。2000年Ivan Koychev改进了时间窗方法，它使用一种标记测试来感测用户的兴趣漂移，然后通过调整时间窗的窗口大小，目的是最大化的提高对最近用户兴趣数据分类的准确性。同年Ivan Koychev提出了另外一种渐进遗忘机制，并给出了遗忘函数W=f(t)，他将每一个样本都赋予一定的权重，权重的大小随着时间会不断变化，当达到一定的权重阈值时候，这个用户兴趣就要更新。2003年Abreu在虚拟地图的应用中引入遗忘机制，并使用 ED方法改进了遗忘机制在用户兴趣模型中的更新效果。2007年Yalcin指出了单独的VSM无法更新用户兴趣模型，所以他们引入了Learn++算法来支持兴趣漂移，综合的 VSM 可以很好的适应用户兴趣的变化。2008年Yingrong li定义了一种UChoo的方法来更新用户兴趣模型，UChoo方法也是定义对每个兴趣样本都定义了以个权重描述，这个权重描述使得最近的用户兴趣比时间长久的用户兴趣更重要一些，反映在权重上值就更大一些。

2 基于艾宾浩斯遗忘的更新机制

假设用户兴趣模型已经建立起来，这时候不需要用户提供兴趣知识，系统使用机器学习方法可以获取用户的兴趣信息。但是系统并不知道用户的兴趣是不是改变了，如果改变了新获取的用户兴趣数据该怎么与原来的用户兴趣数据融合在一起；系统对那些过时的，用户不在感兴趣的样本该怎么处理才能达到最好的服务效果。之前学者们大多都通过时间窗方法和遗忘机制来解决这个问题。因为用户兴趣模型是通过用户描述文件(User Profile)来表示用户兴趣知识的，而用户描述文件中的用户兴趣是以分类的方式聚集在一起的。如果将用户的兴趣分为长期兴趣和短期兴趣两种，短期兴趣由于影响因素比较的多，更新比较快，时间窗方法将是一种比较好的解决方式，时间窗方法应用的基础是用户兴趣是以用户最近浏览序列来体现的，通过浏览序列以及浏览内容可以看出用户兴趣是否发生了变更。长期兴趣一般比较稳定，虽然也存在着影响因素，但是衰减比较的慢，学者们更多的是采用遗忘机制来更新长期兴趣。

2.1 艾宾浩斯遗忘原理

更新是用户兴趣模型的重要功能，模型只有一直获取用户的兴趣数据，才能保证系统对用户的适应性，正因如此模型的数据量才会不断地增大。根据帕累托法则，20%的重点信息能够产出80%的决策结果，所以只需要保留重要的，与用户下一次检索密切相关的信息，这样就可以把长久不用的兴趣信息更新掉，从而减小模型的信息储存量。用户的兴趣是否被模型更新取决于与之联系的事件的数目、它所涉及的内容与用户的相关度、时间以及现在所能表现用户当前兴趣的准确度等因素。对用户兴趣模型来说，相对于获取用户兴趣数据是主动，用户兴趣的更新则是被动的。也就是说模型能够主动去选择是否获取并存储用户的某一兴趣，而不能选择去更新用户的某一兴趣，因为系统很难判断当前的用户兴趣是否产生了漂移，也不知道获取的信息将怎么替代过时的信息。用户兴趣模型更新的这些特点与人脑的遗忘机制很相似。人脑总是只保存最有意义和最经常使用的那部分数据，大量的次要信息在长时间不使用后会被慢慢遗忘，这种遗忘的机制使得大脑总是能适应不断增长的信息处理工作，更快地提取到最有价值的那部分数据。德国心理学家赫尔曼.艾宾浩斯(Hermann Ebbinghaus)认为遗忘的速度在记忆紧接着的过后最快，然后慢慢放缓，直到遗忘的停止。但此时记忆的内容不到原先的30%。他认为“记忆与遗忘是时间的函数”心理学研究认为，并根据实验结果绘成遗忘曲线，即著名的艾宾浩斯遗忘曲线。如图1所示。

图1 艾宾浩斯遗忘曲线

从图1可以看出人的遗忘是有规律的，遗忘的进程并不是均衡的，而是先快后慢的方式，可以认为在遗忘最快的那段时间大脑中所保留的知识称为短期记忆，遗忘到最后剩余的不足30%就几乎是稳定的长期记忆了。心理学研究表明，人的兴趣对应于记忆也可分为长期兴趣和短期兴趣。兴趣的衰减同记忆一样也是时间的函数，但是衰减的时间并不一致，衰减的规律也有所区别，但是大致是相同的。本文则基于艾宾浩斯遗忘原理给出假设，在前人研究的基础上给出自己对兴趣漂移的观点。

2.2 用户兴趣漂移

检测用户兴趣漂移是用户兴趣模型更新重要的一个环节，因为如果兴趣发生漂移，当前所获取用户的兴趣知识跟用户描述文件里存储的知识就是相同的，如果加入就会产生数据冗余，增加了用户描述文件的存储量，同时也增加了对用户下一次检索而做的兴趣计算的复杂度。只有在判定用户的兴趣发生了变更，才能去更新用户描述文件。本文介绍了之前学者们对用户兴趣漂移做出的研究，学者们提出的研究都很有建树，同时也加快了用户兴趣漂移研究的进程。笔者发现前人的研究都集中在了用户兴趣的预测，但忽略了预测的验证。依据艾宾浩斯的遗忘曲线我们可以得到记忆的遗忘是有规律的，对应于记忆的衰减也是符合规律的，而且在正常状况下，这种规律将是一种递减函数。基于这样的假设笔者提出基于艾宾浩斯遗忘规律的前验用户兴趣漂移。获取当前的用户兴趣之后加入到用户描述文件之中，如果新生成的兴趣衰减曲线符合系统设置的阈值，那么表明兴趣并没有发生漂移，这里我们使用渐进遗忘机制，就是将描述用户兴趣的关键词赋予权重，权重的大小由衰减函数随着时间计算得出。如果发现新生成的兴趣衰减函数不符合常态，已经超出了系统设定的阈值，那么可以判定用户的兴趣发生了漂移。这个时候我们将重新为用户的新兴趣建立用户兴趣描述文件。

2.3 更新用户兴趣模型

用户兴趣模型的更新需要分为两种方式：修改兴趣权重和重建用户描述文件。前者是用户的兴趣发生了衰减，但是并未发生漂移，后者是用户兴趣发生了漂移。对于更新用户兴趣模型的研究，大多学者都在自己研究的基础上提出了样本数量的问题，样本数量决定了用户兴趣在整个模型中的地位，同时也决定了用户兴趣的性质。也就是量变会引起质变。显然本文提出的这两种更新方式都是很宏观的，没有具体的给出更新数量。现在的更新的研究可以分为三种：全部更新，新的兴趣知识全部加入到用户兴趣模型，过时的兴趣知识全部删除；部分更新，也就是渐进遗忘机制，将当前兴趣模型加入的同时，将处于兴趣另一个边界的兴趣知识，也就是时间隔得最久的知识更新掉；全部加入，同时保留用户的全部兴趣知识。显然第一种和第三种都不符合本文的意向，想要=应用于实际也不太现实。对于第二种部分更新的方式，有学者采用黄金分割法，也有学者采用线函数，还有20/80的方法来分。两外基于时间窗方法的研究者在自己的试验中也给出了相应的更新数量，Ivan Koychev就得出了130的最优值，但是这些也只是基于在个人系统的研究数值。本文基于学者们的研究成果，提出基于遗忘百分比的更新。也就是根据遗忘曲线上的遗忘百分比，将模型中的兴趣知识相应的更新。这种方法的优点是简单易行，但是基于每个人的兴趣衰减规律的基础上的。因为艾宾浩斯提出的遗忘曲线是在统计大量不同人的遗忘数据之后生成的一种曲线，从而这种曲线具有共性的群体规律，此遗忘曲线并不考虑接受实现个人的个性特点，而是寻求处于平衡点的遗忘规律。因为我们的生理特点、生活经历不同，可能导致我们有不同的兴趣习惯、兴趣特点。我们要根据每个人的不同特点，寻找到属于自己的兴趣衰减方式。

3 结论

本文在分析艾宾浩斯遗忘原理的基础上，提出对应的用户兴趣遗忘机制，并基于前人研究的基础上，基于艾宾浩斯遗忘规律从用户兴趣漂移和更新用户兴趣模型两个方面的提出前验用户兴趣漂移和基于遗忘百分比的更新算法。艾宾浩斯遗忘曲线只是时间的函数，对于其他的影响因素并没有涉及，本文也只是基于兴趣时间来更新用户兴趣模型。

[1]Koychev I,Lothian R.Tracking.Drifting concepts by time window optimisation[M].Research and Development in Intelligent Systems XXII.2006.

[2]Abreu,A,Correia,L.An hybrid aping approach with place forgetting[J].42nd IEEE Conference on Decision and Control.2003.Proceedings.

[3]Yalcin.A,Erdem.Z,Gurgen.F.Ensemble based incremental SVM classifiers for changing environments[J].22nd international symposium on Computer and information sciences.2007.

[4]Yingrong Li,Yang Wei,Anastasiya Kolesnikova,Won Don Lee.A New Gradual Forgetting Approach for Mining Data Stream with Concept Drift [J].International Symposium on Information Science and Engieering.2008.

[5]宋丽哲,牛振东,余正涛,来瀚涛,董祥军.一种基于混合模型的用户兴趣漂移方法[J].计算机工程.2006.

[6]郭新明,弋改珍.混合模型的用户兴趣漂移算法[J].智能系统学报.2010.

[7]Koychev.I,Schwab.I.Adaptation to Drifting User's Interests.In proc.of ECML2000 Workshop: Machine Learning in New Information Age.2000.

[8]Mladenic D．Text-learning and Related Intelligent Agents.IEEE Intelligent Systems 1999.

[9]Conlan.O,Wade.V,Bruen.C,Grgan.M.Multi-model metadata driven approach to adaptive hypermedia services for personalized eLearning [J].Adaptive hypermedia and adaptive web-based systems.100–111.Springer,Berlin.2002.

[10]Peter Eberle.Christian Schwarzinger,Christian Starry.User modeling and cognitive user support: towards structured development[J].Univ Access Inf Soc.2010.