基于海量数据和Web挖掘的个性化推荐系统研究

2015-04-02吴海霞李慧芳

山西大同大学学报(自然科学版) 2015年3期

关键词：个性化算法用户

吴海霞，连玮，李慧芳

(长治学院计算机系，山西长治046011)

基于海量数据和Web挖掘的个性化推荐系统研究

吴海霞，连玮，李慧芳

(长治学院计算机系，山西长治046011)

推荐系统是学术界和工业界研究热门的课题，能有效解决互联网海量数据中“信息过载”.首先介绍个性化推荐技术的发展、应用和相关问题，重点分析多种经典的推荐算法及其特点，并给出推荐系统的性能评价方法与指标，最后对个性化推荐的未来发展做出展望。

个性化推荐；海量数据；Web挖掘；推荐算法

互联网加速了电子商务的应用和推广，促进了商业模式的变化。传统商业认为，抓住20%主流市场的产品或服务就能占据绝大部分市场，但根据Chris的长尾理论[1-2]，被忽略和轻视的80%反而更加重要。如果汇聚大量市场价值较小的部分，有效开发“长尾市场”，将会创造极大的经济和社会价值，也能更好满足不同用户群的个性化需求。

Web2.0的出现促进了社会网络的发展和社交媒体的成熟，用户通过论坛、博客、微信、朋友圈等丰富的应用产品积极参与各种在线活动：发表日志、上传照片、转载微博、分享链接或评论信息。在充满海量数据的社交网络中，用户通过UGC（Us⁃er Generated Content）的信息资源创作模式，既是信息的分享者和消费者，还是信息的生产者和创造者。作为世界上规模最大的公共数据源，Web文档在以每天数十亿的速度持续增长。在电子资源极度丰富的数据时代，“信息过载”日益严重，用户往往迷失其中而无法确定真正需求和选择，即“选择困难症”日渐明显，需要一种快速搜索和定位的机制。

Web数据挖掘基于信息检索、人工智能、机器学习和知识管理技术，分析大量文档获得隐含知识和模式，帮助人们搜索信息并制定决策[3]。近年出现的推荐技术，如同善解人意的私人秘书，根据用户兴趣偏好和行为习惯自适应地发现和挖掘,进行分析和推荐。由于媒体的碎片性和文化的多样性，用户需求日趋个性化，推动着高效能、高精度、高智能的推荐系统快速发展。

1 推荐系统简介

推荐是根据用户资料信息、历史行为记录及物品的特征属性来分析用户对物品的偏好而生成个性化推荐列表，为用户提供信息推荐的一种过滤和挖掘技术。推荐系统是一个综合众多学科的研究领域，涉及统计分析、信息检索、数据挖掘、机器学习、人工智能、自然语言处理、语义网、流数据、市场营销等[4]。

1.1 推荐系统的特点与目标

推荐系统与搜索引擎技术在处理对象、检索方法、某些评测指标等方面非常相似，但二者存在显著区别。搜索引擎对数据和信息进行连接，而推荐引擎对人与信息进行精准连接实现完备的服务。Google、Baidu、Yahoo等搜索引擎被动地检索文档、商品、音乐等，侧重于数据的查询，结果固定而庞杂，与用户对象无关联；推荐引擎主动为顾客推荐好友、影片、服务等，注重知识的发现，结果动态变化，与兴趣相匹配，充满个性化。但推荐引擎开发难度大，不仅需要庞大的数据库、快速的搜索算法，还需要合理的用户模型和精准的预测决策算法。

推荐系统的基本框架为信息获取、用户建模、模型学习、行业应用、实验评测和模型优化。系统以用户为中心主动获取相关信息，一般为隐式获取而无需用户参与。利用机器学习等技术建立合理模型，判定用户的兴趣偏好和行为倾向，构建支持用户决策的系统，进行信息过滤和智能推荐，为大规模用户提供高质量服务，甚至超越本领域专家的经验和决策。个性化推荐服务具有很强的针对性、主动性、智能性。

推荐系统追求过程的快捷性与智能化，推荐效果的精准化、个性化和信任度。比如，系统从数十万部影片中即时自动抽取一批符合用户口味的精彩作品，用户轻松选择之后获得满意体验和真诚反馈。通过高匹配度和个性化的推荐，将浏览和访问的潜在用户转变为购买者，迅速扩大市场，产生巨大价值。因此，推荐系统最大的目标是基于合理的预测模型给出接近用户真实度的推荐。

根据个性化程度分为非个性化、半个性化和完全个性化推荐系统。第一种基于手工推荐或统计分析技术为每个用户提供相同的推荐，像专家推荐或销量排行；第二种根据不同用户当前的浏览或购物行为产生相应推荐；第三种结合当前用户和其他用户历史信息及当前行为推荐，个性化程度高。

1.2 推荐系统的发展与应用

推荐系统源于向消费者推荐物品的真实场景，在电子商务领域应用最为成熟。像谷歌、亚马逊、阿里、淘宝、京东、唯品、eBay、CDNow、YouTuBe[3]等网站都部署了不同形式的推荐系统，页面动态提供新品、畅销商品和特价推荐等导购服务，显示你可能感兴趣的东西等推荐指导,这些网站都以卓越的推荐技术取得了较大的经济效益和良好的用户体验与反馈。有数据显示，三分之一的用户会根据网站推荐购买商品。

互联网企业越来越重视推荐系统对于自身业务的巨大提升作用。中国的高科技企业百度、华为、腾讯和百合网等都非常重视利用推荐技术构建业务主干，展现出雄厚的技术实力，发挥着巨大影响力。如腾讯和新浪微博提供了“可能感兴趣的人”的推荐服务，牛赞网和今日头条建立计算模型挖掘用户“兴趣DNA”以精准推荐资讯。基于社交网络的主题检测、信息检索、好友推荐等都是学术界和工业界共同研究的重要课题，旅游宣传和在线广告等方面也有广泛的应用和丰富的成果。美国的Oren Etzioni对西雅图餐馆评论数据进行整理和挖掘，开发关于餐馆的推荐服务RevMiner[5]。

推荐技术在十多年间发展迅速，应用广泛，体现出巨大商业价值、文化价值和社会价值。如音乐、歌曲、视频、电影、电视剧、游戏等多媒体或娱乐产品，餐饮、住宿、交通等社会服务，网站、微博、论坛、社区等社交平台，职业推荐、学习资源推荐[6]、高考志愿推荐[7]等教育推荐，新闻资讯、旅游产品、会议推荐、移动应用，及各种知识管理等应用。其中在搜索引擎、社交媒体、金融服务等领域应用最广。成功的推荐应用包括Amazon的Kin⁃dle电子书、PanDoRa音乐电台、Hulu视频推荐、百度的“音乐随心听”私人频道，“猜你喜欢”新闻资讯频道等[8]。图书、音乐和电影三个领域实现了较高准确度的推荐，NETFLIX的Cinematch电影推荐系统是最典型的智能预测系统。

当前知名社交平台很多，国外的Twitter、Face⁃book、Myspace、Epinions、Lindedin、Foursquare等，国内的人人网、豆瓣网、开心网、腾讯和陌陌等。社交推荐利用社交网络用户属性匹配来提高推荐精度。百合网能够分析用户行为，利用信息抽取和情感分析的双向匹配算法实现自动匹配，并非简单的单向推荐。建立有效的隐私保护机制，增加社会信任度是社交推荐的重点和难点。

个性化阅读朝着个性化、移动化和社会化的方向发展，个性化阅读产品能按个人兴趣推荐合适的新闻，主要有自主订阅、算法推荐和基于协同发现的朋友推荐三种途径。主流产品有Flipboard、Zite、网易云阅读、今日头条、Zaker、指阅、鲜果等。推荐算法对检索出的大量内容做深度提取、摘要、去重和分类。此外，有的还尝试精准广告投放，根据用户阅读兴趣推荐广告。

面向大规模定制的个性化推荐[9]利用智能化技术引导客户，以动态订单赢得市场，改变了原始大规模生产的产品单一、周期长、费用高、时间和成本不可控、顾客易流失等问题。电子商务、生产制造、加工服务等都趋于个性化定制这一新颖的生产和服务方式，助于企业进入新的市场，吸引优质顾客，取得客户满意度。

知识图谱是智慧搜索和个性化推荐的基础，百度的知识图谱推荐[5]引擎依托后台强大的知识图谱库，在推荐解释、关联挖掘、数据覆盖等方面表现很好，2013年上线的“知心”是拥有着技术壁垒的知识图谱产品。此外，移动设备上应用商店的推荐、移动增殖业务的推荐等新的服务都已出现。

1.3 推荐系统的关键问题

推荐系统开发过程中存在一些重要因素和问题，影响并推动推荐技术的进展。

（1）数据稀疏（data sparsity）用户和项目数量级很大时交集会很小，较多用户选择和评价的项目极少，形成数据稀疏问题。如Netflix电影评分数据集中有近99%数据缺失，尽管总评价率很高，但分散于大量用户和项目中，平均每个项目和用户评价率不高。因此需要有效办法解决数据稀疏性。

（2）冷启动（cold start）也叫First Rater问题，当新用户进入系统尚未选择项目也无评价历史，或新产品未被选择和评价时，相应配置为空，系统没有足够信息做出推荐，即为冷启动。现有许多解决方案，如某些混合推荐，结合简单的用户信息（如年龄、民族、职业等），参考在其他网站的记录，解决本网站的冷启动。社交推荐是帮助系统冷启动的重要因素。

（3）扩展性（scalability）尽管数据稀疏，但大量信息使得计算成本很高。可以考虑设计并行性好的算法或使用增量推荐，推荐算法在已有基础上仅计算数据增加的部分，类似于数学和物理中的微扰理论。

（4）动态性（dynamic）大多用户兴趣广泛且动态变化，评分情绪也随时间波动，而多数算法忽略时间戳因素。如何利用新旧偏好和评分信息合理预测规律并精确发现用户口味显得非常重要，推荐中要考虑时间和情绪等因素的影响，推荐结果符合用户动态兴趣和最新需求，体现时效性。

（5）复杂性（complexity）推荐策略单一时个性化程度和用户满意度不高。譬如，用户在网站收藏的音乐越多，获得推荐越精准，在商城的购买和评论数越多，推荐质量越高，通过相关数据还可预计将走红的明星、专辑、乐队或作家；但如果顾客收藏过多的图书或音乐，准确性反而下降，因为顾客可能喜欢不同类型和多元风格，算法无法实现准确匹配。若组合多种策略则会提高推荐结果的个性化和用户满意度。

2 个性化推荐算法

个性化推荐系统利用物品信息、用户资料、社交关系、人口统计信息、信任度、社会化标签[10]等不同信息源为用户提供预测和推荐，推荐算法起到重要作用。不同的推荐方法在不同行业、场景和数据集中表现出各自特点。基于内容的推荐和协同过滤应用最广，混合推荐是研究的热点和趋势。

2.1 基于关联规则（Association Rule）推荐

关联规则是在数据挖掘和知识发现中常用的技术，以关联规则为基础，把已购商品作为规则头，规则体为推荐对象，发现数据集中项之间可能相关性。关联规则的发现算法有Apriori、FPTree、HP等[3]，购物篮中啤酒与尿布的关联最为经典。这种推荐的突出特点是不需领域知识就能发现用户兴趣，但规则提取较难、推荐效率和个性化较低。关联规则的发现非常耗时，一般离线进行，当规则数量累积到一定程度，不再大量出现新规则时，即产生出较为准确而高效的推荐。

2.2 基于内容（Content）的推荐

基于内容的推荐基于物品间的关联相似性规则，不需用户评价。主要思想是：抽取出推荐对象的内容特征和用户的兴趣特征，根据其他用户的历史记录，计算当前用户与候选项目间的匹配程度，为用户推荐相似物品。即三个步骤：建立用户兴趣模型、建立项目特征向量、通过相似度和匹配度推荐项目。其中项目特征可采用基于tf-idf权重的向量空间模型（VSM）表示，用户兴趣模型可用决策树、贝叶斯分类算法、神经网络等机器学习方法来获取。这一算法适于文本、新闻、日志和网页等的推荐。优点体现在：只要获得物品属性即可进行新物品推荐，无需大规模用户也可达到一定精度，推荐结果与用户偏好较为吻合，但缺乏新颖度和惊喜度，有时存在数据稀疏、冷启动、过拟合、扩展难的问题，对于视频、音乐等多媒体信息的特征难以提取，推荐困难。

2.3 协同过滤（Collaborative Filtering）推荐

协同过滤是一种源于集体智慧的典型方法，推荐效果好，维护代价低。基本思想是：获取用户对物品偏好程度的信息，计算用户间或物品间的相似度，进行个性化推荐。相似度计算可采用Jaccard系数、cos夹角余弦相似度、Pealson关联系数、向量空间模型、关联性反馈（Rocchio）[2]等方法，根据效用矩阵的数据得到项目或用户相似度。协同过滤分为基于内存（memory-based）和基于模型（modelbased）的协同过滤，以及近来研究较多的基于图的协同过滤。

（1）基于内存的协同过滤

也称为基于邻居集（neighborhood）的协同过滤，分为基于项目（ItemCF）和基于用户（UserCF）的协同过滤。基于项目的协同过滤通过分析项目间的相似性，以目标用户已购买且评分较高的项目为参考，把相似项目推荐给目标用户。像Amazon和YouTuBe的推荐系统，利用用户评分离线计算商品相似度，根据购物车商品列表找出关联度最高的商品推荐给用户。优点是使用方便，结果易解释，新的数据以增量更新的方式加入时不需考虑被推荐物品的内容。缺点表现为较依赖用户评价，数据稀疏时表现差，不能处理新用户和新产品。而基于用户的协同过滤根据用户相似性找到与目标用户有共同偏好的邻居用户集，再根据邻居用户的历史信息给出对目标用户的推荐。其前提是假设相似用户感兴趣的项目，目标用户也有可能感兴趣，即若A和B用户对一些项目评分相似，视二者为邻居用户，对A未评分而B已评分的项目，可认为A也会有相同评分。Top-N推荐和基于核方法[11]的推荐都属这类协同过滤，并高于一般方法的推荐性能和质量。

（2）基于模型的协同过滤

这类方法并不计算相似度，而是利用神经网络、贝叶斯网络、聚类、线性回归、基于最大熵、马尔可夫决策过程[9]等机器学习和统计方法建立预测模型，采用LDA或SVD等降维技术[12]，根据已有用户评价数据建立模型并进行评价预测。这种方法对稀疏数据的处理能力优于基于内存的方法，预测结果更好，缺点是建模耗时，部分模型的预测结果不易解释。

（3）基于图的协同过滤

把用户和项目作为顶点构造二部图（Bipartitegraph），利用随机游走的方法计算顶点关联情况和相似性。密集关联图比稀疏关联图表现要好。

总之，协同过滤的优点是系统无需存储和维护物品本身的内容和属性，能有效缓解数据稀疏，增强系统扩展性，提高预测精度和推荐新颖性。不足在于建模复杂且需要周期性更新，降维易致信息损失，难以提供推荐解释。人口统计推荐系统是协同过滤的变种，在没有用户评分数据的初始阶段，人口统计数据也可启动推荐。

2.4 基于知识（Knowledge-Based）的推荐

基于知识的推荐旨在利用领域知识、物品功能和用户兴趣需求进行逻辑推理，提供推荐信息，包括基于约束的推荐、基于实例的推荐、基于知识推理的推荐[13]。优点是不依赖用户的历史行为数据，能够解决冷启动问题，可解释性强；缺点是推荐质量取决于知识获取和质量，推荐是静态的。

2.5 基于情境（Context-Based）的推荐

情境也称情景，指实体的行为或上下文信息。用户情境包括内部和外部情境，内部情境指性别、年龄、学历、职业等与人有关的信息，而外部情境指可由物理设备提供的相关信息，如时间、位置、温度、网速、设备参数等[14]。情景之间的联系很大程度上反映了项目间的联系[15]。根据用户情境信息对历史记录中不相关的偏好信息过滤，可降低算法复杂度，减少计算时间，提高推荐准确度。不足在于：当存在较多情境信息时，无法预判各属性的效用和价值，因此不同属性的权重不确定，各种情境信息之间界限模糊，可以根据情境间的距离构建模糊相似矩阵，采用模糊聚类的方法进行推荐。

2.6 混合（Hybrid）推荐

推荐算法在不同应用背景中会体现出不同的优缺点，实际应用中大都采用多种推荐方法的组合。基于协同过滤和基于内容的组合最为常用，基于内容方法可以解决协同过滤中的“新项目”问题，而协同过滤可降低基于内容算法的过拟合问题[15]。混合推荐的设计思路有整体式、并行式和流水线式[8]，使用切换、交叉或加权等特别的策略把多种推荐方法的结果进行整合。Netflix Prize竞赛也属于混合推荐，GroupLens项目组创办的MovieLens将协同过滤和基于关联规则推荐相结合向用户推荐感兴趣的电影，作为在线计算系统，复杂度随着用户增多而增大。

混合推荐最明显的优势在于可以取长补短，缺点是组合的条件和前提不易判断，方法选取和组合顺序较难确定，权重比例难以设置和优化，但混合推荐的效果明显优于传统或纯粹的某种推荐。

3 推荐系统的性能评测

3.1 评测方法

推荐评测一般有在线（Online）和离线（Offline）两种方法。离线实验一般采用交叉验证[16]按一定比例将数据集分为训练集和测试集，前者用于构造模型供学习和挖掘，后者用于验证和测试模型性能。该方法利用历史数据测试，不需真正用户参与，成本低，适于不同推荐算法的比较和过滤；由于批量方式处理对数据量和算法时间要求不多，没有及时加入最新数据，计算容易过时，且缺乏用户参与，预测质量难以保证，在完成离线实验后还需进行在线实验[13]。

在线实验是根据用户实时反馈或事后问卷调查来衡量推荐系统的表现，能响应即时事件和用户交互。优点在于测试到系统对用户行为的影响，根据相关指标和用户主观感受对错误进行弥补；但其成本高，测试范围和次数、算法复杂性和数据量都受到限制。还有一种接近在线（Nearline）计算，类似在线计算，但不强求实时完成。

3.2 实验数据

数据集（dataset）是推荐系统进行训练和测试的对象，有真实数据集、模拟数据集和半模拟数据集三种。在真实数据集上的实验会发现有趣的现象，揭示隐藏的规律。各领域的数据可借助网络爬虫自动收集，或从相关平台下载，有的用户和项目达数万到上百万数量级。现有许多标准数据集，最为丰富的电影数据集包括GroupLens小组的Moviel⁃ens，HP/Compaq DEC研究中心的EachMovie，NET⁃FLIX网站竞赛数据NETFLIX，瑞典最大的电影推荐社区Filmtipset。其他还有Yahoo音乐数据集，Springer的文献数据集CiteULike，用于KDD-CUP竞赛的腾讯微博数据集，Cai-Nicolas Ziegler的BookCrossing图书数据集，加州大学伯克利分校Ken Goldberg的 JesterJoke笑话集，Usenet News⁃groups新闻组、亚马逊在线商品的评分数据集、UCI知识库等，可供进行实验预测和推荐。

数据集的使用可能存在一些问题，如数据规模对内存开销的要求、过多数据缺失给预测带来困难、训练数据与测试数据之间的差异、诸多因素对评分的影响、训练数据中评分数量的不平衡等。

3.3 评价指标

利用Matlab、Java等软件可以模拟和测试实验结果。信息检索中的召回率可用于描述用户喜欢的项目可以被系统发现并推荐给用户的可能性。此外，常用的推荐评测指标有推荐效率、预测准确度、覆盖率、多样性、新鲜度、用户满意度等。

（1）推荐效率(Efficiency)

推荐系统对实时性有较高要求，但基于海量数据的复杂情况，推荐效率会受制约和影响，采用基于物品的关联算法和多种降维方法可降低在线计算时间。

（2）准确度（Accuracy）

在回学校的路上，阿孜姑老师悄悄告诉我：“张老师，真的谢谢你！这名学生前天哭着找我，说想请假回家看病，但我们这里比较落后、保守，她家里更是经济困难，我担心她一个孩子回家也解决不了，怕再出什么问题。我想了很久都没办法，只好来找你帮忙。没想到你能带我们去找援疆医生帮她看病，又买药给她，又买水果给她，还安慰她，减轻了她生病的心理压力。你对我们这么好，真不知怎么感谢你。”我笑着说：“感谢你们对我的信任，如果有什么我可以做的，你们尽管说，我会很高兴的。”回到学校，这位一路沉默不语的女生竟也主动开口，用并不标准的普通话对我说：“谢谢老师！我先把东西拿回宿舍，老师再见。”

准确度即命中率，衡量系统预测用户对项目兴趣偏好的能力，包括分类准确度、预测准确度和排序准确度等。准确率、召回率、F指标和ROC曲线都是度量分类准确度的重要指标[17]。量化预测准确度的指标有平均绝对偏差（MAE），均方根误差（RMSE）、平均错误方差（MSE）、平均预测误差（MPE）。前两种最常用，MAE的值越小,预测精度越高，推荐质量越高；RMSE表明实际观测值和预测值之间的平均误差水平。

（3）覆盖率（Coverage）

覆盖率表征系统挖掘长尾的能力，用推荐对象在推荐列表中出现次数的分布来描述，包括种类覆盖率、用户覆盖率。种类覆盖率即被推荐项目占所有候选项目的比例，用户覆盖率指获得推荐结果的用户比例。

（4）多样性（Diversity）

多样性衡量系统推荐内容的差异。从单个用户视角推荐项目应具有多样性，计算项目差异平均值可以获得；从综合角度来看系统给所有用户推荐的项目应该多元丰富，雷同度低，即用户内多样性和用户间多样性。推荐列表多样性指标可用海明距离评价。

（5）新鲜度（Novelty）

新鲜度指系统为用户推荐其从未见过但感兴趣项目的能力。风格相似的音乐或电影作品循环播放，用户会产生疲劳，满意度和忠诚度会降低；推荐高评价或流行产品易被用户接受，但推荐价值有限，因为受欢迎程度高的目标无需系统推荐也易获取。因此，好的推荐列表应包含不太流行、不易找出、有价值的新颖物品，可用平均流行度来衡量，流行度越低，代表推荐项目越新颖。

4 推荐系统的前景

RecSys2013大会提出推荐系统未来发展的四个方面[5]：异构网络上的推荐、社交网络中推荐的隐私问题、移动社会化网络中的推荐、社交网络与顶点内容的整合。这些问题在不同的应用中，既是机遇也是挑战。

4.1 推荐系统的未来方向

推荐系统具有丰富的应用领域和场景，具有广阔的研究方向。

（1）移动终端信息推荐

随着移动计算和可穿戴设备的迅猛发展，个人终端日渐丰富，体积越来越小，承载的信息量却逐渐增大，信息精度需求越来越高。基于移动应用的标签推荐等终端推荐成为新的趋势。

（2）个性化广告推荐

网民覆盖率空前攀高，但大众化广告对消费者影响越来越低，大部分广告相关性较差，推荐性能不佳，有的反而对正常的消费和交易带来干扰和误导，因此互联网广告与用户体验处于对立的尴尬局面。推荐算法与计算广告相结合，会为用户带来有价值且个性化的广告，确保用户体验和反馈。基于点击率预估的广告推荐、针对广告主优化的维度推荐等都具有很大潜力。

（3）利用语义网和上下文感知

Web3.0为语义空间时代，基于社交网络和上下文感知环境设计推荐系统成为必然。上下文信息包括时间、位置、情感、同伴和群组等，利用不同维度进行多标准评分，可改进推荐准确性。

（4）混合推荐

每种算法都有不同版本变种，在何种场景采用何种组合策略混合推荐能够取得优化，怎样对优秀算法强强结合仍是活跃的方向，已有学者研究模糊推荐、面向群体的推荐、“推荐系统”的推荐[8]。

4.2 推荐系统面临的挑战

推荐系统已取得很大进展和成果，但仍面临许多技术难题和挑战。

（1）结构化数据抽取。用户评论和网页信息多为自然语言，非结构化数据处理和信息抽取存在困难。如何进行结构化数据抽取，如何根据样例标注模板并挖掘更多样例，也是推荐的难点，利用特征工程结合传统的手工标注、包装器归纳和自动抽取方法[3]将利于解决这一难题。

（2）防范作弊和攻击。推荐系统可能会遭强行促销或抑制项目的恶意攻击，通过简单工具可阻断恶意评价进入系统，防止推荐引擎受到干扰，但攻击策略越来越先进，防范作弊和攻击是一项长期的挑战。

（3）实时性。海量数据、高速带宽、移动计算和流数据的发展对实时推荐提出更高要求，如新闻和微博的实时推荐[18]。离线推荐质量较高，但往往不能满足实际需求，而在线推荐会牺牲推荐精度。精准度与实时性形成矛盾，如何权衡或取得双提高仍待研究。

（4）隐私安全。推荐准确性不断提高的同时，系统可能会挖掘出更多用户需求和隐私信息，这种“读书术”般的应用使用户产生畏惧和抵触。NETF⁃LIX第二轮比赛数据集达1亿条，包含顾客年龄、性别、居住地、邮编、已观影片、评级分数等，所有数据均匿名，但用户仍对年龄、性别、邮编等隐私信息的公开颇有争议，致使2010年的大赛被迫取消。推荐性能与隐私保护的折衷也是一个严峻挑战。

（5）可解释性。推荐系统对可解释性和透明度的要求很高，交互方式和可视化效果等用户体验直接或间接影响用户心理变化、信任度及后续决策。解释推荐产生的原因助于用户理解推荐策略，对系统的建议和决策方案产生信任，但解释的方式仍需探究。

5 结语

随着Wi-Fi的广泛覆盖，BYOD（Bring Your Own Device）时代已经到来，互联网也从搜索知识的时代进入发现知识的时代。推荐系统将会和搜索引擎一样成为互联网产品的基础应用，成为大型网站的标准配置和基础功能。

在云计算、海量数据挖掘和个性化服务的推动下，推荐的应用延伸至普适环境，推荐系统的架构、方法和实践将迅速发展，在人性化、准确度、安全性诸方面发挥优势，服务于人们的工作学习和生活。同时，学术界与和工业界的结合愈加密切，推荐系统的研究与应用将会取得更大突破和更优成果。

[1]Chris Anderson.The Long tail[M].NewYork:Random House.2009.

[2]HongzhiYin,Bin Cui,Jing Li,et al.Challenging the Long Tail Recommendation[J].VLDB,2012:896-907.

[3]Bing Liu.Web数据挖掘[M].俞勇,译.北京:清华大学出版社.2009.

[4]项亮.推荐系统实践[M].北京:人民邮电出版社.2012.

[5]蒋凡.从RecSys2013大会看推荐系统发展新趋势[EB/OL].（2013-10-21）[2014-01-20].http://www.csdn.net/article/2013-10-21/2817244-RecSys-2013-participants-interview2013-10-28.

[6]叶树鑫,何聚厚.协作学习中基于协同过滤的学习资源推荐研究[J].计算机技术与发展,2014,24(10):63-66.

[7]崔彦晓.高考志愿的个性化推荐方法研究[D].石家庄:石家庄铁道大学,2013.

[8]Jannach D.推荐系统[M].蒋凡，译.北京:人民邮电出版社，2013.

[9]刘畅,吴清烈.基于协同过滤的大规模定制个性化推荐方法[J].工业工程,2014,17(4):24-28.

[10]张艳梅，王璐.适应用户兴趣变化的社会化标签推荐算法研究[J].计算机工程，2014,40(11):318-321.

[11]王鹏,王晶晶,俞能海.基于核方法的User-Based协同过滤算法[J].计算机研究与发展，2013,50(7):1444-1451.

[12]AnandRajaraman,Je ff rey D Ullman.Mining of Massive Datasets[M].Cambridge:Cambridge University Press，2011.

[13]陈洁敏,汤庸,李建国,等.个性化推荐算法研究[J].华南师范大学学报,2014,46(5):8-14.

[14]李荟,谢强,秋林.一种基于情景的协同过滤推荐算法[J].计算机技术与发展,2014,24(10):42-46.

[15]杨博,赵鹏飞.推荐算法综述[J].山西大学学报:自然科学版,2011,34(3):337-350.

[16]李航.统计学习方法[M].北京:清华大学出版社,2012.

[17]刘建国,周涛,郭强，等.个性化推荐系统评价方法综述[J].复杂系统与复杂性科学.2009,6(3):1-10.

[18]高明,金澈清,钱卫宁,等.面向微博系统的实时个性化推荐[J].计算机学报,2014,37(4):963-975.

〔责任编辑高海〕

Survey of Personalized Recommendation System Based on Massive Data and Web Mining

WU Hai-xia,LIAN Wei,LI Hui-fang
(Department of Computer Science,Changzhi University,Changzhi Shanxi,046011)

Recommendation system is a hot topic in industry and academic fields,which can effectively solve information-over⁃load in massive data on Internet.This paper introduces the development and applications of personalized recommendation technology,including several key problems.The different types of classical recommendation algorithms are analyzed in detail.It also lists the evalu⁃ation methods and criterions.In the end the future development of personalized recommendation are prospected.

personalized recommendation；massive data；web mining；recommendation algorithm

TP391

1674-0874(2015)03-0011-07

2015-03-24

山西省基础研究青年科技研究基金项目[2012021015];长治学院校级科研项目[201418]

吴海霞(1978-),女,山西晋城人,硕士,讲师,研究方向：数据挖掘和信息处理。