基于用户特征迁移的协同过滤推荐
2015-06-27柯良文
柯良文,王 靖
(华侨大学计算机科学与技术学院,福建厦门361021)
·先进计算与数据处理·
基于用户特征迁移的协同过滤推荐
柯良文,王 靖
(华侨大学计算机科学与技术学院,福建厦门361021)
为提高推荐系统在数据稀疏情况下的推荐质量,提出一种基于用户特征迁移的协同过滤推荐模型。利用矩阵分解技术提取辅助领域的用户特征,通过建立正则项约束的矩阵分解模型,将辅助领域的用户特征迁移到目标领域中,协助目标领域用户特征的学习,最终生成目标领域的用户推荐。设计快速收敛的Wiberg算法得到模型的最优解,并对实际应用中的可行性进行分析。通过对2个公开数据集的实验结果表明,该模型能够实现辅助领域用户特征的迁移,有效提高目标领域的推荐质量。
数据稀疏;用户特征迁移;协同过滤;矩阵分解;Wiberg算法
1 概述
随着互联网的不断普及和应用,网络上的信息量正呈指数式的增长。用户一方面可以方便获取到丰富信息,另一方面则要面临过量信息伴随着的信息过载问题[1]:无法从海量的信息中获取到对自己有用的部分。个性化推荐系统根据用户的喜爱和偏好,从海量的信息中发现用户感兴趣和有价值的信息,并将其推荐给用户。目前,推荐系统已应用到多种领域,如电子商务网站的 Amazon,eBay等,电影网站的MovieLens,Reel.com等,新闻网站的GroupLens等。
协同过滤是推荐系统应用最为成功的技术之一,其基本假设是:如果用户X和用户Y对于n个项目有相似的评分或购买行为,那么他们对其他项目也会有类似的评价。根据这一假设,协同过滤技术首先要度量目标用户和其他用户的相似度,然后选取与目标用户相似度最高的前k个用户作为最近邻居,最后通过这些最近邻居的兴趣偏好为目标用户作出推荐。然而在实际的应用中,用户评分的项目在整个项目集中往往只占其中一小部分,导致整个评分矩阵十分稀疏,从而在计算用户间的相似度时不够准确,降低了推荐系统的推荐质量。
针对协同过滤出现的稀疏性问题,研究者提出了多种不同解决办法,如文献[2]利用奇异值分解(Singular Value Decomposition,SVD)技术移除没有代表性或者无关紧要的用户和项目,以达到用户-项目评分矩阵降维的目的;文献[3]提出了一种先聚类再经过非负矩阵分解的两阶段联合聚类协同过滤算法,通过缩小原始评分矩阵规模以提高非负矩阵分解算法面对稀疏矩阵预测上的准确度;文献[4]提出了一种变权重相似度计算和自适应局部融合参数的协同过滤算法,来缓解数据稀疏和数据集异构的问题;文献[5]提出一种基于奇异值分解和增强Pearson相关系数的特征递增算法(HybridSVD)来克服数据稀疏性的问题。然而,这些方法普遍存在一个问题:只局限在单个领域的学习任务中,而没有利用其他领域的知识来改善推荐系统的质量。近年来,多领域学习成为推荐系统的一个新的研究方向[6-7],特别是将迁移学习的方法应用到协同过滤算法中已受到学者们的关注。关于迁移学习在协同过滤技术应用的研究现状,本文将做详细介绍。
针对数据稀疏的问题,本文在矩阵分解模型的基础上,基于迁移学习的思想,提出一种用户特征迁移的协同过滤推荐模型(TUF)。通过学习辅助领域的用户特征,并将其迁移到目标领域的学习任务中,帮助提高目标领域的推荐精度。同时,采用Wiberg算法对目标模型进行快速求解以获得最优解。
2 相关研究
2.1 问题定义
推荐系统中普遍采用一个m×n的矩阵R表示所有用户对项目的评分,R的行列数m和n分别表示用户数和项目数。R的元素值ri,j∈{「a,b」U}代表用户对项目的评分,其中,a和b分别代表评分值的上下限;?表示该项未评分。通过一个与评分矩阵R大小相同的标记矩阵W来表示某一项是否被评分,W的元素值wi,j∈{0,1},其中0代表该项未评分,1代表该项已评分。协同过滤的目标就是通过评分矩阵R已知的评分项去预测未知项的评分值。
2.2 基于矩阵分解的协同过滤
基于矩阵分解的协同过滤技术认为用户-项目评分矩阵R是一个近似逼近低秩的矩阵[8],采用矩阵Z表示无缺失值的评分矩阵,并且用d表示Z的秩,其中,d<<min(m,n),那么Z可以分解成如下形式:
分解后的矩阵U和矩阵V可以分别表示用户特征矩阵和项目特征矩阵。实际情况下,用户-项目评分矩阵R是带有噪声的矩阵,假设噪声符合等方向的高斯分布,则对于U和V的最优估计可以通过下面的的损失函数来确定:
其中,||·||F表示Frobenius范数。
在实际应用中,由于R是一个极度稀疏的矩阵(缺失项用零填充),因此需要对这些零元进行单独处理。通过引入加权的矩阵分解方法可以在计算损失函数时剔除掉这些零元,而只考虑非零项。修改后的矩阵分解模型可以表示成以下形式:
其中,Γ表示 Hadamard积(Hadamard积定义为: (W☉R)i,j=Wi,jRi,j)。为避免过度拟合,在模型式(3)加入正则项,则进一步修改后的矩阵分解模型如下所示:
对于模型式(4),pu和pv为正则项的控制参数,用来协调实际用户评分矩阵和矩阵分解模型学习后的填充矩阵之间的训练集误差。
2.3 应用迁移学习的协同过滤推荐算法
迁移学习(又称多任务学习)是一种新的机器学习框架,它不同于传统的监督学习、非监督学习和半监督学习。为了描述这种方法,本文引用文献[9]给出的关于迁移学习的一般性定义:给定一个辅助领域DS及它的学习任务TS和一个目标领域DT及其学习任务TT,迁移学习的目标是利用DS和TS的知识来帮助提高DT的目标预测函数fT(·),其中DS≠DT,或者TS≠TT。
根据不同的迁移知识,迁移学习方法可以分成3种:基于模型的迁移,基于特征的迁移,基于样本的迁移。目前,研究者针对不同的迁移学习方法提出了各种相应的协同过滤推荐算法,其中基于模型的迁移方法有:评分矩阵生成模型(Rating Matrix Generative Model,RMG-M)[10]等;基于特征的迁移方法有联合矩阵分解(Collective Matrix Factorization,CMF)[11]、坐标系统迁移(Coordinate System Transfer,CST)[12]等;基于样本的迁移方法有:集成分解迁移(Transfer by Integrative Factorization,TIF)[13]。从本质上看,本文提出的TUF模型属于基于特征的迁移方法。
3 基于用户特征迁移的协同过滤推荐模型
在现实世界中,不同的电子商务网站拥有共同的用户群,而这些用户在不同的电子商务网站上对商品的评价有相似的评价模式,例如用户X在某电影网站对科幻类的电影有较高的评价,则该用户在某书籍网站上对与科幻相关的书籍应该也有较高的评价。通过挖掘较成熟领域(辅助领域)用户的潜在评价模式可以用来帮助新领域(目标领域)的相关学习任务。为此,本文提出了一种基于用户特征迁移的协同过滤推荐模型,基本流程如图1所示。
图1 TUF模型的基本流程
为了将迁移学习应用到协同过滤算法中,首先需要考虑迁移什么样的知识,即如何从辅助领域中学习用户特征UL。本文将采用核范数正则化用于从辅助领域的评分矩阵中学习用户的特征。记RA为辅助领域的用户-项目评分矩阵,WA为辅助领域的标记矩阵,则核范数正则化最小二乘模型的构造如下:
其中,||Z||∗表示Z的核范数,即矩阵Z的所有奇异值之和。文献[14]给出了模型(5)的求解算法SOFT-IMPUTE。令Z=USVT为矩阵Z的奇异值分解,Sd为Z的前d个最大奇异值构造的奇异值矩阵,Ud为前d个最大奇异值对应的左奇异向量。显然,表示了从辅助领域的评分矩阵中提取的d个用户特征。本文采用模型(5)提取辅助领域的用户特征基于下面3个原因:
(1)模型(5)通过多次的SVD分解进行迭代求解,能更准确地提取稀疏矩阵的特征信息;
(2)由于每一层迭代的SVD分解只需要计算前k个最大的奇异值(k<<m,n),模型(5)的求解算法可以应用于大规模数据处理。这将有利于有较丰富数据的辅助领域(例如,项目数比较多)的任务学习;
(3)模型(5)不涉及到矩阵的维度,可以减少用户的参数设置。
下一步将决定如何迁移知识,即如何将从辅助领域中学习到的用户特征UL,用于帮助学习目标领域的用户特征U,进一步的再用于帮助目标领域的用户-项目评分预测。从理论上看,当辅助领域和目标领域的用户、项目完全一致时,2个领域的用户特征应具有一致性,即UL=U。然而在实际应用中,由于辅助领域和目标领域的差异,2个领域的用户特征虽然相似,却并不会完全相同。因此,本文通过引入正则项来确保UL和U的相似性。将正则项引入模型(3),并引入正则项来避免过拟合,本文构造基于用户特征迁移的协同过滤推荐模型如下:
其中,pu和pv是控制参数。pu越大时,表示目标领域的用户特征矩阵U越接近于辅助领域的用户特征矩阵UL。显然,当pu趋近于无穷大时,U将完全等同于UL;当pu趋近于0时,模型对于目标领域的学习任务将没有利用辅助领域的知识。
与文献[12]提出的CST模型相比较,本文的TUF模型没有对用户特征矩阵和项目特征进行正交性约束,其主要原因有:(1)用户特征或项目特征不一定表现出正交性;(2)从数学角度看,2个正交矩阵之间的距离表现为其张成的子空间距离,因而用F范数来度量2个正交矩阵的距离并不合理。由于没有正交性的约束,CST模型的求解方法将不适用于TUF模型,因此在本文第4节中将给出TUF模型的具体求解算法。
4 基于Wiberg算法的TUF模型求解
本文提出的TUF模型核心在于求解目标领域的用户特征矩阵U和项目特征矩阵V,使模型达到或逼近最优解。文献[15]提出一种数值算法来解决带缺失值的矩阵分解模型。此后,研究者提出了多种迭代算法来解决这类最优化问题,例如文献[8]提出一种Damped-Newton算法来求解式(4)的矩阵分解模型。在这些算法中,Wiberg算法[16]由于对初始值不敏感,并能以快速的迭代速度在全局范围内到达收敛,具有较好的数值表现效果。近年来,文献[17]进一步对Wiberg算法进行研究。然而,由于文献[17]提出的算法主要在于解决没有带正则项的式(3)缺失矩阵分解模型,并不适合本文提出的TUF模型。因此,本文将重新讨论TUF模型求解方法的具体方案。根据文献[17]利用Wiberg算法求解缺失矩阵分解模型的基本思想,本文首先对TUF模型进行适当的变型。
令u,ul∈Cmd,v,ul∈Cnd分别是由矩阵U,Ul∈Cm×d,Vl∈Cn×d的各行向量进行向量化得到的新向量,如,v=vec(V)=记s为目标领域用户-项目评分矩阵R所有已评分项的数目,r=[ri,j]∈Cs是一个只包含已评分项的向量,其中,ri,j表示R的第i行第j列元素。为了消去模型(5)中标记矩阵W,构造一个由v1,v2,…,vn构成的s×md的矩阵P和一个由u1,u2,…,um构成的s×nd的矩阵Q,即:
则模型(6)可以重新构造为:
注意到上面的形式只是为了描述方便而表示的矩阵基本结构,由于要处理缺失的项,矩阵P和Q将只保留与已知项相对应的行,例如,如果ri,j是缺失值,则要移除P和Q的((i-1)×n+j)行。因此,P和Q的行向量数等于已知评分项的总个数s。
4.1 Wiberg算法的公式推导
为了求解模型(7)的最优解,传统的 Gauss-Newton方法定义向量x=[uT,vT]T,并通过寻找dΓ/dx=0迭代更新解向量x。在每次迭代中, Gauss-Newton方法对变量u,v进行同时更新。与传统的Gauss-Newton方法不同,Wiberg算法分别对变量u,v进行更新[16]。对给定v,可以通过计算 ∂Γ/∂u=(PTP+puI)u-(PTr+puul)=0对u进行更新,即有:
在对v进行更新时,Wiberg算法将参数u看作是v的函数,即u=(v),则TUF模型中的最优化问题便可以转化成只有一个参数变量v的损失函数φ(v):
其中,f≡f(v)≡g((v),v)=(v)-r;gu≡gu(v)=(v)-ul;gv≡gv(v)=v。记v+φv为更新后的v变量,对φ(v)二阶泰勒展开,可得:
构造φv极小化上式中的泰勒展开式,即可获得v的更新量
以及:
进一步,分别对f(v)和gu(v)进行求导。因为,由复合函数求导法则:
整理上式,即有:
将式(13)代入式(12),可以得到:
将式(14)分别代入式(10)和式(11),即可获得Hessian矩阵以及
4.2 算法描述
根据上节的相关公式推导,对于TUF模型的求解方法,有具体如下的Wiberg算法:
算法Wiberg算法
输入辅助领域的评分矩阵RA和目标领域的评分矩阵R,正则项参数pu和pv。
输出目标领域的预测评分矩阵Z。
Step1通过SOFT-IMPUTE算法对辅助领域的最优化模(5)进行填充,得到RA的近似低秩逼近矩阵ZA。
Step2对ZA进行奇异值分解,即有ZA=USVT,得到辅助领域的用户特征
Step3随机初始化v,并通过UL和R构造出ul和r。
Step4由v构造P矩阵,并根据式(8)对u进行更新。
Step5如果收敛则跳转至 Step8,否则转至Step6。
Step6由u构造Q矩阵,计算和,并根据式(9)式求解Δv,更新v←v+Δv。
Step7如果收敛则跳转至Step8,否则跳转至Step4。
Step8通过u和v构造出矩阵U和V,并计算Z=UVT。
在Wiberg算法中,计算量主要集中在式(8)和式(9)。在实际应用中,为了减小时间和空间的复杂度,算法并不需要直接生成矩阵的逆,而是通过求解线性方程组以获取u和v更新向量。例如,式(8)、式(9)等价于求解线性方程组:
5 实验与结果分析
5.1 实验数据集
为了验证本文模型的有效性,采用互联网上2个公开的数据集对算法进行测试和验证。
(1)MovieLens数据集
数据来源:http://www.grouplens.org/node/ 73。该数据集中的评分数据包含943个独立用户对1682部电影(共包含19类电影)进行10万次评分的数据(评分1~5)。随机选择500个用户对所有电影的评分数据,要求每个用户至少评价过30部以上的电影。在该数据集上进行5组实验,每组实验选取一种电影类别的评分数据作为目标领域的数据集,而其余电影类别的评分数据则作为辅助领域的数据集。对目标领域的数据集,按照4∶1的比例将其进一步划分为训练集和测试集。数据集的具体描述见表1。这里稀疏度定义为已评分数据占整个领域数据集的比例。
表1 MovieLens评分数据集描述
(2)EachMovie数据集
数据来源:http://research.compaq.com/SRC/ eachmovie。该数据集约有7.2万个用户对1 628部电影进行2.8百万次评分的数据(评分1~6),为了评分数据的统一,实验时将原来的评分6由评分5来代替。在该数据集上随机抽取500个用户,并对电影项目进行随机划分:1 000部电影作为辅助领域的项目,500部电影作为目标领域的项目,每个用户在辅助领域和目标领域里都至少评价过25部以上的电影。进一步地,划分目标领域的训练集和测试集,其中训练集根据目标领域的用户评价数划分为4组,每组用户的评价数依次为10,15,20,25,对应的其余评分数据作为测试集。
5.2 评价指标
本文采用平均绝对误差(Mean Absolute Error, MAE)作为评价评分预测准确性的标准。平均绝对误差通过计算预测的用户评分和实际的用户评分之间的偏差来度量预测的准确性,具体计算方法如下:
其中,N为测试集的用户评分数;pi,j表示用户i对项目j的预测评分值;ri,j表示实际评分值。MAE越小,推荐质量越高。每组实验均进行5次随机实验(即对训练集进行随机划分),并取平均值作为最终的评价结果。
5.3 对比算法和参数设置
为了验证TUF模型能否有效提高推荐系统的推荐质量,选择3种非迁移学习算法:PCC、Soft-Impute(SD)和TMF,2种迁移学习算法:CMF和Soft-Impute(MD)作为比较方法。其中,PCC是基于Pearson相关相似性(Pearson Corelation Coefficients, PCC)的最近邻协同过滤算法[19];Soft-Impute(SD)是单个领域的 Soft-Impute算法(Soft-Impute on Single Domain),即只对目标领域评分矩阵进行预测填充缺失项;TMF是传统的矩阵分解方法(Traditional Matrix Factorization)[8],即上文的模型(4);CMF为文献[11]提出的基于多领域数据的联合矩阵分解模型;Soft-Impute(MD)为多个领域的Soft-Impute算法(Soft-Impute on Multiple Domains),即对目标领域和辅助领域构成的评分矩阵进行预测填充缺失项。而其他的一些迁移学习算法,如CST模型[12]同时应用到了用户特征和项目特征,TCF模型[20]对辅助领域和目标领域要求有共同的用户集和项目集。本文实验的数据集并不符合这些要求,因此对于这些算法本文不进行实验比较。
在参数设置上,对有利用到用户特征数的模型(TMF,CMF和TUF)本文尝试选择不同的用户特征数:d∈{3,4,…,10}。在PCC算法中,选择的最近邻居数为{5~120}。对于TMF模型,正则项的参数设置如下:pu=pv={0.1,0.5,1,5,10}。对于CMF模型,选择’Identity’作为目标领域和辅助领域的预测函数(prediction link),其他参数的设置如下:α=0.5,pu=pz={0.1,0.5,1,5,10},pv={0.1,0.5,1, 5,10,20}。在2种不同领域的Soft-Impute算法中,对参数λ的设置范围为{1,2,…,20}。对于本文的TUF模型,正则项的参数设置如下:pu={1,5,10, 50},pv={1,2,5,10},并且pu≥pv。
5.4 实验结果
每个算法的实验结果为在上一小节的参数设定范围内取得的最优效果。表 2和表 3分别为MovieLens和EachMovie目标领域测试集上的实验结果。
表2 6种算法在不同电影类别下的MAE指标比较
表3 6种算法在不同数据稀疏度下的MAE指标比较
从表2和表3可以看出,几乎所有迁移学习方法的结果均好于非迁移学习方法的结果。这种对比在Soft-Impute(SD)和Soft-Impute(MD),TMF和TUF上体现的尤为明显。值得一提的是,Soft-Impute(SD)和TMF可以认为是Soft-Impute(MD)和TUF在无迁移学习下的特例。这表明了迁移学习方法利用了辅助领域的信息,能有效提高目标领域的推荐质量。而在所有的迁移学习方法中,TUF模型均取得了最好的推荐结果。这表明了和CMF, Soft-Impute(MD)方法相比,TUF能更为有效的利用辅助领域的用户特征信息。
此外,表3的结果还表明,稀疏度越低,TUF取得的优势越明显。例如在表3的结果中,与CMF模型相比较,稀疏度为5%的测试结果MAE值减少了0.005,而稀疏度为2%的测试结果MAE值减少了0.037。这说明对评分数据极其稀疏的情形,TUF模型体现了更好的适应性,能有效缓解数据稀疏的问题。
6 结束语
本文在矩阵分解和迁移学习方法的基础上,提出了一种用户特征迁移的协同过滤推荐模型(TUF),以缓解数据稀疏的问题。为提取辅助领域的用户特征信息,本文并没有简单地利用SVD方法进行获取,而是先通过Soft-Impute算法对辅助领域的缺失评分矩阵进行填充,然后对其奇异值分解获取更为准确的用户特征。通过TUF模型对辅助领域的用户特征进行迁移,帮助目标领域的用户对未评分项目的预测。此外,本文采用能够快速达到收敛的Wiberg算法对模型进行迭代求解以获得最优解。实验结果表明,引入特征迁移的矩阵分解模型相比较于传统的矩阵分解模型和其他迁移学习算法,能有效缓解评分矩阵数据极端稀疏情况,显著提高推荐系统的推荐质量。
本文模型虽然只利用辅助领域的用户特征信息,但也适用于辅助领域和目标领域有共同项目集时对项目特征的迁移,而如何改进模型使其能够同时对用户特征和项目特征进行迁移是下一步的研究方向。
[1] 许海玲,吴 潇,李晓东,等.互联网推荐系统比较研究[J].软件学报,2009,20(2):350-362.
[2] Billsus D,Pazzani M J. Learning Collaborative Information Filters[C]//Proceedings of ICML’98. Madison,USA:[s.n.],1998:54-48.
[3] 吴 湖,王永吉,王 哲,等.两阶段联合聚类协同过滤算法[J].软件学报,2010,21(5):1042-1054.
[4] 程小林,熊 焰,刘青文,等.一种基于自适应局部融合参数的协同过滤方法[J].计算机工程,2014, 40(1):39-44.
[5] 曾小波,魏祖宽,金在弘.协同过滤系统的矩阵稀疏性问题的研究[J].计算机应用,2010,30(4):1079-1082.
[6] Li Bin.Cross-domain Collaborative Filtering:A Brief Survey[C]//Proceedings of the 23rd International Conference on Tools with Artificial Intelligence. [S.l.]:IEEE Press,2011:1085-1086.
[7] Ning X,Karypis G.Multi-task Learning for Recommender System[C]//Proceedings of the 2nd Asian Conference on Machine Learning.Tokyo,Japan:[s.n.],2010:269-284.
[8] Buchanan A M,Fitzgibbon A W.Damped Newton Algorithms for Matrix Factorization with Missing Data[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2005:316-322.
[9] Sinno J P,Yang Qiang.A Survey on Transfer Learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.
[10] Li Bin,Yang Qiang,Xue Xiangyang.Transfer Learning for Collaborative Filtering via a Rating-matrix Generative Model[C]//Proceedings of the 26th Annual International Conference on Machine Learning.Quebec, Canada:[s.n.],2009:617-624.
[11] Singh A P,Gordon G J.RelationalLearning Via Collective Matrix Factorization[C]//Proceedings of the 14th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.[S.l.]:ACM Press,2008:650-658.
[12] Pan Weike,Evan W X,Lin N,et al.Transfer Learning in Collaborative Filtering for Sparsity Reduction[C]// Proceedings of the 24th AAAI Conference on Artificial Intelligence.[S.l.]:AAAI Press,2010:230-235.
[13] Pan Weike,Evan W X,Yang Qiang.Transfer Learning in Collaborative Filtering with Uncertain Ratings[C]// Proceedings of the 26th AAAI Conference on Artificial Intelligence.Toronto,Canada:AAAIPress,2012: 662-668.
[14] Mazumder R,Hastie T,Tibshirani R.Spectral Regularization Algorithms for Learning Large Incomplete Matrices[J]. Journal of Machine Learning Research,2010,(11):2287-2322.
[15] Golub G H,van Loan C F.Matrix Computations[M]. Baltimore,USA:Johns Hopkins University Press,1996.
[16] Wiberg T.Computation of Principal Components When Data are Missing[C]//Proceedings of the 2nd Symposium on Computational Statistics.Berlin,Germany: [s.n.],1976:229-236.
[17] Okatani T,Deguchi K.On the Wiberg Algorithm for Matrix Factorization in the Presence of Missing Components[J].International Journal of Computer Vision, 2007,72(3):329-337.
[18] 李 改,李 磊.基于矩阵分解的协同过滤算法[J].计算机工程与应用,2011,47(30):4-7.
[19] Resnick P,Iacovou N,Suchak M,et al.GroupLens:An Open Architecture for Collaborative Filtering of Netnews[C]//Proceedings of ACM Conference on Computer Supported Cooperative Work.North Carolina,USA: ACM Press,1994:175-186.
[20] Pan W,Liu N N,Xiang E W,et al.Transfer Learning to Predict Missing Ratings via Heterogeneous User Feedbacks[C]//Proceedings of the 22th International Joint Conference on Artificial Intelligence.[S.l.]:AAAI Press,2011:2318-2323.
编辑 金胡考
Collaborative Filtering Recommendation Based on User Feature Transfer
KE Liangwen,WANG Jing
(School of Computer Science and Technology,Huaqiao University,Xiamen 361021,China)
In order to improve the recommendation quality of recommender system with data sparsity,this paper proposes a user collaborative filtering recommendation model based on feature transfer.Firstly,matrix factorization technology is applied to collect the user feature from the auxiliary domain.Secondly,it constructs a matrix factorization model with the constraint of regularization term,which is used to transfer the user feature learned from the auxiliary domain to the target domain,so as to help the learning of user feature in the target domain.Finally,user recommendation is made for the target domain.A fast convergence Wiberg algorithm is also designed for the model to get the optimal solution,whose feasibility is also discussed for practical application.Through the experiment on two real world data sets, the model can effectively transfer the user feature of source domain,and improve the quality of recommender system for target domain.
data sparsity;user feature transfer;collaborative filtering;matrix factorization;Wiberg algorithm
1000-3428(2015)01-0037-07
A
TP311
10.3969/j.issn.1000-3428.2015.01.007
国家自然科学基金资助项目(61370006);福建省高等学校杰出青年科研人才培育计划基金资助项目(11FJPY01);福建省高等学校新世纪优秀人才支持计划基金资助项目(2012-FJ-NCET-ZR01)。
柯良文(1988-),男,硕士研究生,主研方向:数据挖掘,个性化推荐算法;王 靖,副教授、博士。
2014-02-19
2014-03-15 E-mail:lwke1213@163.com
中文引用格式:柯良文,王 靖.基于用户特征迁移的协同过滤推荐[J].计算机工程,2015,41(1):37-43.
英文引用格式:Ke Liangwen,Wang Jing.Collaborative Filtering Recommendation Based on User Feature Transfer[J]. Computer Engineering,2015,41(1):37-43.