APP下载

基于协同过滤算法的导师推荐研究

2016-04-11陈冲冲李冰彭利园骆玉璞

电脑知识与技术 2016年4期
关键词:冷启动聚类

陈冲冲+李冰+彭利园+骆玉璞

摘要:以往学生在选择自己的导师时十分盲目,学生和教师之间的匹配度不高,教育资源不能得到很合理的配置。利用高校教务系统的学生评教数据,对教师进行聚类,构建学生-导师矩阵,利用提出的基于协同过滤模型的导师推荐算法,为学生推荐合适的导师。同时克服常见的数据稀疏性的问题,经过实验论证,该算法的推荐结果比较客观准确。

关键词:协同过滤推荐;聚类;冷启动;稀疏性

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)04-0076-00

Mentor Recommended Study based on Collaborative Filtering Algorithm

CHEN Chong-chong, LI Bing, PENG Li-yuan, LUO Yu-pu

(Henan normal university, college of education and sort development, Xinxiang 453007, China)

Abstract: Before students in choosing his mentor is blind, degree of match between students and teachers is not high, education resources can not be very reasonable configuration. Use of data, high educational administration system of student evaluation of teachers to clustering, to build student-teacher matrix, using the proposed teacher recommendation algorithm based on collaborative filtering model, recommend suitable for student. At the same time, to overcome the common data sparseness problem, after the experimental demonstration, the algorithm of the recommended results more objective and accurate.

Key words:Collaborative filtering recommendation;clustering; Cold start; Sparsity

1概述

在高校信息化大潮的裹挟下,网上评教活动变得极其普遍。此外,协同过滤是一种广泛使用的推荐技术,恰好可以利用用户的行为数据,也就是学生对老师的评价数据进行分析计算,且修改后的相似度计算公式可以有效的克服数据稀疏性的问题,实验的推荐结果也令人比较满意。

2传统的协同过滤技术

2.1学生—导师评分矩阵

学生--导师评分数据是协同过滤算法的基础,评分分值在[1,5]范围内。评分数据如表1所示。(注:u表示学生,I表示老师,数字表示某学生对某老师的评分)

2.2 计算用户相似性,找到最近邻居

Pearson系数是目前常用的相似性度量方法,设I(u)、I(v) 分别表示学生u、v的评分集合, I(u)?I(v)表示u、v共同评分的导师集合,则学生u、v的相似性(Sim(u,v))可用式(1)进行计算。

Sim(u,v)

[ =i∈(I(u)∩I(v))(Ru,i-Ru)i∈(I(u)∩I(v))(Ru,i-Ru)2i∈(I(u)∩I(v))(Rv,i-Rv)2 (1)]

其中,[Ru,i]、[Rv,i]分别表示学生u和学生v对导师i( i∈I(u)?I(v) )的评分值,[Ru]、[Rv]分别表示学生u 和学生 v 的评分均值。

2.3 产生推荐

本文采用平均加权法预测评分,设学生a 对未评分导师 t ( t∈I(U a ) ,I(U a ) 是学生 a 的近邻集合U a 的评分导师集合)的预测评分为[Pa,t],其计算方法如式(2)所示

[ Pa,t]=[Ra]+[i∈Uasim(a,i)×(Ri,t-Ri)i∈Uasim(a,i)] (2)

其中,[Ra]是目标学生 a 已评价导师的平均评分,[Ri]是学生 i 的平均评分。最后取得的兴趣度在前 N的导师形成 Top-N推荐集, 为学生做出导师推荐。

3改进过的协同过滤技术

利用式(1)计算时,多个学生对同一个老师的评价集合必须存在,但随着数据量的不断增大,学生评分数据极端稀疏的情况就可能出现,此时,运用式(1)进行学生相似性计算得不到准确的答案。据此,本文基于学生兴趣类别的活跃度来构建三维矩阵。算法一是扩充了学生—学生活跃度评分矩阵,二是使用加权平均数和最大函数。

3.1基于学生兴趣的相似性计算

将学生 u 的活跃度设定为学生评分的总导师数与总导师数的比值,在计算学生活跃度时,根据领域知识确定导师所属类别,然后基于不同的导师类别确定学生活跃度。设[Gu,i]、[Gv,i]表示学生 u 、 v 对导师类别 i(i=1,2,...,C I ) 中导师的评分数量,则[Gu,i] /[NCi]( NC i 表示导师类别 i中导师数)可以表示基于兴趣类别的学生活跃度。则两个学生活跃度的差异可以用式(3)表示。

dif(u,v)=[i=1CIGu,i-Gv,ii=1CI(Gu,i+Gv,i)] (3)

引入学生活跃度,对式(1)进行改进,如式(4)。

Sim(u,v)=[αsimu,v+(1-α)(1-dif(u,v))] (4)

其中,sim(u,v) 是根据式(1)计算的学生u、v的相似性,α∈[0,1] 是调整参数,调整学生相似性和学生兴趣活跃度的权重。

3.2基于学生兴趣类别的活跃度扩展评分矩阵

利用基于兴趣类别的学生活跃度对学生-导师评分矩阵进行扩充,即在原矩阵上增加[Ci]列,每列对应的数据等于[Gu,i] /[NCi]。例如:若学生-导师评分矩阵数据如表1所示,学生评分值在1-5之间。假设导师集 I={I1,I2,I3,I4,I5,I6}可以划分到sort1、sort2类别中,其中sort1包含I1、I2、I3,sort2包含I4、I5、I6,则将表1扩展为表2所示的数据形式,将其称之为学生-导师—学生兴趣活跃度矩阵。

3.3 基于学生兴趣改进的协同过滤算法具体算法步骤描述如下:

用下面的方法去测量两个导师[ik与ij]间的相似度。

[ simEucliean]([ik,ij])=-[w=1w(ikw-ijw)2] (5)

[ simCosine]([ik,ij])=-[ik ? ijik?ij] (6)

[ simJaccard]([ik,ij])=[ik∩ijik∪ij] (7)

[ simDice]([ik,ij])=[2 ?ik∩ijik+ij] (8)

在这里,||[?]||代表向量的长度,同时,|.|表示被视作元素集合的向量的基数。我们用加权平均和最大函数这两种方法去测量基于标签和学生的向量[ik ij]上的导师间的相似度分数。

正式地,测量方法如下:

[WMSik,ij=α?simu(ik,ij)+β?simh(ik,ij)(α+β)] (9)

其中,[simu(ik,ij)]是导师学生矩阵中两个导师间的相似度,[simh(ik,ij)]是导师标签矩阵中两个导师间的相似度。且α和β是我们给通过测试得到的两个相似度分数的权重。我们也使用最大函数MAXS([ik,ij])来输出[simu(ik,ij)]和[simh(ik,ij)]的最大值。

MAXS(iK,ij)=max{ [simu(ik,ij)],[simh(ik,ij)]} (10)

结合从导师-学生和导师-学生兴趣活跃度两个矩阵中生成的相似分数之后,通过一个导师-导师的协同过滤方法,我们发现了这个预测分数rk,l(去给学生)。特别地,与学生已经发布的导师的前N个类似导师通过降序排列被排名,并且被插入一个叫Lk,l的列。为了预测分数rk,l,一个方法是在列表Lk,l中取导师相似度iK的平均或最大值。如果这个预测分数超过一个临界值,我们就把导师推荐给学生。

4实验及分析

本文的实验数据来源于河南师范大学教育与教师发展学院2015届的评教系统数据库。本文采用MAE来评价协同的推荐质量。 MAE越小, 推荐结果就越合理。设预测的学生评分集合表示为{[p1] ,[p2] , …,[pn] }, 对应的实际学生评分集合为{[r1] ,[r2] , …,[rn] }, 平均绝对误差 MAE表示为

[ MAE=i=1npi-ri∕n] (11)

实验结果如图1所示。

据图1可知,随着邻居数目增加,基于协同过滤的导师推荐算法的精度也有所提高。数据量很小时,MAE也很小。

为了得到更为准确的实验结果,对50名在校学生作了实际的调查, 根据学生对导师的评价为每位学生推荐 5人导师, 使用查准率和误判率来评价实验效果。实验结果见表3。

[precision=推荐成功的导师推荐导师数目](14)[ fallout=推荐失败的导师推荐导师数目] (15)

从表 3可以看出,当学生数一定时,评价的导师数越多,推荐的查准率越高,误判率越低,推荐效果越佳。

5结束语

本文就协同推荐时数据的稀疏性问题,提出了一种解决方案。一是扩充了学生—学生活跃度评分矩阵,二是我们使用加权平均数和最大函数的方法结合基于学生和学生兴趣类别的活跃度之间的相似度来预测学生对于每个导师的偏好得分。从而针对学生的兴趣爱好及专业特点提供个性化的导师推荐。经相关实验证明,该系统可以有效地提高导师和学生间的匹配率,从而使教育资源的到更加合理的配置,该算法也可在其他领域进行推广。

参考文献:

[1] 檀润华.创新设计[M].北京:机械工业出版社,2002.

[2] 郭炜强,文军,文贵华. 基于贝叶斯模型的专利分类[J].计算机工程与设计,2005,26(8).

[3] 张国明.一种专利文本自动分析的系统及方法[P].中国,CNl01539906A.2009-09-03.

[4] 郭艳红, 邓贵仕.协同过滤的一种个性化推荐算法研究[J] .计算机应用研究, 2008,25(1).

猜你喜欢

冷启动聚类
轻型汽油车实际行驶排放试验中冷启动排放的评估
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
基于PEMS试验的重型柴油车冷启动 排放特征研究
基于学习兴趣的冷启动推荐模型
质子交换膜燃料电池冷启动研究综述①
基于DBSACN聚类算法的XML文档聚类
条纹颜色分离与聚类
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
一种层次初始的聚类个数自适应的聚类方法研究