APP下载

融合协同过滤个性化模型的课程资源定制化推荐

2022-11-16杨冰清

关键词:聚类个性化协同

杨冰清

(阜阳师范大学信息工程学院,安徽阜阳 236041)

在网络上的学习资源众多,面对海量的课程资源,学生往往会难以抉择,不知道自己应该学习哪一门课程,这就是“信息过载”问题[1]。如果不能解决这个问题,学生就会在这个过程中陷入迷茫和急躁,对学习失去兴趣[2-3]。通过构建协同过滤推荐模型实现为学生个性化、定制化推荐课程资源,并基于协同过滤模型的冷启动和数据稀疏性的缺点,提出以遗传算法和K-means 算法对协同过滤模型进行优化改进。研究结果表明,改进的协同过滤推荐模型能够很好地为学生个性化,定制化推荐课程资源,能有效提升学生的学习兴趣和学习效率。

1 改进的协同过滤个性化推荐模型

1.1 协同过滤个性化推荐模型的构建

计算机网络技术的飞速发展吸引到了教育工作者的注意,网络与教育结合孕育出的网络学习慢慢兴起,在疫情期间更是成为了最重要的教学方式[4]。但学生难以从中找到自己的需求课程资源,常常面临着“信息过载”的问题。相关学者提出了个性化推荐模型,根据学生的信息和兴趣为学生个性化推荐课程资源,以此解决“信息过载”问题。目前比较常见的个性化推荐模型以基于关联规则的推荐模型为主,其工作流程如图1所示。

图1 基于关联规则的个性化推荐模型工作流程

基于关联规则的个性化推荐模型需要大量的数据才能进行分析,且关联规则生成较为困难,准确度也较低,无法真正做到个性化推荐[5]。因此,需要根据协同过滤个性化推荐模型构建推荐系统,以达到为学生个性化推荐课程资源的目的,如图2所示。

图2 基于协同过滤算法的个性化课程资源推荐系统

根据学生用户对课程资源的感兴趣程度来给予课程资源不同的分值,分值以整数数字0~5来表示。分值越高,就代表学生用户对此课程资源的兴趣越大,学生用户对该课程的相似课程的期望值越大;分值越低,就代表学生用户对此课程的兴趣越小,学生用户的期望值就越小;当分值为0 时,则代表学生用户尚未对此课程资源进行打分。学生-课程评分矩阵如公式(1)所示。

公式(1)的学生-课程评分矩阵中,m表示用户数量,n则表示课程数量,rmn表示第m个学生用户对第n个课程的打分分值。为方便数据收集和计算,用二元变量(0,1)表达矩阵中的分值属性,二元变量中的0表示学生用户不喜欢此课程,而1表示学生用户喜欢此课程。根据学生-课程评分矩阵能够找到目标学生用户的邻居集合。学生用户与邻居集合之间的相似度是推荐课程准确与否的关键,因此需要对用户之间的相似度进行计算。将用户对课程资源的打分分值看作是一个空间向量,则有余弦相似性(Cosine)如公式(2)所示。

公式(2)中,sim(i,j)表示用户i与用户j两者之间的相似度分别表示用户i与用户j对某课程的打分分值。若采用皮尔森相关系数计算用户之间的相似度,假设用户i和用户j对相同的课程资源集合进行过打分,则两者之间的相似度如公式(3)所示。

1.2 GA-K-means算法对协同过滤推荐模型的优化

公式(4)中,NNi表示用户i的邻居集合,Pi,u表示用户i对课程资源u的预测打分分值。

协同过滤推荐模型能够为学生用户实现个性化课程推荐,但模型存在冷启动问题和数据稀疏性的问题[6]。其中冷启动问题又分为新学生用户问题和新课程资源问题,新学生用户问题在于一个新注册的学生尚未对课程资源进行评价和打分,也没有相应的历史浏览记录,协同过滤推荐模型无法对该学生用户的感兴趣课程资源进行预测,也就无法为学生推荐学生可能感兴趣的课程资源[7]。

而数据稀疏性问题则容易让协同过滤推荐模型的推荐质量和推荐效果下降。协同过滤推荐模型较为依赖学生对课程资源的打分来,判断学生对课程资源的感兴趣程度,并由此为学生推荐相应的课程资源。当学生对课程资源的评价和打分的数目较少时,协同过滤推荐模型的推荐准确性就无法得到保障,且随着学生用户数量以及课程资源数量的不断上升,数据稀疏性的问题也会不断扩大,学生-课程评分矩阵也会变得更加稀疏[8]。因此,还需要对协同过滤推荐模型进行优化,才能更好地为学生用户个性化推荐课程资源。

K均值聚类(K-means clustering algorithm)是一种常用的划分聚类方法,其原理为以某个数据集中的随机K个对象作为聚类中心,且数据集中的其他数据对象会根据与这K个数据对象的距离,自动与最近的聚类中心归为一个类;再对这些类进行迭代,使数据对象在类中移动并根据类中数据的更新计算平均值,并重新分配数据对象,从而对类进行改进,直到达到最大迭代次数或不再有新的聚类产生[9]。

K-means 聚类算法的缺点在于过于依赖初始聚类中心,且容易陷入局部最优,因此采用遗传算法(Genetic Algorithm,GA)对其优化,使GA-K-means算法能够收敛到最佳聚类[10]。遗传算法优化Kmeans算法的步骤为,首先用染色体二进制字符串表示学生用户的属性,根据遗传算法生成随机的初始种群,用以搜索全局最优;其次,利用适应度函数判断K-means算法的聚类结果是否为全局最优结果;最后,遗传算法进行交叉、变异等遗传操作,迭代更新初始聚类种子,并重复执行适应度函数判断和遗传操作,直到满足条件为止。适应度函数如公式(5)所示。

公式(5)中,p为n维空间中的一个表示用户的点,ma则表示K-means 算法生成的聚类中心,k表示K-means 算法生成的聚类中心的数量,ca表示最优聚类中心的数量。采用遗传K-means 算法优化后的协同过滤个性化推荐模型工作流程如图3所示。

采用遗传K-means 算法优化后的协同过滤个性化推荐模型能够根据学生注册时的初始属性,如年龄、年级、专业、性别等为目标学生用户找到合适的邻居集合,目标学生即使是刚注册且未对任何课程资源打分,协同过滤个性化推荐模型也能为目标学生用户推荐其所需要的课程资源,能够更好地为学生服务,提高学生的学习兴趣。

2 协同过滤个性化推荐模型性能分析

2.1 GA-K-means 算法对协同过滤推荐模型的优化效果

推荐精度评价个性化推荐模型性能的一个重要指标,只有推荐精度足够高,个性化推荐模型才能真正达到为学生个性化推荐课程资源的目的。为了验证GA-K-means 算法对协同过滤推荐模型的优化效果,以平均绝对偏差(Mean Absolute Error,MAE)作为评价标准,即计算协同过滤个性化推荐模型预测学生对课程资源的评分与实际上学生对课程资源的评分的差值,从而评价模型的预测准确性。MAE 差值越小,则模型的预测准确性越高,模型的个性化推荐效果也就越好。分别构建未优化的协同过滤推荐模型与遗传K-means 算法优化后的协同过滤推荐模型,并以相同的学生数据对其进行测试,分别取最近邻居数5~30,邻居数间隔为5,测试结果如图4所示。

图4 优化前后的协同过滤推荐模型推荐精度对比

从图4中可以看出,两个模型都是随着最近邻居数的增加,MAE 值在逐渐减小,说明最近邻居数越多,模型的预测学生评分与真实学生评分的结果越接近,模型的推荐效果越好。未经遗传K-means算法优化的协同过滤推荐模型在最近邻居数为5 时的MAE 值为0.88,而优化后的协同过滤推荐模型在最近邻居数为5 时的MAE 值为0.84,比未优化的模型低0.04;在最近邻居数为30 时,未优化的协同过滤推荐模型的MAE 值为0.82,而优化后的协同过滤推荐模型MAE 值为0.77,两者相差0.05;此外,优化后的协同过滤推荐模型的图像一直在未优化的协同过滤推荐模型下方,在最近邻居数相同的情况下,优化后的模型的MAE 值小于未优化的模型,说明优化后的协同过滤推荐模型推荐精度比未优化的模型更高,推荐效果更好。

2.2 优化协同过滤模型的推荐准确率分析

分别构建未优化的协同过滤推荐模型、遗传Kmeans 算法优化过的协同过滤推荐模型、基于数据挖掘的推荐模型以及基于狄利克雷分配模型(Latent Dirichlet Allocation,LDA)的推荐模型,设置课程资源的个数为5~30 个,并分别进行10 次测试,测试结果取10 次测试结果的平均值。四种推荐模型的推荐准确率随推荐课程资源个数的变化如图5所示。

图5 各个推荐模型随推荐课程资源个数的推荐准确率变化

从图5中可以看出,各个推荐模型大致随着推荐课程资源的数量越多,推荐的准确率就越低。其中,基于LDA 模型的推荐模型准确率最低,GA-K-means算法优化后的协同过滤推荐模型的推荐准确率最高。在推荐课程资源个数为5时,优化协同过滤推荐模型的推荐准确率为52%,比基于LDA 模型的推荐模型高25%,比基于数据挖掘的推荐模型高18%,比未优化的协同过滤推荐模型高11%;在推荐课程资源个数为30 时,优化协同过滤推荐模型的推荐准确率为42.5%,比基于LDA 模型的推荐模型高28.6%,比基于数据挖掘的推荐模型高14.5%,比未优化的协同过滤推荐模型高17.5%。

2.3 学生对个性化推荐系统的认可程度

为了更加清晰直观地了解改进协同过滤个性化推荐模型对学生起到的帮助作用,基于模型搭建个性化课程资源推荐系统,让某高校大二年级的5个专业的学生进行试用一周,一周后对这些学生进行问卷调查,询问学生觉得个性化课程资源推荐系统是否能够有效帮助他们找到感兴趣的课程资源,得到学生对个性化推荐系统的认可程度。调查共回收500份有效问卷,调查结果如表1所示。

表1 调查问卷结果

从表1 中可以直观地看到,觉得个性化课程资源推荐系统能非常有效地推荐感兴趣的课程的学生有180 人,占比为36%;觉得个性化课程资源推荐系统能比较有效地推荐感兴趣的课程的学生有260人,占比为52%;觉得个性化课程资源推荐系统能有一点效果的学生有50 人,占比为10%;觉得个性化课程资源推荐系统没有效果的学生有10 人,占比为2%。综上所述,觉得个性化课程资源推荐系统有效的学生占98%,觉得个性化课程资源推荐系统无效的仅占2%,说明协同过滤个性化推荐模型能很好地为学生推荐课程资源,提高学生的学习兴趣和学习效率。

3 结语

科技的进步,互联网技术的发展,网络与教育结合的已成必然,网络教学的教学模式也逐渐成为主流教学模式之一。采用GA-K-means 算法优化协同过滤模型,构建出改进的协同过滤个性化推荐模型,为学生定制化推荐课程资源。研究结果表明,优化后的协同过滤推荐模型在最近邻居数为5 时的MAE值为0.84,比未优化的模型低0.04;在最近邻居数为30 时,优化后的协同过滤推荐模型MAE 值为0.77,比优化前低0.05;在推荐课程资源个数为5 时,优化协同过滤推荐模型的推荐准确率为52%,比其他模型都要高得多;问卷调查显示觉得个性化课程资源推荐系统有效的学生占98%,觉得无效的仅占2%。以上结果表明,经GA-K-means 算法优化后的协同过滤推荐模型能准确地推荐学生感兴趣的课程资源,能够提升学生的学习效率,也能一定程度上为网络学习的教学方式提供一定思路。但在课程特征和学生特征这两项重要属性上并未进行深入探索,还需要以后更进一步研究。

猜你喜欢

聚类个性化协同
家校社协同育人 共赢美好未来
蜀道难:车与路的协同进化
坚持个性化的写作
基于K-means聚类的车-地无线通信场强研究
“四化”协同才有出路
新闻的个性化写作
基于高斯混合聚类的阵列干涉SAR三维成像
上汽大通:C2B个性化定制未来
三医联动 协同创新
基于Spark平台的K-means聚类算法改进及并行化实现