个性化推荐技术在Moodle学习平台的应用研究
2015-10-11贺媛婧
贺媛婧
(国家开放大学,北京 100039)
一、引言
网络信息技术的发展及应用极大程度上影响着现代远程教育的发展,国家开放大学作为新型有特色的远程教育大学,一直在推进信息技术与远程教育的深度融合工作。国家开放大学以满足远程教育系统办学背景的教学模式为目标,搭建了以Moodle为基本模型,以云计算技术为基础的集约化学习平台,给学习者提供了更加简洁、便捷、开放的学习平台,并为教师教学管理活动提供了更为便捷的平台。[1]当大量的学习内容资源和学习活动同时呈现于平台中时,虽然Moodle提供了对于学习资源的分类和搜索功能,[2]但是学习者难免会造成对于过载信息资源的困惑,很难快速找到适合自己学习的资源。如何既能满足不同学生的专业类型、学习特征的学习需求,又能满足学生的一般学习需求,怎样帮助学习者找到适合自己的学习资源,[3]具有重要的研究意义。个性化推荐技术就是通过挖掘学习者的属性特征,分析学习者的历史学习记录,预测学习者可能感兴趣的学习资源给目标学习者。
本文以国开Moodle学习平台为依托,通过平台真实数据设计实验,对比分析不同的个性化推荐技术,研究选择恰当的推荐方法,提高学习资源推荐的有效性。
二、研究意义
远程教育与普通高校最大的区别就是教师的导学作用,因此,教师不仅要对所有学生的一般学习活动有详细的了解,更重要的是学习平台可以为每个学生提供个性化的学习服务,可以针对不同学习者提供符合个人特征的学习资源,发挥学习资源本身对于学习者学习的主动助推作用。Moodle平台可以全面跟踪和记录学习者的历史活动,其中包括学生访问资源的时间、次数以及场所,其中积累了大量对分析学习者行为非常有价值的信息。那么,有效利用这些记录信息,并从中挖掘出每个学习者的学习特征及群体学习者之间的相似性,可以有效地为学生的远程主动学习提供智能化、个性化的学习支持服务。[4]此时,采用个性化推荐技术来挖掘这些被忽略的有价值的数据,包括学习者的属性特征和学习活动记录,来向学习者推荐其感兴趣的学习资源,一方面通过学习平台为学习者提供完全个性化的信息服务,另一方面也为教师指导和管理学生提供了决策支持,同时也增强了学习者利用平台开展学习的兴趣。因此,本研究对促进远程教育的发展具有重要的科学意义。
三、不同个性化推荐技术在远程教育中的应用分析
1.Moodle中应用个性化推荐技术三大模块
(1)数据采集及预处理模块
获取Moodle平台中每个学生的学习记录,包括访问课程的时间、阅读次数、停留时间及访问的URL等,这些历史日志都为推荐提供了大量的基础数据。然后合并相关数据并清除冗余数据,过滤掉多余的数据项,通过唯一标识符识别用户,为下一步的数据分析提供格式化数据。[5]
(2)数据挖掘推荐模块
通过个性化推荐技术对学生信息和学习记录进行数据挖掘,预测学习者对于平台学习资源的兴趣度,将兴趣度从大到小的前若干个学习资源作为推荐结果。
(3)推荐结果显示模块
经过推荐模块后,生成的推荐结果采用学习者易于理解和接受的形式动态地呈现给学生,应用在学习者学习过程中,为学习者提供个性化学习资源和教学指导。
2.不同个性化推荐技术对比分析
根据不同的推荐原理,有多种不同的个性化推荐技术,其中典型的推荐技术包括基于人口统计学的推荐、基于内容的推荐、基于用户的协同过滤推荐等。为了给Moodle平台的每一位学习者提供个性化的有价值的学习资源服务,最核心的就是要选取合适的推荐技术。本文结合学习资源的特殊性,分析对比几种不同的个性化推荐技术,并力图找到一种推荐准确率较高的推荐技术。
(1)基于人口统计学的推荐
它是一种最为简单的推荐算法,主要特点是该技术不依赖于学习资源的具体属性,仅仅通过学习者的基本信息就可以推荐。例如,学习者A与学习者B都具有“工商管理专业”、“市场营销方向”及“本科”三个属性,则系统会根据学习者间固有属性相同,给二者推荐相同的学习资源。这种推荐算法简单,但是算法比较粗糙缺乏精度,同时学习者的个人信息也较难得到,推荐效果很难令人满意,不适合于提升学习者的主动积极性。
(2)基于内容的推荐
该方法是第一代推荐领域中应用最流行的算法,它根据用户过去喜欢的项目,为用户推荐和他过去喜欢的项目相似的项目,该方法最早主要应用于信息检索及过滤系统,可以仅仅根据学习者个人的学习兴趣,给学习者合理的推荐理由。但是由于该推荐需将每个项目抽取出一些特征或属性来表示,应用于学习资源推荐难免存在一些缺点:学习资源是非结构化资源,属性复杂不好处理,非结构化的属性往往表示其意义不太明确,属性取值也没有限制,不方便直接使用。即使可以将非结构化的学习资源通过标签进行结构化处理形成描述文件,但由于学习资源属性的复杂性和多维性,抽取属性仅仅代表资源的一些方面,不可能代表资源的所有方面,无法通过有限的维度来精确识别某一个学习资源。这样带来的直接问题就是:可能从两个不同的学习资源中抽取出来完全相同的属性特征,这种情况下基于内容的推荐就完全无法区分这两个学习资源。[6]
(3)基于用户的协同过滤推荐
上述推荐方法,对于学习资源的推荐都具有一定的片面性,而基于用户的协同过滤推荐充分考虑了学习者在推荐中的核心作用,有效弥补了基于内容的推荐的不足之处。协同过滤是基于一组兴趣相同的学习者进行的推荐,它根据与目标学习者兴趣相似的邻居学习者的偏好信息,产生对目标学习者的推荐列表,其本质是从学习者的历史记录来计算学习者间的相似度,从而进行预测推荐。该方法最大的优点就是能够处理复杂结构的项目分析,这刚好适合处理多样复杂的学习资源;其次,该方法有推荐的新颖能力,可以推荐给学习者内容上与历史信息完全不相似的资源,可以发现学习者潜在的但是学习者自己尚未发现的学习兴趣,引导学习者学习新的感兴趣的资源。
综合上述三种推荐技术的优缺点,目前从应用实践上看,基于用户的协同过滤推荐是最适合于Moodle平台学习资源的推荐方法。基于该方法,如何选择一种合适的相似度度量方法,如何为学习者提供最优的推荐结果是下面重点研究的内容。
四、实验设计与结果分析
为了验证不同的相似度度量方法推荐学习资源的效果,实验设计采用Moodle平台真实数据,用平均绝对偏差作为测量标准,对预测学习者兴趣度的实验结果进行度量,并通过对比分析选择有效的相似度计算方法。
1.实验设计
(1)实验一
实验通过三种不同的相似度计算方法来对比分析,其中包括皮尔森相关系数法、调整的余弦相似性度量法以及Tanimoto相似度量法,采集国开Moodle平台的1000条学习者记录作为基础数据,为第900个学习者,推荐20个学习资源,其中A-T分别表示编号从0-19的不同学习资源,表格中的数字代表目标学习者对于对应学习资源的预测评价。三种相似度计算方法对于同一学习者的预测兴趣度对比分析结果如表1所示。
(2)实验二
实验进行5次,每次随机选取学习者总数的30%作为目标用户来产生推荐项目,结果取平均绝对偏差MAE的均值,结果如表2所示。
表1 兴趣度预测结果对比分析表
表2 不同相似度推荐结果的MAE对比
2.实验结果分析
(1)实验一结果分析
统计上表1中数据,可以得出如下结果:采用调整的余弦相似性和皮尔森相关系数法度量学习者相似性,预测目标学习者的兴趣度产生推荐的结果中,16个学习资源的预测值是相同的;采用皮尔森相关系数法和Tanimoto相似度量法度量用户相似性,预测目标学习者的兴趣度产生推荐的结果中,14个学习资源的预测值是相同的;采用Tanimoto相似度量法和调整的余弦相似性度量用户相似性,预测目标学习者的兴趣度产生推荐的结果中,15个学习资源的预测值是相同的。
以上数据可以得出,虽说采用不同的相似度进行推荐的结果存在一定的差异,但是整体上是一致的,不同推荐结果的相互覆盖率都超过了75%。这说明通过这三种度量学习者间相似性的方法来预测其对于不同资源的兴趣度都是比较有效的。为了对比三种度量方法对于推荐结果的性能,设置实验二。
(2)实验二结果分析
从表2中可见,通过平均绝对误差这一评价标准,得出Tanimoto相似度量法的性能明显优于其他几种相似性度量方法。综合实验一和实验二的结果可知:几种不同相似度计算方法的覆盖率在整体上差别不大,而且都符合推荐系统的正常实验覆盖范围,但是Tanimoto相似度量法的性能相比较而言,从一定程度上提高了推荐的效果和质量,减小了推荐产生的偏差。
五、结束语
本文结合学习资源的具体特性,得出将基于用户的协同过滤技术应用于Moodle平台最为合适,并通过设计两组不同的实验,结果显示采用Tanimoto相似度量法可以提高推荐性能和推荐效果。因此,在远程教育的实践应用中,在准确把握个性化推荐技术功能特点的基础上,必须结合推荐应用的具体情境,不断提升推荐性能,才能最大程度发挥推荐技术在远程教育的应用价值,为学习者和教师提供真正个性化的智能体系服务。
[1]杨志坚.国家开放大学建设:改革与创新[J].中国远程教育(综合版),2013(4).
[2]张雪云,马志强.国内Moodle平台研究综述[J].开放教育研究,2007,13(6).
[3]陈丽丽.个性化推荐技术在B2C教育网站上的应用分析[J].时代教育(教育教学版),2010(2).
[4]张国荣.Moodle平台数据挖掘方法设计与实现[J].计算机技术与发展,2014(5).
[5]巫莉莉,张波,李涛.Web数据挖掘在远程教育个性化中的应用研究[J].微型电脑应用,2010,26(2).
[6]张秀伟,何克清,王健,刘建晓.Web服务个性化推荐研究综述[J].计算机工程与科学,2013,35(9)