我国学习资源个性化推荐研究进展
2015-03-02潘澄,陈宏
作者简介:潘澄(1987- ),男,浙江工业大学教育科学与技术学院硕士研究生。研究方向:教学信息化;
陈宏(1984- ),男,浙江工业大学教育科学与技术学院,讲师。研究方向:教学信息化。
基金项目:本文系全国教育科学规划课题教育部重点项目“工作过程导向的项目课程教学设计及其网络学习环境研究”的研究成果之一,项目编号:DCA090318。
在互联网技术飞速发展的今天,互联网的应用变得越来越广。互联网在改变人们生活方式的同时,也给教育带了巨大的变革,以数字化、媒体化等为特点的信息技术在教育领域得到广泛应用,网络已然成为人们获取知识和信息的重要途径之一。越来越多的人开始使用网络进行学习,因为网络教育打破了传统教育时间、空间上的限制,给教学过程带来了很大的便利,网络提供了大量的学习资源,这些丰富的资源把教师和学生紧紧联系在一起。教师可以使用丰富的教育资源进行授课,学生则可以减轻课业负担,网络教育正逐渐变成一种新型的教育模式。但与此同时,孙荣通过分析全国20所985高校的情况发现,随着学校教育信息化改革的深入,各校均催生了数量可观的网络学习资源,但却没有有效的整合管理,使学习者在海量的教育资源中查找所需的学习资源也变得越来越困难,大大降低学习者的学习兴趣。 ①
为了解决学习资源查找困难的问题,学习资源的个性化推荐技术应运而生。资源的个性化推荐,是指通过数据挖掘、分析学习者的个性化特征,发现学习者的需求,自动地向学习者提供其可能感兴趣的教育资源,学习者无需过多地参与推荐的过程,使学习者在使用资源时更加便捷,大大缩短了学习者寻找教育资源的时间,减少了学习者寻找所需资源所付出的代价。我国《教育信息化十年发展规划(2011- 2020)》中指出,要加快推进信息技术与教学融合,提高教学信息化水平,探索建立以学习者为中心的教学新模式。教育资源的个性化推荐技术作为一项智能化信息技术,能够有效解决海量数据所带来的资源查找困难问题,使学习者对资源的被动接收,逐渐转变为资源对学习者的主动推送,近年来已经越来越受到研究人员的关注,正在成为教育信息化和人工智能方面重要的课题和研究热点。本文以学习资源、教育资源、个性化、推荐等为主题,对2004年至2014年这十年间发表的核心期刊文献进行检索,对推荐过程中的三个要素用户研究、对象研究及推荐策略研究进行总结分析,以期让相关研究人员对学习资源推荐技术有更深入的了解,对之后的研究起到借鉴作用。
一、用户研究
推荐技术中对用户的研究主要是针对用户建模方面,用户建模是个性化推荐的一个重要核心,用户模型的好坏会直接影响到个性化推荐的质量。用户模型是一个用来描述用户需求的模型,是为了让计算机系统知道用户需要什么样的学习资源,或者用户可能对什么样的学习资源感兴趣。为了能够准确地描述用户的需求信息,就需要从用户的信息中设法提取出用户的需求特征,其中包括用户的显式信息和用户的隐式信息两个方面。
(一)用户显示信息
用户的显式信息又可以分为用户基本信息和用户交互信息两类。基本信息是我们最为常见的,通常是一些能够说明学习者基本情况的特征,如兴趣、爱好、专业、教育经历等等,特点在于直观且方便收集,得到的信息也会相对比较全面,但是此类信息通常存在很大相似性,区分度不够,很难得到较好的个性化推荐。而用户交互信息是学习者在使用学习平台中主动给出的信息,如对学习资源的评分、评价等等。如2008年,陈悦通过收集学习者对使用过的学习资源进行评分,来构建学习者基于兴趣的特征向量,并以此对学习者进行分组,实现同组内端对端的学习资源个性化推荐。 ②2010年,姜强等人利用felder- silverman学习风格量表获得学习者学习风格,并利用累计计分估算学习者认知水平,将两者相结合来描述学习者模型,实现个性化的推荐。 ③随着测评技术的发展,熊玉珍2012年通过分析学习者汉语测评数据,来构建汉语学习者模型,从而制定个性化的学习目标、学习内容、学习资源及学习路径,来满足汉语学习者的个性化需求。 ④这一类的方式能够相对准确体现学习者的需求,结果也相对可靠,但是实行起来可能相对效果不佳,一方面大部分学习者不愿花费时间去做测试,用以表达自身的兴趣偏好,另一方面,学习者的兴趣可能随时间变化, ⑤使得该方法没有很好的实时性。因此也有人提出,在学习者兴趣模型中加入时间因素,让兴趣权重因时态变化而变化,来提高模型的时效性。 ⑥
(二)用户隐式信息
隐式信息的获取是通过学习系统或平台追踪学习者的行为,来分析和推测学习者的兴趣偏好,如浏览页面、停留时间、搜索查询、点击鼠标及文本标记等等。王志梅等人在2006年提出为学习者构建学习状态评估矩阵,通过分析学习状态来发现相似学习者,并分配至同一学习社区进行交流及资源推荐。 ⑦2008年,孙超等提出利用agent收集和分析学习者的学习行为,生成学习者的兴趣模型。 ⑧2009年,刘志勇等通过学习者浏览行为和评价信息进行语义相似度分析,寻找近邻学习伙伴,同时引入学习对象的概念,降低计算的复杂度。 ⑨2013年,王萍等在语义分析的基础上引入本体概念,对学习者进行建模,提高学习资源推荐效果。 ⑩隐式的信息搜集,其优点在于不需要学习者的参与,不会影响学习者的学习活动,能够较为客观地反映学习者的偏好信息,但一些不良的操作习惯也容易使学习者的偏好分析出现偏差, ⑪同时,学习行为的跟踪也要适度,否则容易引起学习者的反感,从而放弃对推荐系统的使用。
二、对象研究
所谓对象研究,指的是针对推荐内容的研究。因推荐技术应用到不同领域,所针对的推荐对象会有所不同,则对象的特征也会不尽相同,所以对推荐对象进行建模,准确地描述推荐对象也是推荐技术中重要的组成部分。在教育领域,存在着文本、音频、动画、视频等等多种形式的推荐对象。为了较好地描述对象特征,就需要将这些对象区分开来建模。现今比较流行的方式有两种:一是将对象内容进行分析,二是将对象进行分类。
(一)对象内容分析
内容分析方法是通过对对象的内容进行特征分析,提取出有用的特征信息。通常对于文本类型的对象,会采用内容分析的方法来提取该对象的特征信息形成特征向量,因此常常会涉及到相关文本处理技术。2014年,徐守坤等人将本体概念引入到学习资源的描述中,通过语义推理改善中文多词一义、一词多义等问题。 ⑫张海东等人利用空间向量和马尔科夫链构建学习资源模型,并利用TF- IDF算法提取学习资源的特征内容,来优化学习资源模型。 ⑬提取文本对象特征信息的技术相对较为成熟,但网络上的学习资源往往并不只是文本资源。
(二)对象内容分类
另一种方式是通过内容分类来提取对象的特征信息,通常用在一些非文本类的资源,如视频、动画等,以便将同类的资源推荐给感兴趣的学习者。具体类别的生成可以是人为预先进行定义,也可以通过聚类算法自动生成。王萍在2008年,在分析社会化标签系统中的e- learning标签数据集的基础上,通过社会化标签来发现学习资源的相似性,为学习者提供推荐。 ⑭2014年,白雪等人通过使用社会化标签对网络学习平台上的教育资源进行管理,并以此构建推荐模型。 ⑮叶海智等人使用K-均值聚类方法对学习资源进行分类,从而筛选出优质的学习资源。 ⑯因此,这一类方法的精度很大程度上取决于聚类的优劣。 ⑰要做到既不推荐学习者过于类似的学习资源,也不让学习者浏览过于不相关的学习资源,是该类研究的一个难点。
三、推荐策略研究
推荐策略研究主要是围绕个性化的推荐过程中的推荐算法或推荐策略,是整个推荐系统的关键所在。自个性化推荐概念被提出以来,一直是国内外研究人员争相研究的重要课题,因此也形成了一些主流的推荐算法,如基于内容的推荐、基于关联规则的推荐、基于知识的推荐、基于效用的推荐、协同过滤推荐及组合推荐等等。
(一)基于内容的推荐
基于内容的推荐技术是比较早被提出来的一种推荐技术,它同时也是信息过滤技术的一个发展。基于内容的推荐技术,是利用资源本身的特征属性对资源进行建模,然后通过两个方面向用户进行推荐。首先,是通过对用户信息模型和资源特征模型进行对比匹配,根据相似度来向用户进行推荐;另一方面,通过将资源特征模型进行对比分类,将用户已经评分或评价的同类资源推荐给用户。2007年,李永等人采用矢量空间模型来描述用户兴趣模型和资源模型,通过余弦相似度来计算资源的推荐度。 ⑱
基于内容的推荐技术的优点在于,不依赖学习者行为信息,新的学习者在没有任何评价的情况下,也可以向其推荐资源,同时,一些没有学习者评分或评价的资源也可以在匹配的情况下得到推荐。因此,也可以看出基于内容的推荐方法有着推荐结果直观的特点, ⑲容易向学习者解释为什么向其推荐该资源,增强学习体验。但该推荐技术也存在着局限性,因为其对资源特征的建模,是通过对资源进行内容分析、特征词信息抽取等来完成,不容易推荐新颖的资源, ⑳同时,其推荐文本资源就比较容易,但音频、视频等这类多媒体资源就很难抽取特征信息,较难产生精确的推荐。
(二)基于知识的推荐
基于知识的推荐在一定程度上可以当成是一种推理方法,即使用功能知识进行推理的过程。所谓功能知识,就是某个资源如何满足特定用户需要的知识。基于知识的推荐,是通过任意能够支持推理的知识来进行分析推荐,这些知识并不一定是用户的偏好信息,也可以是用户规范化的查询,或者是详细的用户需求等。2005年,郝兴伟通过知识点图来管理教育资源,并由此构建推荐模型。 ㉑2006年,卢修远等通过概念图映射网络课件与学习资源库的基础上,利用agent实现基于知识的学习资源推荐。 ㉒刘先锋等人在2009年提出基于Bayesian知识推理网的学习资源推荐,通过Bayesian网推荐给学习者最合适的学习资源和教学方法。 ㉓
基于知识的推荐能够把学习者对资源的需求映射在资源上,能够同时考虑一些非资源属性,从而更好地对资源进行筛选,得到更精准的推荐。但知识容易存在领域的局限性, ㉔且这些知识并不容易挖掘。随着时间的变化,学习者的需求可能会发生一些变化,但知识结构是静态的,从而会导致推荐也是静态的。
(三)基于关联规则的推荐
关联规则算法是数据挖掘领域中的一类重要算法,是描述两个或者多个属性之间某种潜在的特征关系规则。早在1993年,R .Agrawal等人首次提出了挖掘顾客交易数据中项目集间的关联规则问题,目的是要挖掘出用户的行为规则,即顾客购买某种商品的同时会倾向购买另外一种商品。关联规则的推荐大致分为两个步骤,第一步,是挖掘及制定一系列的规则,然后利用规则来分析计算资源间的关联性;第二步,是通过分析用户的行为及偏好,然后根据事先制定的规则向学习者进行推荐。2007年,王燕等利用Apriori算法在数字图书馆中构建推荐系统,通过关联规则的方式挖掘频繁项集进行学习资源的推荐。 ㉕陈祖琴等人在传统关联规则挖掘算法的基础上,提出加权形式的关联规则挖掘技术,来得出一种适用于推荐相关文献的算法。 ㉖
关联规则推荐技术的优点在于,不需要领域的相关知识,也可以挖掘出学习者新的或者潜在的兴趣点。但该技术也存在着一些问题,比如当资源名存在同义性的时候,规则就很难区分判断; ㉗随着时间推移,关联规则会变得越来越多, ㉔也就会变得越来越难以维护;关联规则是通过大量的挖掘数据中的共同行为,然后设置学习者所能接受的最低阈值来制定规则,这在一定程度上也降低了个性化的程度。
(四)基于效用的推荐
基于效用的推荐是建立在用户使用资源的效用情况下进行的,因此,用户信息模型及资源模型很大程度上是由所使用的效用函数来决定的,其核心问题是如何为每一位用户创建一个效用函数。该方式在电子商务网站应用较多,在教育领域应用相对较少,究其原因可能是因为商品拥有较多的内在属性及外部属性, ㉘能够更好的创建效用函数。
基于效用的推荐技术优点在于把资源的非自身属性,比如资源上传者的可靠性、审核者的可靠性等等,也纳入到效用函数的参数中,使系统在做决策时考虑更多的因素,提高效用计算能力,从而提高推荐的质量,使推荐更具个性化。也正是因为效用函数的设计要考虑用户、资源的特征属性及非资源自身的属性,导致效用函数并不具有通用性,所以基于效用的推荐通常也只适合某个特定的环境。
(五)基于协同过滤的推荐
协同过滤推荐是现今研究较多的个性化推荐算法。协同过滤技术主要分为两类:一类是基于用户的过滤,另一类是基于项目的过滤。在协同过滤技术中,用户被要求对使用过的资源进行评价,然后系统收集用户的评价信息。根据系统收集到的用户评价信息,可以形成一个m×n的用户—资源矩阵,其中m代表用户总数,n代表资源总数。通过这个矩阵就可以进行相似用户或相似项目的计算,从而寻找到该用户的近邻伙伴集合或邻居项目集合,再从近邻伙伴或项目的信息中得出对当前用户的推荐资源。2006年,黄晓斌分析了协同过滤技术的原理及特点,并论述了协同过滤技术在数字图书馆中应用的必要性。 ㉙孙守义在2007年,通过协同推荐技术挖掘图书馆用户的大量借阅记录,来向学习者进行图书资源推荐。 ㉚2012年,王永固等人将协同过滤推荐技术应用到在线学习中,并在传统协同过滤技术的基础上加入隐式评分机制来改善协同过滤的冷启动问题。 ㉛
协同过滤推荐的好处在于学习者不依赖于资源的内容及其形式,这一特点让该技术有很好的普适性,对音频、视频这类较难抽取出特征信息的资源也能有较好的推荐效果。协同过滤技术是在分享邻居学习者经验的基础上进行推荐,容易发现学习者的潜在的新兴趣点。虽然随着时间的推移,学习者评价数量的上升,可以不断提高系统的性能,但同时也会存在算法复杂度大幅上升的问题,也可以看出该算法比较依赖学习者数据,所以会存在评价稀疏问题及新的学习者推荐难的问题。 ㉜
(六)其他推荐策略
前面提到的各种推荐技术在实际应用中都会在不同程度上存在着一定的不足,为了弥补这些缺陷,研究人员渐渐开始使用混合推荐技术。所谓混合推荐也称组合推荐,指的是为了获得较好的推荐结果,根据实际情况将不同的推荐技术组合起来使用。结合的方式通常有三类:针对不同的学习者使用不同的推荐策略;针对不同的学习资源使用不同的推荐策略;针对所有学习者和所有学习资源,使用混合的推荐策略来进行推荐。最典型的就是将协同过滤推荐技术与内容推荐技术进行组合,利用内容推荐来改善协同过滤技术的冷启动问题,如杨丽娜等人以协同过滤推荐为主,内容推荐为辅来构建虚拟学习社区的资源推荐,来提高社区资源的使用效果和效率; ㉝在后继的提升数字学习资源推荐效果研究中,对个体学习者和群体学习者使用不同的推荐策略,并引入意见领袖概念,向社区学习者推送资源。 ㉞2013年,刘旭东等人为了能从多角度向学习者推荐学习资源,在协同过滤技术的基础上配合使用周排行、众数法推荐策略,来提高学习资源个性化推荐的精度和效率。 ㉟2014年,孙众等人在探索数字化教材推送策略中,通过教师引导推荐、系统自动推荐和学习者定制资源三个方式相结合,来设计资源推荐模型。 ㊱
当然,也有很多研究人员不满足现有的一些推荐技术,探索研究更好的推荐技术。如,袁静等人通过学习者情景信息和学习资源情景信息, ㊲来改善学习者体验,提高推荐精确性。2014年,杨超提出基于粒子群优化算法的学习资源推荐策略,帮助学生从海量的学习资源中挑选合适自己的学习资源。 ㊳唐瑶等人从联通主义的角度分析,提出利用人的智慧进行内容的策展,方便学习者获得优质学习资源,缓和信息过载问题。 ㊴
四、热点及展望
本文对学习资源推荐技术在国内的研究进行回顾,并总结了学习资源推荐技术的最新研究进展,重点分析了各学习资源推荐策略的特点、优势及不足。希望本文的研究工作能促进学习资源推荐技术的研究人员对推荐系统各个技术的优劣有个更深入的了解,并根据实际情况,选择合适的策略进行进一步研究。
随着大数据时代的到来,学习资源推荐技术也在飞速的发展,也出现了一些值得关注的热点问题,以及未来可能成为研究热点的问题。这些问题的解决对学习资源推荐技术的研究具有非常重要的意义。主要有以下三个方面:
1.混合推荐策略。通过分析发现,当前学习资源推荐技术的研究主要集中在推荐策略的研究上,而近几年,因为单一推荐策略应用存在一定局限性,研究人员纷纷开始设计混合推荐策略来改善推荐效果,因此,混合推荐策略已逐渐成为当前研究的一个热点。
2.学习者隐私保护。学习资源推荐技术的本质是通过挖掘学习者现有的一些个人资料,使用习惯等等方面的信息来挖掘学习者的兴趣、偏好信息。虽然学习者希望得到合适的推荐,但保护个人隐私必然是前提。所以,推荐系统要做到在保护学习者个人隐私的前提下,尽可能少地利用隐私信息来给出准确、有效的推荐。
3.推荐系统安全。随着推荐技术应用变得广泛,也不乏出现一些恶意的用户,通过捏造与实际不符的评价信息来故意推举或者打压某些资源,对推荐系统进行误导,我们称之为推荐攻击。而针对推荐攻击的预防、检测方面的研究还非常之少。
注释:
①孙荣,孟凡立,张慰.论数字校园环境下高校教学资源的整合运行策略[J].现代教育技术,2012,05:46- 51.
②陈悦.基于兴趣特征向量的端对端仿真学习社区研究[J].计算机仿真,2008,08:283- 286.
③姜强,赵蔚,杜欣等.基于用户模型的个性化本体学习资源推荐研究[J].中国电化教育,2010,05:106- 111.
④熊玉珍.基于测评的汉语个性化学习环境的构建[J].电化教育研究,2012,03:69- 71+87.
⑤涂金龙,涂风华.一种综合标签和时间因素的个性化推荐方法[J].计算机应用研究,2013,04:1044- 1047+1054.
⑥荆永君,李兆君,李昕.基础教育资源网中个性化资源推荐服务研究[J].中国电化教育,2009,08:102- 105.
⑦王志梅,杨帆.基于相似学习者发现的资源推荐系统[J].浙江大学学报(工学版),2006,10:1688- 1691+1791.
⑧孙超,蒋波.基于Agent和推荐技术的网络教学模型研究[J].郑州大学学报(理学版),2008,03:84- 87.
⑨刘志勇,刘磊,刘萍萍等.一种基于语义网的个性化学习资源推荐算法[J].吉林大学学报(工学版),2009,S2:391- 395.
⑩王萍,刘玲.基于PaaS云模式的学习推荐系统研究[J].中国教育信息化,2013,03:78- 81.
⑪赵捧未,李春燕,窦永香.语义对等网环境下基于节点知识地图的用户模型构建[J].情报理论与实践,2012,02: 104- 108.
⑫徐守坤,孙德超,石林等.基于语义推理的学习资源推荐[J].计算机工程与设计,2014,04:1496- 1501.
⑬张海东,倪晚成,赵美静等.面向基础教育阶段的教学资源推荐系统[J].计算机应用,2014,11:3353- 3356+3364.
⑭王萍.基于自由分类法的elearning标签研究[J].中国远程教育,2008,10:65- 70.
⑮白雪,赵蔚,姜强等.基于标签的教育资源管理与推荐模型构建——来自社会化标注网站的启示[J].现代教育技术, 2014,05:96- 102.
⑯叶海智,程清杰,黄宏涛.K-均值算法支持的优质网络学习资源筛选方法研究[J].中国远程教育,2014,10:62- 66+96.
⑰王艳,景韶光,李雪耀等.基于分类方法的内容过滤推荐技术[J].情报杂志,2005,08:59- 60+62.
⑱李永,徐德智,张勇等.VRE中基于内容过滤的论文推荐算法[J].计算机应用研究,2007,09:58- 60+89.
⑲李忠俊,周启海,帅青红.一种基于内容和协同过滤同构化整合的推荐系统模型[J].计算机科学,2009,12:142- 145.
⑳姜书浩,薛福亮.一种利用协同过滤预测和模糊相似性改进的基于内容的推荐方法[J].现代图书情报技术,2014,02: 41- 47.
㉑郝兴伟,苏雪.E- learning中的个性化服务研究[J].山东大学学报(理学版),2005,02:67- 71+91.
㉒卢修元,周竹荣,奚晓霞.基于WC- C- R学习资源推荐的研究[J].计算机工程与设计,2006,23:4461- 4464.
㉓刘先锋,丁继红,朱清华.Bayesian网知识推理在ITS学习推荐中的应用研究[J].计算机工程与应用,2009,01:220- 223.
㉔谢芳,王波.基于关联规则个性化推荐的改进算法[J].计算机应用,2006,S2:149- 151.
㉕王燕,温有奎.基于关联规则的推荐系统在数字图书馆中的应用[J].情报科学,2007,06:877- 880.
㉖陈祖琴,张惠玲,葛继科等.基于加权关联规则挖掘的相关文献推荐[J].现代图书情报技术,2007,10:57- 61.
㉗张佳乐,梁吉业,庞继芳等.基于行为和评
(下转37页)