基于用户画像的在线学习资源个性化推荐服务研究*
2023-01-14郭飞雁罗校清
郭飞雁 罗校清
(1.湖南电气职业技术学院,湖南 湘潭 411100;2.湖南软件职业技术大学,湖南 湘潭 411100)
一、前言
如何利用信息技术提供个性化学习环境及服务已成为当前教育研究者关注的焦点。近年来,随着人工智能大数据等技术的逐渐成熟,越来越多的教育研究者将研究重点定位到利用在线学习平台上的大量学习行为数据进行分析,实现个性化教学。用户画像也随着信息技术的发展兴起,通过多维度数字化标签抽象用户个人信息数字化特征,准确解析用户需求及预测用户变化趋势,现已用于个性化服务推荐、精准营销等方面。用户画像十分契合在线学习用户精准、个性化服务需求。
用户画像是一个综合的研究领域,通过数字标签体系对用户特征进行描述,预测用户未来需求或变化方向,从而为用户提供个性化推荐信息。随着大数据技术的发展,人们通过用户画像将用户数据转化为商业价值,众多行业引入了用户画像的理念,实现对核心用户价值的挖掘,开展产品的精准营销和个性化服务。其中,图书馆领域的研究成果最为广泛,对讲座信息推荐[1]、科研推送服务[2][3][4]、专利推送[5]、资源推荐[6]等主题开展用户画像的应用进行了探讨。
目前,基于用户画像的个性化推荐服务国内研究并不多见。有学者从个性化推荐过程的用户建模、推荐对象建模和推荐策略三个模块对现有学术资源个性化推荐进行了探讨[7];也有学者将用户画像技术引入图书的个性化推荐中[8];也有学者针对旅游情境化推荐服务问题,提出了一个基于用户画像的景点推荐模型并进行了实证研究[9];还有学者提出从单用户和多用户角度基于用户画像技术推荐图书馆资源,为大数据环境下面向用户的图书馆资源精准推荐提供参考[10]。基于用户画像的在线学习个性化推荐服务相关研究暂时处于空白。
国外学者主要从用户画像定义及用户画像实践应用方面进行研究。S.Gauch,M.Speretta 等也将用户画像视为一种集合[11]。Guimaraes 等将用户画像的构成要素归纳为:用户的基本素养、学历层次、社会关系[12]。在实践应用方面国外学者将用户画像较多地应用于图书馆的用户体验改善研究中。如Z.Holt 以高校图书馆为例,阐述研究了用户画像的构建及应需而变的发展变化过程[13]。M.Otterlo 以图书馆的业务服务为例,借助市场细分方法绘制用户画像,并以可视化展示的方式提供给馆员实现相应图书馆服务的优化[14]。
通过国内外研究现状得出,国内外对基于用户画像技术的资源个性化推荐的方法及模式研究较少,且大部分研究集中在图书馆方面,尚无文献对基于用户画像的在线学习资源个性化推荐服务展开系统论述。
二、在线学习用户画像的构建
基于用户画像技术的在线学习用户画像构建过程主要有在线学习用户数据采集、在线学习用户数据处理、在线学习用户画像构建。通过各类在线学习平台数据的采集,采用非结构化标签关键词处理相关数据,得出在线学习用户属性值的特征标志,形成在线学习用户标签体系。基于用户标签体系,采用非结构化关键词法对在线学习用户进行画像构建,最终形成在线学习用户画像[15]。
(一)在线学习用户数据采集
在线学习用户数据采集主要采用系统日志法。在线学习平台中日志文件数据由在线学习平台系统产生,记录了用户在登录平台过程中所产生的所有活动数据,比如用户的访问轨迹、用户与系统互动数据、用户学习时长等。许多在线学习平台都有自己的数据采集工具用于系统日志数据采集,这些工具采用分布式架构,能满足每秒数百MB 的日志数据采集和传输需求。
在线学习用户数据主要来源于各个在线学习平台,数据类型主要分为两种:一种为静态信息,即一段时间内不会发生变化、相对稳定的数据;另一种则为动态信息,即随着时间的变化而发生变化。静态信息的组成主要为用户基本属性数据,例如性别、年龄、学历、专业及研究领域、地区等。动态信息的组成主要为用户学习资源偏好、用户平台互动、用户访问记录等。动态信息也是用户画像实时更新的主要数据来源。在线学习用户数据来源如表1 所示。
表1 在线学习用户数据类型及来源
(二)在线学习用户数据处理
通过在线学习平台所收集的数据主要有三种类型:结构化数据,例如用户会话相关数据中访问时间、登录次数等;半结构化数据,例如用户会话相关数据中性别、年龄等;非结构化数据,例如用户学习互动过程是对学习资源的评论、分享、情感态度等。结构化数据清洗简单,只需要通过简单挖掘便可形成标签。半结构化数据和结构化数据则需要大量的时间进行清洗和标准化处理,从而减少缺失项、数据冗余、数据异常、数据噪声等问题。
将用户属性的所有标志综合起来,形成在线学习用户标签体系。其中用户基本属性数据主要对应人群属性标签,用户学习资源偏好属性数据主要对应资源选择偏好标签,用户学习互动属性数据主要对应操作偏好、活跃度等标签。在线学习用户数据与标签对应主要如表2 所示。
表2 在线学习用户数据与标签对应表
科学合理的标签是个性化资源推荐成功的重要因素。在线学习用户标签体系构建时需要注意标签粒度大小。过小的标签粒度会导致标签没有泛化能力和使用价值,降低推荐精度。过大的标签粒度会导致标签没有区分度,造成推荐资源泛滥。为了保证在线学习用户画像精准度及泛化性,我们构建层次化标签体系,同时用不同粒度大小的标签来匹配在线学习用户的兴趣偏好,从而保证标签的准确性和泛化性。
例如,某一在线学习用户在在线学习平台上点击“协同过滤推荐算法”这一单元知识点,如果用单个单元知识点作为用户画像标签粒度,画像粒度就会过于精细,系统认为用户仅对“协同过滤推荐算法”感兴趣,在进行在线学习资源推荐时,也仅推荐“协同过滤推荐算法”相关的学习资源,可能将其他的个性化推荐算法学习资源忽略。如果采用“算法”作为在线学习用户画像标签粒度,则无法捕捉到用户的实际需求是个性化推荐,从而会给用户推荐一系列算法,如人工智能、遗传算法等,这样的推荐也缺乏精准性,从而达不到预期效果。因此,将“协同过滤推荐算法”和“算法”同时列为不同层次标签,这样系统就可以匹配出“推荐算法”,提高标签准确性。
(三)在线学习用户动态画像构建
在数据清洗、集成及标签化处理后,通过用户标签体系对在线学习用户从多个维度不同层次进行画像构建,从而形成在线学习用户画像库。基于在线学习用户画像,预测用户潜在需求,进行个性化资源推荐。
例如,某在线学习用户画像如下:
{基本信息:女,汉,本科,计算机,湖南长沙,白领;
学习资源偏好:python,数据挖掘,大数据
互动偏好:邮箱、留言;
会话偏好:活跃度高;
学习效果:高;}
由于在线学习用户随着时间的推移兴趣偏好会发生变化,用户画像也需要动态更新。因此在构建用户画像时,引入随着时间窗口变化的兴趣衰减因子X=1/T,T表示产生的天数,时间越长,在线学习用户对较早访问的兴趣偏好资源会逐步衰减,构建用户画像时权重越小。时间越短,表示近期兴趣偏好资源在构建用户画像时权重越大,便于实时更新用户画像,生成在线学习用户动态画像,进一步提高推荐的准确度。
三、基于用户画像的在线学习个性化推荐服务
在线学习个性化推荐服务主要有个性化服务推荐体系、在线学习资源个性化推荐流程及推荐学习资源展示和发送等内容。
(一)在线学习个性化推荐服务体系设计
基于用户画像的在线学习个性化推荐服务体系主要在数据收集、数据处理、资源推荐三个功能模块基础上完成。基于各个在线学习平台收集用户各类静态和动态信息,为数据处理模块提供数据基础。在数据处理模块中,采用关键词法建立非结构化标签体系。基于标签体系,预测用户个性化资源需求,进行个性化资源推荐。在资源推荐模块中也实时考虑用户画像的动态变化,根据在线学习用户动态画像,反映用户的兴趣变化,推荐系统实时更新展示推荐结果。基于用户画像的在线学习个性化推荐服务体系结构设计如图1 所示。
图1 基于用户画像的在线学习个性化推荐服务体系结构图
(二)基于用户画像的在线学习资源个性化推荐服务流程设计
通过在线学习平台收集在线学习用户基本数据和用户行为数据,并对非结构化数据进行处理,形成画像标签体系,生成在线学习用户画像。随着用户行为数据的更新,用户画像也在动态变化,以适应用户需求的动态性和多样性。基于用户画像,推荐平台预测用户兴趣资源,从在线学习资源库中检索相关资源,将资源以学习单元的形式展示在在线学习平台,推荐给学习用户。基于用户画像的在线学习资源个性化推荐流程设计如图2 所示。
图2 基于用户画像的在线学习资源个性化推荐流程图
(三)基于用户画像的在线学习资源个性化推荐服务实现
基于用户画像技术,构建基于时间序列的在线学习用户动态画像,从而对在线学习用户感兴趣资源进行个性化推荐预分析进行推荐处理,形成在线学习资源推荐列表。将在线学习资源以单个学习目标的形式,根据在线学习用户画像和在线学习资源的匹配情况,基于在线学习平台的自动推送功能将资源主题、关键词定时发送给在线学习用户。推送方式可先用平台内消息、邮件、短信等。在推送消息下方有用户反馈选项,例如是否对推送内容感兴趣,以便及时了解推送效果。在推送信息中,提醒用户及时报名进行学习。如果推送内容用户不感兴趣,则用户可以提交自己感兴趣的主题到后台,后台通过在线学习资源库进行匹配,从而再次推荐给用户。
为解决推荐算法中的数据稀疏性和冷启动性问题,在基于用户画像的在线学习资源个性化推荐服务中,采用一种混合式协同过滤算法。目前常用的协同过滤算法有基于用户的协同过滤算法和基于项目的协同过滤算法。基于用户的协同过滤算法是指找到相似用户感兴趣的项目推荐给当前用户,基于项目的协同过滤算法是指给用户推荐其以前喜欢的相似项目。我们采用基于用户和项目的一种混合式协同过滤算法进行在线学习用户个性化资源推荐。在混合式协同过滤算法中,为了减小用户项目评分偏置影响,采用皮尔逊相关系数计算用户和用户或项目和项目之间的相似度,寻找到推荐项目,最后利用Mahout 构建推荐系统引擎,实现个性化推荐服务。
(四)基于用户画像的在线学习资源个性化推荐服务评估
基于用户画像的在线学习资源个性化推荐服务评估主要从三个方面进行:推荐项目准确率、覆盖率及新颖度。
推荐项目的准确率指的是在线学习过程中,基于用户画像技术,预测在线学习用户感兴趣的学习资源,并以学习单元的形式呈现出来,用户点击并进行学习的概率。准确率综合考虑用户对资源的点击率和学习时间长度,点击率越高,学习时间越长,在线学习资源的个性化推荐服务准确率则越高。
为了检验混合式推荐推荐算法对于解决算法冷启动性问题效果,我们在评估个性化推荐服务时引入项目覆盖率,即给用户呈现的个性化学习资源占整个资源比例。覆盖率反映了推荐算法发掘长尾的能力,覆盖率越高,说明推荐算法越能将长尾中的在线学习资源推荐给学习用户。如果在线学习资源所有学习单元都至少被推荐给一个在线学习用户,则项目的覆盖率为100%。
在线学习用户在学习过程中,兴趣爱好往往具有动态性和多样化特点,因此,推荐项目的新颖度可以很好地表现在线学习用户的兴趣动态化和多样化。采用推荐列表中在线学习资源的流行度衡量推荐项目的新颖度。由于在线学习资源的流行度呈长尾分布,为了使流行度的平均值更加稳定,对在线学习资源的流行度取对数。如果推荐列表中学习资源流行度高,说明在线学习资源推荐的新颖度较低,资源缺乏多样化。如果推荐列表中学习资源流行度低,说明在线学习资源推荐的新颖度较高,可以满足在线学习用户多样化需求。
四、结语
在线学习资源超载问题出现在线学习过程中断或学习效率低下等现象。用户画像技术的出现解决了这一难题,给在线学习个性化资源推荐带来了新思路。基于用户画像技术,采集在线学习用户动态及静态数据,在相关数据的基础上构建在线学习用户的多维度动态画像并实时进行更新,形成以个体需求为导向的个性化推荐,结合混合式协同过滤算法实现用户个性化资源的精准推送,从而提高在线学习用户学习的主动性,同时大大提高在线学习效率,实现个性化教育。在接下来的研究中,我们将继续优化在线学习用户画像构建方法,进一步提高在线学习资源个性化推荐精度,实现个性化智慧教学。