在线学习资源的个性化智能推荐研究探析
2022-02-24马华李京泽
马华 李京泽
摘 要: 由于在线学习学习者的认知能力的不确定性、学习兴趣的变化性、用户偏好的多样性等,在线学习资源的个性化智能推荐面临新挑战。文章根据学习者认知能力的模糊综合诊断和学习者多重特征信息融合等,对在线学习资源的个性化智能推荐进行了研究,以期为相关研究者提供参考和启发。
关键词: 个性化学习; 学习资源; 个性化推荐; 认知诊断
中图分类号:G642 文献标识码:A 文章编号:1006-8228(2022)02-111-05
Research on personalized intelligent recommendation of online learning resources
Ma Hua, Li Jingze
(College of Information Science and Engineering, Hunan Normal University, Changsha, Hunan 410081, China)
Abstract: Due to the uncertainty of online learners' cognitive abilities, the variability of learning interests and the diversity of personalized preferences, the personalized intelligent recommendation of online learning resources is facing new challenges. According to the fuzzy comprehensive diagnosis of learners' cognitive ability and the information fusion of learners' multiple characteristics, this paper researches the personalized intelligent recommendation of online learning resources, in order to provide relevant researchers with reference and inspiration.
Key words: personalized learning; learning resources; personalized recommendation; cognitive diagnosis
0 引言
基于互聯网的在线学习作为教育信息化的主要表现形式,是未来人们学习的一种主要趋势[1]。目前,国内外主流的公共在线学习平台,例如edX、中国大学MOOC、智学网、EduCoder等,已积累了包括慕课、开放式课程(OCW)、习题、试题、实验等在内的庞大学习资源,并且,参与在线学习的学习者人数和学习时间也日益增长。《2020年腾讯课堂大数据报告》显示,2019年腾讯课堂在线课程超17.8万门,累计报名3430万余门课程,总学习时长累计达7531年。
智能化教育环境中,获得通用的学习资源已不再是学习者的核心需求。学习者希望从海量学习资源中快速地挑选出适合自己的个性化资源来有效完善自己的知识结构[2]。而智能化推荐系统可以为在线学习者提供与其认知状态和学习能力相匹配的个性化学习资源推荐,这也是当前智能化教育发展的迫切需要[3]。
面对已生成的教育大数据和丰富的学习资源,在学习者的认知能力的不确定性、学习兴趣的变化性、个性化偏好的多样性等因素影响下,当前学习资源的个性化智能推荐研究面临诸多挑战。
⑴ 为诊断学习者的认知状态和定量考察学生的个体差异、知识认知水平,通常采取的方法是对学习者的在线测试(或练习)的结果进行建模分析,然而,由于可能存在的知识点自身内在的复杂性、在线测试题设计的局限性、学习者测试现场表现的意外性等因素,导致学习者的知识认知水平诊断结果具有明显的模糊不确定性和随时间变化的动态性特征[4],如何充分挖掘在线学习大规模普及背景下生成的测试或练习结果数据,选用合适的模糊数学工具来系统性地度量学习者认知能力中蕴含的不确定性和动态性特征变得越来越迫切。
⑵ 学习者往往同时在线学习多门相关课程,他这时“信息迷航”和“信息过载”等问题更加突出。以2020年新冠疫情期间的线上学习为例,一名大学生在线学习的课程约在十门左右,其筛选学习资源的工作量极其庞大。现有学习资源推荐的研究主要针对单一课程的在线学习活动进行认知能力分析,一般缺乏考虑知识点的覆盖及层次结构等问题[4-6]。所以在线学习资源推荐的研究不仅要考虑同一课程内知识点间的低层认知能力,也要综合考虑涵盖多门课程的高层认知能力。如何对涉及多门课程的多个知识点进行多层次的学习者认知能力建模,是做到精准的个性化学习资源智能推荐的前提条件。
针对在线学习中学习者认知能力的不确定性和动态性特点,以及学习者在跨学科、跨课程学习时遇到的“信息迷航”和“信息过载”困境,本文从模糊综合诊断、学习者多重特征信息融合两个方面,对在线学习资源个性化智能推荐进行探析,以期为相关研究提供参考和启发。
1 国内外研究现状
⑴ 学习者认知能力诊断
在心理与教育测量中,人们通常把对个体认知过程、加工技能或知识结构的诊断评估称为认知诊断。具有认知诊断功能的心理计量模型被称为认知诊断模型(cognitive diagnosis model,CDM)。由于能较好地从知识点层面对学生的认知状态进行建模,CDM在国内外引起广泛关注,至今比较成熟的研究有项目反映理论(item response theory,IRT)和DINA模型(Deterministic Inputs,NoisyAnd-gatemodel)[7]。由于参数简单和易于识别理解,DINA模型的应用更为广泛。
传统DINA模型只针对客观题进行诊断,即答案只有对与错两种结果,未考虑学生在主观题上的答题情况。近年来国内外研究者对DINA模型有多种改进。涂冬波等人针对DINA模型仅适应于包含0分和满分的两级0-1评分机制的不足,开发了支持多级评分的P-DINA模型,它可适应从0分到满分区间内共(满分+1)种不同的评分类别[8]。蔡艳等人[9]针对P-DINS模型下学生的得分可能被推向0分或满分两个极端的问题,提出了rP-DINA模型,它对学生的理想得分进行重新构造,可支持从0分到满分的各种理想得分。Wu等人[4]针对传统DINA模型无法有效诊断主观题的问题,提出了一种面向学生个性化学习的模糊认知诊断分析框架FuzzyCDF,它将学生的认知能力表示为模糊集合的隶属度(即一个[0,1]范围内的实数),采用模糊交和模糊并来建模客观题和主观题的认知作答模式。李忧喜等人[6]在Fuzzy-CDF的基础上提出R-FuzzyCDF模型,它在知识点的掌握程度中引入了知识点重要性因子,将知识点的重要程度与其后继知识点的个数以及相关的试题数量关联起来,该模型进一步提升了诊断模型的准确率,但因增加参数数量导致加重了计算负担。然而,以上模型和方法对于准确诊断在线学习环境下学习者的认知能力仍存在明显的局限性。一方面,由于一些知识点本身可能是复杂和抽象的,而测试题对于知识点的覆盖度可能是不完全的;另一方面,学习者在知识点的理解深度和运用水平的灵活性上存在不稳定性,从而导致测量诊断结果表现模糊性和不确定性。
⑵ 学习资源的个性化推荐方法
当前,各大在线学习平台已能公开提供数量庞大的各类学习资源,但是,绝大多数平台通常只支持查询检索各类学习资源,缺乏个性化推荐功能。因此,研究面向在线学习的个性化学习资源推荐具有越来越重要的现实意义。个性化学习资源推荐的现有学术研究中通常使用协同过滤算法。按协同过滤算法的类型,相关的主要研究可以分为以下两类。
① 采用基于近邻的协同过滤算法的个性化学习资源推荐。该类研究首先根据学生在试题上的答题记录计算学生之间的相似度,找到目标学生的相似学生群组,通过相似学生的得分对目标学生进行得分预测,进一步根据预测的得分进行试题推荐。例如:Wu等人[10]提出的一种在线学习背景下基于模糊树匹配用户学习资源的个性化推荐方法;Dwivedi等人[11]提出的一种融合不同学生的学习兴趣并向一组学生进行个性化学习资源推荐的方法;Huang等人[12]在传统的基于内容的推荐算法基础上结合word2vec模型进行物品建模以及物品相似度计算,提出了一种慕课推荐算法。该类研究的不足是,使用近邻学生的表现来预测其他学生的表现时,会丢失学生自身的一些学习特性。
② 采用基于模型的协同过滤算法的个性化学习资源推荐。该类研究应用最为广泛的是矩阵分解方法,它可以将高维矩阵分解成低维矩阵,利用该技术可以获取学习者对于学习资源在低维空间中的表现,并依此来完成学习资源推荐。例如:Koren等[13]利用矩阵分解对学习者的试题得分矩阵进行处理,据此來预测学生在其他试题上的得分,并将得分较高的试题推荐给学生;Lian等人[14]通过分析图书借阅历史和GPA成绩数据,提出了有监督的内容感知的矩阵分解算法来相互增强图书的推荐和成绩的预测。该类研究的不足在于,由于矩阵分解得到的潜在向量的含义难以解释,使其在用于学习资源推荐时具有一定的局限性,即推荐结果的可解释性不强。
2 研究方法探析
为提高个性化学习资源推荐的准确性、学习者的学习效率和学习满意度。本文认为可以从学习者认知能力的层次化模糊综合诊断和学习者多重特征信息融合的个性化推荐方法两个层面进行分别研究。
2.1 学习者认知能力的多层模糊诊断方法
利用测试或练习来评估学生能力并通过学生作答来建模学生认知,己经是教育学(尤其是教育心理学)的核心研究。在线学习的大规模普及,使得持续获取涉及多门课程、多个知识点的测试或练习结果数据变得可行。但是,目前对学习者认知能力的建模主要分为离散型(即0或1)模型或连续型(即在[0,1]区间内的单值实数)模型,尚未充分利用时序化、多样性的测评数据,也缺乏对学习者认知能力的不确定性和动态性特征进行模糊量化诊断的有效支持。
针对学习者认知能力的模糊性和不确定性特点,本文认为可以引入具有多值表征特点的模糊数学理论,例如,中智集(neutrosophic set)[15]或犹豫模糊集。以中智集为例,它在刻画不精确、不完全和不确定信息方面具有独特优势,可为全面、客观评估学习者的认知能力提供重要的理论支持。中智集合中每个元素由独立的真实度、不确定度以及失真度三个分量组成。在中智集基础上,单值中智集、区间中智集[16]等理论得到发展,并获得较广泛的应用[17-18]。本文认为,可通过扩展区间中智集理论定义“认知诊断区间中智集”对学习者的认知能力进行模糊化度量,将认知能力建模为一个“认知诊断区间中智集”数,即:A=〈P,U,R〉。其中,0≤infP+infU+infR≤3,0≤supP+supU+supR≤3,P,U,R∈[0,1];inf和sup分别表示取下限和取上限值;P=[infP,supP]表示完全掌握知识点的可能度区间值,它对应区间中智集中的真实度函数;R=[infR,supR]表示完全未掌握知识点的可能度区间值,它对应区间中智集中的失真度函数;U=[infU,supU]表示P和R的不确定度,它对应区间中智集中的不确定度函数。这个数中,P越大、R和U越小,则意味着它所对应的认知能力越优秀。在“认知诊断区间中智集”数的上、下区间值进行度量时,可以结合云模型理论等进行不确定性的度量[18]。
新的模糊数学理论的引入,可更全面客观地刻画学习者认知能力的模糊性和不确定性。通过上述方法获得学习者认知能力的表征结果后,为将其应用于认知诊断计算,需要对新的认知诊断模型中的参数进行估算,可采用MCMC(Markov Chain Monte Carlo)算法来尝试参数估算。
接下来,构建覆盖包括“学科-专业-课程-知识点”四个层次的认知能力刻画机制。
⑴ 使用爬虫从公共在线学习平台上爬取的课程简介信息以及各类学习资源简介。
⑵ 对爬取的信息进行切词、去除停用词等文本预处理,计算学习资源所属知识点之间以及课程之间的词权重相似度。同时,提取课程简介的关键字信息,计算课程间的词向量相似度,对词权重相似度和词向量相似度进行合成。
⑶ 按《教育部发布普通高等学校本科专业目录(2020年版)》对课程进行专业和学科划分。
⑷ 基于上述计算获得的学科、专业、课程和知识点间的相似度,可构建一个相似度网络图,由它发现相关课程的知识点之间的显性或隐性的关联关系。
基于这些关联关系,在进行学习者认知诊断时,可从具有间接相似关系的知识点获得学生认知能力的间接评价,即学习者对于当前知识点的掌握程度,可从相关知识点进行间接评估,从而支持学习者在进行跨课程的知识点学习时学习资源推荐面临的冷启动或数据稀疏问题。
2.2 学习者多重特征信息融合的个性化推荐方法
在线学习大规模普及背景下,各大在线学习平台均已积累了数量庞大的学习资源,但是,由于学习资源自身存在着学习难度、认知层次、资源类型、制作质量等诸多差异,而学习者自身也存在着认知能力水平、学习兴趣、学习风格等多方面的不同,当前学习者在选择学习资源时更容易发生信息超载与知识迷航等现象。因此,一个智慧的个性化在线学习平台,需要深入挖掘“学习者-资源”的多维关联关系,融合在线学习者的多层模糊综合认知诊断以及学习者的显式或隐式偏好等多维特征信息,以为学习者提供学习资源的个性化推荐服务。
学习者的个性化偏好是学习者基于个人喜好和已知信息对学习资源的具体和抽象认知的一种心理倾向,是学习者需求的外在表现。具体地说,学习者偏好是学习者在学习过程中的心理倾向,它不仅局限于具体的学习资源,还包括对各种抽象、感性的因素的关注点、喜好程度、需求等。个性化偏好识别侧重于从教育大数据中挖掘学习者对于学习资源的个性化信息,包括通过显性或隐性行为挖掘和情感分析来获得学习者的多样化偏好、抽取学习者偏好的时间特征等。在线学习平台中的行为数据和社交数据中往往隐含着学习者长期稳定的及近期的偏好信息。本文建议从长期稳定的/近期的学习者显性偏好挖掘、长期稳定的/近期的学习者隐性偏好挖掘、时间感知的学习者偏好的动态预测等三个方面进行研究。
⑴ 長期稳定的/近期的学习者显性个性化偏好挖掘。可采集并分别分析所有时间范围内的和近期一段时间内关于学习资源的使用频率、学习时长等相关数据,采用数理统计的方式对学习者在不同类型的学习资源的喜好程度进行分析,识别出学习者喜好的学习资源类型,并进一步识别学习者对学习资源不同属性的态度。同时,可通过TF-IDF/高频词等关键词提取技术、LAD主题模型等方法深入挖掘所有时间范围内的和近期一段时间内的学习者的发言、讨论和评论中的文本信息,以此来刻画学习者对各个学习资源属性的情感倾向,获得各类属性下的情感得分,并探讨近期时间段的选择对后续学习资源选择的影响。
⑵ 长期稳定的/近期的学习者隐性个性化偏好挖掘。可采集并分别分析所有时间范围内的和近期一段时间内学习者的点击、浏览以及对某一学习资源的收藏、关注等行为产生的相关数据。采用统计分析、社会网络分析、关键词提取等方法从学习者生成的所有时间范围内的和近期一段时间内的浏览、点击等行为数据以及收藏、关注等社交数据中挖掘出学习者的兴趣点。
⑶ 时间感知的学习者个性化偏好的动态预测。考虑到学习者的偏好可能会随时间而动态变化,基于学习者长期稳定的/近期的显性和隐性偏好,可通过支持向量机、神经网络、SoftMax回归等方法对显式及隐式的偏好特征进行学习,从而判断学习者是否喜欢未体验过的学习资源。通过建立合适的量化指标,来衡量学习者对未体验过的学习资源的喜好程度,从而使之能用于后续推荐中对学习资源期望的量化。
3 结束语
在线学习大规模普及背景下,各大在线学习平台均已积累了数量庞大的学习资源,但是由于学习资源自身存在着学习难度、认知层次、资源类型、制作质量等诸多差异,而学习者自身也存在着认知能力水平、学习兴趣、学习风格等多方面的不同,学习者在选择学习资源时容易发生信息超载与知识迷航等现象。本文总结了当前在线学习资源个性化推荐面临的挑战和相关研究现状。提出从学习者认知能力的模糊综合诊断、学习者多重特征信息融合等两个方面,对在线学习资源的个性化智能推荐研究进行探析,以期为相关研究提供参考和启发。
参考文献(References):
[1] Binbin Zheng, Chin-Hsi Lin, Jemma Bae Kwon.Theimpact of learner, instructor-, and course-level factors on online learning[J].Computers & Education,2020,150:103851
[2] Robert Bodily, Katrien Verbert. Review of research onstudent-facing learning analytics dashboards and educational recommender systems[J]. IEEE Transactions on Learning Technologies,2017,10(4):405-418
[3] 鄭庆华,董博,钱步月,田锋,魏笔凡,张未展,刘均. 智慧教育研究现状与发展趋势[J].计算机研究与发展,2019,56(1):209-224
[4] Runze Wu, Qi Liu, Yuping Liu, Enhong Chen, Yu Su,Zhigang Chen, Guoping Hu. Cognitive modelling for predicting examinee performance [C]. Proceedings of the 24th International Joint Conference on Artificial Intelligence,2015:1017-1024
[5] 王超,刘淇,陈恩红,黄振亚,等. 面向大规模认知诊断的DINA模型快速计算方法研究[J].电子学报,2018,46(5):1047-1055
[6] 李忧喜,文益民,易新河,等.一种改进的模糊认知诊断模型[J].数据采集与处理,2017,32(5):958-969
[7] 朱天宇,黄振亚,陈恩红,等.基于认知诊断的个性化试题推荐方法[J].计算机学报,2017,40(1):176-191
[8] 涂冬波,蔡艳,戴海琦,等.一种多级评分的认知诊断模型:P_DINA模型的开发_[J].心理学报,2010,42(10):1011-1020
[9] 蔡艳,赵洋,刘舒畅,等.一种优化的多级评分认知诊断模型[J].心理科学,2017,40(6):1491-1497
[10] Dianshuang Wu, Jie Lu, Guangquan Zhang. A fuzzy treematching-based personalized e-learning recommender system[J].IEEE Transactions on Fuzzy Systems,2015,23(6):2412-2426
[11] Pragya Dwivedi, Kamal K. Bharadwaj. e-Learningrecommender system for a group of learners based on the unified learner profile approach[J]. Expert Systems,2015,32(2):264-276
[12] Ran Huang, Ran Lu. Research on content-based MOOC recommender model[C]. Proceedings of the 5th International Conference on Systems and Informatics,2018:676-681
[13] Yehuda Koren, Robert Bell, Chris Volinsky. MatrixFactorization Techniques for Recommender Systems[J]. Computer,2009,42(8):42-49
[14] De-Fu Lian, Qi Liu. Jointly recommending library booksand predicting academic performance: A mutual reinforcement perspective[J].Journal of Computer Science and Technology,2018,33(4):654-667
[15] Florentin Smarandache. A unifying field in logics:Neutrosophic logic[M].Rehoboth,NM:American Research Press,1999
[16] Haibin Wang, Florentin Smarandache, Yanqing Zhang,Rajshekhar Sunderraman. Interval Neutrosophic sets and logic: Theory and applications in computing: theory and applications in computing [M]. Hexis Phoenix Az,2005
[17] Nouran M. Radwan, M. Badr Senousy, Alaa El Din M.Riad. A new expert system for learning management systems evaluation based on neutrosophic sets[J]. Expert Systems,2017,33(6):548-558
[18] Hua Ma, Haibin Zhu, Zhigang Hu, Keqin Li, WenshengTang. Time-aware trustworthiness ranking prediction for cloud services using interval neutrosophic set and ElECTRE[J]. Knowledge-Based Systems,2017,138:27-45