基于阅读认知诊断的学生表现预测
2022-06-09江培超胡富珍王晓东
江培超,王 川,胡富珍,李 奇,王晓东
1.河南师范大学 计算机与信息工程学院,河南 新乡 453007
2.河南师范大学 教育学部,河南 新乡 453007
近年来,在线教育平台的发展为学生的自主学习与个性化导学提供了重要手段。例如,大规模在线开放课程(massive open online course)[1]、智能教辅系统(intelligent tutoring system)[2]以及移动自主学堂(mobile autonomous school)[3-4]。其中,这些平台的关键任务之一是预测学生表现(predicting student performance,PSP)。
一般地,PSP任务旨在评估学生在一系列试题上的得分情况,即预测学生是否可以正确作答相应试题(答对为1,答错为0)[5]。它可被进一步推广到多种教育应用中,例如个性化试题推荐[6]、教学计划提升等[7-8]。
教育心理学中的认知诊断方法(cognitive diagnosis)利用学生在某些试题上的作答记录对其知识状态(如知识点掌握程度)进行评估,通过结合评估结果与教育先验知识(如试题-知识点矩阵Q)[9]预测学生的试题得分。显然,认知诊断方法使得预测结果具备了良好的解释性。然而,由于学生的知识状态具有一定的隐蔽性[10],因此仅通过学生的作答记录对其进行推断可能存在误差,从而难以保证预测结果的准确性。推荐系统中的协同过滤方法也可用于预测学生表现,例如k近邻算法(knearest neighbor,kNN)[11]、矩阵分解(matrix factorization)[12]。其中,矩阵分解是一种典型的预测技术,它将学生的得分矩阵分解成学生与试题的潜在特征向量。但是,由于分解的潜在向量难以理解,导致预测结果的可解释性较弱,即不能清晰地描述出潜在向量中的元素与特定知识点的对应关系。此外,无论是认知诊断方法还是协同过滤方法,它们在预测学生表现时仅考虑了学生的试题作答记录,然而在实际场景中,某些试题作答记录的获取是不现实的。例如,在某些标准化测试中,诸如重要的托福(TOEFL)、雅思(IELTS)考试与一般的期中、期末考试,由于测试开始之前无法提供学生的试题作答记录,使得上述方法难以预测学生的试题表现。总结起来,现有方法在预测学生表现时主要存在如下问题。首先,预测结果的准确性与可解释性难以同时保证[6,13]。其次,受限于某些真实场景,导致无法预先获取学生的试题作答结果。因此,在没有学生作答记录的情况下,现有方法难以预测学生表现。
实际上,学生在作答试题之前,通常会选择性地阅读一些具有辅助性质的文本类学习材料,来巩固自身的知识状态(弥补自身对某些知识点掌握的不足),从而提高其作答表现。由于不同学生自身固有的知识水平不同,使得其所阅读学习材料的内容(阅读内容)也不尽相同。因此,学生的阅读内容往往表达了他们对不同知识点的掌握与需求程度,从而反映出自身的知识状态,即所提阅读认知诊断(reading cognitive diagnosis)。为了更好地说明,图1展示了一个阅读认知诊断的形象例子。学生在作答试题之前,阅读了一些与试题所考察特定知识点相关的学习材料(学习材料L1、L2、L3),由于这些学习材料与试题之间具有较强的关联性(两者同时考察了知识点K1、K2、K3),那么学生在阅读学习材料后可能会对特定知识点具备一定的熟练程度(对知识点K1、K2、K3的掌握程度),从而达到提升作答表现的目的(提高了试题E2、E3得分)。因此,阅读认知诊断可以反映出学生的知识状态,有助于预测学生表现。表1给出了一个学习材料示例。
图1 阅读认知诊断示例Fig.1 Example of reading cognitive diagnosis
表1 学习材料示例Table 1 Example of learning material
为了提高预测结果的准确性与可解释性,本文以阅读认知诊断的方式,建模学生知识状态,预测学生表现,在此过程中面临着如下问题。首先,准确建模学生的知识状态是有效预测学生表现的前提。通常,学生阅读学习材料后会对其产生一个潜在的认知程度[14-15],潜在认知程度的不同可能会导致他们具有不同的知识状态。因此,如何量化学生对学习材料的潜在认知程度?其次,学习材料的难度可能会影响学生对特定知识点的掌握程度[16-17],从而影响其知识状态。因此,如何对学习材料的难度进行量化?最后,如何基于阅读认知诊断建模学生知识状态,得到堪用的学生表现预测结果?
为了解决这些问题,本文提出一种基于阅读认知诊断的知识状态建模方法(reading cognitive diagnosis,记为ReadingCD),预测学生表现。首先,利用学生的阅读内容,量化出学生对学习材料的潜在认知程度。其次,通过结合教育学假设,量化得到学习材料相对于每个学生的难度。然后,利用上述两个量化结果,计算出学生对每个学习材料的实际掌握程度。在此基础上,根据教育先验知识(学习材料与知识点之间的关联)评估学生对每个知识点的掌握程度,作为学生知识状态的建模结果,据此预测学生表现。因此,本文的主要贡献为:(1)提出了一种关于学习材料潜在认知程度的量化方法,该方法可以有效应用于学生的知识状态建模;(2)提出了一种关于学习材料难度的量化方法,该方法结合合理的教育学假设,更为准确地刻画了学生的知识状态;(3)设计了一种知识状态建模方法ReadingCD并用其预测学生表现。实验证明,该方法提高了预测结果的准确性与可解释性。同时,可以预测学生在无作答记录情况下的试题得分,一定程度上缓解了目前方法在实际应用中的局限性。
1 相关研究
1.1 认知诊断
教育心理学中的认知诊断方法可以发现学生的知识状态,进而预测学生表现[18]。通常,传统的认知诊断模型可被分为两类:连续型与离散型。其中,项目反应理论(item response theory,IRT)是一种典型的连续型模型,它通过逻辑函数将每个学生的知识状态刻画为一个连续的数值变量[16],用以描述学生的综合知识能力。相较而言,DINA模型(deterministic inputs,noisyand gate)作为一种离散模型,将学生的知识状态表示为一个二值向量[9],表示学生是否掌握了Q矩阵中的知识点(掌握为1,未掌握为0)。虽然认知诊断方法的可解释性较强,但得到的预测结果通常不够准确[6,13]。为了提高预测的有效性,相关学者对认知诊断模型进行了改进。例如,文献[19]与文献[20]在模型中融入了时间因素。文献[13]提出了FuzzyCDF以预测学生在主观试题与客观试题上的表现。文献[21]提出了结合神经网络的NeuralCD,用以学习学生与试题之间的复杂关系。
1.2 协同过滤
近年来,研究者尝试使用推荐系统中的协同过滤方法预测学生表现,它可以分为两类:基于近邻的协同过滤与基于模型的协同过滤。其中,基于近邻的协同过滤[11]根据学生的试题作答记录计算学生之间的相似度,据此找到目标学生的相似学生群组,通过利用相似群组中学生的试题得分,对目标学生进行得分预测。基于模型的协同过滤,如矩阵分解,已被广泛应用于学生表现预测中。例如,文献[22]改进奇异值分解方法(singular value decomposition),通过得分矩阵来获得学生与试题的潜在特征向量。文献[12]将矩阵分解与传统回归方法在学生表现预测中进行比较。随后,文献[23]提出一种用于智能教辅系统中学生建模的多维关系分解方法(multi-relational factorization)。此外,文献[24]应用非负矩阵分解方法(nonnegative matrix factorization,NMF)[25]推断Q矩阵。为了捕捉学生的答题过程,相关学者考虑了一些额外因素。例如,文献[26]提出一种通过增加额外时间因素的张量分解方法。文献[27]注意到学习曲线理论(learning curve theory)与遗忘曲线理论(forgetting curve theory)对学生表现的影响,将二者纳入统一的概率框架。虽然矩阵分解技术一定程度上提高了预测结果的准确性,但是,由其推断出潜在特征向量的每个维度不能与特定的知识点相关联,导致学生表现预测结果的可解释性较弱。
此外,认知诊断方法与协同过滤方法预测时大多利用了学生的试题作答记录,因此难以预测无作答记录的学生在试题上的得分,这使得目前方法在实际应用中具有一定的局限性。
2 问题定义
针对具体工作,给出知识状态建模方法ReadingCD的问题定义。一方面,给定学生集合S={S1,S2,…,SU},试题集合E={E1,E2,…,EV},知识点集合K={K1,K2,…,K D},学习材料集合L={L1,L2,…,L N}。另一方面,给定学生的作答记录R=[r uv]U×V,其中r uv=0表示学生S u答错试题E v,r uv=1表示学生S u答对试题E v;试题-知识点矩阵Q=[q vd]V×D(由专家标记),其中q vd=0表示试题E v未关联知识点K d,q vd=1表示试题E v关联了知识点K d;学习材料-知识点矩阵M=[mnd]N×D(由专家标记),其中mnd=0表示学习材料L n未关联知识点K d,mnd=1表示学习材料L n关联了知识点Kd。此外,给定阅读记录C u={L ui|i∈1,2,…,N},其中L ui表示学生S u阅读过的学习材料L i。值得注意地,矩阵M作为一种教育先验知识,可以反映出学习材料与知识点之间的关联。
定义1给定学生的阅读记录C、试题-知识点矩阵Q与学习材料-知识点矩阵M,本文目标为通过建模学生的知识状态,预测其试题得分。
3 阅读认知诊断模型构建
此部分将详细介绍ReadingCD的构建方法。如图2所示,ReadingCD由四个部分组成,自上而下分别是学生对学习材料的实际掌握程度、学生对知识点的掌握程度、学生的试题掌握程度以及预测得到的试题得分。其中,每一步的计算将在以下部分中分别阐述。为了更好地说明,表2列出了建模过程中的一些重要数学符号及对应描述。
表2 ReadingCD的相关符号及对应描述Table 2 Symbols and descriptions of ReadingCD
图2 ReadingCD的结构Fig.2 Structure of ReadingCD
3.1 学习材料实际掌握程度计算
合理建模学生的知识状态是有效预测学生表现的前提。一般来说,学生阅读学习材料的目的是为了巩固自身的知识状态,即弥补其在某些知识点掌握上的不足。因此,学生对其阅读学习材料的实际掌握程度,往往可以体现自身知识状态的巩固效果。例如,学生对其阅读某一学习材料(如《牛顿第二定律》)的实际掌握程度较高,那么该生对此学习材料所关联知识点(即加速度、作用力、质量)的掌握程度可能较高,因此可以达到巩固知识状态的目的。为此,计算学生对学习材料的实际掌握程度,以此作为知识状态建模的基础。
从心理学角度来说,每一个用户都有一个高阶的潜在特质(用户对项目的潜在认知程度)[14-15],同时,每一个项目也具备了自然属性(项目难度)[16-17],两者共同影响着用户对项目的理解程度。根据上述思想,将用户类比为学生,项目类比为学习材料,认为学生对学习材料的实际掌握程度,一方面取决于学生对学习材料的潜在认知程度,另一方面也依赖于学习材料的难度。为此,依循文献[15]在项目反应理论中采用的逻辑斯蒂模型,将学生S u对学习材料L n的实际掌握程度a un定义为:
根据经验,将εun的归一化范围设置为[-3,3],如式(3)所示:
其中,εmax与εmin分别表示ε中的最大值与最小值。学生对学习材料的潜在认知程度θ与学习材料难度b的量化分别在3.1.1小节与3.1.2小节中详细阐述。
3.1.1 学习材料潜在认知程度量化
通常,学生会选择性地阅读一些学习材料,在阅读过程中,他们往往会花费一定的时间与精力对这些学习材料进行学习与研究,以巩固自身的知识状态。因此,学生阅读学习材料的内容中,往往隐含着大量学生对学习材料的潜在认知信息。为此,考虑利用学生阅读学习材料的内容,量化其对学习材料的潜在认知程度。
一般来说,可利用学生的阅读内容构建关键词向量模型对学生形式化表示。然后计算学生与学习材料之间的相似度,用其表示学生对学习材料的潜在认知程度。但是,仅通过构建关键词向量模型不足以反映出学生对学习材料的潜在认知信息。例如,学生将对与其关键词向量相似的学习材料具备较高的潜在认知程度,而对与其关键词向量迥异的学习材料具备较低的潜在认知程度,甚至为0,这是不合理的。现实场景中,学生可能会对与其阅读内容相关的学习材料具备较高的潜在认知程度,即对具有相似主题的学习材料具备较高的潜在认知程度。例如,学习材料(如《牛顿第二定律》)与学习材料(如《描述物体运动变化的快慢:加速度》)之间在内容上具有一定的相关性,但却没有较多相同的关键词。为此,利用学生的阅读内容,从关键词、主题两个维度形式化表示学生。然后计算学生与学习材料之间的相似度,表示学生对学习材料的潜在认知程度。具体地,学习材料潜在认知程度量化可分为学习材料形式化表示、学生形式化表示、相似度计算三个部分,以下将分别阐述。
(1)学习材料形式化表示
为了将学生与学习材料进行相似度比对,需要对每个学习材料形式化表示。对于学习材料L n,可将其表示为L n={K n;P n}。其中K n表示L n的关键词向量,P n表示L n的主题分布向量。
为了获取学习材料的关键词向量K,首先通过jieba分词工具对集合L中每个学习材料的文本内容进行分词、去停用词处理。之后通过TF-IDF算法(term frequency-inverse document frequency)[28]计算分词结果中每个词语的权重,进而构建学习材料的关键词向量K n={K n1:ωn1,K n2:ωn2,…,K nT:ωnT}。其中K nj、ωnj分别表示学习材料L n的关键词j及其对应权重。
为了获取学习材料的主题分布向量P,使用LDA主题模型(latent Dirichlet allocation)[29]挖掘集合L中每个学习材料潜在的主题分布。该模型可以从学习材料的语料库中提取代表性词语列表作为某一主题,最终将集合L中每个学习材料的主题以概率分布的形式呈现。因此,学习材料主题分布的最终挖掘结果为P n={P n1:νn1,Pn2:νn2,…,P nK:νnK}。其中P nj、νnj分别表示学习材料L n的主题j及其对应权重。
(2)学生形式化表示
对于学生S u,从其阅读学习材料的内容C u中提取相应的关键词与主题,进而将其形式化表示为S u={F u;G u}。其中F u、G u分别表示学生S u的关键词向量与主题分布向量。
已知学生S u的阅读记录C u={L ui|i∈1,2,…,N},则其阅读的学习材料Lui可被形式化表示为L ui={K ui;P ui}。从其阅读内容Cu中提取用于形式化表示学生的关键词,构建学生的关键词向量F u={Fu1:σu1,F u2:σu2,…,F uT:σuT}。其中Fuj、σuj分别表示学生S u的关键词j及其对应权重,σuj的计算见式(4):
其中,ωuij表示关键词j在学生S u所阅读学习材料L ui的关键词向量K ui中的对应权重。式(4)对应的分式中,分母部分表示在学生S u的阅读内容C u中,包含学生关键词F uj的学习材料的个数;分子部分表示提取阅读内容C u中所有包含学生关键词F uj的学习材料,计算这些学习材料的关键词j在其各自的关键词向量K中所对应的权重之和。因此,式(4)通过利用学生阅读内容中,包含关键词j的学习材料在其关键词向量K中对应权重的平均值,来表示学生关键词F uj的权重值。
从学生S u的阅读内容C u中提取用于形式化表示学生的主题,构建学生的主题分布向量G u=(G u1:μu1,G u2:μu2,…,G uK:μuK)。其中G uj、μuj分别表示学生S u的主题j及其对应权重,μuj的计算见式(5):
其中,νuij表示主题j在学生S u所阅读学习材料L ui的主题分布向量P ui中的对应权重。式(5)对应的分式中,分母部分表示阅读内容C u中学习材料的总个数;分子部分表示提取阅读内容C u中的所有学习材料,计算这些学习材料的主题j在其各自的主题分布向量P中所对应的权重之和。因此,式(5)通过利用学生阅读内容中学习材料的主题j在其主题分布向量P中所对应权重的平均值,来表示学生主题G uj的权重值。值得注意的是,不同于学生关键词权重σ的计算,由于LDA模型使得每个学习材料具备了相同的主题,因此学生S u的主题G uj包含于其所阅读的每个学习材料的主题分布向量P中。
(3)相似度计算
使用余弦相似性公式计算形式化后学生与学习材料之间的相似度,则学生Su对学习材料L n的潜在认知程度θun:
其中,λ为权重参数且λ∈[0,1],用于控制学生关键词向量F与主题分布向量G的比重;T表示所有学习材料去停用词、分词后总的关键词个数(不重复词语个数);H表示LDA模型中设置的主题个数。
3.1.2 学习材料难度量化
直观来看,学习材料所关联知识点的个数可能会影响学习材料的难度。例如,学习材料L i关联的知识点个数较多(假设与K1、K2、K3关联),若学生Su想要完全掌握L i,那么可能需要同时掌握L i关联的所有知识点,即掌握K1、K2、K3。对于关联知识点个数较少的L j(假设仅与K1关联),学生S u或许只需掌握知识点K1,就能完全掌握L j。与L i相比,学生S u在L j上所需掌握的知识点个数较少,因此L j较为简单,而Li相对较难。此外,阅读某一学习材料的学生人数同样可以反映出该学习材料的难度。例如,若Li较为简单,那么学生可能在阅读Li上花费更少的时间与精力,从而可以更加方便快捷地巩固自身的知识状态,这可能会吸引更多的学生对其进行阅读,使得阅读L i的人数提升。反之,若Li较难,可能会导致阅读人数减少。根据上述分析,提出一种关于学习材料难度的教育学假设:
假设1学习材料的难度随着它所关联知识点的个数正比增加,随着阅读它的学生数量反比下降。
此外,学习材料的难度不是一成不变的,它具有相对性,即学习材料相对于不同学生的难度是不同的。为此,利用学生的阅读记录C,结合提出的假设1,设计出一种关于学习材料难度的量化方法。
为了保证学习材料难度量化的相对性,构建关联矩阵CM(correlation matrix),用以反映学生阅读的每个学习材料中所关联的知识点个数。具体地,根据学生的阅读记录C,容易得到学生对每个学习材料的阅读情况X=[x un]U×N。其中x un=1表示学生S u阅读了学习材料L n,x un=0表示未阅读。然后,利用学生对学习材料的阅读情况X以及学习材料-知识点矩阵M构建关联矩阵CM,如式(9)、(10)所示:
其中,cmun表示学生S u阅读的学习材料L n中所关联的知识点个数;mni表示学习材料L n对知识点k i的关联情况,关联为1,否则为0。为了更好地说明,表3中给出了一个CM矩阵的简化例子。
表3 CM矩阵示例Table 3 Example of correlation matrix
由表3可知,cm11=3,表示学生S1阅读了学习材料L1,且与L1相关联知识点的个数为3。由于每个学习材料至少会与1个知识点相关联,因此当CM矩阵中的元素值为0时,表示学生没有阅读该学习材料。例如,cm13=0,表示学生S1未阅读学习材料L3。此外,从表中还可以清晰地了解到学生S2阅读了L3、L4,而未阅读L1、L2。显然,CM矩阵反映了学生阅读的每个学习材料中关联的知识点个数。
根据构建的CM矩阵,可将学习材料L n相对于学生S u的难度b un定义为:
其中,δun表示学生S u阅读的学习材料Ln中所关联的知识点个数与其阅读所有学习材料中关联知识点个数的比值。I n表示学生总个数与阅读过学习材料L n的学生个数的比值。xin表示学生Si对学习材料L n的阅读情况,阅读为1,否则为0。
式(11)中,学习材料难度b un的定义分为两个方面。一方面,学生S u阅读了学习材料L n,即xun=1。根据定义,若Ln中所包含知识点的个数较多时,则δun的值较高,使得L n的难度提升。同时,若L n被较多的学生阅读,则φn的值较低,使得L n的难度下降。因此,此定义可以很好地拟合提出的假设1。式(14)中,考虑到可能会出现某一学习材料没有被学生阅读,即从而导致分母为0的情况。为此,在分母中增加了常数项c,令其为1。此外,由于量化过程中利用了关联矩阵CM(式(12)中),因此可以得到学习材料相对于不同学生的难度,体现了难度的相对性,这更符合实际情况。另一方面,学生S u未阅读学习材料L n,即x un=0。此时利用学生S u对其阅读过所有学习材料难度的平均值,统一表示其未阅读学习材料的难度。
3.2 知识点掌握程度评估
本节将具体阐述学生知识点掌握程度的评估方法,即学生知识状态建模。学生对学习材料的实际掌握程度可以很好地体现出学生当前的知识水平,因此可用于建模学生的知识状态。
从知识点的层面建模学生的知识状态,可以较好地保证学生表现预测结果的可解释性。例如,学生是否因为对某些知识点的掌握存在不足,导致其答错相应试题。又或者说,由于学生对某些知识点的掌握较好,使得其作答正确相应试题的概率较高。
通过上述分析,利用3.1节计算得到的学生对学习材料的实际掌握程度,从知识点层面建模学生的知识状态。由于学习材料中通常关联了特定的知识点,因此根据学习材料-知识点矩阵M,学生S u对知识点k d的掌握程度βud可被定义为:
其中,a ui表示学生S u对学习材料L i的实际掌握程度,mid表示学习材料Li对知识点k d的关联情况,关联为1,否则为0。式(15)所对应的分式中,分母部分表示在学习材料集合L中,关联知识点k d的学习材料的个数;分子部分表示提取学习材料集合L中所有关联知识点k d的学习材料,计算学生对这些学习材料的实际掌握程度之和。因此,式(15)通过利用学生S u对所有关联知识点k d的学习材料的实际掌握程度,来计算其对知识点k d的掌握程度,从而实现学生的学习材料实际掌握程度到知识点掌握程度的转化。
3.3 试题掌握程度评估及得分预测
本节进一步评估学生对试题的掌握程度,据此预测其试题得分。由于试题中关联了待考察的知识点,因此根据学生的知识点掌握程度β与试题-知识点矩阵Q,利用几何平均法可计算出学生S u对试题E v的掌握程度ηuv:
其中,βui表示学生S u对知识点k i的掌握程度,q vi表示试题E v对知识点k i的关联情况,关联为1,否则为0。式(16)通过计算学生S u对试题所关联知识点掌握程度的几何平均值,作为学生对特定试题的掌握程度,从而实现学生知识点掌握程度到试题掌握程度的转化。
使用公式η=(η-ηmin)/(ηmax-ηmin)将计算得到的试题掌握程度η进行归一化处理,使其值处于[0,1]区间内。然后,可以根据评估得到的试题掌握程度,预测学生在每道试题上的对错:
其中,Th R是提前设置的阈值,令其为0.5。
3.4 模型总结
相较于传统的预测方法,ReadingCD能在两个方面对学生表现预测任务进行改进。首先,ReadingCD将学生的知识状态建模为学生对知识点的掌握程度,计算值为0到1之间的连续值。而传统方法要么将其建模为离散值,如认知诊断中的DINA模型;要么建模为难以理解的潜在特征向量,如协同过滤中的矩阵分解。因此,ReadingCD能够更为准确地刻画学生的知识状态,为学生表现预测结果的解释提供有力依据。其次,由于ReadingCD建模知识状态时利用了学生阅读学习材料的内容,而未利用学生在试题上的作答记录,因此它可以预测无作答记录的学生在试题上的表现,而传统方法无法做到这一点。接下来的实验部分也证明了ReadingCD的改进是有效的。
4 实验与分析
为了证明ReadingCD方法的效果,设计了实际数据集上的对比实验。首先,将ReadingCD与基准方法在学生表现预测上进行对比。其次,探索了参数变化对ReadingCD实验结果的影响。最后,通过一个学生阅读认知诊断的案例分析,评估预测结果的可解释性。
4.1 数据准备
实验数据来自郑州市第二中学的学生与移动自主学堂系统[3-4]交互过程中所产生的学习行为数据。其中包括了学生在两次期中物理测试中的客观题作答记录R,以及在这两次考试之前对相关学习材料的阅读记录C。此外,还包括了每个学习材料的文本内容以及由一线教师标注的Q矩阵与M矩阵,以下将数据集记为Physics。表4汇总了Physics的具体信息,图3展示了Q矩阵与M矩阵。
表4 Physics信息汇总Table 4 Descriptions of Physics
图3 Q矩阵与M矩阵Fig.3 Q matrix and M matrix
本文从学生的物理课程中搜集实验数据,主要考虑了两个方面的因素:(1)学生在物理课程上的学习行为数据较为完备。首先,学生在物理类型的试题、学习材料上具有相对完整、客观的试题作答记录与学习材料阅读记录。其次,物理类型的试题、知识点、学习材料之间的关联关系清晰,便于提取用于实验。(2)相较于数学等科目而言,物理类型学习材料的文本内容、语义信息更为丰富。由于ReadingCD涉及到文本信息(文本类学习材料)的处理,因此从物理课程中提取实验数据更为合适。
4.2 学生表现预测实验
使用基准方法与ReadingCD的学生表现预测效果进行对比。为了观察各个方法在不同数据稀疏度情况下的实验效果,构造了不同比例的数据集。具体地,随机抽取试题总数的15/18、12/18、9/18、6/18作为训练集,其余的作为测试集,预测所有学生在测试集试题上的表现。特别地,由于ReadingCD通过利用阅读学习材料内容评估出学生的知识状态,因此可以预测无作答记录的学生在试题上的得分,即可以预测出学生在测试集试题比例为18/18情况下的试题表现。
在本实验中,采用了广泛被应用的根均方误差(root mean squared error,RMSE)与平均绝对误差(mean absolute error,MAE)作为评价指标,如下式所示:
其中,表示预测的学生S u对试题E v的得分;r uv表示学生S u在试题E v上的实际得分。RMSE与MAE的值越小说明学生表现预测的效果越好。
本次对比实验中考虑如下基准方法,表5中展示了这些方法的详细特征。
表5 所有方法的特征Table 5 Features of all the methods
(1)DINA[9]。经典的离散型认知诊断模型,在给定Q矩阵的情况下,通过建模学生的知识状态,结合试题参数(粗心与猜测)预测学生表现。
(2)IRT[15]。经典的连续型认知诊断模型,通过评估学生的潜在特征(对知识的综合掌握情况)与试题参数(难度与区分度)来实现学生表现预测。
(3)kNN[11]。最近邻方法,利用学生的作答记录,使用余弦公式计算学生之间的相似度,寻找与目标学生最相似的学生,利用其试题得分作为目标学生得分。
(4)NMF[25]。非负矩阵分解,一种非负的潜在因子模型,产生的分解矩阵满足非负性质。
(5)Random。随机预测学生的试题得分,1表示答对,0表示答错。
(6)ReadingCD_F。式(6)中,令λ=1,即量化学生对学习材料的潜在认知程度θ时,仅考虑学生的关键词向量F。
(7)ReadingCD_G。式(6)中,令λ=0,即量化学生对学习材料的潜在认知程度θ时,仅考虑学生的主题分布向量G。
(8)ReadingCD_θ。式(1)、(2)中,计算学生对学习材料的实际掌握程度α时,仅考虑学生对学习材料的潜在认知程度θ,忽略学习材料的难度b。
在ReadingCD中,设置参数λ=0.1(式(6)中),主题个数H=8(式(8)中),以保证实验效果最好,其中各个参数的选择将在4.3节详细阐述。表6展示了不同方法在学生表现预测上的实验结果。其中,实现了一种低维度设置下的矩阵分解方法,即NMF-5D与NMF-10D,分别表示5个和10个潜在因子的非负矩阵分解方法。
表6 学生表现预测结果Table 6 Results of student performance prediction
4.2.1 ReadingCD的实验效果
由表6可知,在不同的测试集试题比例中,Reading-CD的表现优于所有基准方法。具体来看,该方法利用学生阅读学习材料的内容来建模知识状态,预测学生的试题得分,要优于协同过滤中的最近邻kNN与非负矩阵分解NMF方法。此外,ReadingCD建模的知识状态为连续变量(学生对知识点的掌握程度为0到1之间的连续值),而认知诊断中的DINA模型将其建模为离散值(掌握为1,未掌握为0);IRT模型未从知识点层面建模学生的知识状态,仅使用一个潜在的连续型数值变量对其进行表示。因此,相较于传统的认知诊断方法,ReadingCD更为准确地刻画了学生的知识状态,从而可以进一步提高预测结果的可解释性,同时也保证了预测精度。
4.2.2 学习材料潜在认知程度量化的实验效果
在不同的测试集试题比例中,ReadingCD的表现要优于其变种方法ReadingCD_F与ReadingCD_G。这说明在式(6)~(8)中,结合学生的关键词向量F与主题分布向量G量化学生对学习材料的潜在认知程度θ,预测学生表现,比仅使用两者之一的效果好。因此,所提出的关于学习材料潜在认知程度的量化方法是有效的,它可以应用于学生知识状态建模中,有助于预测学生的试题表现。
4.2.3 学习材料难度的量化效果
在不同的测试集试题比例中,ReadingCD的表现要优于其变种方法ReadingCD_θ。这说明同时结合学生对学习材料的潜在认知程度θ以及学习材料的难度b,计算学生对学习材料的实际掌握程度α,可以得到更加精确的学生表现预测结果。因此,本文根据提出的教育学假设(假设1),量化学习材料相对于不同学生的难度是有效的,它可以更为准确地刻画学生的知识状态,使得预测结果的精确性进一步提升。
4.2.4 ReadingCD在实际场景中的应用分析
由于传统的协同过滤与认知诊断利用了学生的试题作答记录,因此不能预测无作答记录的学生在试题上的表现,即在测试集试题比例为18/18的情况下,无法通过基准方法得到学生表现预测结果。相较而言,Reading-CD不需要试题的作答记录,仅通过学生阅读学习材料的内容,就可以建模出学生的知识状态,进而预测出学生在无作答记录情况下的试题得分,因而可以应用到一些无法预先获取学生试题作答记录来诊断学生知识状态的场景中。例如,在测试开始之前,ReadingCD可以通过学生阅读的某些辅助性学习材料的内容,诊断出学生的知识状态。根据诊断结果,可以发现学生某些掌握较弱(掌握程度较低)的知识点,据此进行针对性的教学训练,以提高学生在后续测试中试题的作答表现。此外,当测试集试题比例为18/18时,ReadingCD的实验效果优于随机预测方法Random及其他变种方法。因此,本文方法一定程度上缓解了目前方法在某些实际场景应用中的局限性。
4.3 ReadingCD的参数设置
式(6)中,参数λ用于调整学习材料潜在认知程度θ的权重,λ∈[0,1]。λ越大(越小)表示θ的取值越依赖于学生的关键词向量F(主题分布向量G)。此外,式(8)中,LDA模型设置的主题个数K的不同,会导致学生的主题分布向量G发生变化,进而对潜在认知程度θ的量化有所影响。由于本文将θ作为学生知识状态建模的一部分,因此参数λ与主题个数K的变化会影响建模结果,使得ReadingCD的学生表现预测结果发生变化。
以学生在所有试题上的表现预测为例,固定主题个数K,设置不同的参数λ,观察ReadingCD在MAE指标下的变化情况,如图4所示。
图4 参数对MAE指标的影响Fig.4 Effects of parameters on MAE
由图4可知,当参数λ取值在0.1附近,主题个数K取值在8附近时,ReadingCD的MAE值最低,此时实验效果最好。因此,最终参数设置为λ=0.1,K=8。当λ=0.1时,意味着学生的关键词向量F在学习材料潜在认知程度θ的量化中所占比重较低,而主题分布向量G占了较高的比重。这表明学生对学习材料的潜在认知程度更依赖于学生的主题分布,从而也验证了量化时所提出的设想是合理的,即学生可能会对与其阅读内容相关的学习材料具备较高的潜在认知水平。
4.4 阅读认知诊断案例分析
为了验证预测结果的可解释性,对比展示了Reading-CD和DINA模型在数据集Physics中一个学生的知识状态建模结果,如图5所示。
图5 学生在某些知识点上的诊断结果Fig.5 Diagnosis results of student in some knowledge points
由图5可知,在给定试题-知识点矩阵Q与学习材料-知识点矩阵M的情况下,无论是DINA模型还是ReadingCD都可以得到可解释且带有具体含义的知识点诊断结果。然而,DINA模型只能指明学生是否掌握了相应知识点(掌握为1,未掌握为0),而ReadingCD可以具体诊断出学生在每一个知识点上的掌握程度(诊断结果为连续变量)。因此,通过ReadingCD的诊断结果,学生能够更为清晰地看到自身在某些知识点掌握上的优势与不足,使得在学生表现预测结果上具备更强的解释性。此外,教育专家或在线教育系统可以进一步针对具体的诊断结果,改进并提升当前的教学计划,或为学生提供个性化的试题推荐。相较而言,认知诊断中的项目反应理论以及协同过滤中的最近邻、矩阵分解方法,由于使用了潜在变量来描述学生的知识状态,因此难以给出可解释的预测结果。
5 结束语
本文设计了一种基于阅读认知诊断的知识状态建模方法ReadingCD,预测学生的试题得分。具体地,首先利用学生的阅读内容,量化出学生对学习材料的潜在认知程度。其次结合提出的教育学假设,量化出学习材料的难度。然后,利用两个量化结果,计算出学生对学习材料的实际掌握程度,据此建模学生的知识状态并预测学生的试题得分。最后,通过实验证明了ReadingCD可以提高预测结果的准确性与可解释性。同时,一定程度上缓解了学生表现预测在实际应用中的局限性。另一方面,该方法仍有改进的空间。首先,由于ReadingCD利用了学生的阅读内容建模其知识状态,因此,若学生阅读的学习材料较少或没有进行阅读,将会影响建模效果。其次,本文只预测了学生在客观试题上的表现,还有其他一些试题类型应考虑在内,例如主观试题。以上存在问题是未来的研究方向。