APP下载

融合遗忘因素与记忆门的图神经网络知识追踪模型

2023-09-27郑浩东谢颖超唐文胜

计算机应用 2023年9期
关键词:时序答题时刻

郑浩东,马 华,谢颖超,唐文胜

(湖南师范大学 信息科学与工程学院,长沙 410081)

0 引言

在线教育的快速普及和发展为学生提供了丰富的学习资源,但也带来了信息迷航问题[1]。一个解决办法是根据学生的认知状态进行资源推荐[2],如何诊断学生的认知状态,成为个性化在线教育的关键问题[2-4]。

知识追踪(Knowledge Tracing,KT)能根据学生的历史学习数据实时追踪他的认知状态,并预测学生回答下一道习题时的表现。传统的知识追踪模型主要有基于隐马尔可夫模型的贝叶斯知识追踪(Bayesian Knowledge Tracking,BKT)和基于逻辑回归模型的可加性因素知识追踪模型[5]。经典BKT 通过学生对某个知识点的初始掌握程度P(L0)、从不会到学会的概率P(T)、不知道某知识点但是猜对的概率P(G)和知道某知识点但是答错的概率P(S)四个参数建模学生的认知状态。在BKT[6]的 基础上,Yudelson 等[7]提出个性 化BKT 方法,根据学生的知识点作答情况分别计算学生从不会到学会的概率,考虑了学生间学习能力差异的问题。黄诗雯等[8]在BKT 的基础上加入遗忘概率P(F),提出BF-BKT(Behavior-Forgetting Bayesian Knowledge Tracking),考虑了遗忘行为对学生认知状态的影响,提高了模型预测准确度。

以上方法基于传统模型分别从学生的认知状态、认知状态与遗忘因素混合的角度进行了知识追踪的研究,但在遗忘因素方面仅考虑了单一的遗忘概率特征。对影响学生遗忘行为的更多因素进行建模分析,有利于捕获学生认知状态出现的偏差,提高学生成绩预测结果的准确度。

近年来,学者将深度学习用于知识追踪,充分挖掘学生答题序列数据中的潜在信息,追踪学生的认知状态,实验结果优于传统方法。典型的深度知识追踪(Deep Knowledge Tracing,DKT)模型[9]通过长短期记忆(Long Short-Term Memory,LSTM)[10]挖掘答题数据中隐藏的有效信息,预测学生未来的答题情况。融合注意力机制的时间卷积知识追踪模型[11]针对DKT 存在的可解释性不足的问题,用注意力机制识别学生历史交互对每一时刻知识状态的影响程度,然后采用时间卷积网络提取学生动态变化的知识状态。动态键-值对记忆网络(Dynamic Key-Value Memory Network,DKVMN)[12]借鉴DKT 的核心思想,改用一个静态矩阵key存储所有知识点,用动态矩阵value存储并更新学生的知识状态,通过计算试题和知识点间的相关权重预测学生在新试题上的答题表现。Abdelrahman 等[13]利用注意力机制着重考查学生作答相似习题时的答题历史,改进了DKVMN。以上模型在刻画学生学习行为时忽略了遗忘行为的影响,LFKT(Learning and Forgetting behavior modeling for Knowledge Tracing)[14]在DKVMN 基础上,结合艾宾浩斯遗忘曲线理论[15-16],用学生重复学习知识点的间隔时间、重复学习知识点的次数、顺序学习间隔时间以及学生的知识点原始掌握程度这四个参数建模学生的遗忘行为,提升了预测精度。

以上方法基于深度学习模型分别从LSTM、记忆网络和注意力机制等角度进行了知识追踪的研究。其中,LFKT 模型考虑了四种影响遗忘行为的因素对学生的答题过程进行建模,提升了模型预测学生未来表现的准确度,然而,这些研究尚未建模知识点间的关系。实际上,试题考查的多个知识点可以表示为一张有向图,并且知识点间存在多种不同的层次或顺序关系。基于此,有学者提出了基于图神经网络(Graph Neural Network,GNN)的知识追踪模型。

GNN 是一种能对图结构数据进行操作的神经网络,图是一种数据结构,分别将对象和它的关系表示为节点和边。近年来,GNN 通过学习图结构数据,在节点分类、边信息传播和图聚类等任务上均取得显著效果。事实上,课程作业的知识点间相互关联。因此,Nakagawa 等[17]从数据结构角度出发,提出基于GNN 的知识追踪GKT(Graph-based Knowledge Tracing)模型。GKT 通过图的节点和边分别描述知识点和知识点间的关系,将知识追踪定义为GNN 中的时间序列节点及分类问题,采用GNN 建模学生的认知状态。实验结果表明,在不需要增加额外信息的条件下,GKT 模型可获得更好的预测精度,然而,该模型未考虑学生的遗忘行为和不同时刻作答相同知识点的时序特征对预测结果的影响。

综上,本文提出一种融合遗忘因素与记忆门的图神经网络追踪(GKT blending with Forgetting factors and Memory gate,GKT-FM)模型,结合认知同化理论[18]建模学生学习过程中的遗忘行为,引入记忆门结构完善GKT 模型对答题序列中时序特征的建模方式,重构GNN 的更新过程,预测学生未来的答题表现。GKT-FM 模型的主要特点如下:

1)结合艾宾浩斯遗忘曲线理论[15-16]和认知同化理论[18],将影响遗忘行为的特征扩充至7 个,包括重复学习知识点的次数、学生重复学习知识点的间隔时间、顺序学习间隔时间、学生要求提示的次数、学生答题前的行为、知识点作答正确率和学生的知识点原始掌握程度,更精确地刻画遗忘行为。

2)鉴于相邻测试时刻的不同习题可能存在相同的知识点,而学生的知识掌握程度与这些知识点间存在潜在的关联关系,本文在GKT 的基础上,构建记忆门结构,捕获学生作答习题过程中不同习题包含相同知识点的时序特征对预测结果的影响,更准确地预测学生未来的答题表现。

1 问题描述

知识追踪旨在根据学生的历史学习数据实时追踪学生的认知状态,并预测学生未来答题时的表现。给定一个学生的历史学习交互序列x0,x1,…,xt,预测下一次交互xt+1时,学生答对题目qt+1的概率。xt={(q1,a1),(q2,a2),…,(qt,at)},其中:qt表示t时刻学生作答的题目编号;at表示学生对于qt的答题结果,答对用1 表示,答错用0 表示。

1.1 遗忘行为

教育心理学领域的学者们发现人类的遗忘行为会对记忆产生影响,艾宾浩斯遗忘曲线理论[15-16]表明,学生所学的知识会发生遗忘,遗忘会导致学生的知识掌握程度下降。认知同化理论[18]认为学生对于新知识的掌握程度以原有的知识掌握程度为基础,原有知识掌握得越牢固,学习新知识就越容易。现有基于深度学习的知识追踪模型中,有相关研究考虑了学生的遗忘行为,以提高模型的可解释性。本文结合认知同化理论[18],在现有研究使用的重复学习知识点的次数、重复学习知识点的间隔时间、顺序学习间隔时间和知识点原始掌握程度的基础上,充分考虑学生要求提示的次数、学生答题前的行为和答题正确率等三个参数来建模学生对已有知识的掌握程度,扩充了遗忘行为的特征。

1.2 记忆门

不同习题所关联的知识点通常存在先后关系,并且相邻时刻不同习题可能包含相同的知识点,这种隐含的时序特征可能对学生的知识掌握程度存在潜在影响,在设计知识追踪模型时应该重视这个影响因素。LSTM 网络的特点是将上一个时刻的输出作为下一个时刻的输入,适合处理包含时序特征的数据。基于GNN 的知识追踪模型GKT,采用邻接矩阵存储知识点相关性,即图结构表示,更新学生认知状态的本质是利用图结构进行消息传递。但是,GKT 尚未考虑不同时刻学生作答相同知识点的时序特征。

本文在GKT 的基础上,在更新学生认知状态时,结合LSTM 网络的优势构建记忆门结构来建模学生答题序列中的时序特征。具体来说,在聚合邻居知识点嵌入后,根据遗忘因素向量对知识点嵌入作遗忘处理,然后与前一时刻的知识点嵌入作乘操作,得到该知识点的时序嵌入,以此建模学生答题序列中的时序特征。

综上,本文以GNN 为基础,将知识追踪问题描述为依据学生的历史学习数据,实现以下两个目标:

1)追踪学生认知状态的变化。

2)预测学生下一次作答习题的表现。

2 GKT-FM模型设计

本文提出的GKT-FM 模型主要包括:

1)构建知识图:以学生t时刻的答题序列信息作为输入,通过知识度量函数计算知识点的相关性,构造邻接矩阵A代表知识图。

2)聚合:采用GNN 聚合当前知识节点i和它的邻居节点j的隐藏状态和嵌入。

3)更新:在知识点k向知识点i传递消息时,通过遗忘向量对知识点i的嵌入作遗忘处理,详见式(6),然后将该嵌入输入记忆门,捕获知识点i的时序特征,得到包含时序特征的嵌入,最后采用GNN 更新知识点i的隐藏状态,得到

4)预测:将知识点i的隐藏状态输入Softmax 函数,随后输出学生在t+1 时刻的知识水平向量yt,即学生对于各个知识点的掌握程度。

具体模型结构如图1 所示。

图1 GKT-FM模型的结构Fig.1 Structure of GKT-FM model

2.1 构建知识图

将学生答题的序列数据转换为图结构数据,用邻接矩阵A表示。首先通过知识度量函数获得知识点的相关权重,度量函数如式(1)[17]所示:

2.2 聚合

聚合当前知识节点i及其邻居节点j∈Ni的隐藏状态和嵌入。该层的输入是向量xt∈{0,1}2N,代表t时刻的练习,0表示回答错误,1 代表回答正确。聚合知识隐藏状态的方法如式(3)[17]所示:

其中:Wx∈R2N*e是一个知识点索引和作答结果的嵌入矩阵;Wc∈RN*e是一个知识点嵌入矩阵,Wc(k)代表Wc的第k行;e是嵌入大小。

2.3 更新

采用图神经网络(GNN)更新知识点i的嵌入,考虑到知识点间的影响是单向的,因此在聚合邻居节点的消息时,分别考虑知识点i对j的影响权重和知识点j对i的影响权重。另外,在聚合函数中,将遗忘因素向量λt(i)通过感知机函数f3对知识点i的嵌入作遗忘处理,拟合由于学生遗忘了知识点i对其认知状态造成的影响,然后将该嵌入输入记忆门,捕获知识点i的时序特征,得到时序嵌入,见式(4):

其中:W1是权重矩阵,W1∈Re*e;b1是偏移项,b1∈Re。遗忘因素向量如式(5)所示,记忆门结构如图2 所示。

图2 记忆门结构Fig.2 Structure of memory gate

其中:Pt(i)=[CRt(i),FAt(i),HCt(i)]为t时刻学生对已有知识的掌握程度,CRt(i)为t时刻学生要求提示的次数,FAt(i)为学生答题前的行为,HCt(i)为知识点作答正确率;RTt(i)为t时刻学生重复学习知识点的间隔时间;LTt(i)为t时刻学生重复学习知识点的次数;STt(i)代表学生t时刻顺序学习间隔时间;OMt-1(i)代表t-1 时刻学生的知识点原始掌握程度。

知识点k向知识点i传递消息的函数定义为式(6):

其中:[]为拼接操作;W2、W3和W4是权重矩阵,W2∈RN*e,W3∈RN*e,W4∈RN*1;b2、b3、b4是偏移量,b2∈Re,b3∈Re,b4∈Re;N是知识点个数。

学生在t+1 时刻的认知状态计算方式如式(10)所示:

其中:W5是权重矩阵,W5∈RN*e;b5是偏移量,b5∈Re。

2.4 预测

模型输出下一次学生作答习题的预测表现:

其中:Wout是一个共享权重矩阵;bk是节点k的偏移项。损失函数L如式(14)所示:

其中:var=5 × 10-5;eps=10-16是t时刻学生作答知识点k的预测结果;yk是学生作答知识点k的真实结果。

3 实验与结果分析

3.1 实验设置

本文实验在Windows11 下进行,CPU 为Intel Core i7-11370H,3.3 GHz,编程语言采用Python 3.9.10,深度学习框架采用PyTorch 1.11.0。实验数据集如下:

1)ASSISTments2009(简写为ASSIST)[20]。数据集主要字段包括:题目编号、学生编号、知识点编号、学生要求提示的次数、学生学习知识点的时长、学生的答题结果等。本文提取ASSISTments2009 数据集中单个知识点回答次数不少于10 次的记录,经预处理后,得到62 955 条记录,其中包括1 000 名学生和101 个知识点。

2)KDDCup2010(简写为KDD)[21]。该数据集用于教育数据挖掘竞赛,主要字段包括:题目编号、学生编号、答题时长、提示次数、答题结果等。同样地,本文提取了该数据集中某个知识点回答次数不少于10 次的记录,经预处理,得到了98 200 条记录,其中包括1 000 名学生和211 个知识点。

根据两个数据集的不同特点,选取不同的数据字段并进行预处理,获得与7 个遗忘因素相关的评估数据。为确保结果的有效性并加快模型收敛速度,预处理过程中对结果均进行了归一化操作。具体情况如表1 所示。

3.2 对比方法和参数设置

为评估GKT-FM 模型的性能,本文选择深度知识追踪(DKT)[9]、动态键-值对知识追踪(DKVMN)[12]、LFKT[14]和GKT[17]这4 个经典模型进行对比。参考文献[14],对于每个模型,本文都进行10 次实验,使用平均曲线下面积(Area Under Curve,AUC)和平均精度(ACC)作为模型最终的性能评价指标。对比模型的超参数按原文献设置,具体设置如下:

1)DKT:对 于ASSIST 和KDD 数据集,门控循环单元(Gated Recurrent Unit,GRU)隐藏层的大小为200,批处理大小设置为32。

2)DKVMN:对于ASSIST 数据集,记忆矩阵列数为20,隐藏向量的大小为32;对于KDD 数据集,记忆矩阵列数为50,隐藏向量的大小为128,批处理大小设置为32。

3)LFKT:所有隐藏向量和嵌入矩阵大小为32,批处理大小为30。

4)GKT:所有隐藏向量和嵌入矩阵大小为32,批处理大小为16。

5)GKT-FM:对于ASSIST 数据集,知识点邻接矩阵的大小为101×101。模型总共训练10 次,每次批处理大小为16。

所有模型均采用Adam 优化器,除了GKT 与GKT-FM 的学习率设为0.01,其他模型的学习率均设为0.001。

3.3 嵌入维度设置

为了减小参数量,本文统一设置所有隐藏向量和嵌入矩阵的大小,且通过比较模型在测试数据集上的平均AUC 值来选取,测试结果见表2。ASSIST 数据集中,当嵌入大小d为32 时,平均AUC 为0.849,高于其他超参数设置情况;对于KDD 数据集,当嵌入大小d为16 时,平均AUC 为0.831,高于其他超参数设置情况。

表2 不同嵌入维度下AUC值对比实验结果Tab.2 Comparison results of AUC value of different embedded dimensions

3.4 分析遗忘因素对平均ACC的影响

为评估7 个遗忘因素对平均ACC 的影响,本文在ASSIST数据集上进行一系列实验,每次去掉1 个因素,得到剩余6 个因素参与实验的平均ACC 值。本文将7 个遗忘因素分别简记为LT(重复学习知识点的次数)、RT(重复学习知识点的间隔时间)、ST(顺序学习间隔时间)、CR(要求提示的次数)、FA(答题前的行为)、HC(答题正确率)和OM(知识点原始掌握程度)。实验结果如表3 所示,可以看出,分别去掉7 个遗忘因素中的1 个因素,能在不同程度上降低平均ACC 的值。

表3 遗忘因素对平均ACC的影响分析Tab.3 Effect analysis of forgetting factors on average ACC

3.5 对比实验和模型预测效果

将GKT-FM 与DKT、DKVMN、GKT、LFKT 共4 个经典模型,以及GKT-FM 的两种变体模型(不使用遗忘因素的GKTFM-WF 模型和不使用记忆门结构的GKT-FM-WM 模型)进行对比,结果如表4 所示。从表4 可以看出,本文提出的GKTFM 在所有数据集上的AUC 和ACC 都取得了最优值。

表4 不同模型的预测性能对比实验结果Tab.4 Experimental results of different models’ prediction performance comparison

本文将数据集按7∶2∶1 随机划分训练集、测试集和校验集。采用700 名学生的学习数据分别训练5 种模型,200 名学生进行测试,并跟踪这200 名学生的认知状态变化。表4分别给出了GKT-FM 与4 个对比方法在两个数据集上的平均AUC 和ACC。可以看出,GKT-FM 相较于GKT,性能提升显著,AUC 分别提升了6.9%和9.5%,ACC 提升了5.3%和6.7%。若不考虑遗忘行为,相较于GKT-FM,GKT-FM-WF 的AUC 分别下降了3.1% 和1.7%,ACC 分别下降了3.0 和2.8%;若不考虑答题序列中的时序特征,GKT-FM-WM 的AUC 分别下降了4.7%和2.4%,ACC 分别下降了2.2%和2.5%,说明学生的遗忘行为和答题序列的时序特征确实对他们的认知状态造成了影响;同时,对比GKT-FM 和GKTFM-WF 与GKT-FM-WM 的结果可知,本文方法引入7 个遗忘因素和构建的记忆门结构能明显改善最终的预测结果。

3.6 模型预测结果分析

为保证实验结果的有效性,本文统一了LFKT、GKT 和GKT-FM 的实验环境,并通过GKT-FM 模型的两个变体的对比验证了遗忘因素和记忆门确实能影响学生的认知状态。

从表4 来看,DKT 借助LSTM 对学生的整体知识水平进行建模,对单个知识点的建模程度不够,因此预测结果不如DKVMN;但是DKVMN 没有考虑学生在学习过程中的遗忘行为,因此LFKT 模型的表现优于DKVMN;GKT 首次采用图结构来描述知识点的相关性,基于GNN 建模学生的认知状态,取得了较好的预测结果,但它没有考虑学生的遗忘行为和答题序列数据中的时序特征;GKT-FM 在GKT 的基础上,充分考虑学生的遗忘行为和答题序列数据中的时序特征对其认知状态造成的影响,取得了较好的实验结果。

3.7 认知状态的可视化分析

知识追踪可以实时追踪学生的认知状态,本文从数据集ASSIST 中截取了user_id 为79069 的学生的一段学习记录,分别用GKT-FM、LFKT 和GKT 模型追踪学生对5 个知识点掌握程度的变化,结果如图3 所示。横轴为学生的历史答题记录,三元组(t,kt,rt)中的kt表示学生在t时刻作答习题所包含的知识点,rt表示作答结果(0 表示答错,1 表示答对);纵轴为模型追踪的5 个知识点。

图3 基于不同模型的认知状态输出结果Fig.3 Output results of cognitive state based on different models

1)在第4 时刻,学生正确作答了知识点5 后,LFKT、GKT和GKT-FM 对于知识点5 的掌握程度的追踪结果均有所提升;在第3 时刻,学生错误作答了知识点2 后,LFKT、GKT 和GKT-FM 对于知识点2 掌握程度的追踪结果均有所下降。说明3 个模型都能根据学生的作答结果更新知识点掌握程度。

2)图3(a)、(b)中,学生从第9~15 时刻学习知识点3 期间,在答对知识点3 后:LFKT 结果显示该知识点的掌握程度短暂上升,之后持续快速下降;而GKT-FM 结果显示,学生对该知识点的掌握程度短暂上升,之后的下降趋势平缓。一方面是由于GKT-FM 建模遗忘行为时结合了认知同化理论[18],学生先前掌握的知识点对当前的认知状态起了正向作用;另一方面,时序特征也让处在不同时刻的知识点3 相互关联,表现为第9~15 时刻,知识点3 的掌握程度变化平缓。说明,与LFKT 相比,GKT-FM 能更好地追踪学生认知状态。

3)图3(a)、(c)中,学生从第5~15 时刻学习知识点4 期间,在答对知识点4 后:GKT 结果显示,学生对于知识点4 的掌握程度短暂上升,之后波动较大,无规律可循;GKT-FM 结果显示,学生对于知识点4 的掌握程度短暂上升,之后变化平稳。造成这一现象的原因同样有两方面:①GKT-FM 建模了学生的遗忘行为,所以学生两次作答同一个知识点期间,认知状态的变化遵循遗忘规律,且变化平稳;②知识点4 的时序特征对掌握程度的变化起到平缓作用。说明与GKT 模型相比,GKT-FM 模型能够更好地追踪学生认知状态。

综上,GKT-FM 模型可有效建模学生的遗忘行为和答题序列中的时序特征,并追踪学生的知识点掌握程度。

4 结语

本文重点考虑了遗忘行为和学生答题序列中的时序特征对认知状态的影响,提出融合遗忘因素与记忆门的图神经网络知识追踪模型GKT-FM。在公开数据集上的实验结果表明,GKT-FM 模型能够根据学生的历史答题数据实时追踪其认知状态变化,并有效建模学生的遗忘行为和答题序列数据中的时序特征对其认知状态造成的影响,在预测学生的未来答题表现时优于对比模型。

未来将针对以下两方面进行探索:1)本文所采用数据集中题目涉及的知识点相对较少,对计算资源和计算时间的要求仍在可控范围。如何有效建模含大量知识点的综合性题目,是下一步研究的重点。2)知识点间的层次关系是多样复杂的,比如包含、先验和后验关系,本文是通过统计的方法来构建知识点间的关系,算法仍有改进空间,如何更精确地构建知识点间的层次关系,也是接下来需要进行的工作。

猜你喜欢

时序答题时刻
邀你来答题
邀你来答题
邀你来答题
冬“傲”时刻
基于Sentinel-2时序NDVI的麦冬识别研究
捕猎时刻
邀你来答题
基于FPGA 的时序信号光纤传输系统
一种毫米波放大器时序直流电源的设计
一天的时刻