纵向题目作答时间模型：对潜在加工速度的变化追踪*

2024-03-05陈琦鹏詹沛达

应用心理学 2024年1期

陈琦鹏詹沛达，2，3**

（1.浙江师范大学心理学院，金华 321004；2.浙江省儿童青少年心理健康与危机干预智能实验室，金华 321004；3.浙江省智能教育技术与应用重点实验室，金华 321004）

1 引言

在心理与教育研究中，研究者通常对个体或群体在特定时间跨度中的认知或行为的发展变化感兴趣。这类研究的目标侧重于刻画每个个体的发展趋势和群体的平均变化轨迹（刘红云，孟庆茂，2003）。目前，针对不同的观测变量类型和潜变量类型（连续或分类）研究者们提出了众多纵向数据分析模型，比如纵向Rasch/IRT 模型（Andersen，1985；von Davier er al.，2011）、潜在增长曲线模型（Kaplan，2000）和潜在转换分析模型（Collins & Lanza，2010）等。尽管纵向模型本身并没有限制所分析的数据类型及所测量的潜在建构，但纵观已有研究可发现几乎所有纵向模型仅关注对传统题目作答结果（response accuracy，RA）数据（e.g.，答对答错或李克特式题目得分）的分析，忽略了其他模态数据，进而局限于追踪RA 数据测量的心理建构（e.g.，潜在能力）的发展变化。

随着计算机（网络）化测评的普及，除传统RA 数据外，对诸如题目作答时间（response time，RT）等过程数据的采集已越发普遍（韩雨婷等，2022；刘耀辉等，2022）。在心理与教育测评中，RT 数据作为一种RA数据的补充数据，描述了个体解决单一问题的总耗时，可用于分析个体解决问题时的潜在加工速度。这在一定程度上打破了传统心理测量中对速度测验和难度测验的功能划分。另外，因RT 数据“具有标准化数据结构，符合心理计量模型的建模与分析要求”（詹沛达，2022，p1417），近些年受到了研究者们的广泛关注，开发了诸多RT模型（郭磊等，2017），比如对数正态RT 模型（lognormal RT model，LRTM）（van der Linden，2006；Klein Entink，Fox et al.，2009）。但纵观已有研究可发现几乎所有RT 模型都仅适用于分析横断测评数据，即仅能分析被试在单一时间点测验中的潜在加工速度，无法追踪个体潜在加工速度的发展轨迹。

目前，随着计算机化测验的普及，一些形成性学测项目已经可以便捷地采集每个时间点上个体对每道题目的RT 数据（即纵向RT 数据）（e.g.，Wang & Nydick，2020；Wang，Zhang et al.，2018）。Wang 和Zhang等人（2018）发现在自适应学测系统中，随着干预（反馈/ 学习）次数的增加，学生群体在下一个时间点上作答所有题目的平均RT 会呈现下降趋势。Shi 等人（2018）发现在阅读理解任务中借助智能导学系统能够在一定程度上减少被试的RT。而上述例子中导致观测变量RT 减少的一个主要可能原因是被试的潜在加工速度随时间发生了提高。此时，如何合理分析纵向RT 数据以实现对潜在加工速度发展的客观追踪，是一个兼具理论与实践意义的议题。

综上所述，已有的纵向数据分析模型主要聚焦对纵向RA 数据的分析，少有研究关注纵向RT 数据的分析；且已有的RT模型多限于分析横断测评数据，无法追踪学生潜在加工速度随时间的发展。除联合分析RA 和RT 数据外，单独关注RT 数据的分析也很常见（e.g.，Guo et al.，2021；Klein Entink，van der Linden et al.，2009；van der Linden，2006；Wang，et al.，2013；詹沛达等，2020）。对此，本研究拟基于两类常见的纵向数据分析方法（i.e.，多元正态分布建模和潜在增长曲线建模）对最具代表性的LRTM 进行拓展，提出四个纵向RT 模型；以期实现对个体潜在加工速度发展的客观追踪并丰富纵向RT 数据的分析方法。对此，下文将按如下逻辑撰写。首先，简单回顾横断LRTM，并基于此提出四个纵向RT模型。其次，通过对一则有关空间旋转能力的纵向RT 数据的分析，呈现新模型的实践表现。然后，使用一则模拟研究去探究新提出的纵向RT 模型在不同模拟测验条件下的表现。

1 纵向题目作答时间模型

在心理计量模型中，纵向模型的一个核心作用是描述不同时间点上被试潜在建构的变化关系。本研究关注两类纵向建模方式：一类是基于多元正态分布的纵向模型（e.g.，Andersen，1985；Paek，Li，& Park，2016；von Davier et al.，2011；Zhan et al.，2019），另一类是基于潜在增长曲线的纵向模型（e.g.，Bollen & Curran，2006；Kaplan，2000；Wang & Nydick，2020）。前者类似于多维IRT 模型，直接利用多元正态分布对被试在各时间点上的潜在建构进行建模，并可利用均值向量描述不同时间点上群体的发展轨迹；后者通过构建潜在建构与测验时间点之间的线性或非线性回归函数来描述潜在建构随时间点增加的变化趋势。

基于上述两种建模逻辑，本文提出两类纵向RT 模型：基于多元正态分布的纵向RT 模型和潜在增长曲线的纵向RT 模型。上述两类模型的差异在于描述各时间点上潜在构建关系的结构模型，而测量模型保持一致。因此，下文先介绍统一的测量模型，然后再结合不同的结构模型逐一阐述四个新模型。

1.1 测量模型

针对横断RT 数据，LRTM 是目前最常用的RT 测量模型之一。设定Tni为被试n（n=1，...，N）对题目i（i=1，...，I）的作答时间。则LRTM 可表示为

或

其中，τn是被试n 的潜在加工速度；ξi为题目i 的时间强度参数，表示被试群体作答题目i 的平均耗时；ϕi为题目i 的时间区分度参数，反映潜在加工速度对观察作答时间的影响程度；εni为残差，ωi为题目i 的时间精度参数。

对于纵向测评而言，当整个测验包含P 个测验时间点，则第p 个时间点上纵向LRTM 的测量模型可表示为：

其中，Tnip是时间点p 上被试n 对题目i 的作答时间；ξip、φip和ωip分别是时间点p上题目i 的时间强度参数、时间区分度参数和时间精度参数；τnp是时间点p 上被试n 的潜在加工速度。

1.2 基于多元正态分布的纵向题目作答时间模型

为描述P 个时间点上τnp之间的关系，一种最直接的方法是构建多元正态分布，如图1（a）。即假设τn=（τn1，…，τnP）T是遵循多元正态分布的多维潜在加工速度向量：

图1 四个纵向题目作答时间模型示意图（P=3）

式中，μ=（μ1，…，μP）T为P 个时间点的潜在加工速度的均值向量；Σ 为方差协方差矩阵，描述了P 个时间点的潜在加工速度之间的关系。该模型直接估计的各个时间点上的潜在加工速度，因此可直接使用＾τn描述被试个体潜在加工速度的发展轨迹。此时，可以用＾τn（p+1）-＾τnp描述相邻时间点个体水平的变化程度，用＾μp+1-＾μp描述相邻时间点群体均值的变化程度。

该模型可视为多维LRTM（詹沛达等，2020）在纵向RT 数据分析中的应用。与多维LRTM 一样，该模型中的所有元素均需自由估计，即中有个待估计参数。该做法相对优点是考虑了所有时间点上潜在加工速度之间的相互影响，相对缺点是当时间点P 数量较多时参数估计计算量较大且易出现估计不收敛问题。

为缩减待估计参数数量，可通过引入马尔可夫性质来约束中的待估计参数，如图1（b）。目前已有许多研究将马尔可夫性质引入纵向数据分析中（e.g.，de Haan-Rietdijk et al.，2017；Zhan，2020）。基于马尔可夫性质，可假设被试在时间点p 的潜在加工速度只与其在时间点p-1 的潜在加工速度有直接关系。对此，将做如下转换：

其中，S 为标准差矩阵，Ω 为相关系数矩阵。然后，因只考虑相邻时间点之间的直接关系，所以只需将相关矩阵Ω 中相邻时间点的相关系数ρ(p-1)p作为待估参数；而跨时间点的相关系数不视为待估计参数，由各相邻时间点上的相关系数连乘而来：

其中，ρab为两个不相邻的两个时间点a 和b 之间的相关系数，比如，ρ13=ρ12ρ23。此时，Σ中待估计参数数量由P（P+1）/2 缩减为2P-1。

为便于阐述，下文将不包含马尔可夫性质的和包含马尔可夫性质的模型分别简称为MVN-LRTM 和MVN-LRTM-M。另外，在采用锚题设计和重复测量设计的情况下，可将第一时间点上所有被试的潜在加工速度的均值和方差分别约束为μ1=0和σ2τ1=1 以保证模型的可识别性（Paek et al.，2016）。

1.3 基于潜在增长曲线的纵向题目作答时间模型

为描述P 个时间点上τnp之间的关系，多元正态分布外的另一种方法是构建潜在增长曲线，如图1（c）：

①也有研究不考虑残差项（e.g.，Curtis，2010），即τnp=π0n+π1n（p-1）；预研究结果表明不考虑残差项的模型对实证数据的拟合结果较差.

式中，π0n为被试n 的截距系数，表示被试n的初始潜在加工速度水平；π1n为被试n 的增长系数，表示被试n 的潜在加工速度随时间变化的程度；π0n和π1n服从二元正态分布，两者的均值μ0n和μ1n分别代表群体潜在加工速度的均值和群体潜在加工速度的平均增长率，方差协方差矩阵则描述了潜在加工速度的初始水平和增长系数之间的关系：ρπ1π0＞0 意味着初始水平越高的被试，其潜在加工速度随时间的增幅越大，反之则反；εnp为残差。与MVN-LRTM 不同，该模型没有直接估计各时间点上的τnp，而是估计了每个被试的增长曲线系数（i.e.，π0n和π1n）；此时，可以用＾π1n描述相邻时间点个体水平的变化程度，用＾μπ1描述相邻时间点群体均值的变化程度。

公式9 假设τnp随测验时间点的增加呈线性增长，而现实中τnp随测验时间点的增加也可能呈非线性增长。此时，可在公式9 中增加二次增长项来实现对潜在加工速度的非线性变化的描述，如图1（d）：

式中，π2n为被试n 的二次增长系数，其余参数同上。

除包含二次增长项外，非线性增长模型中还可以进一步包含三次增长项或自由估计时间参数，限于篇幅限制本文暂不关注它们。为便于阐述，下文将基于线性增长曲线和基于非线性增长曲线的模型分别称为LGC-LRTM-L 和LGC-LRTM-N。另外，在采用锚题设计和重复测量设计的情况下，可将第一时间点上所有被试的潜在加工速度的均值和方差分别约束为μπ0=0 和σ2π1+σ2ε1=1 以保证模型的可识别性（e.g.，Wang&Nydick，2020）。

2 实证数据分析

2.1 数据描述与分析

本研究以一则有关空间旋转能力的自适应学测数据（Wang，Yang et al.，2018）为例来展现所提出模型的实践可应用性。该数据集包含350 名被试在5 个时间点上的作答数据，数据集的详细描述信息可见附录S1。图2 呈现了题目的对数RT 随时间变化趋势（剔除缺失值），可发现明显的下降趋势。

图2 实证研究5 个时间点上50 道题目的对数题目作答时间分布

分别使用MVN-LRTM、MVN-LRTM-M、LGC-LRTM-L 和LGC-LRTM-N 作为数据分析模型。模型参数估计设定及不同信息量先验下的稳健型分析可见附录S2。使用潜在量尺缩减因子（PSRF；Brooks & Gelman，1998）对作为MCMC 算法的收敛指标。使用后验预测模型检验（PPMC）评估模型对数据的绝对拟合程度；在计算后验预测概率（ppp）时较了观察数据X 和后验预测数据Xpostpred之间的差异：ppp=∑Ee=1（Sum（Xpostpred(e)）≥Sum（Y））/E ，其中E 为MCMC中的抽样次数，Xpostpred(e)为第e 次抽样中的后验预测值，由公式3 计算得到。使用-2LL（-2×log likelihood）和DIC（Spiegelhalter et al.，2002）作为模型-数据相对拟合指标。有关拟合指标更多的信息可见附录S3。

2.2 结果

需要强调的是，MVN-LRTM 中潜在加工速度的方差协方差矩阵中部分元素没有达到收敛标准（PSRF＜1.2），表明模型参数估计值没有稳定在一个特定值附近；在不收敛情况下得到的估计值（后验均值），无法排除MCMC 随机抽样误差的影响，难以反映数据本身所蕴含的特性；因此，该模型与数据的拟合结果仅供参考。其他三个模型的所有模型参数均达到收敛标准。

表1 呈现了四个模型对实证数据的拟合情况。首先，根据各时间点上的ppp 值，表明四个模型均拟合该数据。其次，不考虑MVN-LRTM 时，剩余三个模型的对数据的相对拟合比较接近。其中，-2LL 指标值表明，在不考虑模型复杂性惩罚的前提下，LGC-LRTM-N 对该数据的拟合相对最好，即该模型得到的参数估计值相对最能反映数据的特征。而 DIC 指标值表明MVN-LRTM-M 对该数据拟合相对最好，LGC-LRTM-L 次之且和LGC-LRTM-N 几乎没有差异。总之，当考虑模型复杂性惩罚时，MVN-LRTM-M 对该数据拟合相对最好，而不考虑模型复杂性惩罚时，LGC-LRTM-N 的参数估计结果最能反映数据本身特征。

表1 实证研究中模型-数据拟合结果.

图3 呈现了四个模型中所有被试潜在加工速度随时间的变化趋势（含群体均值变化）。对任何模型而言，潜在加工速度的群体均值都呈较明显的增长趋势。图4 呈现了四个模型中所有时间点上潜在加工速度的估计值之间的相关系数图。可以看到，无论是同一模型对5 个时间点上潜在加工速度的估计值之间，还是不同模型对同一时间点上潜在加工速度的估计值之间，均呈现高程度相关。一方面表明不同模型的估计值之间具有高度一致性，另一方面表明不同时间点上潜在加工速度之间也具有高度一致性（主要原因是该测验中各时间点之间的间隔较短）。

图3 实证研究中潜在加工速度随时间的变化趋势

图4 实证研究中所有模型对所有时间点上潜在加工速度的估计值之间的相关系数图

图5 呈现了四个模型的题目参数估计值。首先，四个模型的题目参数估计值之间具有较高的一致性，尤其是时间强度参数和时间精度参数。其次，同一类模型的时间区分度参数估计值相对更接近。

图5 实证研究中所有模型的题目参数估计值

综上所述，实证研究结果表明四个纵向RT 模型均具有实践可应用性且对同一批数据的分析结果具有较高的一致性。此外，本研究还包含模拟研究，以探讨模型的心理计量学性能，可见附录S4。

3 总结与讨论

为实现对个体潜在加工速度发展的客观追踪，本文基于多元正态分布和潜在增长曲线提出了四个纵向RT 模型。四个模型的测量模型一致，差异主要体现在描述潜在加工速度如何随时间变化的结构模型上。具体而言，前两个模型直接估计各时间点上的潜在加工速度，未直接关注变化的过程；相反，后两个模型直接估计潜在加工速度随时间的变化（增长）系数，没有直接估计各时间点上的潜在加工速度。实证研究结果表明四个模型均有实践可应用性，且它们的数据分析结果具有较高的一致性。模拟研究表明四个模型在不同模拟条件下的参数估计返真性良好，且两个LGC-LRTM 对潜在加工速度的估计精度略高于两个MVN-LRTM 的。总之，本文提出的四个纵向RT 模型具有实践可应用性，且心理计量学性能良好，不仅丰富了心理与教育测量中纵向RT 数据的分析方法，也拓展了纵向潜变量模型的应用范围。

限于精力和能力，本文也有一些局限有待未来研究做进一步探讨。比如，尽管本文一次性提出了四个纵向RT 模型，但鉴于纵向数据分析的快速发展，目前还有诸如增长混合建模和多水平增长建模等多种纵向建模方法。未来可尝试在纵向RT 数据分析中引入更多的纵向建模方法，以期进一步丰富纵向RT 数据的分析方法。其次，本文仅关注单维潜在加工速度随时间的变化，随着测评情境复杂性日益增加，如何追踪多维潜在加工速度（詹沛达等，2020）随时间的变化也值得关注和探究。详细讨论内容见附录S5。