自动化项目生成及其在教育与心理测评中的应用

2022-03-29孙婷婷

考试研究 2022年2期

孙婷婷杨涛

项目质量是测评分数效度解释的有力证据，任何考试评价的实现都需要研发高质量的测评项目，以求能对考生某一领域知识能力的真实情况有较为精准的测量和解释[1]。传统的项目开发一直由人工编写，耗时耗力成本高，且容易受到项目编写者的主观影响[2-3]。高效、客观地开发和维护高质量的项目或题库，一直是教育与心理测评研究的重要领域[4]。

自动化项目生成（Automatic Item Generation，AIG）是随着计算机技术发展而逐渐兴起的，指计算机根据项目开发者或者自适应施测程序的要求，在项目生成算法的指导下，即时自动地生成符合指定项目参数的项目[5-7]。计算机技术在AIG 的算法实现上十分重要，它能够帮助测验开发者省时省力地开发出大量高质量项目，并在组卷阶段实现智能化组卷[8]。

AIG能有效提升项目编写的客观性，并在应对项目曝光问题上非常具有前景[9]，符合计算机化自适应测评以及大规模测评对题库建设和优化的需求[10]。近年来人工智能技术的广泛应用，使AIG 在项目生成的技术算法上有了新进展。本文将梳理AIG 的主要方法及其在教育与心理测评中的相关应用，并在此基础上总结AIG的发展现状和未来研究挑战。

一、自动化项目生成的方法类型

AIG 的发展已有六十多年，传统的测评项目开发理论为AIG 的快速发展奠定了基础。2006 年，Haladyna 和Downing[11]在《测试开发手册》（Handbook of Test Development）中总结了测试开发（Test Development）的12 步骤流程，依次是：总体计划、内容定义、测试形式、项目开发、测试设计和组织、组卷、测试实施、作答评分、标准划定、测试结果报告、题库建设、技术报告。Irvine 和Kyllonen 也提出项目生成主要包括测评设计、项目设计及编写、试题的测量学参数估计、测评分数的评价标准设定、试题组装五个主要方面[12]。在AIG 过程中，测验开发者和学科专家需要在确定测评内容和形式、项目设计和项目开发上兼顾构念效度和认知需求，即内容方面的知识、技能、策略和认知能力方面的认知任务等。

项目编写首先根据测评的测量构念（construct）确定考查的知识能力，进而根据考查的特定内容生成具体的项目描述。最早的项目设计与编写被认为是部分科学部分艺术的主观行为，而AIG基于计算机技术自动化地生成项目，为项目编写的客观性提供了一定支持[13]，在项目设计和生成方法上体现出其跨学科的特性。AIG 主要方法包括：（1）内容优先的AIG，以项目内容和测量构念驱动项目设计和生成，如项目模型法（Item Model）和认知设计系统法（Cognitive Design System Approach，CDS）；（2）技术优先的AIG，以技术的算法化和自动化程度驱动项目设计和生成，如语义分析法和深度学习法（Deep Learning，DL）。

（一）内容优先的项目设计方法

1.项目模型法

1968 年Osburn 首次提出了项目形式法（Item Forms）[14]，用来生成有固定句法结构的项目。项目形式法认为一个句子中有很多可变化的元素，通过对这些元素进行分类，并且限定与之相对应的替代元素，便可生成很多类似的项目[15]。

在项目形式法基础上，项目模型法逐渐发展起来，又称项目模板法（Template），是指将经过心理测量学检验且指标良好的项目作为项目模板（也称项目原型或框架，Item Model，Template，Item Shell），通过改变和替换与问题解决难度无关的描述，组合形成多个新项目的过程[16-18]。项目模型法实际上也可看作是生成多个同构异形项目的过程，生成的所有项目称为项目集（Item Family），项目集中的项目在实质内容和心理测量学属性上趋于一致[2，19-20]。

图1 是一个用于自动化生成选择题的项目模型示例：在项目模型中，选择题可分为题干、选项和辅助信息，对题干中可替换的元素进行编码，并对元素的取值范围做出限定，与之相对应的选项也可替换成编码。Gierl、Lai 和Turner[16]进一步提出项目模型的分类（Item Model Taxonomy），对题干和选项进行分类，使选择题的自动化生成更加丰富多样，如表1所示。根据题干与选项之间的关联程度，题干可分为：（1）独立元素——编码的元素是任意独立的，可变化的；（2）相关元素——受到其他元素的约束和影响；（3）混合元素——独立元素与相关元素同时存在；（4）固定元素——元素内容是固定不变的。选项可分为：（1）随机选择的选项——任意的选项；（2）受约束的选项——受到题干内容影响的选项；（3）固定选项——固定不变的选项。

表1 项目模型分类法②转译自Gierl M J，Lai H，Turner S R.Using Automatic Item Generation to Create Multiple-choice Test Items ［J］.Medical Education，2012，46（8）：757-765.

图1 项目模型示例①转译自Gierl M J，Zhou J，Alves C.Developing a Taxonomy of Item Model Types to Promote Assessment Engineering［J］.Journal of Technology，Learning，and Assessment，2008，7（2）：51.该项目模型示例无图、表等辅助信息说明。

根据项目设计生成具体项目的过程叫做项目克隆（Item Cloning）[20-21]，实现项目克隆的软件或程序载体称为项目生成器（Item Generator）。IGOR 是项目模型法AIG 中较为系统的项目生成器[22]，其他多为自编算法程序[23]。由于项目模型法的适用性更强，一直在AIG 研究和应用中占据主导地位，大多数的项目生成方法都可以被纳入项目模型法的范畴。

2.认知设计系统法

早期的项目模型法主要考虑项目的形式结构特征，缺乏对项目的测量内容建构。1994年，Embretson提出认知设计系统法[24-25]，较好地弥补了这一缺陷，提升了AIG的系统性。

CDS 是理论驱动的项目生成，基本思想是通过认知实验研究，确定某一认知领域的核心能力和任务解决的关键特征，建立认知模型并且检验模型的心理测量学特征，区别影响任务解决的基本成分和随机成分。基本成分是指对任务解决有显著影响的项目刺激特征，随机成分则是指可以替换的、对任务解决没有显著影响的项目刺激特征[2，6，18，25]。

表2 呈现了CDS 项目生成的基本流程[25]。可以看出，Embretson在20世纪末对CDS的理论建构十分体系化，在项目生成器的开发方面，提出未来或许能够与人工智能方向相结合，借助人工智能技术大规模生成符合测评设计的项目。

表2 认知设计系统的项目生成流程③摘译自Embretson S E.A Cognitive Design System Approach to Generating Valid Tests：Application to Abstract Reasoning［J］.Psychological methods，1998，3（3）：380.

（二）技术优先的项目设计方法

项目生成的算法化和自动化程度是AIG 客观性和效率性体现的关键，而人类自然语言又是通过字、词、短语和句的衔接关系表达完整的意义，是具有序列关系的数据。实现自动化的项目生成，即是理解自然语言、构造语言模型和生成自然语言的过程[26]。

当前AIG 有两种自然语言处理（Natural Language Processing，NLP）方式：一是基于语言规则的语义分析，即逻辑规则的语言建模，考虑字或词的形态、语法和语义；二是基于大量语料的统计建模，目标是在给定的文本数据上下文中预测下一个出现的字或词，即深度学习，现实世界中语音识别或机器翻译系统的语言建模都是建立在大数据的基础上[26]。

1.语义分析法

语义分析法在理解和分析原有项目的语法、词汇、句子结构和功能的基础上，提炼和设计规则来生成项目。已有研究包括采用框架语义学、词汇功能语法和关键概念提取等技术自动化生成项目。

2003 年Deane 和Sheehan[27]首次提出将自然语言生成（Natural Language Generation，NLG）技术应用到AIG 中，以框架语义学（Frame Semantics）为指导，自动化生成数学代数应用题，探讨了结合NLG 的自动化项目生成过程。如图2所示，将空格缺失部分按照固定的语义功能定义为“交通工具”和“整数”，便可在“交通工具”处使用各种各样的交通工具作为替换内容，在“整数”处填入不同的整数作为替换。如此，便可自动化生成大量同类型的项目。

图2 框架语义分析示例①转译自Deane P，Sheehan K.Automatic Item Generation Via Frame Semantics：Natural Language Generation of Math Word Problems［J］.2003.

2016年Huang和He[28]采用词汇功能语法，实现了中国大学英语四级测试（CET-4）阅读理解填空题的自动生成。其实证研究结果表明，自然语言处理技术能够有效提高AIG生成项目的信效度和多样化，并建议后续研究可采用更好的项目生成框架设计。

Wesiak等人[29]开发的EAQC项目生成器（Enhanced Automatic Question Creator，EAQC）则是基于文本篇章的关键概念提取（Concept Extraction）。即设计算法从文本材料中提取最重要的概念以及概念之间的关系，根据关键概念生成项目的题干和参考答案，如单选题、判断正误题、填空题和开放性回答题，测验开发者可选择使用哪个概念来生成项目，并且选择生成什么类型的项目。2016 年Smadi、Hoefler 和Guetl[30]进一步对EAQC 概念提取的精确度和生成项目的真实性进行研究，并与人工提取的概念和生成的项目进行对比，实证研究结果表明，EAQC提取的概念和生成的项目与人工提取和生成相差无异，在概念提取层面，EAQC的结果要好于人工提取；在项目生成层面，EAQC的项目没有人工编写的项目变化多样。

2.深度学习法

深度学习是多种深度神经网络模型的总称，起源于大数据和人工神经网络的研究[26]，人工神经网络的提出是基于机器对大数据的筛选过滤和分类。深度学习基于分布式表征学习的假设，即允许机器从原始数据中自动化地学习和表征数据的特征，这种学习和表征是由低到高多层次的、逐渐抽象的和非线性的[31]。这些特征不是由人类的思维方式和工程设计的，而是从数据中学习，尤其是对多维数据的复杂结构学习，这一优势特点使得深度学习在计算机视觉和自然语言处理等诸多领域取得很好成果[26]。

递归神经网络（Recurrent Neural Network，RNN）是深度学习语言建模应用最广泛的模型[26，32]。RNN通过一步一步地处理真实的（时间）序列数据并预测接下来会发生什么来训练序列生成，体现了序列中接近的数据点之间的相关性[26]。预测的假设是概率性的，通过从神经网络的输出分布中迭代采样，然后将样本作为下一步的输入，从训练好的网络中生成新的序列，即让神经网络把它的训练发现当作是真实的，根据训练的模式生成新的文本[33]。RNN 本身是确定性的，抽样注入的随机性使输出结果产生了序列上的分布，这种分布又因神经网络的内部状态依赖于以前的输入，因而是有条件的分布。

图3 给出了一个基本的带有延迟线的RNN 结构，并在时间上展开了两个时间点的步长[26]。在这种结构中，输入向量被一次一个地输入到RNN 中，且RNN 利用当前时间点的训练结构预测。一个特定的RNN 能捕获多少信息取决于它的神经网络结构和训练算法[33]。

图3 RNN展开图①转译自LeCun Y，Bengio Y，Hinton G.Deep Learning［J］.Nature，2015，521（7553）：436-444.

RNN 多用于文本生成[33]、机器翻译[34-35]、语音识别[36-37]、时序预测[38-39]等领域的研究和应用。中文自然语言处理相关研究有陈谦[40]基于神经网络对自然语言的语义表征方法进行研究；王哲[41]提出了基于规划的诗歌生成模型PPG（Planning-based Poetry Generation Approach，PPG），从诗歌规划和诗歌生成两部分来生成中国传统诗歌，并取得良好的效果。

2018 年von Davier[42]首次提出基于深度学习的AIG 方法，并以国际人格测试题库（International Personality Item Pool，IPIP[43]）为例，采用RNN-LSTM自动化地生成人格测试新项目，并使用主成分分析法验证新生成的项目具有与原有项目相一致的信效度。与此同时，von Davier指出，尽管基于深度学习的全自动AIG相较于以往半自动化的AIG更有效率，后续研究还需要进一步验证深度学习AIG 方法的可靠性。除此之外，2018年陈志刚[44]也从英语考试自动答题的技术研究入手，围绕多维度语义分析、深度语义建模、基于句法的深度语义建模以及深度语义信息融合等多方面开展英语考试自动答题技术研究。

二、自动化项目生成的项目质量

不同的AIG 方法直接影响新生成的项目质量。此外，与传统的项目开发一致，项目的参数估计方法、人工编写偏好等也会影响AIG 的项目质量。相关研究从AIG 方法的优化和其他影响因素两方面研究进一步改进和提升AIG的项目质量。

（一）生成方法的优化

1.项目模板法与认知设计系统的结合

随着项目模型法的成熟应用，只注重项目生成数量的功能性逐渐减弱，项目生成的理论性逐渐增强。Gierl 和Lai 等人[45-46]将项目模型法与测评的知识内容结构和认知模型相结合，应用于形成性测评项目生成和作答反馈生成中，重视建构项目自动化生成的测量构念，用于AIG 的测量构念明确了特定学科领域的问题解决所包含的内容知识、技能和能力水平等。

Arendasy和Sommer[47]为确保新生成的项目的效度，结合项目模型法和认知设计系统法的优势，提出自动化最小-最大法（Automatic Min-Max Approach）。以认知模型蓝图为项目内容生成的基体（Radicals），项目材料的表面特征作为约束条件来控制生成项目的质量，减少低效度项目的生成。自动化最小-最大法可看作是CDS 的延伸，它在认知设计系统方法的框架基础上，认为项目刺激材料的特征只是项目的主成分，是每个项目中都需要生成和测量的内容；其他特征则是用来控制项目生成质量使项目功能差异最小化的约束条件。

2.深度学习模型的优化

原则上，网络结构足够大的RNN 可以生成任意复杂程度的序列[33]。而在实践中，标准RNN 无法长时间存储有关过去输入的信息[38]。1997 年，Hochreiter 和Schmidhuber[48]提出长短时记忆网络（Long Short-Term Memory，LSTM），解决了RNN 训练不稳定的问题。LSTM 是基于标准RNN 的改进结构，比标准的RNN 更适合于存储和访问信息，可以更轻松地获得良好的训练效果，在工业界和学术界一系列序列处理任务中获得了广泛而成功的应用[26]，如语音和手写识别[49-50]。

Graves 和Schmidhuber[49]比较了RNN、双向RNN（BRNN）、LSTM、双向LSTM（BLSTM）和多层感知器（Multi-Layer Perceptron，MLP）等几种常用的语言模型，发现在具有上下文联系的语音识别数据中，LSTM 表现出更好的训练速度和精度，并且双向结构比单向结构更有效。Greff 等人[51]在语音、手写识别和复调音乐数据集上的大量重复实验发现，标准的LSTM（vanilla LSTM）在大规模数据中的适用性更强。黄贤英等人[52]的研究进一步表明，LSTM 由于加入时间序列的建模，能够更加准确地表征上下文语义信息并提升分类准确性。

（二）影响因素的约束

1.参数估计精度

已有AIG 研究中，大多采用项目反应理论（Item Response Theory，IRT）对项目参数进行估计，评估模型的拟合度和新生成项目的质量。应用最广泛的IRT 模型有线性逻辑斯蒂模型（Linear Logistic Test Model，LLTM）、约束两参数逻辑斯蒂克模型（2PLConstrained Model）、层级IRT 模型（Hierarchical IRT Model）等。

Holling等人[53]使用LLTM和RE-LLTM（Random-Effects LLTM）对项目进行参数估计。Glas和van der Linden[20]在CAT 中运用3-PLM（三参数逻辑斯蒂克模型），采用边际极大似然估计（Maximum Marginal Likelihood Estimation，MMLE）和贝叶斯（Bayesian）方法估计AIG 新生成的项目参数。之后Glas[54-55]又比较了两种提高项目参数标定精度的方法：ICM（Item Clone Model，项目克隆模型）和近似模型（Approximate Model），其研究结果表明，ICM 方法的参数估计精度略有提高。Embretson和Yang[1]以及Geerlings、Glas 和van der Linden[56]先后都采用了层级IRT模型进行参数估计。

Ferreyra 和Backhoff Escudero[57]从经典测量理论（Classical Item Theory，CTT）、IRT、验证性因素分析和内容覆盖率等方面对AIG 的新生成项目进行质量检验。2017年，Harrison 等人[58]将IRT、CAT 和AIG 融合在音乐能力测验中，采用4-PLM（四参数逻辑斯蒂克模型）模型，开展了4 个子研究检验AIG 在音乐主旋律区分（Melodic Discrimination Test）CAT测评中的项目质量，其实证研究结果表明，采用项目模型法自动化生成的CAT测评项目具有良好的信效度。这些研究为AIG的项目质量优化和在不同学科的广泛应用打开了大门，十分利于AIG的信效度和效率的提升。

2.原始项目编写偏好

Lai、Alves 和Gierl[5]采用项目模型法自动化生成数学、科学、社会和语文四个学科的选择题，检验项目编写者在编写原始模型项目时是否存在偏好。结果表明，项目编写者更喜欢编写题干内容独立、选项受约束的项目作为项目模型；并且更倾向于将AIG方法应用于数学、科学等偏计算语言的学科，而非语文、社会等偏语言学科。

3.潜特质对项目难度的影响

李中权等人[59]研究了在图形推理测验中不同认知成分对项目难度的预测作用。他们总结出影响图形推理测验项目难度的四个因素：构图元素熟悉性、属性的抽象性、知觉组织的和谐性、规则类型与数目。其回归分析结果发现，这四个不同认知成分均对项目难度有显著预测作用。可见，项目质量也受到项目本身所考查潜特质的类型、结构和水平的影响。

三、自动化项目生成的应用领域

（一）学业成就测评

项目模型法在学业成就测评开发中的应用，主要有语文、社会、科学、数学、生物、音乐、计算机、英语语言学习等项目生成[5，16，22，45，60，61]。涂冬波[62]将项目模型法应用于认知诊断计算机测评系统的开发，经检验，新生成项目的测量信效度较好。Gierl 和Lai[46]在数学测评中采用项目模型分类法，替换模型项目中的题干和选项元素，自动化生成大量项目及其对应选项，为其形成性反馈提供支持。

认知设计系统法在学业成就测评方面的应用尚在起步阶段，杨向东[63]总结了基于认知设计系统法的代数应用题生成的四种结构分析法：命题分析、网络语言分析、关系-函数分析和任务分析地图，实现对代数应用题的项目认知特征进行表征。

（二）心理测评

认知设计系统法在心理测评项目开发中的应用最多，如矩阵推理项目[64]、抽象推理测验项目[25，65]、空间折叠以及空间物品排列[66]、图形推理[59]、定量推理[67]、视觉短时记忆[68]和心理旋转[69]等。周骏等人[70]根据认知设计系统法，编制了矩阵完成问题的项目生成系统，自动化生成矩阵完成问题的测验项目，其研究结果表明，认知模型的设计对新生成项目的参数估计产生影响，测量相同任务技能的项目其参数较为一致。杨向东[65]的实证研究结果也表明，在计算机适应性测验条件下，采用认知设计系统法生成抽象推理测验项目的预测参数比相应标定参数分布更为趋中。

深度学习法在心理测评中的应用，主要是von Davier[42]采用RNN-LSTM 对IPIP 人格测试项目的自动化生成。

（三）职业资格考试

在职业证书资格考试项目的自动化生成方面，主要采用项目模型法，应用于医师执照考试[16]、医学项目考试[71，72]等。如Lai 等人[73]以牙科测评项目为例，在结合认知模型的基础上，采用项目模型法自动化生成牙科测评项目。

此外，语义分析法也应用在资格考试中，如前文提及的在英语自动答题[44]和大学英语四级考试阅读理解项目生成[28]中的应用。

四、总结与展望

AIG 是人工智能技术在教育中的深度融合的体现，是结合计算机测评（Computer-Based Testing，CBT）、测评设计（Test Design）和认知能力测评（Cognitive Assessment）的跨学科研究方向[13，74-75]，在教育与心理测评实践中的应用和发展前景广阔。而与此同时，AIG 在真实测评项目应用中的准确性、有效性和稳定性需要在实践应用中进一步检验和提高。深度学习AIG 随着人工智能技术的发展逐渐而产生，即使没有理论模型仍可以保持较准确的分类、训练和即时生成，更节省项目开发成本。但项目质量同样不可忽视，项目的质量关乎测评的可解释性，如何从深度学习AIG 的非线性关系中找到特定的解释依据，是未来相关研究面临的挑战。

当前的测评项目开发仍以人工编写为主，如何将人工编写与AIG 相结合，兼顾测试开发的成本效益和公平客观性，是未来AIG 研究应考虑的方向。在已有AIG 方法中，项目模型法、认知设计系统法、语义分析法是基于逻辑规则、由少到多的半自动化项目生成（Semi-Automatic Item Generation），认知设计系统与语义分析法对语言结构和问题解决的任务过程定义复杂，项目模型法和认知设计系统法互相融合借鉴，目前仍是项目模型法适用性更强、应用更广泛，但项目模型法生成的项目同质化相对明显。深度学习AIG实现了基于大数据深度建模、由多到多的全自动化项目生成（Total-Automatic Item Generation），颠覆了基于逻辑规则的AIG，减少了前期的人工标注和投入，算法化更强，但深度学习AIG 的应用广泛性和项目质量还需要获得进一步的评价与验证。

随着人工智能技术赋能教育的教育变革新形势逐步深入，AIG 与计算机自适应测评、大规模在线测评和题库建设等相结合更适应智能化教育测评的发展方向，因而，AIG 的自动化和智能化程度有望在后续的研究中获得进一步探索与实践，AIG的相关研究也需要更多的实证研究和教育与心理真实测评场景的实践提供支持。在人工智能环境下，基于教育与心理测评特点，获取真实教育和学习场景中的大数据，结合测量所考查的知识内容和认知能力等目标，综合不同AIG 方法的优势，以求最大程度地自动化生成符合真实教育与心理测评情境的高质量项目。