项目反应理论在居民健康素养标准参照测验中的应用研究*

2016-12-27曹荣祥孙昕鍴郭海建李小宁

中国卫生统计 2016年1期

曹尚曹荣祥孙昕鍴郭海建李小宁徐勤△

曹尚1曹荣祥1孙昕鍴2郭海建3李小宁3徐勤1△

目的运用项目反应理论（IRT）对居民健康素养调查问卷的条目进行测评，探讨基于信息函数建立居民健康素养标准参照测验并评价项目性能。方法以1000例健康素养调查样本为例，利用单维三参数logistic模型（3PLM）拟合样本，估计项目参数与信息函数，以掌握水平比例的能力水平作为决策点（测验划界分数）。结果问卷73个项目的三参数logistic模型拟合优度98.6%，难度在-4.27～4.23，区分度在0.32～1.58，猜测度在0.009～0.5，测验在能力水平为-0.13时获得最大信息量与最小测量误差，对应的掌握比例为0.62（划界分数）。结论 IRT在问卷的测评编制中能深刻而合逻辑地分析每个测验项目与整个测验间的定量关系，2013版《江苏省居民健康素养调查问卷》在中低能力水平的被试中具有较高测量精度。

项目反应理论健康素养信息函数标准参照测验

项目反应理论（IRT）是在克服经典测量理论的局限上发展起来的一种现代心理与教育测量理论，IRT以被试在项目上的作答概率为依据，应用概率模型分析被试潜在特质（能力水平）与其测验项目反应之间的关系，优势在于将被试的能力参数与项目难度参数定义在同一等距量尺上，估算出不依赖于项目样本与被试样本的能力值和项目参数［1-2］，使得在测验编制中可以有针对性地选择适合被试能力水平的项目，同时用信息量代替了信度的概念，实现了对被试特质水平估计误差的主动控制。IRT在指导测验编制中的优异性使得其已成为发达国家的主流测量理论。

健康素养是公共卫生的重要组成部分，如何建立合理全面的居民健康素养评估体系是全球共同关注的热点课题［3-4］。我国的健康素养实践正处于起步阶段，本研究运用IRT对2013版《江苏省居民健康素养调查问卷》［5-6］进行测评，为今后中国居民健康素养评价量表的构建提供实践依据。

原理与方法

1.项目反应理论的基本假设

IRT有3个基本假设：潜在特质的单维性，指测验仅测试被试的一项特质（知识、技能、人格等）。事实上该假设不可能完全实现，因为总有一些认知的、人格的影响测验表现，只要有一个主导因素即可；局部独立性假设，指同一被试（或同一水平被试）在任一项目上的作答反应不会受到同一测试上其他项目的影响，同一项目上的不同被试（或不同水平被试）的作答反应不会相互影响；项目特征曲线假设，被试对项目的正确反应概率与其项目所对应的特质或能力水平之间的关系可以用一个关于能力单调上升的函数来表示。

2.项目反应理论模型

现假定为第j个个体（j＝1，2，…，n）的作答情况，答题结果在两分类（正确与错误）的情形下，根据参数个数设定的不同，分为单参数模型、双参数模型、三参数模型三种IRT概率模型［7-9］。

式中bi为项目的难度参数，θj是被试潜在特质（能力）参数，代表个体能力，范围［-∞，+∞］。P（yij＝1｜θj）表示能力θj的个体对项目正确作答的条件概率，取值在［0，1］。

（2）（3）式中D＝1.702，ai与bi分别为项目的区分度参数与难度参数，ci为猜测概率参数。区分度参数ai越大，表示项目对不同潜在特质水平θ的被试有越高的区分能力；难度参数bi越大，表示被试选择这个选项需要的能力就越大；猜测参数越大，表明被试通过猜测答对的概率越大，反之亦然。

3.项目反应理论参数估计

在假定局部独立性的条件下，对于第j个个体，项目联合密度函数为：

似然比函数为：

现在常用的参数估计方法包括条件极大似然估计、联合极大似然估计、边际极大似然估计与EM算法等［10］。

4.信息函数：IRT把项目在评价被试能力水平时贡献的信息量定义为信息函数，对于第i条项目，能力为θ的被试，其信息函数为：

三参数模型的信息函数公式即为：

信息函数将项目的难度、区分度、猜测度合而为一，反映出各个项目对不同能力水平被试者所能提供的信息量。由于每个项目可以单独对问卷的信息作贡献，贡献量大小不受问卷其他项目的影响，所以测验信同时，由θ取值分布的渐近正态性决定，测量信息函数与测量标准误存在如下关系：SE（θ）信息量越大，测量标准误越小，其测量精度也越高［7-9］。

5．项目反应理论下的决策点（划界分数）

IRT证明当一个测验（试卷）能恰当代表某一特质领域时，被试在该领域掌握百分比π就是他在该题库全部项目上期望分数的平均数［7-9］，即：

3PLM下的决策点（划界分数）表达式即为：

因为所有项目的参数都是确定值，所以π与θ存在一一对应关系。当确定各项目的参数，按需要确定某一掌握百分比π0作为划界分数，就可以推算出对应的θ0值，即确定其在特质连续体上的具体位置［7-9，11-12］。

实例分析

资料来源于2013年江苏省开展的健康素养专项调查研究。调查对象为境内15～69岁的常住居民，包括在监测范围内居住或寄宿达6个月以上的外来人口。长期在外工作、学习的家庭成员，如果在外时间超过6个月，则不纳入调查范围。共调查13000余人。调查使用问卷为2013版《江苏省居民健康素养调查问卷》，包含判断题15题、单项选择题40题、多项选择题18题以及情景阅读题7题（以0-1形式计分），合计80题。随机抽取男女各500份有效问卷作为本次实验样本，平均年龄（49.9±12.5）岁，99%以上的受试者是汉族。

本次研究资料属0-1评分，测试包含判断题，无法排除猜测行为的发生，故选用IRT模型中的单维三参数logistic模型（3PLM），情景阅读题7题答题结果之间存在相关（p＜0.05），不满足局部独立性假设，故不在本次研究范围内，其余73题进行的因子分析显示第一特征根与第二特征根比值为3.78（10.124／2.678），单维性假设成立［1-2］。

利用BILOG-MG3.0软件进行参数估计与模型拟合（采用边际极大似然估计算法），采用MATLAB自编程序进行划界分数的计算（采用牛顿迭代算法），并根据参数结果编写了excel宏指令进行作图。

1.IRT项目参数估计结果

从χ2估计拟合情况来看，有 15个项目（A03、A08、A10、B14、B16、B17、B20、B27、B29、B34、B38、B40、C06、C07、C12）的 P值小于 0.05，χ2检验拒绝了该模型，说明这15个项目的拟合度较差，考虑到样本量较大，从校正卡方值（Chi／df）观察，只有1个项目（B40）仍大于5，说明该项目与模型拟合度确实较差，其余11个项目尚可，3PLM模型拟合优度98.6%（72／73）。73个项目的区分度范围为［0.32，1.58］，难度范围为［-4.27，4.23］，猜测度范围为［0.009，0.5］。项目的区分度、难度、猜测度的取值尚无固定标准，但有一些普遍采用的原则，一般认为如果ai＜0.3，则认为项目的区分度过小，应在0.4以上为宜；bi＞3.0或bi＜-3.0，则认为项目过难或过易；ci＞0.4，则认为项目的猜测度过大［13］。难度不在区间［-3.00，3.00］的条目有7个，猜测度大于0.4的条目有3个，详见表1。

表1 项目参数及信息函数结果

2.信息函数

整个测验信息函数的峰值为15.75，在潜在能力参数值为-0.13时实现，各项目在能力参数值为-0.13时提供的信息量范围为0～0.93。73个项目的最大信息量范围在0.04～0.98，对应的能力值范围-3.90～4.23。通常，测量标准误在能力分布集中的区域应当控制在0.4以内，即测量在这段能力值范围内的信息量应至少达到 6.25（1／（0.4）2）［1］。本次研究测试者的能力值基本分布在-1.5～1.5，集中了90%（899／1000）的受试者，整个测验在能力值区间-1.5～1.5的信息量均超过6.25，同时超过70%（53／73）的测验项目在这段能力区间产生了最大信息量，详见表1、图1。可见，现有测验的测量误差基本满足精度要求，但信息函数结果表明各项目普遍在中偏低的能力水平区间贡献出较高的信息量，说明该测验在面对中等偏低健康素养能力水平的被试时具有较高的测量精度。

3.标准参照测验

标准参照测验编制不同于常模参照测验，其核心是要在划界分数（cut-off score）做出决断，从而对被试有最强鉴别力［1-2］，即要求测验在决策点有最大信息量和最小测量标准误。信息函数表明问卷在测试能力水平θ＝-0.3处取得最大信息量，带入公式（9），通过迭代计算得掌握比例π＝0.62，说明以此作为合格标准测验将最为高效。实际应用中通常以掌握比例60%，即π0＝0.6作为划界分数，若以此为标准，本次测验掌握比例60%对应的被试能力值为θ0＝-0.26，测验信息量为 15.64，测验估计标准误 SE（θ0）＝0.25，提示命题者应降低整体测验难度，提高测量精度［1-2］，使测验在划界分数π0＝0.6处达到最大信息量，从本测验信息函数曲线图（图1）来看，应使曲线高峰向左移，并增大高度。

图1 测验信息函数图

通常认为整体测验标准误小于0.20时，测验信息量在划界点处大于25，这样测验才能精确地区分合格与不合格被试，可认为质量良好；测验信息量在16～25的项目可认为质量一般，需要修改，测验信息量低于16的项目则可能需要重拟［11-12］。以掌握比例60%作为划界分数为例，按上述要求就可建立项目优劣分类标准，见表2。对于需修改的项目，可调整难度与增强区分力，以提高项目信息量。如图3，从项目B17的信息曲线可知，该项目在测验掌握比例0.6（即能力水平是-0.26）时的信息量较小（0.25），但在能力水平为0.57时项目信息量达到最大（IM＝0.37），因此，若能把项目难度降低到-0.26左右时，该项目的质量将会得到改善，图4项目B24与B17的情形则相反；图5项目C14的信息量较小且难度跟划界点的差距大（IM＝0.23在能力水平-0.74时产生），说明如要改进此项目的质量需要提高难度，同时加大项目的区分度。

表2 测验项目质量分析

表3 测验需修改项目的建议

由表2可知，16个良好项目虽然只占测验项目总数的24.92%，却提供了58.50%的测验信息量，良好项目ICC的普遍特征为难度适中，猜测度较小，区分度较大，见图2；与此相对的是48道需重拟项目，占测验项目的65.75%，只提供了25.54%的测验信息量。因此，测验只要多选用良好项目，完全可以在较少项目数的条件下获得满意的信息量，在提高测验效率的同时更加精确地区分合格与不合格被试。

图2 质量良好的项目特征曲线图

图3 B17项目信息函数曲线图

图4 B24项目信息函数曲线图

图5 C14项目信息函数曲线图

结论

本次研究运用IRT分析2013版《江苏省居民健康素养调查问卷》，以信息函数代替了信度概念，通过建立被试潜在特质与对项目的反应之间的数量关系，在获得稳健项目性能参数的同时，实现了对测量误差的主动控制。

IRT克服了经典测量理论（CTT）难度与划界分数定义在两个不同全域上的理论缺陷［12］（CTT真分数理论框架中难度定义在某一测试组上的通过率，建立在被试的全域上；划界分数定义在某一项目组上的通过率，建立在测验项目的全域上，二者其实是两个互无关联的度量域［2，7-9］），通过将被试的能力水平参数与项目难度参数定义在同一等距量尺上［1，7-8］，真正体现了难度就是对被试能力水平而言所显现的困难程度，清晰而准确地反映出项目统计量跟划界分数间的逻辑联系。在已掌握比例为划界分数的标准化测验中，将可以直接考察测验是否准确把握住了合格标准，并可以根据结果对项目性能进行直观的偏离评估，优劣判断，进而从项目参数的角度出发进行高效明确地调整［2，14-15］。本次研究说明IRT理论在健康素养的量化研究中是可行的，为今后中国健康素养评估体系的建立提供了实践依据。

［1］余嘉元.项目反应理论及其应用.南京：江苏教育出版社，1992.

［2］漆书青.现代教育与心理测量学原理.北京：高等教育出版社，2002.

［3］World Health Organization.Track 2：Health literacy and health behaviour.7th Global Conference on Health Promotion：track themes.http：／／www.who.int／healthpromotion／conferences／7gchp／track2／en／index.html.

［4］Weiss BD，Palmer R.Relationship Between Health Care Costs and Very Low Literacy Skill in A Medically Needy and Indigent Medicaid Population.Journal of the American Board of Family Practice，2004，17（1）：44-47.

［5］李小宁，郭海健，黄明豪，等.江苏省城乡居民健康素养水平分析.中国公共卫生，2011，27（5）：666-667.

［6］郭海健，李小宁，张凤云.江苏省城乡居民健康素养水平变化情况分析.江苏预防医学，2012，23（2）：23-25.

［7］Lord FM.Applications of item response theory to practical testing problems.Hillsdale，NJ：Lawrence Erlbaum Associates.1980.

［8］Hambleton RK，Swaminathan H.Item response theory：principles and applications.Boston，MA：Kluwer-Nijhoff Publishing，1985.

［9］Wim J van der Linden，Hambleton RK.Handbook of Modern Item Response Theory.New York：Springer-Verlag，1997.

［10］陈斌为，许碧云，陈启光，等.两分类项目反应理论在中医证候中的应用.中国卫生统计，2011，28（1）：16-18.

［11］漆书青，周骏，张青华.用信息函数法对标准参照测验作质量分析.心理与行为研究，2003，1（1）：34-39.

［12］涂冬波，蔡艳.信息函数在标准参照测验中的应用研究.江西师范大学学报（自然科学版），2005，29（2）：167-172.

［13］何克抗，李文光.教育技术学.北京：北京师范大学出版社，2005.

［14］Wright B，dMaster GN.Best test design.Chicago：Mesa Press，1982.

［15］Suen HK.Principles of Test Theories.Hillsdale，NJ：Lawrence Erlbaum Associates，1990.

Item Response Theory in the Application of‘Residents Health Literacy Criterion-Referenced Test’

Cao Shang，Cao Rongxiang，Sun Xinying，et al.
（Yangzhou Center for Disease Control and Prevention（225000），Yangzhou）

Objective To analyze items of the‘Residents′health literacy questionnaire’using item response theory（IRT）.Using the information function of IRT to establish‘Residents Health Literacy Criterion-Referenced Test’and evaluate its item performance.Methods Unidimensional three parameters logistic model（3PLM）was used to fit the sample including 1000 cases and to calculate item parameters and information function.The grasp proportion of ability parameter was as a decision point（The cut-off score）.Results The goodness of fit of the questionnaire of 73 items is 98.6%.Among the 73 items，the difficulty parameters of all items were between-4.27～4.23，the discrimination parameters of all items were between 0.32～1.58 and the guessing parameters of all items were between 0.009～0.5.The test maximized the information and minimize the measurement error at ability parameter of-0.13 with the corresponding grasp proportion of 0.62.The test should decrease the difficulty when using grasp proportion 0.6 as the cut-off score while increase the difficulty and discrimination when using grasp proportion 0.8 as the cut-off score.Conclusion IRT analysis questionnaire'could deeply and logically comprehend the quantitative relation between each item and the whole test.Residents'health literacy questionnaire of Jiangsu province applied to middle or low level ability subjects.

Item Response Theory；Health literacy；Information function；Criterion-referenced test

*国家医疗卫生-重大公共卫生专项资金（编号：2100409）；江苏省预防医学科研基金（编号：Y2015040）

1.扬州市疾病预防控制中心（225000）

2.北京大学公共卫生学院社会医学与健康教育系

3.江苏省疾病预防控制中心

△通信作者：徐勤，E-mail：jsyzgps＠sina.com

郭海强）