概化理论在生存质量评价工具中的研究及应用

2021-07-27任嘉铭谢洋郭楠楠

中国老年学杂志 2021年14期

任嘉铭谢洋郭楠楠

(河南中医药大学第一附属医院呼吸科呼吸疾病诊疗与新药研发河南省协同创新中心，河南郑州 450000)

生存质量研究已经成为生物-心理-社会医学模式下疗效评价的重点。研制具有良好信度、效度的生存质量评价量表等测评工具，是有效评价生存质量的前提。既往多运用经典测量理论(CTT)来筛选与测评相关量表，但存在样本依赖性、测验平行假设难以实现及难以保证测验结果拓广的有效性等问题〔1〕。因此，以概化理论(GT)、项目反应理论(IRT)和计算机自适应理论为主的现代测量理论研究逐渐兴起。GT基本观点在20世纪60年代末由Cronbach等提出，80年代中期GT理论内容、术语规范、计算软件等趋于完善。本文就GT的基本内容与特点及其在生存质量评价工具中的应用进行分析。

1 GT基本内容

GT是在CTT基础上采用实验设计思想和方差分析方法，分析测量过程中变异的各种来源及其总测量的影响情况，确定测量侧面对测量目标的影响程度，并有效控制其可能产生的误差〔2〕。不同的条目数可能影响量表信度，我们可以利用条目数的改变来评估量表信度，为量表研究提供依据。①主要步骤：概括度(G)研究和决策度(D)研究。G研究旨在评估特定测量技术的可靠性，而D研究依赖于G研究产生的证据来设计一个可靠的测量工具〔3〕。具体来讲，G研究是在方差分析或多元方差分析的基础上估计方差和协方差分量，并确定测量目标和测量侧面及其关系；D研究则以概化系数(Eρ2)最大化及误差最小化为原则,综合G研究得出的结果,分析并优选最合适的方案,对测量进行有依据的改进〔4〕。G研究是D研究的基础,D研究是G研究的深化。②主要评价指标：信噪比(S/N)、Eρ2、可靠性指数(φ)。通过这些指标可描述测验的精准程度，而这些相关统计量依赖于G研究的方差分量估计(GT分析的关键)。③分类：以测量情境关系为基础,测量目标确定的情况下，测量侧面可以有多个。若某个测量目标的测量侧面仅有一个(如p×i设计),就称之为单侧面设计。对p×i设计而言,若i为随机侧面,就叫做单侧面随机设计；若i为固定侧面,则称为单侧面固定设计。另外，若测量侧面大于一个,且设计类型包括交叉、嵌套或者混合，则可称之为多侧面设计〔5〕。GT包括一元GT(UGT) 和多元GT(MGT)。MGT是在UGT的基础上发展起来的，继承了UGT的基本思想，增加了协方差的信息，在信度上相比UGT有一定的优势。比如UGT在解决多维问题的估计时，误差分量的估计可能会有误差效应，此时就需要运用MGT来减小误差。

2 GT与其他测量理论的比较

2.1CTT 经典测量理论的基本思想是把测验的得分看作真分数与误差分数的线性组合，其数学模型可归结为：X=T+E(X是观测分数，T是真分数，E是误差分数)。CTT的信度，即测验分数中的真分数与观测分数之间的方差比值。随着测量设计的改变，信度系数也会随之变化，导致误差难以控制，不能有效地分离各种误差来源。CTT推崇的严格平行测验，要求过于严格，在测量实践中难以达到。在相同的测量资料中,尽管测量结果推论的范围或使用目的会有所不同，但GT提供的不同的测量误差估计指标,可使测量更为恰当和合理。GT用可靠性概念代替经典测量理论传统的信度概念，并用随机平行试验代替严格平行测验，使得测量更容易实现，并具有较好的精确性和可靠性〔6，7〕。

2.2IRT 项目反应理论主要用于处理分数等值和测验项目参数、测验和项目质量的分析，剥离测验情境中评委特征对测验结果的影响及测查项目功能差异、编制适应性测验等。虽然IRT目前在国内的相关研究较少〔8〕，但IRT作为一种新兴的测量理论，其有效缩短测试时间，精确评估被试者能力的优点使其逐渐成为研究热点，不仅表现在心理和教育测量领域，在国内外呼吸疾病生存质量研究中也有相关应用〔9〕。研究表明，在问卷设计中，IRT在处理被访者与问项之间的实质性关系等微观问题时更显出色， CTT 在处理常见的标准化测试等中观问题时显得方便易懂， GT 在处理对结果作推论等宏观问题时优势较明显〔10〕。见表1。

表1 三种测量理论的比较

CTT、IRT和GT各有其优势与不足，如果说GT是在CTT基础上的扩展与改进，那么 IRT就是通过不同的角度，分析各个项目的特征曲线和信息函数。随着三大测量理论的优势互补和不断发展，如今已经成为生存质量测评工具研制的基石。

3 GT的应用

3.1GT在评价及评定量表编制中的应用评价方面主要集中在人事测评、教学能力水平测评等。黎光明等〔11〕分析了GT在人事测评中的应用现状并通过与CTT的对比，表明了GT的优势和存在的问题。康春花等〔12〕运用GT对某公司的某次人事测评结果的评价者一致性信度进行评估，以期发现该理论在人事测评研究中的应用现状。王幸君等〔13〕研究者运用GT对高校教师教学水平进行了探究，提出了用CTT评价教学水平的弊端，相比而言，GT能够关注每一个被测对象的特质，考虑多个测量侧面，最终使评价结果更可靠。与此相关的还有包军等〔14〕对个人临床实际能力的测量。在评定量表编制方面，罗杰等〔15〕运用GT对大学生社会支持评定量表的信度和效度进行评估。安哲锋等〔16〕以音像教材为实例说明了MGT对评定量表编制的指导作用。

3.2GT在考试领域的应用考试领域方面主要用于试卷的信度和效度分析。刘燕等〔17〕运用MGT分析了英语听说考试的信度和效度问题，结果表明英语听说考试有较高的信度。严芳〔18〕用MGT分析国家公务员录用面试中的评分者信度，结果表明了多元概化分析的优势，并为国家公务员录用面试的测量设计、规范实施作出贡献。与此相关的还有林绚晖〔19〕对行政职业能力测验的GT分析及胡月星等〔20〕运用GT对结构化面试的评分误差进行控制等。

3.3GT在生存质量评价工具中的应用生存质量测评方面主要用于测评量表研制、健康行为测量、测评量表评价及临床应用。在健康行为测量方面，Christophersen等〔21〕运用GT对健康成年人生命质量评价问卷KINDL-N进行了评价与分析。在质量量表的评价及临床应用方面，何立国等〔22〕运用概化理论对青少年学生生活满意度量表进行了研究。Iramaneerat〔23〕采用p×c×i设计的GT模型，以患者、6个领域和18个条目作为3个侧面对临床胜任力(OSCE)量表进行评价并证明了量表的可靠性。孟琼等〔24〕带领的研究小组运用概化理论评价癌症患者生命质量测定量表体系之胃癌量表的信度。潘海燕等〔25〕用GT对慢性病患者生命质量测定量表体系共性模块(QLICD-GM)生理、心理和社会功能3个领域的概化全域进行评价，证明慢性病患者生命质量测定量表体系共性模块有较好的信度和效度。杨铮等〔26〕基于GT，计算各领域概化系数和可靠性系数，证明了慢性肾衰竭患者生命质量测定量表(QLICD-CRF)的信度。

4 问题与思考

4.1数据缺失问题目前GT多基于完备数据进行方差分量及其变异量的估计，往往忽视了数据缺失的问题。以随机抽样为模型的概化分析,其抽样的易变性要求实测数据必须具有完备性，这样才能保证结果的可靠性。但是当出现数据缺失的情况时，后续的处理经常会影响结果分析：记录的删除会导致可供分析的数据减少，影响统计分析；记录的插补规则很多，可能会产生不同的结果。因此，要合理分析数据缺失来源，结合方差分析要求，进行GT研究。另外，GT的方差分析可以同时考虑多个不确定度源，但在计量方法上,由于数据结构的复杂性，方差分量估计有时还会出现负值〔27〕。

4.2GT与其他测量理论相结合 GT有其优势和潜力，随着研究水平的提高，GT的价值也日益提升。但不可否认其局限性依然存在，如何将概化理论和其他测量理论更好地结合与完善，并积极应用于生存质量测评工具的研制及评价是我们亟待思考的。