体育管理实证研究中的量表应用:常见问题与改进建议
2021-11-22张孟艳李汉熙
骆 雷,刘 炜,张孟艳,李汉熙
(上海体育学院经济管理学院,上海 200438)
量表的设计与应用是体育管理实证研究中的基础性议题。国内外体育管理领域的实证研究显示:赛事观众消费、健身娱乐消费以及各类体育组织行为等领域的研究均涉及认知、态度、情感和行为等变量。这些变量往往难以直接观察或测量,需借助成熟的量表或修改、研制新的量表予以测量。因此,各类量表(如赛事消费领域的观赛动机量表、赛事服务质量量表、观众满意度量表等)的研制、完善和发展成为中外体育管理学者的重要任务[1]。量表设计和应用的科学性直接决定了变量测量的准确性,进而影响所验变量间相关关系或因果关系的可靠性。如果把体育管理领域的实证研究视为修建一座理论的“大厦”,那么量表就是这座“大厦”的基石。科学合理的量表设计是探讨变量间关系、变量的形成或验证有关理论假说的必要前提和基础。如果某项研究所使用的量表本身缺乏信度或效度,即便数据的来源和分析都是可靠、严密的,该研究的结果仍难以让人信服。近年来,随着统计方法与数据处理技术的不断发展,中外体育管理领域的多变量研究随之兴起。然而,通过对国内相关文献的阅读和分析发现,不少研究对测量的基本概念、量表的内涵、量表的信效度评估、量表观测指标的选择等方面存在误解或误用,导致研究结果的可靠性存疑。例如:一些研究无法准确理解量表与问卷的差异,将“量表的科学性”误以为是“问卷的科学性”;一些研究未注意到反映性指标与形成性指标的差异,将本该采用形成性指标的测量方式却选择使用了反映性指标;还有一些研究采用量表研制的思路进行“评价指标体系”研究,忽视了“评价”与“测量”的差异;还有许多研究未报告量表应用中存在的共同方法变异(Common Method Variance,CMV)情况;等等。
体育管理实证研究需借鉴管理学、社会学、心理学等母学科的研究范式。相应地,体育管理实证研究中的量表研制需遵循上述学科关于量表研制的基本方法与技术。不同的是,体育管理实证研究的情境、议题和变量均具有体育领域的特殊性,相关量表的设计与运用需对这些特殊性予以考量。鉴于量表在社会科学研究中的重要性,量表设计和运用的科学性得到了管理学、心理学和体育学等相关领域学者的持续关注。这些研究涵盖测量的信效度评估[2-5]、问卷调查方法的运用现状与误区[6-9]、运动心理测量量表的研究进展[10-11]、体育科学量表编制中的方法优化[12]等问题。虽然上述研究阐明了量表研制的基本方法以及信效度评估中的常见问题,但在体育管理实证研究的实践中,问卷与量表的差异、多维度量表的信效度评估、反映性指标与形成性指标的选取、量表中的刻度以及运用量表开展评价研究等问题仍未受到体育领域学者的充分重视。某些存在明显问题的研究成果经同行评审仍能刊发在一些重要的学术期刊上,这不仅影响了研究的科学性,而且会误导读者,导致学者之间在研究方法上的“以讹传讹”和“错误借鉴”。为尽量避免这类问题的出现,本文以中文社会科学引文索引(Chinese Social Sciences Citation Index,以下简称CSSCI)2019—2020版收录的11本体育类核心期刊在2010—2020年间发表的348 篇体育管理类文献为分析对象,阐明我国体育管理实证研究中量表应用方面存在的突出问题,并就相关问题的解决提出有针对性的意见和建议,以提升国内体育管理实证研究的科学性与规范性。
1 研究对象与方法
1.1 研究对象
以体育管理实证研究领域中的量表应用情况为研究对象,以CSSCI 2019—2020 版收录的11 本体育类核心期刊为调查对象和文献分析对象。纳入研究的11本期刊分别为《体育科学》《体育与科学》《体育学刊》《中国体育科技》《北京体育大学学报》《上海体育学院学报》《天津体育学院学报》《西安体育学院学报》《成都体育学院学报》《首都体育学院学报》《武汉体育学院学报》。
1.2 文献筛选依据与处理方法
以中国知网(CNKI)高级检索程序为工具,以CSSCI 2019—2020 版收录的11 本体育类核心期刊为文献来源,论文的刊发时间为2010年1月1日—2020年12月31日。在精确论文来源期刊和刊发时间的基础上,通过人工检索,初步将符合条件的1 062篇文献进行下载和编号,基于阅读文献题目、摘要、研究方法和全文等方式进行人工筛选。本文对存在如下情况的相关文献予以筛除:非体育管理领域的文献;非实证研究范式的文献;会议论文、刊讯、题录、通知等。经过筛选,最终纳入研究的文献有348 篇。 采用SPSS 24.0 软件对文献的期刊分布、年份分布以及常见问题等进行描述性统计分析,同时结合研究个案对常见问题分别进行剖析。需要说明的是,除了348 篇文献样本运用了量表设计和量表信效度处理方法之外,另有40篇文献运用量表设计的思路和方法开展评价指标体系研究,5篇文献未进行量表设计(仅使用了问卷调查),却使用了量表信度与效度的处理方法对问卷的信效度进行评估。
2 结果与分析
2.1 文献分布的描述性统计
从2010—2020年体育管理实证研究文献的分布情况看,刊发使用量表的体育管理领域论文数目最多的是《武汉体育学院学报》(56 篇),其次是《北京体育大学学报》(53篇)、《上海体育学院学报》(38篇)和《体育科学》(29 篇),《成都体育学院学报》(24 篇)、《体育与科学》(24 篇)与《体育学刊》(16 篇)相对较少(表1)。
表1 体育管理实证研究中运用量表的文献分布的描述性统计(n=348)Table 1 Descriptive analysis of empirical literature in sport management(n=348)
2.2 常见问题的分析与讨论
基于对348 篇文献的阅读和分析,本文梳理了关于量表信度与效度、量表的刻度、共同方法变异、反映性指标与形成性指标的选取、量表测量指标与评价指标的关系等问题。为更好地阐明上述问题与提供研究建议,除上述348篇中文文献外,本文还适当选取了若干具有代表性的英文文献予以辅助论证和说明。
2.2.1 量表的信度评估应报告哪些指标
信度是指测量结果的稳定性程度或测量的可靠性程度。信度的评估指标多种多样,如重测信度、复本信度、折半信度、评分者信度与同质性信度等。在体育管理实证研究领域,使用Cronbach'sα(以下简称 “α系数”)反映量表的信度最为常见。与α系数相比,组合信度(Composite Reliability,CR)更能将各观察题项在潜在变量上的不同因子载荷纳入计算公式,其估计值更加接近量表的内部一致性信度,因而受到更多学者的重视[13]。组合信度的计算程序虽然更为复杂,但借助结构方程模型的一些常用软件,均可直接或间接地得到组合信度值。值得注意的是,即便组合信度值更为可靠,α系数对于信度的考察仍具有相当的参考价值。如果α系数高到可以接受,测验的信度就能得到保证;如果α系数过低,则建议使用组合信度加以判定[14]。
国内体育管理实证研究中的信度报告情况并不乐观。本文文献样本分析发现,共计299 篇(85.92%)文献对量表信度评估方式进行了报告,但多达49 篇(14.08%)文献对量表的信度评估方式未做任何说明。在报告信度指标的文献中,有278 篇(92.98%)文献报告了量表的α系数,仅58篇(19.40%)文献报告了量表的组合信度,仅有53篇文献同时报告了α系数和组合信度。在未报告信度指标的文献中,近5年(2016—2020年)所刊发的文献仍高达14 篇(图1),表明当前国内体育管理实证研究领域信度评估的科学性与规范性亟待提升。
图1 文献样本中未报告信度评估方式的分布(n=49)Figure 1 Distribution of empirical literature in sport management without reliability index(n=49)
2.2.2 量表的信度是否等同问卷的信度
体育管理实证研究的重要任务是以体育领域纷繁复杂的各类事物和现象为对象:首先通过“概念化”将各类现象进行抽象和界定,选择合适的变量反映概念的基本属性;然后通过对变量的直接观测或复合测量,以样本数据的整理和分析为基础,构建或验证体育管理领域的相关理论。体育管理领域的概念复合测量通常以态度量表最为常见,它是由潜在变量、观察变量和测量标尺等共同构成的一种复合测量。在态度量表方面,运用最为普遍的就是李克特量表和语义差异量表。以Larkin 等[15]关于集体自恋倾向在球队认同和球迷攻击行为关系中的调节作用研究为例,作为该研究中的自变量,球队认同量表采用单因素结构,共计包含3个反映性观察变量(表2)。
表2 球队认同量表Table 2 Team identification scale
与量表不同,问卷是一种收集数据的结构化工具[16],它按照顺序事先设计和呈现反映调查内容的一系列问题及答案,并通过调查对象的填答获取信息。问卷和量表的差异主要体现在:①量表是变量的测量工具,而问卷是数据的收集工具。1份量表只能测量1个单独的属性,而问卷可以包含若干不同的量表。此外,除了可以涵盖不同的量表外,同一份问卷还可以包括调查对象的人口统计学特征、其他属性与特征等内容。例如,有研究[17]比较了电子竞技赛事观众和传统赛事观众之间的动机差异,调查问卷共计包括3 部分:观众动机量表、观众消费行为(观赛频次)和观众的人口统计学特征。②量表的编制需要理论依据,而问卷如果不包含量表,则只需符合调查的主题,将所要调查的问题罗列编排即可。③量表是变量的测量工具,存在测量的可靠性问题,即信度评估问题;问卷是一种结构化数据收集工具,不存在信度评估问题。因此,从严格意义上讲,没有问卷的信度之说,量表的信度不是问卷的信度。但在本文所纳入的348篇文献样本之外,仍有5篇体育管理文献并未运用量表,仅采用了问卷调查方法,却使用量表的信度评估方法对所谓“问卷信度”进行了评估。因此,体育管理领域的研究者应仔细辨别量表与问卷的差异,避免因量表和问卷的混淆影响数据分析的科学性。
2.2.3 单维度与多维度量表的内部一致性信度评估是否相同
根据研究实际以及概念内涵的丰富性与复杂性,变量的测量既可选择单维度量表,也可选择多维度量表。如在测量赛事服务满意度时,研究者可选择单维度量表(如整体满意度量表),也可运用多维度量表(如若干子维度反映赛事服务满意度)。在研究F1 赛事游客涉入与涉入反应的关系时,有研究[18]将赛事游客的满意度量表设计为5 个维度(子量表):产品满意度、价格满意度、服务满意度、交通满意度和餐饮满意度。每个维度各包含3 个观测题项,共计15 个题项。如果运用α系数或组合信度反映测验的内部一致性信度,根据内部一致性信度的内涵,多维度量表的信度评估须分别计算和报告每个维度(子量表)的信度系数值。
在通常情况下,随着观测题项数目的增多,α系数会随之增大,很容易就能够达到信度检验的临界水平。因此,在各子量表信度系数均达到可接受水平的情况下,研究者一般不用计算和报告多维度量表的整体α系数。值得注意的是,内部一致性信度是考量量表内部所有题项之间的一致性程度,不同变量之间并不存在内部一致性信度的评估问题,对不同变量的所有题项进行“打包”并报告内部一致性水平并不符合信度指标的内涵。对本文文献样本进行分析发现,在采用多维度量表的文献中,多达81篇体育管理实证研究文献报告了多维度量表的整体α系数值;在包含多个变量且每个变量均采用单维度量表的文献中,仍有6篇文献将所有变量的题项“打包”并报告所有题项的α系数值。
2.2.4 信度引入时能否直接采用原文献的信度估计值
信度引入指使用前人研究的信度估计值作为当前研究的信度估计方法,即把前人研究中的信度估计值视为当前研究中的信度估计值。但信度是测验结果的信度,而不是测验工具的信度[19]。信度引入的前提是样本特征、测验环境以及其他条件等的一致性,但这一前提在实证研究领域通常无法满足。因此,在研究过程中,如果采用前人编制或修订过的量表,应再次进行样本预试以检验测验的信度,因为样本会因受访环境和时间等因素对量表题项产生不同理解[20]。例如,如果采用成熟的国外球队认同量表对中国职业赛事观众的球队认同进行研究,由于研究情境(国内与国外)变化较大,观众特征和测验环境均与国外存在差异,当前测验结果的信度就不能仅凭国外量表的信度估计值加以判定,而需通过样本调查和统计分析再次验证量表的可靠性。然而,本文文献样本分析发现,共计17篇文献直接采用了其他学者的量表信度指标来评估该文研究的信度,却未在该文中再次验证量表的可靠性。
2.2.5 量表的效度评估应报告哪些指标
效度也称测量的有效程度或准确程度,即量表能否准确反映测量概念的真实内涵。体育管理领域的实证研究通常会考察量表的内容效度和结构效度。其中,内容效度是指量表实际测到的内容与所要测量内容之间的吻合程度,一般报告专家效度的评估结果。体育管理领域的研究者往往忽视内容效度的评估,或仅对专家对量表的整体内容效度予以评价。当前使用较为广泛的指数为内容效度指数(Content Validity Index,CVI)。例如,在专家咨询问卷中要求专家就每个题项与所测变量维度的关联性进行选择。选项可包括4 个等级:1=“不相关”;2=“弱相关”;3=“较强相关”;4=“非常相关”。每个题项给出等级为3或4的专家人数除以参评专家总数即为相应的CVI指数。建议研究者根据研究实际情况,参考史静琤等[21]关于量表编制中内容效度指数的详细介绍对内容效度进行评估。
量表结构效度的评估主要考察量表结构与理论结构之间的吻合适配程度。如果采用单维度量表,需考察概念属性与观测指标之间的关系。如果采用多维度量表,除了考察概念属性与观测指标之间的关系外,还需考察子维度之间的关系。无论采用单维度量表还是多维度量表,量表结构效度的科学性首先来自于量表得以形成的根本前提——理论建构的合理性与科学性。如果量表形成的理论基础站不住脚,即便运用严密的统计方法对量表的结构效度进行了评估,也无法有效证明量表结构效度的科学性。本文文献样本分析发现,288 篇(82.76%)文献对量表效度进行了报告,但多达60 篇(17.24%)文献对量表的效度评估指标和评估结果未做任何说明。在内容效度方面,156 篇文献报告了内容效度,但报告的均是整体内容效度,未提供针对每个题项是否有效的CVI等评估结果。在结构效度方面,在报告效度指标的288 篇文献中,共计254篇文献报告了量表的结构效度。此外,仅有50 篇文献同时报告了聚敛效度与区分效度。与信度指标的报告类似,近5年(2016—2020年)仍有18篇文献未对量表效度进行任何说明(图2)。
图2 文献样本中未报告效度评估方式的分布(n=60)Figure 2 Distribution of empirical literature in sport management without validity index(n=60)
2.2.6 如何选择量表结构效度的评估方法
量表结构效度的具体评估方法以探索性因子分析(Exploratory Factor Analysis,EFA)和验证性因子分析(Confirmatory Factor Analysis,CFA)最为常见。因子分析是用来简化变量结构、分析变量间群组关系以及寻找变量背后共同潜在因子的统计技术[22]。如果对某个概念的因子结构没有事先的预期和认识,而是借助因子分析方法尝试构建该概念的因子结构,则适合使用EFA。相反,基于现有理论,如果某概念的因子结构已经确定,但要验证该因子结构与新的研究情境或新的研究样本数据是否吻合,则适合运用CFA。近年来,CFA 已成为量表结构效度评估中不可或缺的重要方法。即便是运用EFA 对量表的因子结构进行探索和构建,通常也需要借助另一批样本对量表的结构效度进行验证。在运用因子分析方法进行量表结构效度评估时,如下2 个方面的问题常常困扰体育管理研究者。
(1)初始量表的题项来自哪里。EFA 的前提是初始量表的研制,而初始量表中的题项从何而来呢?因为EFA 是一种主要依赖数据驱动的因子分析技术,如果初始题项的来源没有可靠的理论依据和相对严谨的筛选过程,一些原本有效的重要题项可能会被随意删除。①对于存在研究基础的变量,初始量表的研制应基于既有的成熟理论或相关文献。例如,在构建中国职业赛事观赛动机量表时,可以基于马斯洛的需求层次理论以及国内外学者在观赛动机量表研究方面的相关文献,然后结合具体研究情境设计初始题项。②对于实证研究中的新变量,注重从经验资料中形成概念模型,进而形成初始量表。作为一种自下而上的研究方式,扎根理论是从资料中建立理论的特殊方法论,即源于质性资料分析的理论建构[23]。在体育管理领域,扎根理论适用于对相关概念模型的探索性研究,从而为量表的设计提供重要基础。例如,在对篮球球迷的球队认同研究中,有研究[24]运用扎根理论,通过开放式编码、主轴编码、选择性编码等程序,提炼出“篮球球迷球队认同概念与维度”这一核心范畴,并得到了包含身份认知、积极区分、情感投入和行为卷入等4 个维度的篮球球迷球队认同概念模型,该模型的构建为编制球队认同量表,深入开展与球队认同相关的赛事消费多变量实证研究提供了坚实基础。③初始量表的研制应基于严谨科学的步骤与程序。初始量表的形成应通过专家效度检验和焦点小组访谈等方法进一步完善,完善后的初始量表应进行小范围预调查,评估量表的一致性信度和内容效度,进而形成正式量表。
(2)国外成熟量表如何本土化。有学者[25]认为,在中国情境中开展量表的设计应着重考虑2 个问题:①所要测量的概念是具有普适性还是具有情境特殊性;②选择使用国外文献中的成熟量表,还是基于中国情境研制新的量表。如果所要测量的概念具有跨情境的普适性,那就可以通过直接翻译或修改量表等方法设计本土化量表。在量表翻译过程中,研究者需考量和审视这些测量题项在本土研究情境中是否具有跨文化概念的对等性[26]。例如,在赛事观众需求量表中,赛事吸引力(event attractiveness)是常见的观众需求因子,它通常包括主场球队(home team)和客场球队(opposing team)2 个子因子[27]。如果将该量表应用于国内职业团队型赛事(team sport),这些因子是完全适用的。但如果将该量表应用于不同性质或不同类型赛事观众需求量表的设计(如标志性赛事或商业表演性赛事),赛事吸引力因子中的主场球队与客场球队就无法适用,需根据赛事特点进行题项的调整或修改(如修改为“明星球员的出席”“明星球员的表现”等)。此外,量表翻译的方法通常推荐使用翻译—回译法(translation-back translation),即由一位翻译者将量表的英文表述翻译成中文,再由另一位翻译者将中文翻译成英文,然后比较回译后的英文与最初的英文是否清晰一致。值得注意的是,如果是首次引入和使用的成熟量表,无论是直接翻译还是对其进行修订,最终量表都需进行CFA;如果不是首次引入和使用的成熟量表,且该量表已被其他学者通过CFA验证了其结构效度,则无须再次进行CFA。本文文献样本的分析结果显示,在348 篇文献中,共计72 篇文献直接采用成熟量表,276篇文献采取自行设计方法研制量表。在自行设计量表的文献中,参考各类文献资料自主设计量表的有132 篇文献,基于成熟量表并做适当修改的有129 篇文献,在质性研究(扎根理论、深度访谈与调研等)基础上设计量表15 篇(图3)。在采用成熟量表(72 篇)的文献中,45 篇(62.50%)文献报告了CFA的结果(其中,11 篇文献中所使用的量表已由其他学者做过CFA,因此无须再进行CFA);20篇(27.78%)文献未运用任何因子分析方法评估量表的结构效度;另有7 篇(9.72%)文献仅报告了EFA 的结果。而在自行设计量表的文献(276 篇)中,仅有83 篇(30.07%)文献同时报告了EFA 和CFA 的结果;156 篇文献未报告CFA的结果;另有60篇文献甚至未采用任何因子分析方法验证量表的结构效度(表3)。
表3 量表类型、EFA、CFA交叉分析结果(n=348)Table 3 Cross analysis between scales ,EFA and CFA(n=348)
图3 量表设计的类型分布(n=348)Figure 3 Distribution of different variety of scales in sport management literature(n=348)
2.2.7 量表设计中的刻度是否精准
量表中的刻度是在对变量取值进行分类的基础上对每个类别数值的标记。刻度设置的科学性与否直接决定了概念内涵的精确程度,进而深刻影响量表的效度。本文以球队认同为例,说明量表刻度的精准性对量表效度的影响。由于球队认同涉及观众的内在心理感受,难以直接观测,学者们先后研制了各类球队认同量表,如有研究[28]研制了包含7 条观测题项的“ 赛 事 观 众 认 同 度 量 表”(Sport Spectator Identification Scale,SSIS)(表4),并被许多学者所采纳和使用。
表4 赛事观众认同量表Table 4 Sport spectator identification scale
James 等[29]指出了上述量表在刻度上存在的问题:混淆了“没有球队认同度”的观众和“低认同度”的观众。上述量表中7个测量题项的刻度均是1~8依次排列,研究者将观众在所有题项的得分进行加总平均:得分在1~3 分的观众被界定为“低认同度”的观众;得分在4~5 分的观众被界定为“中认同度”的观众;得分在6~8 分的观众被界定为“高认同度”的观众。但那些在测量题项目上选择1分的观众本该被界定为“没有球队认同度”的观众,将这些观众与“低认同度”的观众混淆之后,量表本身的效度将大打折扣。为此,该研究进一步修正了赛事观众认同量表:①在正式量表之前,增加了1 个球队认同度筛选题项,即“你认为自己是该球队的‘粉丝’吗?即便只是一点点?”如果观众回答“是”,则继续填答量表;如果观众回答“否”,则被界定为“没有球队认同度”的观众。②在正式量表中,对刻度的描述进行了修改:将7个观测题项最左边的刻度(最低球队认同的程度描述)修改为“ 有 点重 要”(a little important)、“ 有一 点是”(slightly)、“有一些”(a little)、“有点不喜欢”(dislike a little)、“偶尔”(occasionally)。修改后的量表筛除了“没有球队认同度”的观众,避免使用该量表的研究者将“没有球队认同度”的观众与“低认同度”的观众混淆。需要指出的是,量表在刻度上的修正还需考虑所测变量的内涵和研究目的等因素,对变量内涵的理解与界定不同,量表的刻度设置也会不同。例如,如果研究者认为“没有球队认同”也是球队认同的一种表现形态,即球队认同的外延如果包括“没有球队认同”,甚至还包括“负面球队认同”,那么量表刻度的设置就需要重新考量。
2.2.8 共同方法变异带来的风险如何检验和控制
共同方法变异是指两个概念属性之间变异的重叠是因为使用了同类测量工具而导致,并非概念属性之间的真实关系[30]。共同方法变异问题通常出现在使用自陈式测量量表的设计与验证过程中。这类研究在调查问卷中往往同时包含自变量和因变量,而且以单个问卷向同一群受试者采集数据。共同方法变异的产生主要来自受试者某些认知上的心理因素,诸如对信息诠释的一致性倾向、变量题项在分类上的误导、社会赞许动机、负面情绪、自尊心理等[31]。由于共同方法变异会对量表效度产生严重影响,学界长期关注共同方法变异的问题本质、统计检验与控制方法等,并形成了有效的事前预防和事后补救手段。国内心理学界也以共同方法变异为研究对象,探讨了共同方法变异对心理学研究的影响与控制方法[32],一些心理学研究[33]也报告了共同方法变异的检验与控制情况。
当前体育管理领域的实证研究大多运用自陈式量表,且在相同的测量环境下进行数据收集,因此同样存在共同方法变异问题。然而,我们很少能在体育管理研究文献中看到对共同方法变异问题的检验与控制报告,甚至有的研究者根本还没意识到这个问题,这在很大程度上影响了体育管理实证研究的科学性。本文文献样本分析结果显示,仅有22 篇(6.32%)文献样本关注到了共同方法变异问题,多达326 篇(93.68%)文献样本未报告共同方法变异问题(表5)。虽然部分学者在问卷中加入反向题项来提高调查结果的准确性,却未阐明该研究对共同方法变异问题的控制或检验。为此,笔者建议:①首先考虑通过优化研究设计尽量消除共同方法变异的来源,也称为“事先控制”。例如,采用隔离式资料搜集法(受访时间隔离、心理隔离等)或量表题项的特殊处理法(题项意义隐匿法、题项随机配置法、反向题项设置法等)。②如因客观条件限制无法通过优化研究设计实施或消除共同方法变异问题,则应考虑采用统计方法对其进行检验和控制,也称为“事后检验与控制”。
表5 体育管理领域运用量表的文献样本中共同方法变异的报告情况(n=348)Table 5 Report on common method variance in sport management literature(n=348)
3 量表设计应选取反映性指标还是形成性指标
反映性指标与形成性指标的甄别与应用问题常被国内体育管理研究者所忽视。反映性测量模型(reflective measurement model)是基于经典测量理论而形成的潜在变量测量模型。在反映性测量模型中,潜在因子的变化引起测量指标的变化,即反映性测量模型中的因果关系是从潜在因子指向测量指标。由于反映性指标旨在测量同一潜在因子的某个属性,因此反映性测量指标之间通常具有较高的相关性,但由于测量指标需要反映潜在因子所测属性的不同信息,反映性测量指标之间的相关性也不宜过高。形成性测量模型(formative measurement model)是基于潜在因子是若干测量指标的线性组合这一假设形成的。测量指标之间无法相互替代,每个测量指标均代表潜在因子的某个独特方面,它们组合在一起共同反映潜在因子的构面,因此,删除任何一个测量指标均会影响潜在因子的概念完整性。
反映性测量模型与形成性测量模型在模型识别、信度与效度检验、分析工具等方面均存在较大差异[34]。首先,形成性指标的选取和测量模型的构建通常需要严格的定性研究程序,包括专家对指标的评估、大量文献支撑、理论依据以及小样本测试等[35]。其次,由于形成性指标之间没有必然的高度相关性,因此无须进行内部一致性检验,但要进行共线性诊断以及聚合效度、指标权重的评估等。其中,聚合效度的检验需要在测量量表中对潜在因子增加若干(1 个或多个)反映性指标,并测算由形成性指标构成的潜在因子与由反映性指标构成的潜在因子之间的路径系数[36]。值得注意的是,量表设计采用哪种测量模型并不是绝对的。如果某个概念均适用于2 种测量模型,建议研究者根据潜在因子的特性和研究目的选择究竟采用哪种测量模型;如果某个概念更适宜采用形成性指标,那就不宜选用反映性指标,以免影响研究结果的可靠性[37]。
4 量表的测量指标与评价指标之间的关系
在体育管理领域,经常需要对某类事物或某些方案进行评价。例如:要对体育彩票公益金的资助效益进行评价,了解体育彩票公益金的使用效果究竟如何;要对某项体育发展政策文件的落实情况进行评价,了解该政策的引导效果究竟如何。在通常情况下,这些评价的对象都是较为复杂的,涉及的评价维度并不单一,评价的层级和指标的选取也应遵循一定的原则和科学步骤。评价本身就包含了目的性,即通过评价达到对评价对象的认知。该认知通常包括“好与坏”“优与劣”等价值判断,进而为管理决策的制订提供依据。有研究[38]构建了包括5 个二级指标、13 个三级指标的新时代体育强省评价指标体系,并通过综合评价对长江经济带11 省市体育强省的评价结果由高到低进行排序,从而进行省市之间强与弱的价值判断。另有研究[39-40]采用德尔菲法构建了基本公共体育服务的评价指标体系。而量表则是一种测量工具,其测量结果旨在近似反映某一概念的内涵,或该概念的属性究竟处于哪一种“状态”。就量表自身而言,即便这一概念属性属于人的认知和心理特质等主观范畴,研制量表也不是为了进行价值判断,而是希望测量指标能客观地反映概念的属性。依据“状态”的性质不同,对测量结果进行排序可能有实际意义(如对赛事服务满意度量表的测量结果进行排序,有高满意度和低满意度之分),也可能没有实际意义,而仅就测量结果进行分类(如对心理测评量表的测量结果进行分类,有多血质、胆汁质、黏液质和抑郁质之分)。
在本文的文献样本(348 篇)之外,共计40 篇文献运用量表设计的思路和方法开展评价指标体系研究。运用量表形式开展评价研究至少存在如下问题值得商榷:从反映性指标与形成性指标的角度看,绝大多数评价研究所涉及的指标类型均为形成性指标。评价研究的目的是通过对这些形成性指标的量度综合测算被评价对象的综合分值,即评价指标的分值影响被评价对象的分值。绝大多数量表的测量指标都是反映性指标,量表设计的逻辑则是用这些测量指标反映被评价对象,即被评价对象的高低(或优劣)影响各测量指标的分值。如果研究者不仔细辨别量表设计与评价研究之间在逻辑思路上的差异,以及测量指标与评价指标之间在内涵上的差异,可能会导致量表与评价在研究中的混用。例如,有学者[41]在对“城市体育形象”进行评价研究时,运用二阶CFA 研制了包括城市社会体育形象、城市竞技体育形象和城市体育产业形象等3 个子维度、每个子维度包含若干观测指标的评价量表。以“城市社会体育形象”为例,该因子包含“居民体育参与”“体育场地设施”“体育活动经费”等8 个观测指标。从评价的角度看,“居民体育参与”作为“城市社会体育形象”的一个二级评价指标会影响“城市社会体育形象”,即“居民体育参与”是“因”,“城市社会体育形象”是“果”;但从量表的角度看,如果“居民体育参与”是“城市社会体育形象”的一个反映性观测指标,则“城市社会体育形象”会影响“居民体育参与”,即“城市社会体育形象”是“因”,“居民体育参与”是“果”。因此,在评价指标与被评价对象的关系上,“量表”与“评价”的逻辑思路正好相反,使用量表对被评价对象进行测量通常偏离了评价研究的最初目标。因此,本文不建议体育管理研究者运用量表研制的方法开展评价类研究。
5 结束语
量表的合理应用是体育管理实证研究的重要基础,对多变量实证研究的可靠性与有效性有重要影响。本文以国内体育管理实证研究中的量表应用为研究对象,基于对348 篇文献样本的整理、归纳和分析,探讨上述文献在量表应用过程中存在的常见问题,为提升国内体育管理实证研究中量表应用的科学性与规范性提供参考。本文侧重聚焦量表信度与问卷信度的差异、单维度与多维度量表的信度评估差异、量表的信度与效度报告内容、量表中的刻度、共同方法变异、反映性指标与形成性指标、运用量表设计进行评价研究的适用性等常见问题。虽然本文对上述常见问题进行了剖析,但每类问题均有深入探究的必要性,量表研制和应用过程中的上述常见问题仍有待学者进行深层次的分析与讨论。
作者贡献声明:
骆 雷:提出论文选题,设计论文框架,撰写、修改论文;
刘 炜:讨论论文选题、论文框架,指导撰写、修改论文;
张孟艳:参与搜集、整理文献,参与文献的描述性统计分析;
李汉熙:参与搜集、整理文献,参与文献的描述性统计分析。