APP下载

基于“白话统计”提升体育学研究生调查问卷信效度检验能力的创新与实践

2022-02-19许水生庞雪林

体育科技文献通报 2022年2期
关键词:信度效度量表

焉 石,许水生,董 宇,庞雪林

1 前言

问卷是指研究者为了收集调查对象的行为、态度及观念等社会资料或信息,将所要调查的内容和问题编排成统一形式,从而用以解释所研究的问题和验证所提出的研究假设的一种测量工具(徐建华等,2015)。[1]近年来随着统计技术的不断提升,问卷调查法仍然是体育学研究中不可忽视的一种重要的研究方法,但提及问卷就不能忽视评价调查问卷质量的两个重要指标,即确保问卷可靠性和准确性的信度和效度。作为重要指标,信效度的科学性是保证调查研究的前提条件,因此提升信度和效度是问卷调查研究的根本任务。一直以来,不同学者对信度和效度的孰重孰轻分别给出了不同见解,张力为(2002)认为[2],信度是效度的基础,所以问卷应首先具备较高的信度,如果信度低,效度一定低。但也有研究认为[3],效度是科学的测量工具所必须具备的最重要的条件,即任何测量首先要保证其测量工具的准确性和有效性,缺乏效度的测量,即便是它的信度再高也是没有任何意义的。本研究认为,对于问卷调查研究,无论是信度还是效度同样重要。但如非要给二者排序的话,相对于信度而言,对于调查研究来说效度应首当其冲。例如在练习打靶中,尽管命中率很高,且非常密集,但如果主要聚集在靶心以外区域的话,也只能说明射击水平较高,而不能称之为神枪手。

查阅文献发现目前在体育学领域,不仅仅在学位论文中,甚至在各类体育类核心期刊中,针对问卷或量表的信效度检验方面,普遍存在误用及滥用情况。究其原因,主要由于如检验问卷的信效度,必然会涉及统计学相关知识,而大部分学生反映看不懂量化研究论文,更不要说运用各种统计方法,即使有意愿学习,但由于数理基础薄弱,所以对量化研究选择敬而远之。有的学校虽然开设了体育统计学课程,但大多授课教师不具备体育专业背景,对于体育专业的特点不够了解,课上的教学案例也与体育相差甚远,而且在教学内容上也主要以数理统计的原理性知识为主,对于应用性知识重视不足,致使大多学生对待统计知识的掌握大多流于形式。

本研究旨在从实际应用统计学角度出发,尽量减少抽象的原理性知识灌输,紧密结合体育学案例,并将问卷信效度检验中必需的统计基础知识,以“白话”形式进行讲授,使学生能够形象的掌握,并结合相关统计分析软件,能够正确合理的运用问卷和量表进行科学研究。另外,也为体育学研究中针对问卷、量表的不同信效度验证方法进行梳理,为体育学科的科学发展提供理论参考。

2 问卷与量表的特点及区别

在问卷与量表的差异方面,大多学生无法清晰辨别,普遍认为二者同属一类,但实际上二者有着多方面差异,无论是编制方面,还是后续的统计分析方面都存在巨大差异。量表严格意义上属于问卷的一种特例,主要用于精确度量一个比较抽象或综合性较强的概念,特别是在心理学研究领域较为常见,主要用于度量一些无法直接测量的变量,例如态度和观念的不同程度或差异等,而且编制过程中需要以理论为基础,并遵循严格的量表设计程序,以及反复的验证等,多见于探讨不同变量间的相关性研究。而问卷的调查内容则相对较为宽泛,尤其是在一些“现状与对策”类的研究较为常见,在内容的设计方面也相对量表较为宽松,主要是以围绕研究的主题进行设计,也无须明确的理论为基础,只需满足研究者关注的问题即可,该类问卷也是体育专业研究生较为常用的研究方式之一。

3 问卷与量表中常见变量类型特征及关系

由于问卷与量表的编制形式及统计分析方法的不同,所以各自采用的信效度检验方法也大相径庭。但合理的选择正确的信效度检验方法之前,首先应明确掌握问卷与量表中常见的三种不同类型的变量,只有准确的辨认其变量特点,才能够正确选择与之相对应的检验方法。大致可以分为类别变量、等级变量和连续变量三种类型。类别变量又称分类变量、名义变量,属于定性变量,不能以连续数值只能用类别表示其特征,表现为互不相容的类别或属性。例如问卷中常见的性别、国籍、省份等。等级变量又称顺序变量,指既无相等单位又无绝对零点的变量,是以有序数值表示其特征。例如名次等。连续变量又称定比变量,指相邻两个数值可作无线分割的数值表示其特征的变量,例如身高、体重,血压等。以上三种变量中,由于其特性不一,所以在进行信效度检验时所对应的方法也不同。另外,连续变量所包含的实数列特征最多,其次是等级变量,最后是类别变量,所以三者间可以采用由上至下的变量转换形式,可将连续变量转成等级变量,等级变量转成类别变量。例如血压值,作为连续变量时可以是具体的有单位的数值,作为等级变量时可以分为高、中、低血压,而作为类别变量时还可以为正常和非正常血压。但由下至上的反方向则不可以转化,从而应在编制中尽可能多设计连续型变量题目。

4 问卷的效度与信度

4.1 常见学位论文中问卷效度检验问题

查阅近年体育学硕士学位论文发现,调查类研究在问卷设计方面大多倾向采用自编问卷,且在效度检验方面主要采用专家效度作为对问卷的效度检验,从而证明研究工具的合理性。但主要存在以下问题:(1)既然选择专家效度,就应证明专家在此领域的专业性及权威性,而大多研究并没有任何相关专家的学术背景介绍,仅是简单地提及选择了几位教授或副教授进行了调查,有的甚至只在乎专家的职称,忽略是否是本研究领域专家,又与本研究有多大关联性等。(2)在对专家效度的问卷中,题目设计方面存在明显诱导性回答,例如在回答项选择中设置“非常合理、较合理、合理、不合理”的形式,该选项明显存在诱导专家选择的意图,合理与不合理的比重不一。(3)简单粗暴将内容效度完全依靠专家回答,并以简单的百分比形式进行定性,缺乏对问卷每个题目的具体统计分析。

4.2 解决方案

在内容效度检验方面,可以采用目前最为广泛的由Hambleton和Martuza等[4-5]提出的内容效度指数法(content validity index,CVI)。该方法可分别对问卷的每个题目,以及整个问卷的内容效度进行评估。具体操作程序如下:(1)首先选择8-12位专家,对已编制好的问卷在各题目后设置4等级评分,分别为1=不相关,2=弱相关,3=较强相关,4=非常相关。请专家进行逐题内容效度评估。(2)其次,逐题计算随机一致性概率值(Pc)[6]:Pc=×0.5n n为专家人数,A为对每题评分为3或4分的专家人数,0.5为专家选择相关或不相关的概率值。(3)结合Pc值计算Kappa值:KAPPA=CVI为评分为3或4分的专家人数除以参评的专家总数比。(4)KAPPA值评价标准:大于0.74为优秀,0.6-0.74为良好,0.4-0.59为一般。(5)计算完每题的内容效度值后,将所有题目的CVI值进行平均,高于0.9则认为该问卷不仅各题目效度良好,问卷的整体效度也良好[7]。(6)最后,结合第一轮专家评估指数,进行修改后实施第二轮专家效度评估,专家人数可适当减少至3-5人。

以8位专家对某问卷中的3个问题的评估为例,具体论文中呈现形式如下(见表1):

表1 不同专家的内容效度评估指数计算

4.3 常见学位论文中问卷信度检验问题

目前大多学位论文中,针对调查问卷的可靠性所采用的信度检验,主要采用重测信度的方法,先后两次对同一样本以同一份问卷进行两次测量,通过检验样本的两次回答的一致性程度,间接判断该问卷的稳定程度。但仍存在以下问题:(1)大多学生对统计分析的变量类型掌握不扎实,故无法正确选择相对应的统计检验方法。例如在自编的问卷中,众多论文表现在,无论是针对人口统计学变量特征的类别变量,还是顺序变量及连续变量,无论青红皂白,一律采用积差相关系数R作为重测信度的评估值。然而至于该方法是否合适普遍并不知晓,只是盲目相互模仿,甚至该错误现象愈演愈烈,以致发展到成为一种固定模式,只要是针对问卷的信度检验,似乎必须采用积差相关系数作为信度评估值才是金标准。但实际上,积差相关系数尽管能够反映连续型变量间的关联程度,但在重测信度的测量中,连续变量的前后一致性检验应采用组内相关系数(ICC),而类别及顺序变量则需要采用卡方检验,同时结合KAPAA一致性分析进行检验才是正确的方法。(2)对一些事实类的问题也机械性地进行了信度检验,一般该类型题目并不需要进行信效度检验,而主要通过测量环境及指导语的控制去实现。[8]

4.4 解决方案

由于问卷调查类研究的各个题目的类型不一,所以不能一次性将提问的问题都进行信效度检验,需要根据不同进行区别检验。针对类别变量、等级变量的检验程序(以SPSS统计软件为例):(1)分别将第一次和第二次的数据录入SPSS软件中(2)打开菜单中“分析”,选择“描述”下的“交叉表”,(3)分别将第一次和第二次的数据选入“行”和“列”(4)在“统计”里将“KAPPA”和“麦克尼马尔”打勾后,选择确定(5)在分析结果中先确定“卡方检验”下的“麦克尼马尔-鲍克检验”的值和渐进显著性(P值)(6)其次在“对称测量”下确认KAPPA值及渐进显著性(p值)。(7)麦克尼马尔P值要>0.05,KAPPA值>0.75一致性较好,0.4-0.75一致性一般,<0.4一致性较差。(8)ICC>0.7为较好,0.5-0.7为一般,<0.5为较差。

以“您在参加课外体育锻炼时发生运动损伤的频率”问题为例,答案为“经常、偶尔、几乎没有”,样本为30人。结果显示(表2)该题项的前后两次重测信度较高。

表2 卡方与KAPPA一致性检验

论文中呈现形式如下:

针对连续变量的组内相关系数检验程序:(1)打开菜单中“分析”,选择“刻度”,选中“可靠性分析”(2)分别将两次的数值选入右侧“项”栏中,并点击“统计”(3)勾选“同类相关系数”,模型设置“双向混合”,并“确认”(4)确认统计结果中的“单个测量”栏目中的“同类相关性”值,以及P值。

以“每次体育课结束后您的主观疲劳程度”问题为例,得分从1—10分,分数越高疲劳程度越深,样本数为10人。该变量属于连续型数据,故需要采用ICC组内相关系数进行检验。结果显示(表3),两次的组内相关系数为0.855,P<0.001。

表3 组内相关系数检验

5 量表的效度与信度

5.1 常见学位论文中量表效度检验问题

相较于问卷,量表在编制与统计方面都较为严谨。由于量表的题目属于反映型指标,表现为连续型数据,所以可采用的统计分析方法也较为多元。一般在心理学、教育学、管理学等专业方面较为常见,主要用于探究各变量间的相关性研究时常见。其中在效度检验方面,分别需要进行验证量表编制的结构效度,以及各变量对各自题目的收敛效度,和了解变量与变量间的不同的区别效度等三种效度。但目前涉及量表的学位论文中,大多只进行了探索性因素分析检验量表的结构效度,而对于收敛效度与区别效度并为提及,因此有必要对收敛和区别效度的检验方法进行介绍。

5.2 解决方案

以探究体育教师的变革型领导行为与体育课满意感及持续参与体育锻炼意愿的关系为例。该研究的结构效度检验程序(以SPSS统计软件为例):首先进行因素分析,(1)将数据分别录入SPSS软件,并进行数据处理(2)点击“分析”,选择“降维”并确认“因子”(3)将各变量下的题目选入右侧“变量”栏内(4)点击“描述”勾选“KMO和巴特利球形检验”(5)点击“提取”在因子的固定数目内输入3,由于本研究涉及3个变量(6)点击“旋转”选择“最大方差法”(7)点击“选项”勾选“禁止显示小系数”,并在绝对值内输入0.4,最后点击“确认”(8)统计结果方面(表4),KMO值越大表示越适合进行因素分析,至少为0.7,0.8-0.9适合,0.9以上表示非常适合,同时Bartlett球形检验值应显著且小于0.05(9)各题目因素负荷量均应超过0.6,且均在各自的维度下,结构效度良好。其次,通过因素分析的因子载荷值计算收敛效度AVE值,用各变量题目的因子载荷值相加,然后求平均数,最后将平均数进行平方,便可得出AVE值。[9]如>0.36表明具有收敛效度,也表明各变量内题目的相关较高。最后,通过将收敛效度AVE开根号后得出区别效度值,同时与各变量间的皮尔森相关值进行比较,大于相关值表明具有区别效度(表5)。

表4 变革型领导行为、体育课满意感、持续参与体育锻炼意愿验证式因素分析

表5 收敛效度、区别效度检验及相关性检验

论文中呈现形式如下:

5.3 常见学位论文中量表信度检验问题

问卷的信度检验主要采用重测信度,比较关注问卷的可靠性。而量表则比较注重各维度下题目间的一致性,是否能够很好地反映或者间接测量出该维度的具体状态,所以量表则主要采用克隆巴赫检验。目前在此方面大多论文都能够准确的实施克隆巴赫内部一致性检验,但多数论文在统计结果的展示中,忽略了对校正后的项总计相关性和各题项间的相关性的呈现,只是简单地介绍了克隆巴赫值,由于克隆巴赫检验受题项数的影响较大,即使完全不相关的题项放在一起,该值也会随着题项增加而增加,所以如不结合校正后的项总计相关性和各题项间的相关性两项参考指标,很难进行判断该量表信度的高低。

5.4 解决方案

以变革型领导行为维度为例,具体程序如下(以SPSS统计软件为例):(1)进入“分析”,选择“刻度”,点击“可靠性分析”(2)将体育课满意感的题目全部选入右侧“项”栏内;(3)点击“统计”,分别勾选“相关性”、“删除项后的标度”,点击确认;(4)统计结果中(表6),首先关注题目间相关系数值,如超过0.85表明应删除其中1题。其次,看修正后的项与总计相关值不能低于0.5。如通过以上两个评价,且克隆巴赫值在0.7以上,则表明该量表信度良好。

表6 变革型领导行为的信度检验

论文中呈现形式如下:

6 结语

问卷调查法目前是体育专业研究生广泛使用的研究方法之一,但普遍对于问卷与量表的信效度的检验程序却重视不足,导致学位论文中信效度检验方法错误百出,甚至呈现相互效仿的不良态势。究其根本,体育专业学生的数理统计基础较弱,且缺乏对学术研究的敬畏心,所以建议导师应结合体育专业学生特点,不断探索指导形式,逐步提升其在统计方面的学习能力,同时强化学生对待科学研究的谨慎心理,从而保证学术研究的科学性。

猜你喜欢

信度效度量表
英语写作评分量表研究
ACE-Ⅲ量表和MOCA量表在老年认知障碍诊断中的应用价值研究
生态旅游景区服务场景的量表开发研究
CSE阅读量表在高中生自我评价中的有效性及影响因素
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
大学生积极自我量表初步编制
论高职英语多元化综合评价模式的效度与信度
计算机辅助英语测试研究
墨子论度