Likert等级量表调查结果有效性的影响因素探析
2009-06-10方宝
方 宝
[摘 要] Likert等级量表是社会科学研究领域广泛使用的一种调查工具。从量表的构制、调查的开展、数据的录入等三个方面入手,探析影响Likert等级量表调查结果有效性的各种因素,同时提出解决这些问题的一些建议和对策。
[关键词] Likert量表;有效性;影响因素
[中图分类号] C32 [文献标识码] A [文章编号] 1008-4738(2009)02-0025-04
[收稿日期] 2009-02-18
[作者简介] 方 宝(1981-),男,广西中医学院外语部助教,硕士,研究方向:外语教学、普通语言学。
一、引言
Likert量表(Likert scale)又称总加量表,由美国社会心理学家R.A.Likert于1932年在原有的总加量表基础上改进而成,并因此而得名。这种量表一般由一组与研究主题相关的陈述以及其他辅助内容所组成。它是由设计人员在一定的理论框架的基础上,顺从调查目的和要求而构制出来的,用来探知受试者对某一事物或现象的态度、看法、评价或行为倾向等方面信息的一种调查工具。
Likert等级量表是一种定距量表,量表所收集的数据可以借助统计软件(如SPSS)进行各种参数和非参数检验,以此来挖掘量表所反映的深层信息。在实际设计中,Likert量表通常采用3~7个等级形式,即量表中各题项给出表示态度积极程度等级的几种备选陈述(如“非常符合”……“非常不符合”等),并用不同的分值给每一等级陈述赋值。受试者的得分越高,说明其对某事物或现象的态度越积极或越消极。
Likert量表的设计比较简单而且易于操作,量表调查以其效率高、信度好、实施方便等特点,在社会科学研究领域广泛使用,特别是在社会学、心理学、教育学、管理学领域[1]。但是,不少人在使用Likert量表进行调查研究的过程中还存在着许多误区,这极大影响了调查结果的有效性。目前,人们对问卷设计的问题研究比较多[2],而对问卷实施过程中存在的问题探讨较少,对影响Likert量表调查效果的专门研究更是缺少。本文试图从量表的设计、调查的实施、数据录入三个方面入手,分析影响Likert量表调查结果有效性各种因素,同时提出解决这些问题,提高使用Likert量表科学性的建议与对策。
二、量表的构制问题
(一)量表功能定位的偏失
构制一份Likert等级量表,首先要明确Likert量表的功能定位。Likert量表是一种定距等级量表,但绝不是万能的测试问卷,它并不是对任何类型的调查信息都适用。Likert量表主要用于测量态度方面问题,不能对诸如教学成绩、学业水平、知识能力等方面进行测量。比如,要通过量表来测查教师的教学成效如何,编写了这样的题项:“近3年来我的教学成果比较显著”,提供的选项是“非常符合”、“通常符合”、“说不准”、“通常不符合”、“非常不符合”。这样的题项只是表明了受调查教师对自身工作成效的评价而并不一定是他们真正成绩的体现。量表的功能决定了量表调查的适用范围,所以构制一份Likert量表,必须首先弄清哪些信息能够通过量表调查获取,否则一旦产生失误往往会导致对调查效果的全盘否定。
(二)量表的语言表述问题
1.表述不适切
首先,题项表述不够简明,这主要体现为表述偏向使用长而复杂的语句,导致受试者的费解或厌烦。因此,问句要尽量简短明了和口语化,避免用双重否定句。其次,专业化术语的使用导致受试者理解困难。比如“我认为后现代主义对我写作的影响很大”,后现代主义是一个颇具专业性的术语,受调查群体难以像量表设计者一样理解其义。再次,题目与陈述选项存在逻辑问题。比如一个五级量表,其陈述选项为“非常喜欢……非常不喜欢”,但量表中的一些题项在逻辑上并不适用这样的陈述,而宜用“非常符合……非常不符合”等陈述。遇到这样的情况,就要把量表题项归类、分组,对不同的题项给予不同的陈述选项。
2.问题界限不清
这方面的问题首先表现在一个题项包含了两个方面的内容。例如“我喜欢看报纸杂志”,“我擅长唱歌跳舞”,这样的陈述会使一些受试者难以回答,因为有些人可能只符合其中的一种情况。即使他们勉强作出一个选择,结果也是不准确的。其次,对涉及时间、地点、程度、频率等方面的情况没有一个确切的范围。比如“近几年来我多次获得教学成果奖”、“我经常跟同学练习英语口语”,其中“近几年”可能是指近3年,也可能是近7、8年。“多次”、“经常”更是无法让受试者有一个明确判断。因此,类似这样的题项都应改为用具体的数字或具体的事件来表示。
3.表述比较抽象
对于已经习惯了抽象思维的量表设计者来说,往往无法意识到受试群体抽象思维困难的问题。有人曾经做了这样的调查,当问到“你看电视新闻节目的时间在你晚上的闲暇时间里所占的比例是多少”这样一句看似简单的句子,在受调查的53个人里只有14个知道这是什么意思[3]。表述抽象的另一情况是词义程度模糊性,比如这样一个表述“我的课外活动丰富多彩”,受试者对于丰富多彩的判断难以把握,这类题项的信度常常是比较低的。因此量表题项语言的表述要简单、具体,避免采用过于抽象的语言。
4.措辞带有诱导性
题项陈述带有诱导性的用语时,就会给受试一种暗示,进而影响其选答,从而导致人为地增加该量表中同类题目倾向性回答的几率。比如“我养成了上课前预习功课的好习惯”这样的一个陈述,这其中“好习惯”的预设作用就会促使受试者倾向于选择积极程度高的选项。把这一陈述改为“我常常在上课前预习功课”则更好。因此,量表题项的陈述要尽量采取中性方式。
5.测试意图不具隐蔽性
量表测试意图太明显容易诱发受试者的反应倾向或思维定式。比如一个量表里连续几个题项都是关于诸如“我认为多记英语单词可以提高英语阅读水平/写作水平/听力水平/口语能力……”这样的设置时,就会使学生隐约感觉到测试意图的同一指向性,而不假思索地在这些题项上选择同一个答案。因此,量表题项尽量采用非逻辑性的排列,随意地把题项安排在量表的不同部分,并尽可能地设置比例相当的正反表述题目,使学生作出真实的判断。
6.对敏感性话题表述欠妥
受试者面对敏感性问题往往会产生一种自卫或非常谨慎心理,“这是一种担心如实填写会给自己带来不利的影响,会有损于切身利益的心理反应。问卷调查的内容越敏感,这种心理反应就越容易产生”[4]。对敏感或涉及隐私方面的话题表述欠妥,往往会导致受试者在填答量表的时候过多考虑自身利益,从而降低了填答的真实性。
对敏感性话题的处理可以采用以下几种方法:(1)宽慰法,即在提出问题时采用消除受试者顾虑心理的表述,比如“很多人都有婚前同居行为,我接受这一行为”。(2)假设法,即先给予一个假定前提,然后再提出问题。“假如我是考试政策制定者,我会取消通过大学英语四级考试的统一要求”。(3)转移法,即把要受试者判断的对象从受试者自身转移到对他人情况的判断。比如“对于有些人所提倡的同性婚姻合法化,我赞同。”
7.翻译问卷非本土化
国外专家设计的调查量表越来越多地被国内学术界所引用。但人们是对量表的翻译,无论是题项内容还是表述方式都可能出现不太符合本土文化情况的现象。“现代社会科学研究方法植根于西方文化,调查法的有效性也是以西方人的反映模式为基础”[5]。中国人表达观点的语言习惯、处理事情的不同方式和态度、对一些问题的开放程度等方面都与西方人有很大差别,问卷内容也会有不少的文化差异。在翻译国外量表的时候,都要充分考虑到中国自身特殊性。
(三)量表页面设计问题
1.量表版面过多
如果一个量表排版页数过多,装订起来像一本练习册那么厚,会给受试者一种负担和倦怠感,从而影响其回答的积极性。此外,一次调查的内容也不宜过多,有的研究者[5]建议题项总数不宜超过“80”这一上限,理由是过多的题项会使填答人疲劳,致使调查结果不太可靠。如果量表需要保持大容量,在排版时要尽可能地缩小篇幅空间;也可以将一份量表分成两份,分开进行调查,最后再将调查结果合并。
2.题项排列过于紧密
为了节省空间,有些量表中各题项排列比较紧密。这除了使受试者产生视觉上的疲劳和压抑感之外,更重要的是往往造成了他们看错行而误答的现象。为避免这种现象,在保证不增加量表长度的情况下,可以采用打底色的方式作区别,如奇数题项保留白底,而偶数题项用浅灰色为底,这样可以有效地防止填答错行。如果条件允许,最好采取彩色打印的方式,单双题项行分别采用区分性好的不同颜色打印。
(四)量表的验证问题
1.量表题项理解的一致性问题缺乏检测
检验被试群体对量表题项的理解与量表设计者欲表达的意思是否一致是十分必要的。Belson[5]曾做了一个研究,他构制了一个有50个题目的问卷。调查结束后,一个训练有素的主试再去找那些受试者访谈,结果发现50个问题中,没有一个问题是所有的受试者和问卷设计者在问题的每一个部分理解都是一样的。这个实验不能说具有很好的代表性,但这至少说明了一个没有经过验证的量表难免没有一两处理解不一致的地方。所以在量表正式发放之前,有必要对量表题项理解的一致性问题进行多次检测,并根据受试者提出的意见反复进行修改。这是一个极其重要的但在实践中经常被忽略或省略了的环节。如果过于自信而一蹴而就,设计出来的量表在调查过程中才发现漏洞百出就会得不偿失。
2.缺乏信度和效度的实证性检验
一个量表精心设计出来后,还要对其进行信度和效度方面的测试。我们可以采取简单观察的方法来初步判断量表的信度和效度,但更重要的是要将量表对适用群体发放,通过对所回收数据的定量分析来进行检测。现在,我们可以凭借一些统计软件(如 SPSS 等)来对量表进行内在一致性信度检验,也可以通过因子分析、聚类分析等方式来对量表进行效度检验与优化。当统计软件显示量表信度、效度不佳的时候,就要对量表从设计及其发放过程进行反思和改进,然后再次进行实证性检验,以此来回反复,直至达到要求。构制任何一个高质量的量表往往需要经过若干次修改才能成功。而这一过程往往比数据的收集和分析过程还要费时费力,因而这一环节常常被草率处之或人为省略。
三、调查实施过程的问题
(一)调查样本的抽样问题
1.样本抽取随意性大
目前,多数的量表调查都采取抽样调查方式进行。在进行调查前,研究者往往缺乏或忽略对样本的具体构成特征进行必要的评估,导致抽样总体与目标总体之间存在差异,而当这种差异过大时,就会产生严重的样本误差,导致调查所取得的数据不具有推论总体的性质。样本的抽取要有随机性,但大不可随意。另外,有相当一部分研究者委托他人帮忙调查,但对受委托者在实际调查中是否坚持随机抽样的原则缺少必要的指导和监督。
2.样本抽取的便利性倾向
由于实证研究受时间、地理位置、人力、财力等方面的影响和制约,特别是比较大型的调查研究,其本身就是一个庞大的工程,因此,为了省时省力,一些研究者对于调查样本的抽取,往往并不是以是否科学合理为出发点,而是以是否方便调查的执行为基础。这样就导致了人为地缩小样本抽取的范围,减少样本总量,致使样本代表性不强。
(二)调查过程的指导和监督问题
1.调查过程缺乏程序性
在进行Likert量表调查的时候,除书面指导语外,调查人员往往还要对受试者进行一些必要的解释和沟通。在大型的调查中,不同调查员对待受试者的态度、谈话的方式、处理问题的策略等都有可能影响到其填答量表的积极性和效果。因此,有必要对调查过程进行规范化、统一化。但是,现实中人们对调查过程的程序性往往没有达成共识,对调查过程也缺乏有效的统一指导。
2.调查过程缺乏有效监督
对调查过程实施监督主要是为了确保调查数据的真实性和代表性,提高调查质量。特别是在各种学术性的社会科学统计调查研究中,由于研究者本人经常委托他人开展调查,所以监督显得十分必要。监督主要是为了督促调查人员按程序和要求开展调查,保证调查的有效性。然而一些研究者由于时间、精力、工作态度等各方面原因,经常忽略这一环节。
3.调查持续时间过长
对同一项调查,由于调查取样范围广、人力资源不足以及样本的分散性等原因,造成了同一群体相同量表发放最早与最晚时间相隔几乎一年或者更长。量表调查时间持续太久,往往会造成同类样本由于调查时间不同造成的调查结果的显著差异。比如,以学生作为样本,一年前后时段里对其进行调查的结果可能会大不相同。因为这实际上已经是演变成了对两个不同样本群体的调查。所以,一项非跟踪性调查要在尽可能短的时间内完成。
(三)量表有效回收率问题
1.量表回收率低
由于参与量表调查需要付出一定的时间和精力,加之量表需要填答的内容可能涉及个人隐私问题或其他敏感问题,受试者往往出于自己利益的考虑而拒绝合作。为此,我们可以从以下几个方面来调动受试者参与调查的积极性:(1)给受试者支付一定的调查费或赠送一些小礼品。(2)减少量表题项数量,缩短填答时间,消除受试者的畏难和厌烦情绪。(3)选择适当的调查时间、场合和实施方式,营造调查的良好氛围。
2.回收量表合格率低
受调查对象虽然参与了调查,但是由于是被迫或者是持无所谓态度,往往敷衍了事,造成填答错漏现象比较多,或者有相当多的题项没有完成,造成了无效填答。在回收的量表中大多数的无效量表都属于这一类别。这种情况一方面说明回答者不够认真,另一方面也与问卷设计形式有关。另一种情况是多份量表答案完全相同,这可能是有些受试者相互抄袭,或者一个人填答几份量表所致。这些量表显然都应该废弃。
3.量表受试者个人信息缺失
在量表调查中,由于研究的需要,受调查者有时被要求填上姓名、性别、年龄、职业、教育程度等基本情况作为分析变量。这涉及受试者的个人隐私问题,不少时候得不到他们的支持。特别是姓名问题,有时候量表的填答跟其他测试分开进行,但进行研究分析的时候又不得不通过姓名将其匹配起来。而此时,姓名的缺失直接导致了量表的无效。
四、数据的录入问题
(一)数据录入错漏现象多
量表回收后,在数据录入电脑的过程中,常常会出现数据录入的错漏现象。造成这种现象的原因,除了跟数据录入者的工作态度有关外,也与录入工作性质和工作量有关。特别是在人力有限,数据录入量庞大的情况下,小失误在所难免。处理这一问题,除了进行简单核查外,还可以借助统计软件(比如SPSS)的描述统计功能,对所输入的数据进行辅助检验。在对数据进行各种参数分析之前,要认真对数据进行多次核查,确保输入数据的准确无误。
(二)缺省值、反向题分值处理疏忽
在量表数据录入过程中,我们往往会发现有不少量表存在个别题项漏答或错答现象,如果都把它们视为无效量表,就有可能流失很多样本。对于这些量表,常见的处理方法有两种,一种是在统计相关题项时,有缺省值的样本不参加统计,当统计不涉及缺省题项时,该题项参与统计;另一种处理方式是对缺省题项赋值,然后参与统计。对缺省值赋值可以取题项备选陈述的中间等级项的值,也可以取该题项的所有样本的平均值。另外,对于量表中的一些反向题,在其数量比较少的情况下,统计人员往往忽略了将其数值进行转换。无论是对缺省值赋值还是反项题分值转换的疏忽,都会在不同程度上造成数据分析上的偏差,有时甚至导致了与原本结果截然相反的严重错误。