优劣尺度法理论及应用研究述评
2019-01-20张录法黄姣姣
张录法,黄姣姣,王 慧,姜 山
(上海交通大学 a.国际与公共事务学院;b.中国城市治理研究院;c.公共卫生学院,上海 200030)
一、引言
优劣尺度法(Best-Worst Scaling,BWS)是近年来国际上一种新兴的测量意愿和偏好的方法[1]。BWS主要是针对学界普遍使用的各种测量主观意愿的量表,比如Likert量表等所存在的缺陷(回答偏差等)而提出的,目前被认为是测量偏好和意愿更为精确的方法。BWS在国内尚没有通用的汉语译名。本文参照BWS的原始文献[2]以及日文文献的翻译方式,将其翻译为优劣尺度法。
为了梳理BWS在国内外的研究现状,本文通过Springer Link、Elsevier、EBSCO等数据库,以“best-worst scaling”为关键词或者篇名检索国外相关文献,总共检索到约299 000条结果。通过分析这些文献发现,BWS在国外已经被广泛应用于食品安全、市场营销(汽车、葡萄酒、广告等)、医疗、人格与价值观等领域。通过知网、万方等数据库检索国内相关文献,以“best-worst scaling”、“最大最小标度”、“优劣极值测量法”、“优劣尺度”、“差异最大化测量”等为关键词或者篇名仅检索到少量几篇相关文献,其中一篇文献介绍了BWS的基本概念和基本操作[3],另两篇文献分别尝试了BWS在酒类市场和猪肉质量安全上的应用[4-5]。但是,BWS的不同类型、理论基础、行为假设、统计模型等以及BWS与离散选择实验之间的优劣比较,在现有中文文献中都没有得到详细和全面的介绍。
考虑到BWS方法在应用统计学、健康经济学和其他各种领域中的重要价值,我们认为,有必要对国外相关研究文献进行综述,系统阐述BWS的理论基础、比较优势以及最新的应用进展,为国内尽快了解并使用BWS提供较好的参考。本文对BWS进行了概念界定并简要概括了BWS的发展演进历程,对BWS三种类型进行具体阐释,对比分析了BWS、评定量表和离散选择试验等三种测量方法的优劣;最后总结得出相应的启示,并对未来在城市公共交通等场景的应用研究进行展望。
二、BWS定义和发展演进
(一)BWS的定义
根据使用目的不同,BWS有不同的定义。它既可以是一种数据收集的方法,也可以是一种用于分析受访者如何将给定的多个选项进行优劣排序的决策分析方法[6]。
1.作为数据收集方法。BWS作为一种数据收集方法,其基础是随机效用理论[1]。该理论的假设是通过统计受访者在多个偏好选择问题中的选择行为,可以评估其对于不同选项的偏好程度。基于该理论,BWS要求受访者在一系列选项组合中不断重复做出最好项和最差项的选择,并由此评估受访者个体偏好的优先顺序。在当前这个基于网络调查方式的时代,BWS有助于更有效地收集数据。首先,它要求所有受访者在每一道问题中都选出最好项和最差项,这就比其他的实验方法,比如discrete choice experiment(DCE)收集了更多的数据;其次,BWS通过重复询问,可以对各个选择指标的重要程度进行完整的排序。
2.作为决策分析方法。BWS被认为是配对比较法的变异体。受访者可能会通过多种不同的认知方式进行选择。例如,可以是从n个选项中先选出最好项,再从剩下的n-1个选项中选出最差项;也可以是从n个选项中先选出最好项,再从剩下的n-1个选项中选出次优项,以此类推,直至最后剩余的一项就是最差项。但是,这些方式都不是针对任意一对选择进行比较,这一点跟配对比较法有区别,究其原因,首先,由于随着选项的增加,采用配对比较法会让选择题的数目成倍增加。比如,n个选项会产生n(n-1)个可能性配对;其次,研究者们普遍认为在认知上采用序列模型是一种更好的假设(先选出最好项,后选最差项或者相反)[7]。
(二)BWS发展演进
BWS的思想可以追溯到1927年由Thurstone提出的“比较判断法”。1987年,阿尔伯塔大学的Louviere正式提出了BWS的完整方法。他最初的兴趣是,当要求人们从一系列选项集中做出最好项和最差项选择时会产生相应的数据,但这些数据会派上怎样的用场?带着这样的疑问,他在接下来几年里,一直致力于继续完善BWS以及如何解释和使用BWS收集的数据。1992年Finn和Louviere首次将BWS应用于民众对食品安全的关注这个典型的公共民意调查研究中,并形成论文发表。该研究证明了食品安全几乎没有得到任何关注。这一结论有重大的应用价值,它帮助政府节省了一大笔预算。如果没有这项研究,政府就会像以往一样投入很多钱用于宣传食品供应的安全性[2]。
此后很长一段时间内,虽然Louviere、Swait 和Anderson等学者做了很多努力,但是BWS在20世纪90年代一直没有得到学界过多的关注。然而,McIntosh等却一直关注着BWS,并坚信BWS是一种可用于解决卫生经济学中某些问题的很有前景的方法[8]。2002年,他和Louviere在一次关于离散选择试验在卫生经济学中的应用的会议上进行了交流,主要内容后来也成为McIntosh博士论文的一个章节。与此同时,Louviere也试图说服Marley去相信BWS的重要性,因为Marley等在1968年就曾经提出了一个用于分析一个选项集中的“最好选项”和“次优选项”的复合概率选择模型,为人们在做出选择时的不同认知过程提供了理论证明[9]。
随后,更多的学者加入了BWS的研究与应用。Flynn等发表了不少会议讨论和相关文章,最为著名的是2007年发表在卫生经济学期刊的关于如何运用BWS的论文[1]。Marley等运用严谨的统计学方法为BWS提供了几种主要的分析模型,并验证了其科学性和理论性[10]。还有一些学者发表了关于BWS与DCE的对比研究[11-14]。理论的基础夯实后,该方法逐渐在各个研究领域得到了广泛应用。2015年Louviere等出版了一本专门介绍BWS理论、方法以及应用的教科书,汇集了不同专业领域的相关研究成果,以帮助研究者们正确地使用BWS,避免在使用过程中出现不必要的错误[15]。
三、BWS的三种类型阐释
随着BWS在不同研究领域越来越广泛的使用,逐渐形成了不同的类型,大致可以分为三种。
(一)BWS-1:对象型(object case)
1.类型特征。这是BWS的经典类型,由创立者Louviere在食品安全研究中最先使用。它主要关注的是诸如公共政策目标、品牌以及其他任何不需要具体设定等级水平来进行描述的对象。只要研究者关心的是所研究的不同对象之间的相对价值,比如上文提到的品牌以及其他可以进行鲜明对比的项目,就可以采用这一类型的BWS进行测量。一般而言,评定量表或配对比较法可以测量的事物,都可以利用这一类型的BWS进行测量。当研究者需要收集的信息属性清单过多,难以使用DCE,通常也可以采用该类型。
2.常用实验设计。设计BWS-1时,首先要确定测量对象,再设计可供选择的组合。通常可以使用平衡不完全区组设计(Balanced Incomplete Block Design,BIBD)来优化组合,最后被调查者从组合中的一系列属性选项中选出一个“最好”项和一个“最差”项。
在优化组合过程中,要确定BIBD的五个基本参数:①V是处理数;②K是区组大小,即每个区组包含的处理数;③r是每个处理在整个实验中重复出现的次数;④b是区组总数;⑤λ是任意两个处理在相同区组中相遇的次数。
这5个基本参数构成BIBD设计的3个基本要求:①rv=bk;②λ=r(k-1)/(v-1);③b≥V。
3.数据分析。BWS-1的数据可以作为计分数据或选择概率数据进行分析。
首先,如果是用计分数据(score)作为结果变量,那么有两种方式。一种是差值法,即统计每个对象被选为“最好”和“最差”的次数,然后用该对象被选为“最好”的总次数减掉其被选为“最差”的总次数,这样就会得到该对象的“分数”[2]。Marley等证明如果MaxDiff模型成立,那么用“最好(B)”减“最差(W)”所得的分数(B-W)对于Multinomial Logit Model(MNL)是充分统计量(sufficient statistic)。这意味着这些分数携带的信息对于更加复杂的Logit model(probabilistic logit models)是可用的[16]。另一种是商值法,即用每个对象被选为“最好”的总次数除以其被选为“最差”的总次数,然后将结果再开平方。两种方法所得的结果变量都可以应用于MNL以及更复杂的logit models。
其次,还可以直接基于选择数据,计算受访者选择特定一对选项作为“最好”和“最差”组合的概率。目前计算选择概率的常用方法有:(1)MaxDiff方法:受访者从所有可能的两两组合中,选择特定一对作为“最好”和“最差”的概率;(2)Simultaneous choice(SIM)方法:受访者从所有选项中选择特定某项作为“最好”,同时还从所有选项中选择特定的另一项作为“最差”的概率;(3)Sequential choice(SEQ)方法:受访者选择“最好”和“最差”的过程存在时序性,即先从所有选项中选择特定某项作为“最好”,再从剩余选项中选择特定某项作为“最差”的概率。这三个方法是基于受访者选择行为的三种心理活动假设,即两两对比、同时选择和序贯选择。
4.BWS-1的现状和前景。目前国外已有一系列关于葡萄酒品牌偏好的研究为这一类型BWS的使用提供了非常好的铺垫和借鉴(Casini et al,2009),但是在情况较复杂的领域(比如医疗服务)的应用则较少,这主要还是因为BWS-1包含的选项是一个个对象,并不涉及每个对象具体的性质。但是,在较复杂的领域,我们往往更想知道的不是人们对某个对象有多喜爱或厌恶,而是对于这些对象所包含的某个具体的性质是喜爱还是厌恶。比如在医疗领域,我们并不关心患者是否喜爱这家医院甚过于那家医院,而是想知道人们对于这些医院对象所包含的性质(如医生水平、服务质量等)是什么态度。在未来,BWS-1可能主要应用于品牌研究的领域。
(二)BWS-2:组合型(profile case)
1.类型特征。McIntosh和 Louviere提出了第二种类型的BWS,即profile case BWS,并将其引入到卫生保健领域的研究之中[8]。BWS-2的特点是一道题目表示一个商品或服务的属性水平组合,受访者要从中选取他认为最重要的属性水平和最不重要的属性水平。BWS-2要求受访者将商品或服务的内在性质作为选择对象,而不是在不同商品或服务之间进行选择,这是BWS-2与BWS-1在形式上的最大不同。随着BWS分析模型在理论上得到验证,再加上Flynn等为研究者提供了类似于“使用指南”的文章[1],BWS-2在卫生保健领域得到了广泛认可及应用。
2.常用实验设计。BWS-2首先需要确定待测量对象的属性,再为每个属性设定相应的水平。其次,根据设定好的属性和水平,进行实验设计。任何一个备选项都一定是属性水平的某种组合。一种组合就构成一道BWS-2的题目。我们通过合理的实验设计,用尽量少的BWS-2类型问题,得出尽可能多的关于受访者偏好的信息。如果采用全因子设计(full factorial design),将所有可能的属性水平组合全部纳入研究,则数量过大不易操作。通常我们利用正交主效应设计(Orthogonal Main Effects Plan,OMEP)来大幅度减少可供选择的组合,这是由于OMEP不考虑属性和水平之间的交互作用,所以很多组合可以省略。
3.数据分析。Flynn等针对BWS-2的使用提出了配对模型(paired model)和边际模型(marginal model)两种分析方法[1]。配对模型是将BWS-2题目中每一个可能的“最好-最差”组合被选中的次数作为结果变量,而边际模型是将每个选项被选为“最好”或“最差”的次数作为结果变量。这两种方法都可以用于个体数据和总体数据的分析。个体数据的分析需要使用logit models及最大似然估计的方法,总体数据的分析可以使用加权最小二乘法。两种方法的具体内容不再赘述。具体使用哪种数据方法,要根据研究目的而定。
关于两种分析的比较,学者已经有理论和实证研究。按照Marley等的阐述,配对模型与MaxDiff模型相似,它们的假设前提都是受访者个体可以考虑到所有可能的“最好”、“最差”选项的配对情况并选择具有差异最大化的一对[10]。而边际模型是将“最好”项和“最差”项分开考虑,更加符合实际情况。必须注意的是,边际模型的假设前提是受访者对于“最好”和“最差”选项是同时做出的,但是研究者应该认识到实际选择中是存在前后顺序的。例如,受访者的心理活动很可能是先选出“最好”项,再从剩余的选项中选出“最差”项,而非同时选出“最好”和“最差”。
需要补充的一点是,在属性和水平的关系上,Marley等人认为抛开属性水平去单独评估属性的重要性是没有意义的[10]。然而,在数学心理学界的研究范式中,往往认为属性的重要程度(独立于属性水平之外单独评估,因此可能会由于选择情境的不同而变化)与属性水平(无论选择情境如何,都是固定不变的)之间是倍数关系。
4.BWS-2的现状和前景应用。由于BWS-2以研究受访者对属性和水平的偏好为主,所以它适用于较复杂的领域。在实证研究中,它在医疗服务领域的使用非常多[11-12]。在未来,BWS-2可以被大量应用于中国的医疗卫生服务研究之中。
(三)BWS-3:多重组合型(multi-profile case)
1.类型特征。BWS-3是最新的类型,与DCE最为相似。DCE要求受访者在一道题目中选出最偏爱的那个组合。作为DCE的扩展版本,BWS-3要求受访者从题目的选项中选出最好的和最差的。由于每道题目都比DCE多一个结果,所以BWS-3可比DCE提供更丰富的数据。利用这一点,可以获得更好的模型参数估计,也可以衡量不同的属性和水平“不受欢迎”的程度。Louviere等指出,通过最好-最差问题的重复询问,可以获得比DCE更充足的选择数据,因此一个设计合理的BWS可以为偏好分析提供很好的支持[17]。
一般来说,只要适用于DCE的情况都可以使用BWS-3,前提是每道题目至少有三个选择。Marley等人在对手机选择的偏好研究中详细阐述了这一类型BWS的具体应用[18]。
2.常用实验设计。由于BWS-3与DCE在形式上的高度相似,DCE的常用实验设计方法均适用于BWS-3,包括OMEP以及D-optimal design。
3.数据分析。对BWS-3的数据,可以使用MNL、ordered logit model或者更复杂的logit models。一些研究者认为BWS-3是对一系列多重属性对象进行全部或部分排序,应当使用ordered logit model进行分析[19]。但也有学者认为,ordered logit model的假设是从一系列选项中先选出一个最好项,再从剩余选项中选出最好项,以此类推,最后从剩余的两个中选出最好项,而BWS数据并不一定按照这种方式收集。它可以是先选出最好的,然后从剩下的选项中选出最差的,再从剩下的选项中选出次优的,以此类推,因此用ordered logit model不太合适[15]。
当研究涉及到偏好异质性(Preference Heterogeneity)和量度异质性(Scale Heterogeneity)时,Mixed Logit Model和Generalized Multinomial Logit Model是常采用的方法。
4.BWS-3的现状和前景。BWS-3在三种类型中是较少被应用的,原因主要是BWS-3要求受访者回答每道题目时都要同时记住很多信息以便进行权衡取舍,这给受访者带来的认知压力较大。目前的应用常见于健康生命治疗调查的研究[19]。
(四)三种类型的应用总结
早期,第一类型和第三类型主要应用于市场营销领域,第二类型主要应用于健康经济学领域。随着第三类型BWS逐渐应用于健康经济学等领域,就出现了对第二类型和第三类型BWS进行比较的研究。Marley等证明了BWS-3与BWS-2线性相关[18]。英国的ICECAP团队决定使用第二类型来测量偏好,因为他们发现第三类型BWS的问题对于受访者(尤其是患者和老人)过于困难[15]。Flynn等也证明了这一结论,同时发现使用BWS-2也有统计分析方面的考虑,因为它可以得到更精确的效用参数估计,同时方差更小[20]。
无论是哪种类型的BWS,在研究设计时都必须遵循以下几个基本的步骤:①通过对待研究问题的初步了解,确定使用哪种类型的BWS;②通过文献回顾、专家访谈、小组讨论等定性研究的方式以及预调研的手段,正确识别和描述研究所需要测量的对象、对象的属性以及每个属性的若干水平;③构建一个合理的实验设计方案;④根据实验设计,确定问卷的核心内容,即BWS的题目;⑤根据问卷的长度,决定是否要采用blocking等方式将问卷划分为几个部分,然后添加辅助内容,进一步完善问卷;⑥发放问卷,获得数据。如果研究者需要更多更详细的数据,可以重复询问来得到次优和次最差等选择信息;⑦确定数据整理方案,包括如何清洗数据,如何应对缺失数据,需要剔除哪些数据等;⑧确定完整的分析方案,包括选择logit model、构建统计模型、确定结果变量和解释变量、确定数据估计方法等;⑨解释数据分析的结果,并阐述在实际应用中的意义等。
四、BWS与其他测量方法的比较
(一)BWS与评定量表的比较
不论是BWS还是评定量表,都是划分出一些固定的属性(attribute),通过在不同属性上的比较,最终得出比较结果。评定量表法有很多设定属性的方式,但由于在具体操作中没有标准而清晰的规则,所以人们对于属性的设定比较主观。在社会科学尤其是心理学中,最常见的评定量表是Likert量表和1-10评定量表。在这些评定量表中,人们的感知反映在所选择的数字上。以Likert量表为例,该量表已被广泛运用于测量消费者满意度、忠诚度和对服务质量看法等研究中,用于评定消费者是否同意/不同意某项陈述,或喜欢/不喜欢某个产品。
已有大量证据表明评定量表存在很多固有缺陷,难以精准地预测消费者行为,其主要缺陷包括但不局限于以下几点:首先,评定量表(如Likert量表)通常将每个项目划分为若干回应等级(如1-非常不同意,2-不同意,3-不一定,4-同意,5-非常同意等),由于默许偏差(同意倾向)、社会期望偏差(撒谎和捏造倾向)以及极端回应偏差的存在,答题者更加倾向于将每一项目都评定为同一选项(如“非常同意”),最终导致偏倚的结果;其次,评定量表的测量结果不能精确得出每个项目的重要程度;最后,不同国家用的评定量表不同,因此研究结果也不利于国际比较。
针对评定量表存在的缺点,不少学者将BWS与其进行了比较研究,结果表明BWS能够显著缩小评定量表存在的三种偏差,提高区分度。Cohen等学者在评估IT管理者对文件服务器的选择偏好时发现,如果用t检验来比较属性差异,平均t值最高的是BWS,由此证明BWS在提高不同属性之间区分度上的优势(Cohen et al,2003)。Jaeger等以消费者对肉馅饼的偏好研究为例,证明了BWS更容易区分样本间偏好的差异,并且也不会增加被调查者的答题难度(Jaeger et al,2008)。Lee也认为被调查者的BWS得分比评定量表更容易体现出行为差异(Lee et al,2007)。
在各个项目的重要程度计算方面,BWS更有优势。Adamsen在文献回顾的基础上,对等级量表的回应等级划分提出了质疑——如Likert量表将每个项目的回答划分为5~7个等级,是否能正确反映出每个项目的重要程度,并以消费者对有机苹果偏好为例进行了研究,证明了BWS可以更加精准地预测出每个项目的重要程度(Adamsen et al,2013)。
此外,BWS的研究结果更利于进行国际比较。Auger 等在国际范畴内利用BWS测量了六个不同国家的消费者对于社会和道德问题所持有的态度,结果证明了BWS的测量结果不会受各国文化差异的影响(Auger et al,2007)。也有学者在同一国家内进行了相关研究,如Lee基于施瓦茨价值观量表与BWS的结合,对居民价值观与行为之间的关系展开了调查,结果再次肯定BWS在词汇的使用上优于等级量表,例如“最好”和“最差”比“十分重要”和“一点也不重要”在理解上更能趋于一致,还能避免使用数字来代表等级的不必要麻烦(不同文化对于数字的理解不同,例如4在中国文化中有不幸的含义)。
(二)BWS与DCE的比较
DCE是目前表达偏好实验方法(stated preference method)中最常用的方法(Ryan,Gerard,Amaya-Amaya,2007)。它是基于人们在假设情境下的意图表达而得出个人对物品或服务的偏好。DCE的题目要求受访者从一组包含了多个情境组合的选择集中选出最偏好的一个组合,每个组合由不同的属性水平构成,通过不断重复这样的多个选择集来观测受访者在各选项之间的权衡。
这种表达偏好实验手段是对显性偏好分析(revealed preference method)的一个有力补充。当一种产品或服务没有出现在市场上时,我们就没法使用显性偏好分析,因为没有办法观察到价格和实际的选择行为。如果使用DCE,研究者就可以设计假设情境,观察人们的选择,进而评估不同属性水平给人们带来的效用。
自从BWS被发明以来,关于DCE与BWS的比较就成为一个很自然的研究课题。Potoglou等同时利用DCE和BWS两种方法对社会照顾受益者的满意度进行了分析,结果认为这两种方法差异不大[12]。有些学者则认为BWS更好,如Flynn等提出离散选择试验(DCE)在研究中存在两种主要的局限性:一是从若干选项中“选择一个”的任务本质是一种相对低效率的提取偏好信息方式;二是其统计模型中的常数项表示的是无法分解出的属性水平,这意味着属性效用值会受到人们不同的心理尺度的影响,而他们认为BWS可以避免这些问题[1]。Whitty研究澳大利亚公民对新医疗技术的融资偏好时,同样认为BWS优于DCE(Whitty et al,2014),但另一些学者认为DCE比BWS好。比如Krucien等人通过实证研究比较了DCE与BWS各个方面的性质,结论是DCE是目前的最佳工具,因为BWS可以实现的功能用DCE也能实现,但对BWS的研究,尤其是其不足之处的研究,还不像DCE那么充分[13]。
五、启示和未来研究的方向
准确测量人们的主观偏好在诸多领域有着广阔的应用空间。随着学者们对BWS理论及其应用的不断探索,日益证明该方法与Likert量表等传统测量方法相比具有不可替代的优势。BWS能够显著缩小评定量表存在的三种偏差,提高区分度;它可以评估待测量属性每个水平下的效用值,精确得出每个项目的重要程度,也能比较不同属性之间的影响力;它还可以比较方便地进行跨文化比较等。同时,BWS也是一种易于理解和学习的方法,可以比较容易地为研究者和使用者所掌握使用。
当前中国社会整体上已经进入了新的阶段,经济已由高速增长阶段转向高质量发展阶段;越来越强调坚持以人民为中心的发展理念,要顺应人民群众对美好生活的向往,不断提高人民生活水平、满意度和获得感。因此,无论是从公共服务还是市场服务的提供方面都需要对民众的偏好进行精准地测量,并在此基础上提供具有针对性的服务和产品。大致细分一下,BWS可以运用的场景包括公共交通、教育、医疗、养老、消费等五大方面。
公共交通领域是表达偏好研究方法最早运用的领域。从1973年起,大量的研究出现在了公共交通领域。中国目前有非常多的交通出行方式,比如世界上最大的高铁网络、最大的汽车分时租赁和共享单车网络、便捷的公共汽车和地铁网络。在“不同的交通方式如何优化组合以提高人们出行的效率”、“人们对公共交通的评价和需求”、“如何根据人们的评价对不同的交通服务提供者进行管制”等方面,都有BWS的用武之地。
在教育方面,当前随着人民的教育程度和对继续教育的需求不断提高,各类教育机构和教育服务百花齐放。如果想要提高教育服务的水平,就需要利用像BWS这样的研究工具进一步了解人们在受教育方面的偏好,而政府也可以利用人群的偏好来优化学校布局网络的设计。
BWS在医疗方面的具体运用场景相对较多。随着“健康中国”目标的提出和全民更加重视健康的大趋势,BWS可以直接用于医疗决策研究、医疗优先级设置、临床服务优化等方面,BWS的结论还可以间接运用于药物经济学。
随着人口的老龄化,养老产业越来越成为社会关注的热点。一个社区需要什么样的养老院,养老院的位置选在什么地方,养老院的设施应该达到何种水平,养老院的服务应包含哪些内容等,这些问题除了一般的市场调查,还应该利用BWS这样的工具对老年人进行调研,以便精确掌握他们的偏好。对于政府而言,可以防止社会资源浪费。对于养老行业的企业而言,可以有效降低成本,同时尽可能地提高老人的满意度。
消费行业是所有表达偏好研究方法运用最广泛的领域,从20世纪80年代开始BWS就被广泛运用在各种消费品的市场研究上。随着人们对品牌的需求以及厂商品牌意识的提高,运用BWS研究品牌将成为一个很有潜力的领域。
总之,本文结合当前社会的热点和焦点领域,及时了解、消化、吸收了BWS方法的精准内涵和最新进展,将BWS合理地应用到上述相关研究领域,从而提高各项改革政策的精准性,提高市场的效率,进而提高人们的满意度和幸福感。