问卷调查中应答时长与质量控制策略
2018-09-04罗小琴
张 丽,史 毅,罗小琴
(1.兰州大学 西北少数民族研究中心,兰州 730000;2.中国人口与发展研究中心,北京 100081)
1 问题的提出
随着统计方法和计算机技术的急速发展,量化性的大型社会调查在全世界范围内得到日益广泛的关注和开展。调查数据为政府和各类组织、机构提供了研究所需要的最基础也是最关键的信息,在当今社会科学研究中扮演着极为重要的角色。然而,由于一项调查涉及环节较多,从前期设计到后期执行再到问卷录入和数据清理,任何一个环节都可能产生误差,以至于我们所使用的调查数据的质量到底如何,往往连数据的收集者都不能给予一个确切并且肯定的回答。
从误差来源的角度看,调查全程中产生的误差来源主要由抽样误差和非抽样误差两部分构成,抽样误差方面的研究较多且相对成熟,非抽样误差的分析因为受到资料收集的局限性影响而较少地开展。非抽样误差主要是中期调查访问过程和后期数据录入过程中产生的误差,一部分受被调查者的个人特征和主观因素所影响,对于问卷调查的消极态度致使应答情况与真实情况差别较大,这部分因素在传统调查中可以被很容易地测量。另一部分,非抽样误差受到访问环境和访问员的个人特征及主观因素的影响,这部分因素在传统调查中难以测量被观测,这也是非抽样误差的研究积累较少的重要原因之一。
对于非抽样误差的研究必须要依赖于调查过程中所记录下来的平行数据,这一要求使得对于调查执行的即时跟踪变得尤为重要。越来越多的研究者们意识到,应答率以及应答的整个过程是否标准化直接关系到调查数据的质量[1],在大型调查及数据库的建立过程中研究者们都尽可能全面地将平行数据进行记录和保存[2,3]。然而,虽然国内的大型调查将这些极为重要的数据资料进行了保留,但是平行数据挖掘技术进展缓慢[4],同时极少有研究机构公布调查平行数据,能被国内学者充分利用的数据极少。对比国外研究机构对于平行数据的深入挖掘,并利用对平行数据的细致分析改善整个调查过程、提高应答率及操作效率,国内社会调查所做工作显得尤为不足。
国外降低非抽样误差的方法论研究已经相对成熟,对于国内追踪调查的设计、执行和质量控制等全过程具有重要参考价值和借鉴意义。从非抽样误差的产生阶段来看,调查研究的三个阶段——定位、征寻、数据搜集,都有可能产生非抽样误差[5]。根据非抽样误差的产生阶段,研究者们继而对影响非抽样误差的因素进行了研究。调查的内容、回答者的性质、访问的时间、调查前是否预约、访问次数、访问员的素质和技能、问卷的设计,另外还有收集数据的方法都会影响应答率和调查数据的质量。具体来说,对于抽样设计阶段,影响因素包括问卷总体上是否让人能够接受,是否有精心设计的调查方案、简明的提问内容、科学的提问顺序。对于寻找被访者阶段,是否清楚地知道联系地址或电话号码,是否有特殊的追踪努力,以及调查人员的知识培训等都是重要影响因素[6]。及数据搜集阶段,是否预先通知被访者(提前对调查加以说明)、是否协调选择不同的访问时间(如白天或晚上、工作时间或假期),是否有多次访问尝试(包括访问次数、经费、时间、次序和调查的选派等),访问的性别(挑选女访问员,比较容易产生信任感),是否保证保守秘密取得信任,是否有一定的奖励都在不同程度影响应答情况[7]。
针对降低非抽样误差的解决办法,国内外学者也进行了讨论。主要是关于无应答的事前预防和事后补救两类方法。事前预防方法主要是指要减少统计调查中的无回答和多次修改现象,首先从事前预防角度入手,Kish(1965)[8]、Warwick(1975)[9]、Mosteller(1977)[10]等都对提高无回答率的措施进行过广泛的讨论;Warner(1965)[11]、Glenn(1967)[12]等人则继续就敏感性问题的随机化模型设计开展了研究;Dohrenwend(1970)[13]、Sudman等(1974)[14]都曾研究过激励方法对改善无回答率的效果。Madow等Olkin(1983)[15]采用不同的方法来决定访问调查中理想的尝试次数。尽管现有研究较为丰富,但值得注意的是,事后补救方法主要是加权调整和插补法,主要是针对缺失数据的处理,而不是对过程控制的研究。
总体而言,社会调查质量的测量一直是方法研究中的难题,衡量数据质量最常见的方式是使用其他调查数据对关键变量进行比较,但该方法需要大量其他成功调查的支持,并且只能得到相对结论。同时,尽管国内外已经开始重视对平行数据的使用,但主要集中于对无应答问题的研究,对于应答时长的分析几乎是空白。应答时长反映了被访者对问题的理解程度与应答意愿,对其分析有助于更好地发挥平行数据对于质量评估的重要价值,对当前的社会调查也可以起到指导借鉴的作用。因此,本文依托中国家庭发展追踪调查的并行数据和调查数据,重点分析了问卷调查过程中应答时间与调查质量控制之间的关系,对问卷应答时间的主要影响因素进行量化分析的同时,为问卷调查质量改进提供了具有一定参考价值的建议。
2 数据来源及研究方法
2.1 数据来源
2014年开展的中国家庭发展追踪调查对调查时间、问题修改次数等并行数据进行了完整的保留,该调查涉及我国31个省(区、市)的3万多个家庭户,调查问卷分为家庭问卷、个人问卷、村/居问卷三类,个人问卷包含儿童、青少年、成年人和老年人问卷四类。值得注意的是,中国家庭发展追踪调查对并行数据进行了完整的保留,同时包括了问卷中问题的应答结果和应答时间两类数据,可以真实地记录下调查执行的整个过程,质量管控的基础数据信息正是来源于并行数据。由于家庭问卷的应答时间严重受到家庭规模的影响,村居问卷存在被访者特征不明确等问题,本文使用样本量最大的成年人问卷作为研究对象进行分析。在排除无效问题的前提下,成年问卷共涉及调查问题47道,包含健康与生活、工作与保障、婚育与避孕三个部分。
2.2 研究方法
本文以对关键变量应答时长的影响机制分析为目的,因此主要使用定量分析方法。首先,使用中国家庭追踪调查成年问卷的并行数据进行描述统计,进行不同问题/不同主体应答时长的比较分析,同时结合相关研究探讨主要变量的信度测量方法。其次,应答时长作为一个服从正态分布的连续性变量符合OLS回归的基本假设,因此本文使用OLS回归分析从个体特征、访问环境和区域三个层次对应答时长的影响因素进行分析。
3 应答时长差异性分析
3.1 基于变量层次的应答差异
从问题设置的类型、内容及被访者的应答方式看,并结合问题的应答时间,成年人问卷的问题可划分为信息应答、逻辑计算、隐私信息和逻辑判断四类,四类问题进一步可细分为个人信息、就业信息、时间计算、数量计算、性与生殖健康、主观判断、知识判断和概念判断八组。无论是从问题的一级分类,还是二级分组,应答时长均存在较为明显的差异(见下页表1)。
3.1.1 基于记忆与认知的信息应答
问题内容的熟悉程度是应答时间的主要影响因素之一,而熟悉程度则取决于个体的生活经验记忆和认知水平。信息应答类的问题主要基于个体生活事实提出问题,因此较易于回答,平均应答时间为9.73s。与此同时,个体生活事实存在层次划分,性别、身高、体重等基本特征更容易理解和回答,平均应答时间为9.1s;找工作、职业和行业类型、工作内容等就业信息则需要进一步的信息加工和处理,平均应答时间更长,为10.28s。值得注意的是,信息应答类问题的应答时长因个体的记忆和认知水平而存在差异,如手机号码需要经过一定的记忆反馈,应答时间较长;个体所属行业类型则需要对行业分类存在一定的了解和掌握,平均应答时间远高于其他的信息类问题。
3.1.2 基于时间与数量的逻辑计算
相较于信息应答类问题,有些问题不仅需要对问题内容的记忆与基本认知,更需要进一步的逻辑计算,因此应答过程较之更长。单位的标准化是逻辑计算效率的重要条件,与阅读量、年度消费等负责问题相比,时间的计算耗时更短。
3.1.3 隐私信息的应答时长
在不同的文化习俗和社会规范中,个体对于隐私信息的反映与处理存在不同的态度和方式。在涉及个人因素的情况下,个体的平均应答时间会存在一定程度的延长,隐私信息类问题平均应答时间为18.19s,高于信息应答和逻辑计算类问题。与此同时,隐私信息的程度不同,个体的反应时间也存在差异,婚姻变动时间、第一次性行为等涉及个体回忆的隐私类问题更难以回答,平均应答时间超过20s;是否有过性行为、怀孕结果等问题则不需要进一步的信息加工和处理,平均应答时间较短,基本不超过10s。
3.1.4 基于知识与概念的逻辑判断
在四类问题中,逻辑判断问题不仅受到被访者对问题理解程度的影响,而且受到问题设计、调查过程等前期环节的影响,因此平均应答时间最高,超过20s。其中,基于主观判断的逻辑问题较易于回答,平均应答时间为9.73s。与此同时,个体生活事实存在层次划分,性别、身高、体重等基本特征更容易理解和回答,平均应答时间为12.26s;阅读内容、卫生健康关注类型、慢性病类型等需要对相关内容加以了解的知识判断题较难回答,平均应答时间更长,为14.17s。问题涉及的概念越抽象和书面化,调查员和被访者越需要更长的时间进行理解和互动,其应答时间越长。如对于流动经历、范围和时间的回答,被访者需要在厘清流动概念的基础上进行应答,平均应答时间接近40s,远高于其他的判断类问题。值得注意的是,在回答流动经历问题之后,被访者完成了对流动的概念理解,其后的流动范围和时间的应答时长则呈现递减的趋势。
表1 基于应答时间的问题聚类分组结果 (单位:秒)
3.2 基于调查环境的应答差异
问卷的问题内容与设计是问卷总体应答时间的内部影响因素,而调查环境则构成了问卷应答时间的外部因素。通过对我国东中西部的问卷应答时间比较(见表2),可以看到调查地的差异所带来的重要影响。其中,东部地区的问卷应答时间最短,平均仅耗费7.82分钟;中部地区较高,平均耗费10.73分钟;西部地区较之更高,平均耗费11.17分钟;而东北地区最高,平均耗费14.9分钟。同时,从区域应答时间的内部分化程度看,东部地区分化程度较低,其他地区的问卷应答时间存在较大的离散性。
表2 不同调查环境下的问卷应答时间比较 (单位:分)
3.3 基于调查员层次的应答差异
除了问卷内部设计和外部调查环境的影响,调查员的水平也影响着调查过程的质量(见表3)。总体而言,女性调查员完成问卷平均所需的时间高于男性,受教育程度较高的调查员完成问卷的耗时低于受教育程度较低的调查员。值得注意的是,对调查操作系统的数量程度越高,并不意味着调查耗时越短;从事计生工作的调查员的调查耗时反而高于非计生工作者。
表3 不同类型调查员的问卷应答时间比较 (单位:分)
3.4 基于被访者层次的应答差异
在讨论基于问卷设计、环境、调查过程的应答差异之后,被访者本身的个体特征直接关系到对问卷内容的理解程度和应答意愿,是最不可忽视的重要因素(见下页表4)。从性别的角度看,男性的平均应答时间低于女性,且组内差异较小;从城乡的差异看,农业户口的被访者平均应答时间低于非农业户口的被访者,但其应答时间的长短分化严重,组内差异较大。
表4 基于被访者层次问卷应答时间的性别和城乡差异 (单位:分)
被访者的受教育程度既是其知识水平、认知和理解能力的反映,也很大程度地影响了其知识水平、认知和理解能力。因此,受教育程度越高,调查耗时越短(见表5)。研究生学历的被访者调查耗时最低,仅为7.5分钟,远低于其他受教育程度的被访者;未上过学的被访者调查耗时最高,为10.73分钟,远高于其他受教育程度的受访者。尽管初中水平的被访者平均调查耗时低于高中和大专学历的被访者,但其组内差异较大。
表5 基于被访者层次问卷应答时间的教育差异 (单位:分)
调查问卷设计过程中是否足够考虑了文化敏感性问题,直接影响到不同文化被访者的应答行为。这一观点在问卷应答时间的民族差异中可以得到证实(见表6),在样本量足够的前提下,大部分少数民族的调查耗时远高于汉族。其中藏族、侗族、土家族等少数民族的调查耗时非常高,这与对问卷内容的跨文化理解有关。
表6 基于被访者层次问卷应答时间的民族差异 (单位:分)
4 问卷调查中应答时长的影响因素
4.1 关于应答时长影响因素的模型设计
应答时长影响因素的模型设计如图1所示:
图1变量应答时长影响因素的模型构建
通过描述性的比较分析可见,应答时长作为问卷调查的最终结果,受到问卷设计、调查过程、调查员和被访者特征等多重因素的影响,但仅仅通过描述性的分析难以检验应答时长影响因素的多元性。因此,本文以问卷应答总时长和问卷中具有代表性的关键变量应答时间作为因变量,如回忆类问题/敏感类问题/反应性问题等,基于被访者特征、调查员特征和调查环境三个方面的变量,使用OLS回归分析的方法进行分析。考虑到问卷应答中的跳答问题会通过答题数量而影响总时长,在模型中同时控制了跳答变量的影响,结果见下页表7所示。
4.2 来自被访者特征的影响
从问卷的总应答时间看,男性应答时间显著低于女性,汉族应答时间显著低于少数民族,受教育程度高的被访者应答时间显著低于受教育程度低的被访者。非农就业者的应答时间显著低于农业从业者,与此不相应的是,非农户口的被访者应答时间却显著高于农业户口的被访者,显示出非农户口的从业者更容易停顿或终端中断,需要更多的时间进行问卷回答。同时,被访者个人的学习习惯对于应答时长影响显著,较高的阅读量和新闻关注度更容易减少问卷访问时长。从逻辑计算类问题的应答时间看,退休或失业人员对于收入问题的反映较快,一方面是由于收入来源单一容易计算,一方面是由于对收入的隐私问题更不关注。同时,经济压力较大的被访者关于收入的应答时间较长,其需要更多的时间计算收入大小和判断是否方面方便透露收入问题。从主观判断类问题的应答时间看,就业者和失业者更容易快速地对经济压力、工作压力和工作生活冲突等问题做出反映,而务农、学生和退休人员长期缺少相关生活经验,对这类问题的应答速度较慢。从知识判断类问题的应答时间看,不同受教育程度的被访者应答时间因问题不同而存在相反的影响,如关于慢性病类型的判断,受教育程度越高应答时间越短;而关于关注卫生与健康问题的判断,受教育程度越低应答时间越短。从概念判断类问题的应答时间看,受教育程度越高,关于流动经历的应答时间越短;非农就业者、退休者和失业者需要更多的时间回答关于流动经历的问题;同时,由于流动概念的专业性,阅读量和学习时间的提升并不会减少应答时间,反而会增加应答困扰从而延长应答时间。
4.3 来自调查员特征的影响
从问卷的总应答时间看,男性调查员的调查耗时显著低于女性,受教育程度高的调查员调查耗时显著低于受教育程度低的调查员。值得注意的是,对调查系统的熟练程度越高,不仅不会减少调查耗时,反而会增加调查耗时。从事计生工作的调查员调查耗时显著高于非计生工作者。从逻辑计算类问题的应答时间看,调查员的个体特征对于改善被访者的逻辑计算能力并无帮助,因为未能显著影响该类问题的应答时间。然而,从事计生工作的调查员可以显著减少被访者关于性与生殖健康等隐私问题的应答时间。从主观判断类问题的应答时间看,调查员的受教育程度越高,被访者对经济压力、工作压力和工作生活冲突等主观问题的反应速度越慢,可能与调查员在调查过程中对问题的过度解释有关。从知识判断类问题的应答时间看,不同受教育程度的被访者应答时间因问题不同而存在相反的影响,如关于慢性病类型的判断,受教育程度越高应答时间越短;而关于关注卫生与健康问题的判断,受教育程度越低应答时间越短。从概念判断类问题的应答时间看,调查员的受教育程度和调查系统熟练程度越高,对于流动概念的解释速度越快,从而有助于减少被访者的应答时间。
表7 成人问卷及关键变量应答时长的影响因素
4.4 来自调查环境的影响
问卷的问题内容与设计是问卷总体应答时间的内部影响因素,而调查环境则构成了问卷应答时间的外部因素因素。通过回归结果可知,我国东北地区的问卷应答时间最长,西部地区次之,中部地区再次之,东部地区最短。一方面显示出不同地域应答反应速度的差异,另一方面也显示出不同地域应答习惯的差异。对于这一结果可能的解释是:相较于较为发达的东部地区而言,中西部地区的时间观念和对问题的理解程度较低,因而延长了应答时间。而对于平均受教育程度较高的东北地区而言,时间观念和文化习惯是导致应答时间延长的重要原因。这一结论从流动经历问题的应答时长中可以得到佐证,东北地区在概念判断问题上的应答时长远低于其他地区。
5 结论
5.1 理解阻力与应答效率
问卷设计中存在的理解阻力是影响应答效率的重要原因,理解阻力主要来自于被访者理解能力、跨文化表达能力和问题复杂程度三个方面。首先,经验分析结果显示,被访者受教育程度越高,问卷总应答时间越短,各类问题的应答时间也越短,表明不同受教育程度的被访者对于统一问题的理解能力和反应速度存在显著差异。其次,跨文化调查中的文化敏感性问题不利于提高应答效率。少数民族的应答时间过长,一方面反映出少数民族被访者自身对问题的理解能力,另一方面显示出问卷设计过程中的跨文化问题所产生的不利影响。再次,问题的复杂程度越高,被访者越难以理解问题内容,调查员也越难以解释问题内容。这一问题在逻辑计算类问题中显得尤为突出,调查员和被访者受教育程度的改善对于减少逻辑计算类问题的应答时长并无显著影响。从调查质量改进的角度而言,被访者的受教育程度和文化融合短期内难以得到改善,因此通过改善问题的口语化程度、强化文化敏感性问题和简化问题的逻辑计算程序减少理解阻力,将对于缩减应答时长从而提升应答效率产生积极影响。
5.2 调查员质量的双重效应
从社会调查方法研究的传统结论而言,调查员的质量与调查效率之间存在正相关关系,然而这一结论仅在一定范围内得以成立。首先,在调查培训时选择熟练和受教育程度较高的调查员有助于减少逻辑判断类问题的应答时长,换言之,在处理复杂程度较高的问题上,调查员的熟练程度和受教育程度与调查效率之间存在正相关。其次,选择熟练和受教育程度较高的调查员反而增加了主观判断类问题的应答时长,这在一定程度上表明,在面对需要被访者主观判断的问题时,调查员的过度解读对于提高调查效率将产生不利影响。因此,如何在保证问题能够得到充分解释的同时又不产生过度解读,是问卷培训过程中需要重视的主要问题。由于篇幅所限,本文尚未涉及应答时长与调查质量之间的关系进行展开讨论,而这一问题对于调查质量的改进同样具有现实价值与方法论意义,需要作更加深入地探讨。