政治学研究中的抽样调查：难点、问题与方法创新

2018-11-17

社会观察 2018年9期

近些年，政治学研究方法虽出现了一种混合路径的趋势，例如将抽样调查法和大数据法、实验法相结合，但是抽样调查法仍为多数研究者所采用。政治学研究中的抽样调查通常指概率抽样调查，其优点是已知每个样本的入选概率从而推论总体，使用结构化问卷则可以尽量避免测量误差。抽样调查属于理论驱动的研究模式，从提出理论假设开始，历经概念操作化、问卷设计、抽样、数据采集、数据分析、得出研究结论等主要环节达成研究目标。本文将综述政治学抽样调查在问卷设计、抽样、数据采集方面的难点、问题，以及一些创新性解决方案。

政治学抽样调查的难点与问题

（一）概念抽象、复杂、宏观，产生测量误差问题

抽样调查用结构化问卷采集数据，形成结构化问卷需要对概念进行操作化。政治学研究中的概念和其他社会科学中的概念相比具有更为抽象、复杂、宏观的特点。政治学的核心概念包括：权力、权利、权威、利益；体制、制度、规则、规范；民主、政治发展、现代化；政治行为；政治文化、政治价值、政治态度；政治知识；政治绩效、公共服务绩效、公共政策绩效等等。将这些概念写成问卷中的题目具有非常大的难度，因为受访者常常无法对题目有相同理解，或者不具备回答问题所需的知识，或者没有切实的与政治有关的经历。也正因为概念的抽象、复杂、宏观，常导致研究者在设计问卷时遇到以下问题：

1. 概念定义不明确。例如，“您认为美国的民主程度如何”，民主的概念不明确，人们有不同的理解，给出的答案不具有可比性。民主的概念可以从价值、原则、制度、程序、要素、绩效评价等多维角度进行测量，用任何一个单一测量的题目都无法准确获得人们对这个概念的完整理解。

2. 负担过重，难以理解或回答。包括专业词汇、过长量表、过长题干、逻辑复杂等带来的难以理解和难以回答等。例如，“‘生意人赚钱实际上最终对所有人都有好处，所以是可以接受的’，您对这种说法是否同意？”受访者会提出质疑，为什么生意人赚钱对所有人都有好处，受访者难以理解其中的逻辑关系。

3. 易发诱导。例如，“您认为市政府应该花费更多的税收去拆毁棚户区吗？”这句话也是给出了不平衡的选择，只提到了拆，没有提到建，导致受访者的答案偏向一方。政治学中有争论性的观点较多，在设计上本应提供平衡的选择，但很多问卷设计者忽视了这一点，从而发生诱导。

4. 产生评价参照系偏差。政治学研究比较关注政府行为和公共政策绩效，调查内容中经常有类似“评价”的题目。例如，“您认为本市当前的公共医疗服务居于什么水平？”受访者在回答时，各自的参照系不同，给出的答案不具有可比性。如果在没有一致参照系的情况下，直接使用原始数据进行统计推断则会导致估计偏差，这被称为评价参照系偏差。

5. 产生社会期许偏差。政治学研究中的一些测量内容已形成一般社会规范，受访者回答时，迫于社会规范压力会少报社会非期许行为，而倾向于回答出社会所希望的行为，这类回答被称为社会期许回答，这类回答会导致调查结果系统性偏向那些“正确的”或者社会所提倡的行为，与实际情况发生偏离，这种偏离被称为社会期许偏差。

（二）依赖面访调查和概率抽样，产生成本高昂问题

抽样调查常用的调查模式有面对面访问、电话访问、网络访问、集中自填问卷等。政治学研究中的理论假设通常具有复杂的关系结构，而复杂的关系结构需要测量更多的变量，需要依赖面访调查来实现，但是面访调查成本高昂。另一方面，政治学研究对概率抽样调查比较依赖，在抽样调查中首先要解决覆盖偏差问题。覆盖偏差来自于抽样框总体和研究总体的不一致，例如，要研究一个城市的常住居民对公共政策的评价，如果使用社区居民户籍册资料作为抽样框，则会导致已经在这个城市居住半年以上的外来人口无法被抽中。为了解决这个问题，在以人或家户为研究对象的抽样调查中，国内学者经常使用住宅地址抽样框。中国社会综合状况调查（CGSS）、中国家庭追踪调查（CFPS）、世界价值观调查（WVS）等均采用了地址抽样，可有效推断常住人口的状况，对于公共政策研究、政治参与研究具有重要意义。但是，构建地址抽样框的成本比较高，和户籍抽样框相比，到实地画住宅地址分布图、制作住宅地址列表所发生的交通差旅、人员劳务全部是额外增加的成本。

（三）受访者对政治不感兴趣，产生高比例无应答问题

多数受访者对政治话题或者政治行为不感兴趣，对政治学主题的问卷调查也相应地表现出更高比例的无应答。政治学抽样调查中的单元无应答和题目无应答比例已经高于5%，例如，2015国际化与城市治理调查的单元无应答率为35%，一些题目无应答比例能够达到20%左右，很多题目无应答比其他学科的要高。而高比例的无应答通常会产生估计偏差。

针对以上难点和问题，政治学定量研究的学者们一直在寻求解决方案，近年来也在方法上取得了一些创新性成果。

在问卷设计方面的创新方法

近年来政治学者在精准测量方面做出了许多努力，包括：为避免多选题首位效应，将题目选项进行随机化排列；为解决抽象概念难以理解问题，使用虚拟情境测量法、列举法、层层递进法等；为解决敏感问题、社会期许偏差的测量难题，使用列举实验法；为解决评价参照系偏差，使用虚拟情境锚定法等。在这些努力中，识别和控制社会期许偏差、评价参照系偏差方面取得的进展值得关注。

（一）社会期许偏差的其识别与控制

对于可能会产生社会期许回答的题目，研究者在编写问卷时采用的列举实验法和随机化回答技术具有创新意义，尤其是列举实验法还在不断热议和改进中。

1. 列举实验法。在社会学相关文献中称为条目计数方法。列举实验要求受访者报告条目（即题目中的选项）总数而非具体条目来降低受访过程中其所感受到的社会压力。需将受访者随机分为实验组和对照组。研究者在问卷中给对照组提供n个条目，给实验组提供n+1个条目，请受访者直接回答条目总数，不需要回答具体是哪个条目。增加的条目就是研究者认为有可能带来社会期许回答的关键条目。数据分析时，R软件提供专门的软件包（list）可以计算出两组的均值差、标准误，也能根据研究假设执行回归分析。目前，利用列举实验来识别社会期许偏差已取得显著效果，例如，孟天广和季程远（2016）利用列举实验测量了激进政治行为，发现传统测量方法明显低估了激进政治行为的水平；孟天广等（2017）利用列举实验法对中国省市级干部吸纳公民意见的意愿进行了测量，发现该意愿存在显著的社会期许偏差。

2. 随机化回答技术。其基本特点是让受访者随机地在一个可能产生社会期许回答的题目和一个不会产生社会期许回答的题目中自行选择回答哪个题目，从而减少他面对访员的“社会在场”带来的回答压力。然后用两组的差异来估计真实回答的比例和标准误。传统的随机化回答方法有沃纳模型、西蒙斯模型、Fox和Tracy模型等。

（二）评价参照系偏差及其识别与控制

应对评价参照系偏差的办法是给受访者设计统一的参照系。近年出现的虚拟情境锚定法具有明显的创新价值。虚拟情境锚定法将虚拟情境法和评价参照系相结合，发挥二者的优势来解决抽象、复杂概念的测量问题，由哈佛大学加里·金（Gary King）教授提出，他将其用于解决跨文化群体在抽象概念或复杂概念上的可比性。跨文化研究是比较政治学的核心议题，由于不同群体在抽象概念上的理解受文化环境的影响，从而造成政治学抽样调查的一个难题。金以政治效能感为例说明了这种方法解决问题的有效性，他在测量政治效能感时设计了5个情境，根据效能感的强弱高低之分，请受访者回答这5个情境中的人物各自的效能感分别是多少，然后再请受访者回答自己的效能感。分析数据时，用自己的效能感和另外5个场景里面的人物做对比，从而得出受访者的效能感水平。刘小青（2012）在中国的城市和乡村也做了类似实验，发现了虚拟情境锚定法测量政治效能感的效用。

降低抽样成本的创新方法

为避免覆盖偏差，采用地址抽样是当前比较常用的抽样方法。地址抽样通常先抽取区县作为初级抽样单位，然后再抽取次级抽样单位，例如村/居，抽取了村/居之后，普查村/居内的住宅地址，构建住宅地址抽样框，再抽取住宅地址。

（一）以空间单元代替行政区划作为抽样单位

次级抽样单位常用的有两种类型：一类是村委会或居委会/社区，例如CFPS调查和CGSS调查；另一类是以经度和纬度确定的空间单元。常被使用的空间单元为“半分格”，即以30秒经度和30秒纬度构成的单元格。使用空间单元格的方法可以在不违反抽样科学性、不降低抽样精度的前提下降低抽样成本和实施难度，属于近几年在抽样方面的创新性解决方案。北京大学中国国情研究中心2002年在北京和成都两个城市内首次使用空间单元格作为抽样单位，在涵盖流动人口和抽样效果方面都取得了良好效果。以半分格为抽样单位由于面积小（约0.72平方公里）、边界明确并且固定（边界由经纬度确定）、易识别（用GPS仪显示经纬度），不需要村/居干部作为带路人而相对实施难度较低，人力和时间成本也要低很多。

（二）以夜间灯光亮度作为规模度量

2012年以来，使用半分格作为抽样单位又在降低成本方面进行了尝试——以夜间灯光亮度作为半分格的规模度量，代替了以往的人力估算半分格人口密度的方法。夜间灯光亮度数据以半分格为单位，记录了每个半分格的夜间灯光亮度。该数据可直接从美国国家地球物理数据中心网站免费下载。北京大学中国国情研究中心在一项有关全国调查中使用了夜间灯光亮度数据。数据表明了夜间灯光亮度与实地普查回来的住宅地址数量之间的对数线性关系。通过比较2012年世界价值观调查（使用半分格夜间灯光亮度）与中国家庭追踪调查（使用村居人口数）一些常用变量的抽样误差可以发现：不论是以半分格为抽样单位（以夜间灯光亮度为规模度量），还是以村/居为抽样单位，两种方法在关键变量估计精度上虽有高低之分，但都在可接受的较高精度范围之内。读者们可自行下载这两个数据库进行检验。

提高调查质量、处理无应答的创新方法

（一）以并行数据控制访员效应

并行数据是指关于调查过程的数据，与问卷数据同期采集。计算机辅助调查模式的兴起带来了丰富的并行数据。目前可以采集的并行数据有联系记录、访员观察、访问录音、访问痕迹（包含时间点、键盘操作痕迹等）、样本调配数据等。在抽样调查数据采集过程中，如何避免访员效应至关重要。访员效应是指由访员差别带来的调查结果差异，其来源除了性别、个性特征等因素外，也来源于访员的不规范访问行为，主要包括各类形式的非随机取样（如替换或访错地址、替换或访错个人等）、不规范访问（臆答、诱导、提问不完整、关键词不重读、举例不完整、追问不足、捷径跳转）和不规范操作（未使用答案卡）等。如果不能有效消除系统性的访员效应，那么将直接危害研究者事后的统计推论和因果关系识别。在政治学抽样调查中应用并行数据可以有效识别访员效应，在调查过程中及时地纠正访员的不规范行为，从而提高调查质量。

（二）以并行数据处理无应答

在政治学研究中并行数据也被用来处理无应答。严洁（2010）在政治学敏感问题进行缺失值多重插补时，发现了“采访员对受访者对该项调查兴趣的判断”这种并行数据不可忽略的作用，并在2017年的研究中指出，访员观察中的“对调查的兴趣”“对题目的理解能力”“对回答的担忧”等并行数据是进行缺失值多重插补的不可缺少的辅助变量，在调查过程中应该采集这些数据，从而提高推断精准度。

除此之外，最近有研究发现，在调查过程中利用并行数据、问卷数据和相关的统计数据构建应答代表性指标也可以降低无应答误差带来的不良影响。应答代表性指标致力于替代应答率来监控调查质量，要求在调查过程中随时根据应答代表性指标来映射调查总体的分布，如国外研究者提出的回应式社会调查设计，其特点是在调查过程中及时计算应答代表性指标并以此为指导改变调查设计，达到有效提高成本效益和测量精度的目的，从而解决仅仅依靠应答率监控调查过程所带来的应答人群和无应答人群的系统化差异问题。并行数据中的访员特征、访员观察、访问操作痕迹都被纳入应答代表性指标中，任莉颖（2014）的研究验证了这些指标的效用。

未来5—10年面临的挑战

政治学抽样调查的每个环节都面临各自的问题与挑战。在理论假设和数据分析方面，未来5—10年，因果关系识别方法将取得长足发展。例如，利用调查实验判断因果，或者在抽样调查数据基础上应用匹配法、差分法、断点回归设计、工具变量法等准实验方法识别因果是诸多政治学者的研究取向。

在概念操作化方面，对于复杂抽样概念的精准测量、跨文化概念的可比性、本土化测量是比较严峻的挑战。虽然，前文提到了中国政治学抽样调查中已经应用了评价参照系、列举实验、虚拟情境锚定法、随机化回答技术等技术，但是从应用范围来看尚且不足。比较政治学的研究关注跨国比较研究，一些常用的政治学概念多数起源于欧美调查，这些题目应用到中国语境中会出现受访者无法理解，或者理解的含义与既有研究目标偏离的问题。此外，对一些常用核心概念的测量进一步标准化、规范化，以便在各个调查中统一使用已提上日程。

在抽样和调查执行方面，受到的挑战仍来自于抽样成本和无应答。为了减少制作抽样框的成本，使用更为丰富的GPS、GIS数据成为新的研究方向。国外学者在突尼斯和非洲的调查中，直接利用gooole地图和当地的GIS数据在办公室就能构建出一个小单元格内的地址名单，从而节省了到实地画图的费用，该技术有望在中国开始试验。面对无应答的挑战，受访者驱动的抽样方式在尝试打破概率抽样的界限，根据贝叶斯统计的思路，在调查过程中不断调整并模拟出总体的分布来，已有统计软件可支持这种运算。

最后，在数据库建设和使用方面，学界正在努力建设共享数据平台，逐渐增多的开放数据源成为未来几年的趋势。在这个领域，未来的挑战将集中在数据整合方面，如多源、异构数据的整合、多主题跨库、跨平台检索与调用，以及在时间和空间上加强深度研究等。