敏感性问题的统计调查方法

2015-03-16山东财经大学统计学院济南250014

山东工业技术 2015年1期

孟　楠（山东财经大学统计学院,济南　250014）

敏感性问题的统计调查方法

孟楠
（山东财经大学统计学院,济南250014）

摘要：敏感性问题是现代社会既客观又普遍的问题，但调查者通常不愿真实作答，因此得出的数据往往带有偏差。本文从委婉询问法、网上调查法和随机化回答技术三个方面对敏感性问题的设计进行研究。最后本文给出了对敏感性问题调查的结论与建议。

关键词：敏感性问题；随机化回答技术；Simmons模型；Mangat模型

随着现代社会中一些特殊现象越来越平常，敏感性问题变得既具有客观性，又有普遍性。敏感性问题（sensitivequestion），就是所调查内容涉及私人机密而不愿或不便于公开表态或陈述的问题。这类问题涉及到被调查者隐私，若直接询问易提高被调查者警惕和反感，被调查者通常会拒绝回答，或采取敷衍、虚假回答的方式，这使得调查无法得到真实数据，给决策造成偏差。下面我们对敏感性问题设计从三个方面来进行研究：

1　委婉询问法

在调查敏感性问题调查过程中，由于问题的特殊性，直接询问并不是最佳方式，通常提问要注意方式方法，委婉地进行表达，不会让被调查者有泄漏隐私的感觉。常用的方法有以下三种[1]：（1）释疑法。在问卷开头或敏感性问题之前，要向被访者说明调查的目的和意义，这样正规的格式有利于打消被调查者的顾虑。（2）转移法。即采用三人称方式提问，将敏感性问题转移到根据他人情况作答。例如：“有些人有公交车、火车等公共交通工具逃票现象，您知道是为什么吗？”转移法将被调查者的注意力转移到其他人或事情本身上，消除自身的心理防卫从而获得有效的答案。（3）假定法。即采用一个条件作为问题的前提，然后向被调查者提问。例如：“在经济足够宽裕的情况下，您会优先购买汽车还是住宅？”

2　网上敏感性问题调查法

网上敏感性问题调查即利用网络，随机抽取一定数量网民进行敏感性调查，将结果作为样本来估计全体网民特征。网上调查具备客观性和保护性两大优势。具体步骤为[2]：

（1）网上抽样。网上随机抽样一般采用的是随机IP自动拨叫技术，随机IP发生软件会随机产生一些IP地址，IP自动拨叫软件会利用这些IP地址呼叫、并向被调查者发送信息。（2）编制网上敏感性问题调查问卷。在正式调查内容开始前，应规范描述此次调查名称、目标等信息，使被调查者明确调查目的，减轻被调查者顾虑。网页的第二页记录被调查者的有关情况，不同的调查目的对应着不同的调查内容，同时可以此制定抽样框，对不符合抽样范围的调查者进行排除。网页第三页的任务是随机抽取问题，编写随机函数用来抽取0-1之间的随机数，被调查者根据意愿控制函数的开始与结束，待函数停止运行时屏幕上将出现一个0-1之间的随机数。以0.5为界，小于0.5时，选择问题1；大于等于0.5时，选择问题2。确定回答问题后进入下一环节。最后一页即为要调查的问题，以调查网民是否有过行贿受贿行为为例：准备问题1：你有行贿受贿行为，是吗？问题2：你手机尾号为偶数，是吗？上页中抽到哪个题目，该页中只显示此题目和“是”、“不是”两项。被调查者只需对选项进行选择，结果会通过网络传至调查者并记录。由于被调查者在此过程中是将问题下载至自己电脑进行作答的，因此所选问题是1或2只有被调查者本人清楚，调查者得到的结果仅为“是”或“不是”，因此保护了被调查者的隐私。

3　随机化回答技术

随机化回答技术可在调查中最大限度地保护被调查者的隐私，从取得被调查者的信任，得到真实答案。这一技术在调查中使用特定的随机化装置，使得被调查者以预定的概率P来回答敏感性问题。下面介绍三种随机化回答技术模型：

3.1Warner模型

此模型是Warner[3]在1965年提出的，设计方法为根据敏感性调查准备两个对立问题，被调查者从二者中选择一个问题作答，选中的概率可预先设置。假设总体的两类是相互对立的：一类包含敏感特征A，另外一类Ā即不具备敏感特征，总体中的每个个体要么具有敏感性特征，要么不具有。调查结果得出的是A类人群在总体中的比例。由于调查者并不知具体选中的问题，因此有效保护被调查者隐私。

3.2Simmons模型

1967年Simmons提出了这一模型设计，启发于Warner模型。不同的是，在设计中用不具敏感性的问题Y代替Warner模型中的敏感性问题A的对立问题。假设Y为“你的生日月份是奇数吗？”。

以下是模型的设计思路[4]：实验的两种不同结果由随机装置产生，例如外观相同的两套卡片，其中一套卡片问题带有敏感性，如：“你有偷税漏税行为吗？”。剩余的一套卡片上写的问题不具有敏感性。如：“你的生日月份是奇数吗？”。调查过程中将两套卡片混合，比例可预先设定，被调查者任意抽取一张卡片并真实作答即可，卡片内容调查者无权了解。

3.3Mangat模型

Mangat于1990年提出了二阶随机化回答模型，此模型是Warner模型和直接回答折衷而来，Warner模型和直接回答的加权平均数即为该模型的估计量。Mangat模型中有两套装置用来产生随机问题，第一个装置中：情况一为直接回答“我具有敏感属性”，此概率为P，情况二为“跳转到装置二”。在第二个装置中也分为两种情况：情况一为直接回答“我具有敏感属性”，此概率为T，情况二为“我不具有敏感属性”，概率为1-T。调查过程中被调查者要依次经过装置一、二，并真实回答“是”或“否”。

4　结论与建议

被调查者出于对自身隐私的保护，通常不愿真实回答带有敏感性的问题，给调查结果带来偏差。因此设计敏感性调查的关键部分是要想方设法保护被调查者，打消疑虑，从而使调查数据质量有所提高。到目前为止，虽然已有多种随机化回答模型，但还没有一个模型能真正做到精度高、保护度好。在设计模型过程中，应将定义保护度、设计抽样方法、数据处理、参数选择等方面综合考虑，并结合实际调查。与此同时，也可利用学科交叉，把心理学、社会学等思想融合到统计方法中，力求产生更完美的随机化回答技术模型。

参考文献：

[1]李灿，辛玲.调查问卷中的敏感性问题设计研究[J].经济师，2007(01):143,286.

[2]孙蕾，蔡亮.敏感性问题的统计调查新方法——网上调查[J].统计与信息论坛，2000(03):43-44.

[3]WarnerSL.RandomizedResponse:aSurveyTechniquefor El iminat ingEvasiveAnswerBias.J.Amer icanStat ist ical Associat ion,1965(60):63-69.

[4]孙山泽，孙明举，段钢.二项选择敏感性问题调查的基本方法[J].数理统计与管理，2000，19(0l):58-6.

作者简介：孟楠（1990-），女，山东日照人，山东财经大学统计学院研究生，研究方向：经济统计。

山东工业技术

2015年1期