对民意调查数据处理流程和质量控制的探讨
2013-02-15李佳圣
李佳圣
(浙江工业大学计算机科学与技术学院,浙江 杭州 310023)
民意调查,是通过科学严谨的调查和分析方法,了解民众的生存生活生产状态,反映民众对政府、企业、群体以及个人等的测评程度,调查内容涉及政治、经济、社会、文化、环境、百姓生活等各个方面。
近年来,国家统计局、各省市区统计局和部分市县统计局相继建立了民意调查机构,配置计算机辅助电话调查系统(简称CATI系统)。本文通过对浙江省统计局民意调查机构的调查分析,就民意调查数据处理流程和质量控制问题作一探讨。
一、民意调查数据处理流程的规范
浙江省统计局民意调查机构成立于2008年,建立了64个调查席位的CATI系统,开通“12340”民意调查热线。民意调查的成功开展,得益于数据处理流程和质量的有效控制。流程大致分为数据抽样、数据采集、数据审核、数据分析和数据应用等五个方面。其中,数据抽样、数据采集和数据审核由CATI系统完成,数据的分析和应用采用SPSS软件系统(统计产品与服务解决方案)完成。
(一)CATI系统的数据处理流程及优势
CATI系统不同于一般的电话调查,它在专门的中央机房统一完成,调查前先将调查问卷编辑在程序内,由计算机从号码库中按随机方式或者PPS(按规模大小成比例的概率抽样)方式抽取电话号码,访问员戴上耳机,坐在计算机屏幕前,按照屏幕上指示的调查内容对被访者进行访问,访问结束后,管理人员还可以通过录音回放功能对成功样本进行审核。CATI系统在数据处理上,包括以下流程:
1.样本管理。电话抽样,家庭成员抽样,随机电话生成(系统自动剔除空号、传真电话),有多种抽样方式可供选择。
2.问卷的生成和管理。各种类型的访问题目均可实现,并可做到题目和选项的随机和轮换。
3.自动拨号或手动拨号。拨打电话可选择电脑自动拨号或手动拨号,系统自动记录每次拨打的情况,并可设定拨电话的次数。
4.预约访问自动提醒、自动回访。对于预约回访的问卷,系统会自动跳到上次预约时访问到的最后一道题目,并提醒访问员继续之后的题目的访问。
5.工作状况监控。配额自动控制,完成情况实时监视,技术报告即时生成。
6.数据录音。可对访问过程进行全程录音或部分题目录音,将访问录音以数字化的方式存储在电脑硬盘上,也可根据客户的要求,刻录在光盘上,方便客户的查听。
7.现场监控(监听、监视)。督导通过工作站监控各个访问员的访问情况,并可即时给访问员发布信息或提示。
8.开放题编辑。可在访问时即时编辑,也可在访问后编辑;在访问后编辑时可收听该题的录音,确保不会输错。
9.录音收听复核。录音、题目及选项一一对应,可全程收听录音也可设定只收听部分题目的录音,使复核工作更加有效。
基于上述数据处理流程控制,通过实践,浙江省统计局CATI系统具有以下优点:一是样本分布均匀。它使样本抽样不再受到地理的限制,可以覆盖到全省各市、县(区)的乡镇、农村。同时样本的选取严格按抽样理论由计算机系统完成,避免人为因素。二是调查周期短。CATI调查中心只设立一个,通过中央机房即可通过电话对全省各阶层人群进行调查访问。三是调查更科学。高度智能化,可以使人脑很难完成的复杂访问变得简单易行。四是调查结果代表性强。用电话向被调查者进行访问,不会给受访者造成生活、安全等方面的太大的影响。五是抗干扰能力强。对一些敏感话题,电话调查可以使被访者不容易产生心理障碍。
(二)SPSS软件应用和数据处理模块
调查数据由CATI系统完成抽样、采集和审核后,将被导入SPSS软件系统进行数据分析和应用。调查数据分析应用SPSS软件,主要特点:(1)操作简便:除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。(2)编程方便:对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。(3)多项功能:具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。比如数据的探索性分析、统计描述、列联表分析、二维相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。(4)数据接口:能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASCⅡ数据文件,Excel的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt及html格式的文件。(5)模块组合:SPSS for Windows软件分为若干功能模块。可以根据分析需要和计算机的实际配置情况灵活选择。
目前,浙江省统计局民意调查中用到的SPSS处理模块主要有三项:一是数据管理模块,主要用于调查数据的导入,整理和存储。调查数据一般以数据表格形式保存在SPSS软件中。二是结果分析模块,一般用于分析调查数据,主要用到描述统计中的频率分析、交叉分析、统计图表分析和均值比较分析等内容。三是统计建模,主要用于实现复杂抽样的设计方案,以及对相应的数据进行描述。
二、民意调查的数据质量控制的规范
民意调查的数据质量控制,应当把握四个环节:
1.访问员管理。目前从各大专院校招聘普通话标准、做事认真的大学生担任访问员。在访问员管理库中,每个访问员都有一个编号及进入访问系统的密码,这样可以确保资料的安全,同时记录访问员开始工作时间、签退时间及访问员工作绩效、所拨打每份问卷的开始时间和结束时间等。
2.现场督导。后台配备监控(监听、监视)及录音系统,服务器可以随时提供整个调查的进展,以及每个访问员完成工作的具体情况。主机可随时切换画面,监看、监听、录音每个工作站的工作情况。在不打扰访问员的情况下,由督导通过计算机键入文字信息,提醒访问员访问过程中注意的问题如语速、开放题没有充分追问等。自动控制配额,如服务器上自动显示配额的执行情况,访问员根据屏幕上的提示,筛选符合条件的被访对象。访问过程全程录音,便于事后核查。安排督导现场巡视,每10名访问员配备1名巡视督导。
3.事后审查。为了确保数据整体质量,减少调查过程中的误差,中心还将随机抽检30%的调查录音进行审核,确保调查数据的真实、准确。
4.样本量确定。样本量就是样本所包含的单位个数。样本量的大小直接影响抽样误差、调查的费用、调查所需的时间、调查员的数量以及其他一些重要的现场操作的限制条件。因此,需从三个方面对样本量的大小进行科学地权衡和确定。(1)从抽样推断的可靠程度。要求推断的可靠程度越高,概率度的数值越大,抽样单位数也就要求多些;反之,则可少一些。(2)从总体标志变异程度。方差大,需要多抽一些样本;方差小,可少抽一些。(3)从被访者的回答率。调查的回答率是用收到的有效问卷数与计划样本量的比来表示。为了达到估计要求的精度,需要根据预计的回答率来调整样本量的大小。
三、对加强民意调查数据处理和质量控制的建议
浙江省统计局民意调查机构经过五年多的探索和实践,社会影响不断扩大,有效搭建了政府与百姓之间的沟通新渠道。但是,随着经济社会发展和公民意识增强,政府和民众对民意调查的需求越来越大,因此需不断提升民意调查数据处理能力和质量控制水平。
1.建立民意调查数据仓库。2008年至今,浙江省统计局民意调查机构共组织实施了185项社情民意调查项目,获取成功样本量1031522个。面对这么多的调查项目和大量第一手调查资料(数据、录音等),而且有的调查是连续性调查,现有数据存贮及处理模式,在查询的方便程度上、在数据的对比分析上还不能完全满足各方面使用的需要。为此,迫切需要逐步建立起一个方便查询、比较和分析的民意调查数据仓库。
2.建立省级民意调查研究中心。目前,除了省统计局有民意调查机构,全省不少市县统计局已建立CATI中心。作为省级民意调查机构可以将工作重点,由直接调查逐步转向直接调查与研究指导并重,如对一些指标口径、评价标准需要规范明确。加强对民意调查的市场需求、项目设立、项目接洽、调查宣传、调查流程、质量控制、调查激励、数据分析、调查指标等方面研究。
3.建立专职访问员队伍。一个成功的民意调查应该具备两个前提条件,一是能通过电话将调查的问题明确地传达给访问者,二是设法取得对方的合作,使访问者能给以真实、准确地回复。这就要求民意调查,必须建立一支专职的访问员队伍,特别是随着业务量的扩大和调查频率的增加,这个问题显得越来越迫切。
4.建立CAPI系统(计算机辅助人员访问系统)。在使用CATI系统的同时,可考虑建立CAPI系统。CAPI系统是一种新的人员面对面访问方式,是让访问员携带笔记型计算机(notebook)或是PDA,而在笔记型计算机中输入计算机辅助人员访问系统CAPI,访问员在进行访问时即可利用CAPI直接将问卷显示于计算机屏幕上,可依着计算机屏幕上的问题进行访问工作,并且将受访者回答的答案直接输入计算机中;若是受访者不愿通过访问员回答的话,亦可由受访者直接将答案输入计算机中以保障受访者的隐私,如此不仅可提高访问的有效性,更可以提高受访者回答问卷的意愿。