大数据背景下舆论调查方法反思*
2018-02-08□文│刘冰
□文│刘 冰
抽样调查是传统调查方法的经典代表,抽样调查也是舆论的表达方式,“抽样调查的普及有助于政治领袖更有效率地监视整个人口的情绪,同时也给予公民一种社会比较机制”,[1]但这种调查方法目前正在受到挑战。人类现在已经步入ABC时代,A即人工智能(Artificial Intelligence),B即大数据(Big data),C即云计算(Cloud computing)。新技术对传统调查方法产生了冲击和挑战,同时也为调查方法的发展带来了机遇。我们应该全面客观地看待传统调查方法与大数据方法的发展关系,需要看到问卷设计、抽样技术等传统调查方法依然具有顽强的生命力,同时也需要对大数据进行反思。我们应该高度关注大数据技术的发展,思考和理解大数据调查方法的原理,在条件具备的前提下积极利用大数据方法。另外,生物传感技术、人工智能技术等高新科技也都对社会调查产生着影响,在社会调查领域也有不同程度的应用,值得我们关注。
一、大数据背景下的调查方法
对于从事社会科学研究和工作的人来讲,调查方法通常都是需要掌握的工具。从某种意义上讲,方法甚至比知识还重要。方法是创造知识的工具,所以当我们具备了一定的知识后,有必要学习并掌握创造知识的方法。社会科学领域使用的调查研究方法是行之有效的创造知识的工具,社会科学研究其实也可以看成是一个运用调查方法获取知识的过程,从中不难看出方法的重要性。
1.对调查方法的基本态度
调查方法是指社会科学领域的信息数据收集、整理、分析的方法,它在不同的书籍或专业里还有多种多样的称谓,如社会科学研究方法、社会调查方法、传播研究方法、市场调查、媒介调查与分析、营销调研等。
不过究其实质,称谓虽然不同,但它们针对的内容对象却并无截然的不同,它们所论述和传授的方法并无二致,都是为了使所要研究的社会现实状况明朗化,都是获取社会信息数据的手段或操作过程。甚至还有一些名称看似相去甚远,但其论述的内容仍然是调查方法或曰研究方法。比如,菲利普·迈耶是一位精确新闻学家,他所著的《精确新闻报道》副标题却是“记者应掌握的社会科学研究方法”,论述的主要内容也还是抽样、调查、统计分析等,是将社会调查研究方法尤其是量化研究方法运用到新闻报道中去罢了。
广义的社会调查方法包括抽样调查研究、实地研究、文献研究、实验研究等方法类别。狭义的社会调查方法仅指抽样调查研究方法,“指的是一种采用自填式问卷或结构式访问的方法,通过直接的询问,从一个取自总体的样本那里收集系统的、量化的资料,并通过对这些资料的统计分析来认识社会现象及其规律的社会研究方式”。[2]抽样问卷调查是社会调查研究方法中的重点和主线。大家其实很容易重视这种量化调查方法,因为它在历史发展过程中逐步完善,具有科学性,能带给我们启迪,并且真正有效、可行。
我们也需要注意到,大数据其实已经对传统调查方法产生了冲击。我们应该关注和思索这个问题。不过,大数据通常掌握在腾讯、百度、阿里等大公司手里,个人大多并不掌握大数据的管道,并不容易获取大数据。如果你不能获取大数据,那么你就去找小数据,做抽样问卷调查,获得结构化数据。目前,大数据方法和传统调查方法处于并用阶段。当前以及今后一段很长的时间里,抽样问卷调查依然是一种很常用的调查研究方法。
质化研究方法也要给予足够重视。有的人过分迷信量化研究,而忽视质化研究,这是不足取的。比如文献研究方法其实至今仍然是一种很重要的质化研究方法,不管科技如何发达,我们总不能放弃文献阅读。没有阅读,其实也就没有研究和写作。另外,质化研究方法取得的成果或许具有更长的寿命,这一点也是需要注意的。
在互联网科技迅猛发展的今天,我们应该秉持开放的心态对待调查方法。要深入学习并掌握抽样问卷调查技术,同时不要忽略质化研究方法。要关注大数据,充分利用网络平台开展调查。
2.问卷技术与人工智能的结合
提问题是一种非常重要的能力,问卷设计的核心就是提问题。互联网科技迅猛发展,人类进入智媒时代,融媒体传播成为人类传播图景,其实质也是泛化的智慧传播,[3]大数据、人工智能、生物传感技术等给传统调查方法带来了巨大冲击和挑战,但即便是在这样的新时代,提出好的问题仍然是没有过时的重要技能,学会提问题仍然具有显著的价值。
提出好的问题并设计成问卷,甚至可以与人工智能技术结合,用于中医诊断。百度公司前副总裁梁冬目前转行从事中医诊所事业,但他一直觉得中医不可能规模化、复制化。有一天,他碰到了一位从事人工智能研究的朋友,这位朋友将人工智能技术应用到中医研究上,改变了梁冬的看法。
这位人工智能专家找到高水平中医,反复询问大夫看病时会问什么问题。研究发现,大夫问的问题其实通常不会超过三四十个。人工智能专家拟合大夫看病的思维和方法,把大夫看病时望闻问切的过程拟合为一系列提问,形成一份问卷,居然开发出一套看病的软件系统。
一个患者来了,大夫给患者诊断后,开出一个药方。同样的这个患者,人工智能专家让一个操作人员来问问卷上的问题,打完勾,把数据输入系统,也开出来一个药方。结果发现,机器开出来的药方与大夫的药方非常接近,甚至让那位大夫觉得机器开的药方比自己开的药方还要好。梁冬说他对自己的体质很了解,他让机器测了一下,机器问了他40个问题,给他开出了一个温胆汤的药方,诊断结果和开出的药方令他非常震惊。
3.遭遇大数据:抽样的生命力
大数据、算法对抽样技术是有冲击的,大数据时代抽样调查还有存在的必要吗?这个问题的确值得我们思考。随机抽样的产生历经了一个历史过程,抽样技术具有科学性,是人类智慧的结晶。即便是在当前大数据时代,抽样技术仍然有存在的价值。甚至即便是在算法见长的公司内部,抽样技术仍然具有顽强的生命力。
以算法和机器抓取见长的今日头条如今在大量增加内容审核编辑岗位人员。今日头条内容审核编辑团队已经超过4000人,这次又要招聘2000人,团队还会继续扩大,预计很快要突破10000人。[4]
据今日头条总编辑张辅评介绍,头条号平台自媒体作者超过90万,每天都在生产大量的内容,针对用户可能生产传播色情低俗内容、违规内容的问题,今日头条还曾专门从用户中抽样建立了1000人规模的专业评估团,每天反馈千余份对于机器推荐效果满意度的问卷。[5]从这里我们也可以看出,即便是像今日头条这样的以算法见长的公司,也依然使用了抽样问卷调查方法来助益业务的运转。扩展内容审核编辑团队,其实也可以看成是传统调查技术的扩展应用——不能完全依赖计算机技术,还需要人工把关。内容审核编辑相当于特殊的调查员,阅听完内容之后,从两个选项“通过”和“不通过”中选择一项。
大数据、算法等计算机技术是人类取得的先进技术,我们当然需要正视和积极利用这些先进技术,但同时我们也仍然需要看到抽样技术的价值。至少到目前为止,抽样问卷调查仍然没有被废弃,我们要善于学习和掌握抽样技术。
二、大数据用于舆论调查
大数据容量巨大,具有更加复杂的多样性,生成速度更快,价值密度低。大数据的一个特点是大,数据大到用常规手段无法收集和统计,那才叫大。小学生统计苏轼诗词,区区几十万字,却妄称是“大数据”,这是对“大数据”的曲解和滥用。
1.大数据方法与抽样调查
对于网络调查来讲,更能体现互联网技术优势特征的调查方法是大数据方法,这种调查融合运用了网络爬虫技术和大数据技术,通过网络爬虫技术对各大门户网站、博客、微博、论坛、贴吧等网络信息源进行数据抓取,对抓取到的网络数据进行挖掘和分析,获取调查数据依靠软件程序自动进行,方便快捷。
毫无疑问,采用大数据方法获取网络数据是一种先进的方法,我们需要密切关注、高度重视和积极利用大数据技术。网络数据的抓取与传统社会调查方法区别很大,这种区别表现在样本获取、数据规模以及操作程序等诸多方面。传统调查方法遵循的是抽样理念,用样本来表征或推断总体,以小博大,样本规模、数据规模与大数据方法相比均要小得多,操作程序主要包括抽样、调查和统计分析,人工操作是核心。
网络数据抓取采用大数据理念,强调获取网络大数据,用整体来表征整体,而不是用部分来代表整体,它采取的是普查方式,调查对象的规模、抓取到的数据规模均要比传统抽样调查方法大得多,大数据方法的主要工作由计算机程序自动完成。大数据给社会调查带来的一个重大影响表现为对抽样方法的冲击,“在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样”。[6]
2.对大数据的反思
我们对大数据方法的认识却还需要做深入思考,我们需要辨析网络世界舆情与现实世界舆情的关系,需要思考采用大数据方法抓取到的网络数据对全体公民意见的代表程度。
真正的大数据是全面数据,全面数据的采集成本和采集难度会变大。大数据到底大到什么程度,只有掌握大数据的机构最清楚。大数据变化快,流动性强,这意味着大数据的采集需要频繁进行,而频繁采集同时又必然面临隐私问题,每次采集都需要获得用户的同意。如果用户不同意,数据采集质量就会受损,强行采集则面临伦理困境。大数据是混乱的材料,大数据中真正有价值的还是经过提取之后的数据。
大数据跟我们每个人相关,但我们绝大多数人其实并不掌握大数据,当然也不能从中直接获益。大数据掌握在极少数的机构手里,掌握在腾讯、阿里、百度等大公司手里。我们每个身处互联网的人其实不过扮演了大数据采集节点供应器的角色,让自己的数据汇入大数据的洪流之中,但我们闹得再欢腾,却也不过仅仅如此而已。我们绝大多数的个体并不是大数据宴会的真正拥有者,我们只是大数据的贡献者甚至是牺牲者。
三、网络监测技术的运用
大数据方法依赖网络监测系统的设计,网络监测系统的设计需要遵循全面、准确、及时、稳定的原则。
1.网络监测系统设计原则
全面原则是指网络监测系统对网络信息数据的抓取要尽量全覆盖,全面监测门户网站、博客、论坛、微博等网络载体,不遗漏重要的舆情数据。准确原则是指网络监测系统能够对庞杂的数据进行精确分析,将最有价值的舆情数据筛选出来,进行分类展示,凸显关键舆情信息。及时原则是指网络监测系统能够第一时间抓取到网络数据,第一时间对数据进行分析,第一时间呈现给用户,及时发出预警信号。稳定原则是指网络监测系统要采用先进算法,模块组合合理有效,程序运行顺畅,系统易于扩展,数据处理平稳可靠。
2.主要计算机技术的采用
网页蜘蛛技术。网页蜘蛛又称网络爬虫,这是一种形象的说法,其实质是按照某种规则自动抓取网络信息的计算机程序,它像蜘蛛一样在网络空间里爬行,搜寻信息数据。搜索引擎的首要工作原理就是利用网页蜘蛛去自动搜寻网络信息。网页蜘蛛通常会选择链出链接较多的重要网站URL当作种子集合,开始数据抓取,并通过页面链接路径爬到新的页面抓取数据。网页蜘蛛通常采用先广搜索算法采集页面,下载相应的网页进行解析,反复操作直到爬取整个网络才停下来。“将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,网络爬虫采用多线程,某个线程下载完页面后提交至解析的缓冲区线程池,线程池调用解析器解析网页提取URL,并把解析到的URL加入到URL记录中。然后过滤掉其中无关的网页”。[7]
云计算技术。云计算是切实可行的分布式计算方式,分布式存储,并行计算。计算不是在本地计算机或单一的远程服务器上开展,而是分布在大量的分布式计算机上,有效解决了海量数据挖掘难题。参与云计算的服务器有几十万台甚至上百万台,规模庞大,计算能力前所未有。云计算采用了计算节点同构可互换、数据多副本容错等技术,其运算的可靠性也比本地计算机更强。云计算可以按需购买服务,数据管理成本可以大幅度降低,经济效益非常明显。
网络处理技术。网络处理技术主要包括话题发现与追踪技术、网络分析技术等技术类别。话题发现与追踪技术是指舆情监测系统能够从网络世界中寻找到热点话题,根据发言频率、信息源权威度等指标,准确识别热点话题、敏感话题,并对相关话题的发展变化加以追踪,及时捕捉相关信息,抓取舆情数据。网络分析技术对抓取到的数据进行智能化分析,具体包括自动分类、相似性排重、自动生成热点、负面舆情研判、转载计算、统计图表自动生成、自动抽取关键词、自动摘要等。
3. A/B测试:用户数据收集应用
A/B测试是指为网络页面制作两个版本,在同一时间内进行测验,让访客群组随机访问不同的版本,收集各群组的用户数据,加以比较和评估,最后选择出效果最好的那个版本。
赫芬顿邮报采用A/B测试,确立网站头条新闻标题的写法。读者的请求达到服务器后,服务器会通过自动分流技术,为不同的用户分配不同的版本。同一新闻内容的报道,读者会被随机分配到不同的标题版本,服务器会记录和收集读者的阅读行为数据,阅读行为数据优异的标题将成为这条新闻的最终标题。“进行A/B测试时,测试用户的选取是十分关键的环节,为保证试验结果的准确性,一是要保证一定的样本数量,二是要考虑用户细分”。[8]
对于网络媒体用户研究来讲,实时监测用户的行为数据是十分便捷的事情,用户的行为数据最能说明他们的喜好和态度。算法在页面上的跟踪以及对用户行为数据的抓取,突破了传统媒体受众调查方法的局限。新闻标题、图片、文字段落、音频、视频、文章推荐等的设置,均可进行类似测试,实时掌握用户行为数据并据此作出调整和改变,最大程度上让用户满意,优化传播效果。
4.生物传感智能机器人的读心术
网络时代科技发展日新月异,读心成为可能,生物传感技术、情感交互技术、人工智能技术等在网络时代社会调查领域的应用尤其值得关注。采用这些高科技,省去了提问的环节,受测试者不说话,机器也可以直接读出受测试者的心理活动变化数据,不可谓不神奇。
新华网Star生物传感智能机器人就掌握这种读心术,可以直接收集受测试者的情感变化数据并生成报告。2018年3月5日,李克强总理在人民大会堂作《政府工作报告》。新华网影视传感评测实验室邀请30位社会各界人士同步观看总理报告,接受Star生物传感智能机器人的读心测验。
现场观众的情绪生理变化被传感器捕捉下来,通过人机交互等技术转化为数值,传递到后台计算机,以数字形态描绘出每个人的情绪曲线。从情绪曲线上可以非常直观地看出,观众的兴奋值、情绪波峰、情绪波谷及情绪变化趋势。观众情绪唤起强度明显升高,则表明他们这个时候注意力非常集中,对相关内容很关注。新华网Star生物传感智能机器人可以精准捕捉被测试者“同频共振”瞬间、“心潮澎湃”瞬间,同时还能出具测试报告、生产生理传感新闻报道。[9]