APP下载

浅析大数据时代民意调查的变革

2018-01-24薛凡伟

今传媒 2018年2期
关键词:研究

薛凡伟



浅析大数据时代民意调查的变革

薛凡伟

(上海交通大学 媒体与传播学院,上海 201100)

大数据的诞生为民意调查带来了革命性变革,透过公众在网络媒介的表现进行数据挖掘与分析,便能更加真实客观地掌握公众的态度趋向。本文论述了大数据在民意调查中的应用,分析了大数据应用于民意调查可能出现的技术缺陷、隐私泄露风险、数据分析与意义诠释技能不足等局限。因此,本文认为应构建明确的收集、使用大数据的法律框架和隐私保护模式,同时也应建立跨学科合作的团队以提高数据分析与意义诠释能力。

大数据;民意调查;数据分析

一、民意调查的内涵与发展

民意调查是一种了解公众舆论倾向的社会调查,要求以科学严谨的手段收集公众的各种反应,并以统计分析方法对收集的材料进行研究,反映公众对于某个或某些社会问题的态度倾向。民意调查在政治、经济等领域发挥着重要作用,特别是随着民主理念的传播与民主政治的不断深化,我国政府越来越重视民意在公共政策中的应用,比如建立决策听证、决策公示和专家咨询等渠道进行倾听民意,集中民智。

普遍认为,现代意义上的民意调查起源于近两百年前的美国政治选举活动,1824年美国《宾夕法尼亚人报》对选民的态度测试开创了民意调查的先河。此后,民意调查广泛应用于美国选举政治中,1935年,盖洛普成立了美国民意调查研究所,成为世界上第一个客观和科学的民意测验机构。此后,随着抽样与统计等概念逐步引入民意调查领域,民意调查逐渐走向精确化,进入一个以小规模科学抽样代表整体数据的时代。我国民意调查始于20世纪20年代,1922年11月留美归国的张耀翔硕士主持的“时政热点问题”调查被认为是我国最早的具有一定科学基础的民意调查,但直至新中国成立前一直都未形成规范专业的民调机构,也未进行过大规模的民意调查。新中国成立至20世纪80年代,由于特殊政治原因加上对实证社会科学不重视,民意调查的发展几乎处于停滞阶段,20世纪80年代中后期以来,民意调查逐渐走向繁荣。

随着互联网的发展,各类社会团体纷纷将目光投向网络媒介,因为互联网带来了大量用户行为表达信息。第40次中国互联网络发展状况统计报告显示,截至2017年6月,我国网民规模达7.51亿,互联网普及率为54.3%,增长率为6.2%。此外,我国手机网民规模达7.24亿,就互联网使用状况来看,2017上半年中国网民人均周上网时长为26.5小时,即时通讯、搜索引擎、网络新闻作为基础的互联网应用,用户规模保持平稳增长,使用率均在80%以上[1]。互联网用户规模庞大,这就使得每小时甚至每秒都会产生数以亿计的数据,大数据为民意调查带来了新的机遇,如果海量数据得到有效利用,将为民意监测与研究带来极大便利。

二、大数据在民意调查中的应用

大数据是一个体量大、种类多的数据集合,以至于无法在一定时间范围内用常规数据库系统对其进行抓取、管理和处理。起初着眼于大数据作为数据集的基本特征,认为其具有“3V”的特点,即规模性(Volume)、高速性(Velocity)、多样性(Variety)。随着大数据的广泛应用,其他研究者在“3V”的基础上总结了其他一些特征,主要包括可变性(Variability)、真实性(Veracity)以及价值性(value)等。

(一)研究范式转移

传统的统计研究范式是研究者事先发现问题并提出假设,确定目标人口框架,从而设计调查并采取抽样的方式获取数据,最后对所获数据进行分析。大数据带来的新范式意味着数字化获取、语意协调、聚合与关联数据,并通过数据可视化等手段确实能够承担多项单独使用调查数据难以实现的全新的分析。从传感器、图片、视频或者金融交易等数据中可以捕捉到的丰富的个人细节信息,大数据也促使民意调查可以针对非常小的特定人口子集,或者针对全新的分析单位,比如只能靠新类型的数据(如微博、微信、手机通话)来获取的个人或商业关系网络。范式转变同样意味着民意调查需要新的数据处理方式以及将海量数据转变为可用信息的能力。大数据的利用与传统民意调查方式有很大不同,其中一个非常明显的优势是电子数据收集的成本要低于传统的民意调查,调查本身就是昂贵的,需要大量人力物力来收集数据。相比之下,大数据依靠计算机软件以及电子数据采集等手段,虽然需要前期以及维护成本,但仍能节省不少财力。然而,尽管大数据采集成本相对较低,但其应用处理成本可能偏高,需要人力资源的重新分配,进行新型数据的连接、管理与分析。

(二)忠于数据记录的“二手”数据

与传统调查数据相比,大数据拥有很多优势,就数据来源来讲,大数据是早已存在的数据,这便省去了部分数据调查所需的时间与精力。大数据有两个非常重要的特性往往非常容易被社会科学研究者所忽视,首先,大数据一般属于二手数据,来源于最原始的数据记录。肖恩·泰勒(Sean Taylor)用“找到的数据”与“制造的数据”两个概念来区分,并指出大数据与其他社会科学研究方法最大不同就在于大数据并不是研究人员出于某种目的“制造的”,而是“找到的”大量用户行为、表达数据[2]。这也暗含了另外一个问题,海量的行为、表达数据使得用户成为“被动”的研究参与者,而传统民意调查研究通常是参与者有意识的参与到特定的研究中[3]。

(三)结构化与非结构化数据的应用

大数据包含了大量搜索、浏览、投票等用户行为数据,这也是一种民意载体,这些结构化行为数据往往是用户意见与观念的外在表达。目前这种结构化行为数据已经得到了广泛应用,比较明显的例子是亚马逊等购物网站通过用户浏览、搜索等行为数据而实现的个性化推送,推出类似于“猜你喜欢”的版块,用户的浏览量越大,推送就会越精确。购物网站中这些潜在的行为数据,虽然不会构成直接的民意表达,但对理解特定情境下的民意(如人们的购买决策等)具有重要意义。

随着社交媒体的发展,公众经常在不同平台留言表达自己的观点,如微博、微信、新闻网站等等,大量的非结构文本、视频、音频等信息成为当下社会舆情的“指南针”。网民主动的自我表达数据为民意研究提供了新路径,可以利用这些数据捕捉到公民对特定社会议题的关注度与个人态度。美国学者约瑟夫·迪格瑞兹(Joseph DiGrazia)的团队曾在2010年8月到10月提取了5亿多条推文与当时406场国会竞选结果相对比,发现包含两党候选人名字的推文分享率与两党选票的差距存在强相关[4]。

(四)大数据背景下的预测性分析

大数据在推动决策制定及评估优化方面拥有巨大潜力,许多机构组织越来越依赖于大数据,预测分析是近年来在很多部门备受欢迎的大数据支持的研究方法,它不仅允许管理者跟踪正在进行的活动,而且还支持如何制定对变化的环境和客户基础进行战术应对的决策。大数据预测是一种动态的过程,必须根据数据的更新,不断进行相关政策的优化调整,并且这些数据还可以与从组织外部获取的其他大数据源或调查数据组合。

虽然公共部门在运用大数据技术方面并不像私营部门一样快,但公共管理人员开始意识到这些技术的价值,并尝试使用它们来支持行政决策和改进公共计划。早在2008年,当国际金融危机还尚未大范围威胁到国内制造企业时,阿里巴巴根据买家询盘数的大幅下滑,及时对国内中小制造商发出了预警信息,由此,政府积极制定相关应对政策,制造商也广泛关注金融危机的发展,为应对金融危机做好了相关准备[5]。

三、大数据技术应用对民意调查的局限

(一)大数据本身的局限

大数据通常是选择性的,不完整和错误的,不同形式的新媒体在一些程度上可能低估了特定的人口统计,大数据有时可能并不是“全数据”,网络用户并不能代表全部人口[6]。例如微博、微信等社交媒体,其用户以年轻人为主,这很可能在数据分析时引入新的错误。大数据通常在不同时间点从不同来源聚集,这些过程包括将记录链接在一起,将它们转换为新的变量,记录所采取的行动,以及解释新创建的数据特征,这些活动引入的变量还可能是可变的,产生噪声和可靠性差的系统误差,导致偏差和无效[7]。大数据真实性所面临的核心问题是,这些数据不是出于研究目的来控制变量通过实验或调查的方式得来的可以直接进行科学分析的数据。这些“发现的数据”通常来自其主要目的并不总是与数据分析者的目标一致的过程中的副产物。因此,大数据通常很少或从不考虑整个流程中的数据质量。此外,大数据开发速度本身便具有一定挑战,一些大数据应用技术也会存在局限,需要不断更新。

Google流感趋势系列提供了一个典型的大数据错误风险案例,它使用Google对流感症状、补救措施和其他相关关键字的搜索功能,为美国和其他24个国家和地区流感疫情提供“接近实时”的估算值[8]。与疾控中心数据相比,Google流感趋势在2009年至2011年间为美国提供了非常准确的流感发病率指标。然而,在2012-2013年的流感季节,Google流感趋势预测的流感患者比例比疾控中心统计的实际情况增加了一倍以上。不少学者总结了原因,学者大卫·拉泽(Lazer David)等指出错误的两个原因:“大数据傲慢”和算法变化,前者是指大数据研究人员认为数据量可以补偿其任何缺陷,因此忽略了对传统科学分析方法的需要[9]。一些关键词看似与流感相关,但实际可能并非如此,加之人们对于流感相关的搜索也可能会受周围环境的影响,由此会出现过度拟合的情况。算法的不完善也是这种错误的一大原因,基于推荐的算法也会增加某些热门词汇的搜索频率,如搜索“发烧”,可能会推荐关键词“流感”。由此可见,大数据及其相关技术的缺陷可能会对民意研究带来误导,全面认识特定领域大数据的可用性并弥补相关漏洞相当重要。

(二)政策方面的挑战

许多用户日常行为数据都可以应用于民意调查领域,然而在数据所有权方面却缺乏相应的法律指导。从数据产生到为其增加附加价值的整个流程来看,作为信息主体的数据生产者、收集数据的个人或组织、进行数据整合分析的人员、亦或整个社会等等,究竟是谁拥有这些数据并不明确,部分法律中将一些数据作为资产一些数据仅仅作为信息来处理也加剧了这种模糊性。大数据中数据所有权的不明确性更加明显,数据不再是统计机构的专利,商业及行政机构同样拥有大量数据,此外,由于数据可以永远存在,所有权可以由后代继承,个人隐私可能受到由于血缘关系信息泄露的威胁。

大数据背景下,以关联性为手段的数据挖掘,能够在表面毫无联系的海量数据中发现很多个人隐私信息,从而给信息安全与隐私保护带来了很多新问题。首先,对于敏感数据并没有明确的界定[10]。在以个人为中心的隐私保护中,告知与许可、匿名化等手段已经渐渐失效,因为即使看起来无害的信息也使得识别个体变得相对简单,例如通过找到足够多的信息,可以使得在相关群体中只有一个人具有该特征,识别个体的风险已经由于可识别数据的公共可用性的增加和链接文件技术的快速发展而增加。“人肉搜索”便是很明显的例子。此外,数据开放与隐私保护同样存在矛盾,要想发挥大数据的价值,数据公开是必要的,政府可以从公开的数据中掌握社会舆情,企业可以从公开的数据中发掘用户需求,推出具有针对性的产品及服务,但我们仍要思考的是,如何在确保隐私的前提下,挖掘大数据的潜在价值。

(三)技能方面的挑战

依据大数据的种种特性,在处理大数据所需的技能和资源方面可能面临重大挑战,多数大数据问题至少需要四个角色:领域专家,研究员,计算机科学家和系统管理员[11]。领域专家是具有对大数据的使用和局限性具有深入研究的用户,分析师或领导者,研究者应该是具有应用正式研究方法经验的团队成员,包括调查方法和统计,计算机科学家要求技术熟练,有计算机编程和数据处理技术方面的专业知识,系统管理员负责定义和维护计算机基础设施,实现大规模计算。海量新型来源的数据通常用于定量调查分析之外的其他目的,领域专门知识尤其重要。一些研究者选择与计算机科学家或熟练的程序员合作来覆盖这些所需的技能,构成可行的研究伙伴关系,它创造了跨学科合作的新需求。

数据必定是结合特定的历史与文化情境产生的,对于数据分析而言,对特定历史及文化境遇中研究对象的深度理解是十分重要的。研究者需要有一种对自己所生活的周遭世界基于共同历史与文化体验的深度诠释能力,需要有经验观察的洞察力和理论构建能力,如此才能使大数据应用真正为民意调查服务,而不仅仅是徒有形式的“没有头脑的计数”[12]。大数据作为民意调查的一项最新手段,它通过技术所直观呈现出来的结果,并不能单纯的作为结论,也并不代表着研究的终点,更应该是构成我们进一步探究诸如是什么、为什么等问题的经验素材。大数据并不意味着一劳永逸,基础的研究分析能力对于研究者来说是必备的,在技术面前保持理性和谨慎,避免产生技术至上主义的自负情绪也是至关重要的。

四、结语

尽管大数据分析具有理论和实践优势,但优选的策略是使用大数据与传统调查数据的组合来支持研究、分析和决策。目前,随着大数据的可用性和使用的增加,调查研究的需求可能会同时增长,以解决大数据发现的问题。大数据运用于民意调查应用中的一些问题亟待解决,所有权不明确,并没有关于收集、使用大数据的明确的法律框架指导,大多数数字服务的用户可能并不知道他们的行为数据可能被重新用于其他目的。个人隐私容易泄露,删除作为个人身份信息的关键变量不再足以保护数据免遭识别,位置、时间等众多相关数据的组合能够在许多情况下识别“匿名”记录,需要设立新的隐私保护模式。此外,建立跨学科合作的团队提高数据分析与意义诠释能力对于充分挖掘大数据的价值也是必要的。

[1] 中国互联网络信息中心.第39次中国互联网发展状况统计报告[R].2016-12.

[2] Taylor Sean J.Real Scientists Make Their Own Data.Sean J.Taylor Blog.URL:http://seanjtaylor.com/post/41463778912/real-scientists-make-their-own-data. 2013-01-25.

[3] 沈菲,王天娇.大数据语境中的民意:研究路径与趋势(下)[J].教育传媒研究,2016(03):77-83.

[4] DiGrazia,J.,McKelvey,K., Bollen,J.&Rojas,F.More Tweets,More Votes:Social.2013. Media as a Quantitative Indicator of Political Behavior. Pols One,8(11). URL:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0079449.

[5] 胡亚谦.大数据预测能力对公共决策的影响[J].东北大学学报(社会科学版),2016,18(03):281-287.

[6] 唐文方.大数据与小数据:社会科学研究方法的探讨[J].中山大学学报(社会科学版),2015,55(06):141-146.

[7] Japec,L.,Kreuter,F.,Berg,M.,Biemer,P.,Decker,P.,Lampe,C.,Lane,J.,O’Neil,C.&Usher,A.2015. Big Data in Survey Research AAPOR Task Force Report.Public Opinion Quarterly, 79(4),839-880.

[8] 秦磊,谢邦昌.谷歌流感趋势的成功与失误[J].统计研究,2016,33(2):107-110.

[9] Lazer,D.,Kennedy,R.,King,G.&Vespignani,A(2014).The Parable of Google Flu:Traps in Big Data Analysis.Science,343(6176),1203-1205.

[10] 赵惠,王忠.大数据时代个人隐私内容及其保护研究——基于调查数据的分析[J].情报理论与实践,2016,39(08):28-31+17.

[11] Japec,L.,Kreuter,F.,Berg,M.,Biemer,P.,Decker,P.,Lampe,C.,Lane,J., O’Neil,C.&Usher,A.(2015).Big Data in Survey Research AAPOR Task Force Report.Public Opinion Quarterly,79(4),839-880.

[12] 阎光才.教育及社会科学研究中的数据——兼议当前的大数据热潮[J].北京大学教育评论,2013,11(4):77-86+187.

[责任编辑:思涵]

2017-01-12

薛凡伟,男,上海交通大学媒体与传播学院新闻与传播专业硕士研究生,主要从事网络传播、互联网政治等研究。

G206

A

1672-8122(2018)02-0059-03

猜你喜欢

研究
FMS与YBT相关性的实证研究
2020年国内翻译研究述评
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
关于辽朝“一国两制”研究的回顾与思考
EMA伺服控制系统研究
基于声、光、磁、触摸多功能控制的研究
新版C-NCAP侧面碰撞假人损伤研究
关于反倾销会计研究的思考
焊接膜层脱落的攻关研究