大数据中的90代形象及其迷思
2017-03-20马中红
摘 要:商业公司基于用户生产的大数据得出的有关90代的形象报告最具传播力和影响力,很少被质疑。本文以基于百度、腾讯、淘宝大数据所做出的三份90代研究报告为例,从大数据作为人文社科新的研究范式着手,发现大数据在数据与研究目标之间的关联性、数据与特定社会情境、数据分析结果与一般性推论等方面存在错位。同时,在大数据客观、真实、准确的迷思下隐藏着计算机硬件、软件的技术媒介以及信息垄断生产的双重结构性权力关系,并进而对“技术+资本”的新意识形态建构人类的企图进行了批判性反思。
关键词:90代;大数据;技术媒介;资本垄断;迷思
作者简介:马中红,苏州大学凤凰传媒学院教授,博士生导师;苏州大学新媒介与青年文化研究中心主任(江苏 苏州 215123)
社会科学领域习惯使用“代”(generation)的概念来指称辈份,父辈与子辈为两代人。“代”也可指一个时代,或长或短。网络时代,政经、社会、文化、观念急剧变化,十年一代已被普遍接受。而“后”的说法,虽然更通俗更流行,但也更随意,比如“后”既可以指10年,如90后(1990—1999年),也可以指5年,如95后(1995—1999年)。考虑到研究对象的稳定性,我们将“90后”和“95后”两种说法,归并为“90代”,指1990年至1999年期间出生的青少年群体。
自2012年起,随着第一批90代离开大学校园步入职业生涯和逐渐成为独立的消费个体起,他们比以往任何时候都得到了全社会的关注。政府机构、大众媒体、学术界、商业公司从各自的立场出发,怀着不同的目的,非常努力地将90代视为“数字原住民”的标本而做了几乎全方位的解剖,这一代人的媒介接触和使用方式、价值理念、生活态度、消费习惯、社交生活、婚恋情爱观、家庭观等都进入了研究者视野,并且给出了不尽相同的答案。其中,由商业公司基于大数据挖掘和分析形成的调研报告,凭借“大数据”而非小数据,“深度挖掘”而非浅尝辄止,“高经济价值”而非学理价值等大数据特质,更容易被不加质疑地接受和传播,甚至成为大众媒介新闻报道的数据来源,学者学术研究的数据征用,政府机构决策的数据依据,以及90代自己和家长处理日常生活的关系指南。
当90代被社会重点关注之时,也正是人文社会科学领域接受数据化新研究范式之时。2008年,《自然》杂志推出大数据专刊,2011年《科学》杂志也相应推出大数据专刊。国内学术界对大数据的关注始于2012年,“从CNKI数据的情况来看,2012年才开始有大量以‘大数据为主题或关键的文章出现。”?譹?訛2013年,随着维克多·舍恩伯格影响无远弗届的《大数据时代》中文版的出版和他亲临中国讲学,大数据迅速从学术界走向全社会,成为上至政府,下达普通网民,无人不知不晓的流行词汇,成为BAT(分别指代百度、阿里巴巴、腾讯)这样的互联网大公司取之不竭的财富宝藏,成为政府投巨资重点发展的、代表未来趋势的新兴产业。
由此,在90代迅速崛起并遭遇大数据分析时,走入公众视野的90代被大数据媒介建构起了怎样的形象?本文将以几份自称为基于大数据分析得出结论并公开发布的90代调查報告为依据,重新描述大数据媒介中的90代形象,并将重点关注不同报告的偏差性呈现,并追问数据控制与复杂多样权力之间的深层关系。有鉴于“数据化”分析被越来越多的大数据公司所采用,其研究结果又以毋庸置疑的态度发布,并得到主流媒体、学术界乃至政府权威机构的背书,用来预测一代人的未来,并导致社会各界据此去理解一代人,故此,大数据作为研究范式与作为研究客体但又具有主体性的90代之间的关系亟需加以批判性反思。
一、矛盾的混合体:大数据中的90代群体形象
对群体形象的实证分析,传统的研究方法主要依赖抽样调查,即小样本量数据的收集和分析,比如2014年复旦大学社会科学数据研究中心主持的“80后的世界——长三角社会变迁调查”采用分层和多级概率抽样的设计方法,抽取了上海市80个社区、3 311个家庭进行入户调查,最终形成报告。随着大数据概念的深入人心以及以微信为代表的社交媒体、以淘宝为代表的个人购物平台、以百度为代表的中文搜索引擎的广泛使用,用户个人为这些互联网巨头生产了无法计量的数据信息,“随着大数据技术成为日常生活中的一部分,我们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该将‘样本=总体植入我们的思维中”?譺?訛。受到这种理念和思维方式的影响,凡是有大数据基础的互联网公司纷纷不甘示弱地推出了有关90代调查的大数据报告。我们从近年有关90代的调研报告中选取百度、腾迅、淘宝的三份报告做文本解读和比较,希望由此勾勒出90代在大数据媒介中的群体形象。选择这三份报告,一是因为它们拥有海量用户生产的数据,并且都声称全部或主要以大数据作为研究基础。二是它们都试图经由大数据分析对90代做出全面或局部的画像。其中,《百度90后洞察报告》(2014年)由百度用户消费业务群组(CBG)联合百度数据研究中心,结合百度贴吧、百度音乐、百度视频、百度游戏、百度搜索指数、百度搜索风云榜等的产品数据,外加7000位贴吧吧友的“90后五观调查”的辅助性数据形成了“对90后群体全面客观的洞察报告”?譻?訛。《95后新生代社交网络喜好报告》(2015年)由企鹅智酷联合腾讯QQ空间、腾讯智慧合作发布。在他们发布的研究报告首页明确说明该报告的研究基础是“腾讯QQ空间独家大数据+海量网民调研”,研究结果可以“展现95后用户的社交网络生活状态”?譼?訛。《2015年中国90后消费观研究报告》是第一财经商业数据中心(CBNData)和淘宝网的合作成果。第一财经商业数据中心通过对淘宝2011-2015全网数据的挖掘和分析发布了《中国互联网消费趋势报告·2015》,而有关90后的消费观研究是依据该份总报告的相关数据改写而成的专题报告,以第一财经商业数据中心首席数据分析师杨钦的演讲报告的形式公开发布?譽?訛。
三份大数据报告出于不同的研究目的,对90代“画像”的侧重点有所不同。我们以全方位考察90代的《百度90后洞察报告》为基准,梳理三份报告的主体研究框架如下,并将重点关注其中有两两交集的研究结论(见表1)。
很显然,百度的报告在描述90代形象时比腾迅和淘宝的报告更系统地关涉了青少年成长过程中主要的“痛点”和“痒点”:家庭观、爱情观、友情观、就业观、消费观。腾迅的报告重点在于考察95后社交网络的使用和行为偏好,试图为我们勾勒出社交网络空间中的95后形象,而淘宝的报告则将全部兴趣聚焦于90后的消费行为和偏好,不及其余。
三份大数据报告为我们勾勒出来的共同形象可以简约地归结为,90代在互联网,尤其是移动互联网中生活和成长,有着两极化倾向,既比较自我,又乐意分享;兴趣至上,但也理性务实;家庭观念重,却又喜欢特立独行。90代成为一个矛盾混合体。
似乎是为了强化这种矛盾混合的90代形象,百度大数据报告采用了双线结构的叙事策略,先预设了一条叙事线索“原先的标签”,其意大概是指未经大数据分析之前社会公众对90代存有的刻板印象。事实上,在90代成长过程中,被贴标签已经不止一次,他们尚在学校就读期间,因为爱网络、迷动漫、玩COSPLAY,被冠以过“垮掉的一代”的称号。随着这代人逐渐走入工作岗位,大众媒体的报道也曾出现一边倒的负形象,比如90代不守信用,爱毁约,?譾?訛90代还被媒体宣称是跳槽的主力人群?譿?訛等。百度大数据报告以关键词的方式勾勒出了90代的刻板印象。从叙事逻辑上推论,这些刻板印象将在大数据的分析中“分崩离析”。
果不其然,另一条叙事线索建构起来的大数据“新形象”轻易便推翻了刻板印象,使90代完成了从“不良少年”到“正常青年”彻底逆袭。我们择其有明显对照表述的五个方面来看大数据报告与刻板印象中的90代形象有何差异(见表2)。“原先的标签”在这份大数据报告中,以关键词的方式呈现,没有任何解释和分析,也没有任何数据支撑,且若按主流价值观来判断,这些关键词标签绝大多数是负面和消极的。相比之下,新形象虽然凸显了“矛盾混合体”的特质,但评价表现明显的宽容和肯定。我们看到,在家庭关系上,他们渴望陪伴,又要求保持距离;情感上,对自己趋于保守,要求忠贞,对他人却趋向宽容,接纳多性别;而处理友情关系时,他们受相同兴趣驱动,更愿意结识线下而非社交媒体中的朋友,在与朋友相处中,表现出强烈的自我意识;面对就业时既有理想又很现实,既相信背景决定命运,又相信有能力改变处境;消费观念受个人兴趣左右,但又很理性克制。以大数据描述出来的90代形象是集矛盾和对立于一身的网络新生代/原住民,他们在处理日常事务时既有成熟、理性、务实的一面,也有兴趣唯上,自我中心,随性的另一面。正是在这样的叙事策略衬托下,大数据叙事线索——建立在大量实时数据基础上的研究报告表现得更真实性、更客观,也更具权威性。
二、抽离具体情境的大数据90代群体形象
大数据90代报告公开发布后,社会给予了热烈的反响。被新华网、凤凰资讯、今日头条、三联生活周刊等主流媒体纷纷转发。报告也被各类机构或个人自媒体全部或部分引用,出于不同的目的被改写成侧重点各不相同的新闻稿,在网络广为传播,造成很大影响。截止2016年8月8日,以百度报告的标题为关键词,在百度搜索所得结果有203 000条,腾迅《95后新生代社交网络喜好报告》和CBNData《2015年中國90后消费观研究报告》在百度搜索的结果分别为114 000条和898 000条,影响深广可略见一斑。而迄今为止,大数据报告中90代群体形象表征的是全体还是部分90代?不同报告所呈现的90代形象是否有偏差?偏差又是如何形成?诸如此类问题并没有引起足够的重视,更少有质疑之声。
其实,大数据作为研究工具横跨至人文社会科学以来,批评之声便开始出现。在国内对大数据趋之若鹜之时,社会学家潘绥铭先生今年五月发表题为《生活是如何被篡改成数据的?——大数据套用到研究人类的“原罪”》,随后,南京大学刘林平教授发表题为《大数据有“原罪”吗?——与潘绥铭教授商榷》,接着,潘绥铭教授发表《再论生活是如何被篡改为数据的——回应刘林平教授的质疑》?讀?訛。双方争议的焦点并不在大数据产生和存在的合法性、合理性,而是当大数据用来研究人类,将人类完全数据化时将会怎样?这是颇有意味的“国内外新闻与传播前沿问题跟踪研究”课题组摘译介了欧美学者有关大数据批判性的七篇论文?讁?訛,其中大数据的社会性质、意识基础、认识论与范式转移等研究也对我们反思大数据90代形象颇有启迪。潘绥铭教授认为“大数据并不是研究者主动去收集的人类行为及其结果,而是五花八门的所谓客观记录,是人类生活中微乎其微的那一部分可获得的信息。”这里包含了两层含义,其一,大数据分析依赖的是真正的大数据吗?很显然,潘教授的理解有误,大数据的“大”不是他认为的仁者见仁,智者见智的“大”,而是网络特定平台上数据的“全”,通常用来形容一个公司创造的大量非结构化和半结构化数据,比如某家医院拥有的几十万病人的数据,微信拥有近八亿用户生产的数据。其二,大数据是有目的采集的吗?我们知道,在当下的数字信息环境下,人们越来越为各种技术设备和应用程序所监控,电子邮件、各种上网终端、定位系统、刷卡器、条形码读卡设备、计步器,几乎是全时性记录着人们的可被记录的内容、信息和数据,并被大量储存在机器系统中,这被称之为“传感器社会(Sensor Society)”?輥?輮?訛。尽管如此,“传感器的监视可能是无目标的、非系统性的,而且常常是机会主义的,它往往只关注某类特定的行为层面或者某种特定活动”?輥?輯?訛,而且由于这些海量信息并不是采集自特定目标对象以及特定个体,而是“无的放矢”的,不为任何目的而由设定好的机器自动生成的数据信息,因此,无论是百度、腾迅还是淘宝,他们用来分析90后的数据均不是为一个明确的研究计划或分析模型而特定收集的数据,恰恰相反,那些用来收集数据和储存数据的设备、网络和程序,与数据使用者希望挖掘的新模式以及努力达到的目标之间缺乏关联性。以百度为例,百度搜索仅仅记录了某个个体的搜索行为,百度贴吧也只是记录了该个体在贴吧内的言行,并不能涵盖该个体在淘宝上的搜索、购物、评价行为,也无法记录该个体在QQ空间中的社会交往和娱乐行为。如果不同的数据收集网络无法进行有效的累聚,并做出交叉分析,而只是限于一时一地的数据记录,那就很难称得上是大数据分析。
对这种数据收集起始不带有明确研究问题和目的,而用来寻找“产生于数据”中的洞见的做法,罗伯特·凯庆与上述观点持相似的看法,并进一步指出,“认为数据可以为自己说话,暗示的是对统计学有一定了解的人就有能力来解释这些数据,而不需要具备背景知识和特定领域的知识,这是一种极为自负的看法,这样得出的研究结果往往并没有太高的学术价值”?輥?輰?訛。的确,上述三份大数据报告均不是完全建立在研究90代的特定目的上而收集的数据,其中来自大数据的结论,缺乏对数据的具体情况做必要的说明和解读,似乎这些数据和90代的关系是不证自明的,数据本身可以自动预测90代个体或群体。
还值得警醒的是,把数据从特定的情境中抽离出来的分析方法,是以量而非质取胜的研究方法。当腾讯在分析QQ空间中90代的社交行为时,数据能够记录的是个体在社交网络中与五位朋友互动的情况,但是却无法捕捉该个体情感上对一年只见一两次的儿时玩伴的感情,更不用说只有一面之缘的心仪对象的感情了。而关涉人际关系、情感生活等人類更高级的生活形态时,人们的所思所想决不是一念之间产生的,而要为许多特定时空情景所左右,而这些恰恰是数据分析不擅长的。数据分析“依赖于尽可能多的收集数据,依赖于预测和关联而不是解释和理解”?輥?輱?訛,这多少可以说明为什么大数据90代的报告都是以“信息图”的方法来发布,这决非因为可视化更直观有趣,更便于传播这么简单,而是大数据分析出来的数据之间因为抽空了时间和空间,抽离了具体的社会情境,成为了一堆彼此之间缺乏逻辑关联的数字,在大多数情况下并不容易经由解释去建构系统性的群体形象。比如腾迅的《95后新生代社交网络喜好》采用了大数据和样本调研相结合的方法展开研究,其中,通过7754个调查样本得出的结论是48.2% 的“95后更希望有自己的独立空间,选择在网络上屏蔽父母的占比要高于非95后”,而百度基于大数据的分析结论是高达96.03%的90代认为父母比自己的人生伴侣更重要,但是又有68.82%的90代会在社交网络上屏蔽父母,疏于联系父母,不愿意让父母了解自己的生活。一方面,两份报告给出“要亲情,又要独立”的相似结论,但占比相距甚远;另一方面,这类两极化的观点缺少必要的解释,使其成为漂浮的能指,极容易给信息接受者造成困惑,也误导社会各方面的反应。
如果进一步考察,我们可以发现,无论是百度,还是腾迅,抑或是淘宝,无论他们的用户有多么大,所谓的大数据都是建立在排除了不是该网站/APP用户的前提下的。譬如,腾迅的报告显示,90代在社交媒体的使用上有明显的区隔,“QQ空间和更受95后用户的欢迎”,然而该份报告的大数据来源却仅仅限于QQ空间,并不包含同样受到95后用户喜爱的百度贴吧。况且,由于不同网站/APP功能上的殊异,决定了他们的用户群体往往具有不同的特性,比如,QQ空间的用户,不能完全等同于A站、B站、豆瓣小组等社交空间的使用者,因此,依据QQ空间95后的数据得出的结论很难被推导至其他网站/App的95后。还有一个方面似乎也容易被忽视,即我们无法排除同一个使用者在不同的空间里从事不相同的事情,比如,第一财经商业数据中心据淘宝的购物大数据得出结论,“18-22岁的消费者在服装、美容相关品类里的份额提升最为迅速”,这会不会与这份分析报告依据的特定用户的消费偏好有关呢?或许喜欢去淘宝购买服装、美容产品、食物的人们,更愿意去其他电子商务平台购物数码产品、音像制品和书籍呢,由此造成的结论偏差几乎是不可避免的。
三、隐慝的机器编码与权力结构
大数据及其分析作为人文社会科学的一种研究范式,除了上述那些不得不提防的陷阱之外,更值得我们审视的是大数据信息的生产和再生产。潘绥铭教授质疑大数据研究另一个观点是“主体建构被抹煞”。在他看来,大数据监测到的人类行为,不一定是被监测者的主观意愿,很可能是其自我表演,大数据更监测不到人的动机和无意识。刘林平教授在商榷文中轻松地化解了这样的质疑,他认为,网络上人们所发布的大量文献(博客、微博、照片等),人们在购物行为中产生的收藏、转发、评价都是精神活动的结果,记录的就是人们的主观意愿和动机心理,而这些恰恰都是大数据的组成部分。的确,人们的精神和情感活动只要经由外来的行为,或言说,或书写,就可以被机器记录。问题是,举凡由用户生产,由机器记录的大数据都是客观的、真实的、可信的吗?两位教授都没有进一步追问,都对参与记录被监测者行为的计算机及其软件在大数据监控、采集、储存和算法方面的意义建构置若罔闻。
与此不同,麦克在将当下社会界定为“传感器社会”之后,对大数据研究提出了一个反思焦点,即“使数据收集、存储处理成为可能的各种技术和物质基础设施”,在他看来,这些基础设施的所有权和控制权之间的关系,“决定谁有权使用这些数据,谁来设定数据使用标准的优先次序”?輥?輲?訛。
颇有意味的是,广大用户作为大数据的生产者很少有权限使用大数据,也不清楚百度、腾讯、淘宝这类大数据公司是通过怎样的方式收集、储存和使用信息的,这一过程完全不透明,甚至还有为数不少的用户并不知晓自己正在为大数据“添砖加瓦”。这种情形在德国媒介理论学者基特勒看来就是我们对于虚拟世界或“仿真技术基础的硬件运行和权力结构毫无察觉。”通常,技术在我们看来是中性的、去意识形态的,大数据分析技术只不过是一种工具而已,但是,在鲍德里亚看来,技术始终是一种媒介形式,其权力来源于其不仅仅能够生产,而且能够再生产符号和客体,“真正的最终意义存在于再生产本身”。在将数字技术视为媒介这一点上,基特勒表现得比鲍德里亚更肯定,走得也更远,他甚至认为计算机硬件、软件及其储存方式就是媒介本身,对其的考察意义要远胜对内容、文本或意蕴的讨论,因为,在他看来“媒介或数字技术的硬件建构了其中处理和生产的内容,而非相反”?輥?輳?訛。以此观点来解释本文讨论的三份大数据报告,也就意味着大数据技术作为媒介发挥建构作用存在于数据收集、储存以及算法的过程中,而不是通常我们所理解的数据分析结果。
权力结构首先体现在计算机的一系列硬件设备中,它将使用者排除在外。基特勒认为越是智能的机器或系统硬件越能隐藏在易得易用的图形界面中,从而让使用者根本感觉不到硬件的存在,“将整台机器隐藏于使用者”。按照鲍德里亚的观点,“这类机器以二元编码为特征的形式表征与处理其传播的内容。这种编码对于人类肉眼而言几乎是不可见的,因为其设计初衷就是供机器处理,并相应有着它们自己的、预置的运行规则。”?輥?輴?訛使用者无法察觉,当然也就不清楚自已在互联网上的行为或者书写将产生怎样的结果。基特勒还注意到了物质性媒介中另一个层面——保护软件,它们同样以不为使用者觉察的方式运行着。表面上,保护软件似乎预示着可以让计算机拥有更强大的能力,实则上却限定和控制了系统的边界和可能性,因而本质上是专制主义的。尼古拉斯·盖恩对此做出了很精辟的解释:“运行那些表面上看起来‘很友好的商业软件和系统是需要一定代价的,因为它是一系列深层的权力结构和‘单项功能的产品,而这些权力结构和产品根据预先设定的‘优先性、许可、特权和障碍建构我们的使用。这些结构自我隐藏起来,因为它们通常预编入系统,并刻入系统的核心或芯片中。这意味着它们对于使用者的干预或侵入是免疫的,因为它们已然限制了使用者可能改变或观察到的内容。”?輥?輵?訛这很容易使我们聯想到用户使用计算机和手持数码终端时,那些预装好的,看得见或看不见的各式程序和应用软件,它们暗中决定了使用者能走向哪里,能走多远。在进入网站或社交媒体后人们会被系统自动屏蔽许多信息,比如敏感词筛选、色情和暴力信息、危及国家和机构安全的信息等等。一方面,用户对此少知少觉,另一方面,又是谁定义了系统设置中的敏感、色情、暴力或安全?权力结构就是如此不为人察觉地隐藏在硬件和程序中。
权力结构也体现在大数据信息的垄断生产和商业化过程中。搜索网站、社交媒体、电子交易平台,比如百度、QQ空间、淘宝等自动记录和收集了人们获取和分享的信息,人们的购物偏好以及各种社会关系,并通过一些行之有效的运算规则把它们数据化。据IBM的研究称,“整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。”?輥?輶?訛在汹涌而至的海量信息席卷之下,大数据迷思在各个层面表现出来。事实上,我们对大数据分析出来的90代形象缺乏必要的质疑,我们既过分相信由90代自己书写的数据能真实反映他们的行为和习惯,也很少怀疑大数据公司在收集、储存、分析时的立场和态度,“这些网站所收集到的数据被认为是人们实际行为和情绪的自然的‘痕迹或者‘征候,而网站本身则被认为是中立的服务商。”?輥?輷?訛大数据公司在发布研究报告时,也竭力使人们相信它的客观中立,比如百度承诺自己的这份研究报告“形成对90后群体全面客观的洞察”,企鹅智酷也声明为95后社交网络喜好进行画像是“独立的”“精准的”。大数据公司在从事90代数据研究时以公益的非赢利名义进行,某种程度为其数据及结论的客观、中立的倾向提供佐证。然而,由于使用者在使用这些网站/App时,无须支付任何费用,而网站/App的运营以及数据的采集、储存需要巨量的投资和全球性的网络技术和连接,这种以用户无偿提供数据来换取免费使用网站和信息服务的方式,被称为“借贷者—债权人”?輦?輮?訛关系,而深蕴其中的还贷模式就是用户自动放弃自己的所有权益,包括隐私权,而放贷方则名正言顺地可以任意地收集、储存和使用数据,并将数据最大利益化。迄今,除了常规的广告投放和广告植入外,依托大数据和数据分析,为新产品开发提供未来预测,为商业推广预判精准目标等等已经成为大数据公司获利的重要渠道,“信息正在成为一个——也许是唯一的一个——主流交换商品”?輦?輯?訛,“数据的流动,为资本(社交网站、数据商及其投资人)带来利润”?輦?輰?訛。因此,三大商业公司有关90代形象的公益性研究虽然无法直接创造经济利益,但它们是大数据公司创建数据分析权威的“广告”和积累无形品牌资产以获得更大边际利润的努力,资本权力的结构不可避免地渗透在大数据的洪流中。
四、大数据迷思与新意识形态建构
当我们经由大数据公司发布的90代形象报告去反思大数据的一系列迷思时,并不表明无视大数据带给人类“生活、工作与思维的大变革”中的积极意义和正向价值,大数据分析在自然科学领域和商业领域的卓越贡献已经有目共睹,当然也不是对大数据作为人文社会科学研究的有效工具加以排斥。事实上,建立在大样本量基础上的大数据分析在快速、方便地得出研究数据方面,在追踪流动变化的现象方面都表现出远超传统社会学定量分析研究的优势。但是,我们质疑了大数据分析作为人文社科学研究新范式时在“真实或准确”(veracity)方面存在的问题,这里面既包含了数据收集的无目的性,大数据的界定,算法和分析过程中对具体情境的排斥等等,进一步我们借用基特勒的技术媒介理论,考察了大数据客观、真实、准确迷思下所隐藏的权力结构和权力关系。我们可以看到,用来监测、采集、储存、运算用户生产的数据信息时,无论硬件设施,还是软件应用,无论是拥有大数据的公司或机构,还是他们对数据信息的再生产,无不渗透着权力和控制,在这样的前提下,大数据技术不能被简单地视为一种分析工具,或者一种人文社会科学的研究范式,技术的性能一旦被带入社会语境后,就有可能参与社会建构。换言之,大数据作为迷思的技术媒介,极有可能参与到描述现实、建构群体的社会身份、促使新的社会关系形成,并进而成为新意识形态产生的节点。
让我们回到本文讨论的三份大数据报告。大数据最为人称道,也最鼓舞人心的是它可以预测未来,舍恩伯格在《大数据时代》中明白无误地指出,“大数据的核心就是预测”,同时,他又说“大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。”?輦?輱?訛毫无疑问,三份大数据报告都试图为我们描述和勾勒90代的整体画像或“大特写”,用关键词或信息图来界定90代。只不过因为大数据历史太短,运算和分析技术不成熟,各种数据还划地为牢,未完成真正共享等等的缘故,我们还能从现有的数据报告中发现这样那样的问题,但是,如果假以时日,这些前置问题都被解决了,如果我们再来预测00代时,将会怎样呢?“有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。”?輦?輲?訛如此,作为主体性的人就不再重要,在未来的00代大数据报告中,真实的、有血肉的、会思考的、有主体意识的人将被技术异化。大数据将引导和控制90代或00代的自我认知和行为,如果大数据告诉你,90代男性最爱上淘宝购买粉色短裤,那是不是意味着如果你不买,就不潮不酷,甚至OUT了呢?大数据也将帮助人们去看待和评价90代或一代又一代的青少年,如果大数据告诉你,你的儿女在社交媒体屏蔽你的概率高达60%以上,那你除了感到这是一种“流行”而释然外,还能做什么?技术书写了人,而非人赋予技术以意义,这是基特勒在他的一系列有关媒介技术理论的研究中所严厉批判的。基特勒提出从芯片的结构出发建构社会学,对此,尼古拉斯·盖恩的解释是,基特勒逻辑是“处于批判性分析核心的,应该是那些日渐增长且隐而不见的技术系统的力量——这些力量建构了通常意义上的‘人类。”?輦?輳?訛基特勒还进一步说,“人在对计算机的使用过程中被改变了,人的大脑处理融入了微处理器中,人的软件消失在计算机硬件中,作为一种认识和自我决定的能动者意义上的‘人将消失,从而被纳入技术的自动精密化的进程中。”?輦?輴?訛
如今,面对一切都在数据化,以及大数据日渐渗透进我们生活的方方面面,我们除了接受越来越变得强大的技术力量,看着它正在建构社会生活并且形塑我们的生活环境,预测我们的未来,似乎也没有更多的选择。为此,保持对大数据迷思的审视和反思,努力争取让大数据作为一种研究范式不会成为取代其他研究范式而一枝独秀,并敦促社会其他研究力量(比如学术界)拥有分享大数据的权力,以多元的研究視角突破技术意识形态和商业意识形态主宰的现状,甚至呼吁社会公众保持对技术+商业意识形态的警醒,或许是我们能做的。
注 释:
①王程韡:《“大数据”是“大趋势”吗?基于关键词共现方法的反事实分析》,《科学与科学技术管理》2015年第1期。
②?輦?輱?訛?輦?輲?訛维克多·迈尔·舍恩伯格:《大数据时代》,杭州:浙江人民出版社,2013年,第65页,第104页,第125页。
③百度:CBG《90后洞察报告》,http://www.199it.com/archives/271861.html.
④企鹅智酷:《“95后”新生代社交网络喜好报告》,http://www.tencentmind.com/news/news1578.html.
⑤淘宝网、CBNData联合发布的《中国互联网消费者趋势报告》,http://www.199it.com/archives/415547.html;杨钦演讲报告《2015年中国90后消费观研究报告》,http://www.199it.com/archives/430865.html.
⑥叶贵龙:《“90后”被指爱毁约,企业称录用6人仅1人报到》,《华西都市报》2014年9月14日。
⑦高羽:《90后爱折腾,玩“闪辞”》,《城市晚报》2014年12月3日。
⑧潘绥铭:《生活是如何被篡改的?——大数据套用到研究人类的“原罪”》,《新视野》2016年第3期;刘林平:《大数据有“原罪”吗?——与潘绥铭教授商榷》,《新视野》2016年第4期;潘绥铭:《再论生活是如何被篡改的——回应刘林平教授的质疑》,《新视野》2016年第4期。
⑨“国内外新闻与传播前沿问题跟踪研究”课题组:《大数据实践与研究:批判性反思与研究推动》,《新闻与传播研究》2015年第8期。