虚拟与现实:电子踪迹大数据质量与知识发现*
2019-05-25陈峥
陈 峥
(武汉大学社会学系 武汉 430072)
1 三大网络的发展与人类行为互动数据的积累
新一轮的信息技术革命深刻改变着人类社会的方方面面,我们正在步入数字化生产和数字化生活的时代。随着互联网、移动互联网、物联网三大网络在全球范围的普及,以及其对各个领域的深度渗透,大量的、多种类的人类行为互动数据被记录下来,成为社会科学研究的新资源。
互联网/移动互联网主要通过人机互动生成数据。我国用户对互联网/移动互联网的使用行为,主要有以下几种:①网络通信(即时通信、电子邮件);②网络信息获取(网络搜索、新闻浏览、地图查询、路况导航);③网络社交(微博、微信、论坛/BBS);④网络商务(购物、预订、支付)、网络金融(网上银行、证券交易、理财);⑤网络学习(学习型阅读、在线教育);⑥网络娱乐(文学、视频、音乐、游戏、直播、娱乐型阅读);⑦O2O服务(网上订外卖、网约车);⑧其他。这些使用行为都会在互联网/移动互联网上生成数据。
第41次《中国互联网络发展状况统计报告》显示,截至2017 年12 月,中国网民规模达7.72 亿,全年共计新增网民4 074万人,互联网普及率为55.8%,较2016 年底提升了2.6 个百分点,中国手机网民规模达7.53亿,较2016年底增加5 734万人,提升了2.4个百分点;就个人互联网应用发展状况而言,2017 年,我国个人互联网应用保持快速发展,各类应用用户规模均呈上升趋势,其中网上外卖用户规模增长显著,年增长率达到64.6%;手机应用方面,外卖、旅行预订用户规模增长明显,年增长率分别达到66.2%和29.7%[1]。
图1 2016年12月—2017年12月中国网民互联网应用使用规模(万人)
除了互联网/移动互联网之外,借助先进传感技术实现万物相连的物联网,也能够采集大量的人类行为数据。例如,车联网在通过摄像头获取交通流量等数据的同时,也获取了车辆使用者的时空轨迹;可穿戴设备借助物联网技术获取人的动态信息。互联网/移动互联网的数据生成一般需要人机互动,而物联网则一般是由射频识别(RFID)、红外感应器、激光扫描器、GPS等传感设备自动采集信息,在数据生成过程中排除或大大减少了人为因素。
图2 2016年12月—2017年12月中国网民各类手机互联网应用的使用规模(万人)
由上可见,互联网/移动互联网已经相当普及,各类应用的用户规模稳步增长,而物联网则是方兴未艾,其发展前景极为广阔。据相关研究预测,到2020年,将有340亿台物联网设备接入互联网,这意味着全球将人均拥有4台以上的物联网设备[2]。
三大网络已经生成、采集了海量的人类行为互动数据,并且数据量还会持续高速增长。近十年来,社会科学界越来越关注这些数据的科学价值。在前互联网时代,大规模的普通人群行为互动数据难以获取,社会科学实证研究常常面临“巧妇难为无米之炊”的窘境。计算社会科学提出者大卫·拉泽尔等学者敏锐察觉到,在网络中积累的大量长时间、连续性、大规模的人类行为与互动数据,具有前所未有的广度、深度和尺度,认为对这些数据的收集与分析,将为拓展、深化甚至革新对个体行为、群体交往、组织结构乃至整个社会运行规律的认识开辟一条新路径[3]。
数据驱动型知识发现是大数据时代计算社会科学的核心内容之一,它把三大网络中的人类行为互动数据作为感知个人与社会的资源,致力于通过对数据洪流的分析与挖掘,发现隐藏在纷繁复杂的社会现象背后的人类行为特征与模式,进而揭示人类行为与社会发展的某些规律。例如,迈克尔·尼尔森特别强调利用计算机从数据中挖掘出事物之间不曾被发现的联系[4]。致力于计算社会科学与大数据研究的德国学者尤尔根·普费弗则指出:“强大的计算资源加之海量的社交媒体数据集,让结合机器学习、自然语言处理、网络分析及对于人口结构与人类行为统计测量的研究数量以前所未有的规模增长[5]。”
2 内容与踪迹:对数据处理技术的不同要求
三大网络中生成、采集的人类行为互动数据是典型的大数据。虽然目前大数据尚无严格统一的定义,但我们普遍认为其具有“4V”特征——Volume(大量)、Velocity(高速)、Variety(多态)、Value(有价值且价值密度低)。人类行为互动数据不仅体量庞大、持续高速增涨,并且其种类、模态多种多样(如文本、图片、音频、视频、空间位置等等);此外,它对包括社会科学研究在内的众多领域具有很高的价值,同时相对于具体的研究和实践任务而言,又显著地呈现出价值密度低的特点。
大数据是规模巨大的数据集合,在存储、管理、分析等方面大大超出了传统计算机软硬件工具能力范围。我们必须借助新一代的数据处理技术,如云计算、人工智能等,才能在社会科学研究中将大数据的价值发挥出来。
人类行为互动数据可分为两种主要类型:一是用户生成内容(简称UGC),指由用户原创的内容(不包括转发、复制的他人原创内容);二是电子踪迹,指三大网络所记录的包含时空变量的人类行为的动态轨迹。例如,搜索日志记录汇集了用户的网络搜索行为,对其进行加工可形成搜索指数;社交媒体用户发布的信息内容属于UGC,而该微博的浏览量、点赞数、转发数则是关注该内容的用户群体所留下的电子踪迹数据。这些数据不仅记录了用户行为的时间,而且大多可以通过IP地址、ID、通讯基站、GPS等获得其空间分布状态信息。两种数据的不同特点决定了其对数据处理技术的要求也有所不同。
UGC一般是文本、图片、音频、视频等非结构化数据,其分析处理需要借助人工智能技术。目前在社会科学研究中最常见的是基于自然语言理解技术的文本内容分析,包括语义识别、主题提取、观点聚类、情绪识别等。目前的自然语言理解技术对于文本数据的分析处理尚存在一定程度的模糊性,对图片、音频、视频的分析处理更是差强人意。目前UGC数据的加工精度在很多时候还达不到对精确性要求较高的社会科学研究的要求,数据处理技术有待进一步提升。
与UGC数据不同,电子踪迹数据一般是结构化/可结构化、量化/可量化的数据。结构化数据的处理技术(包括支持分布式计算)相对成熟,数据的加工精度一般较高。例如,网络搜索数据以用户搜索日志为基础,通过对关键词的统计分析,可以得出搜索规模、搜索时间、变化趋势、地域分布等特征变量的值。这些都是可以结构化表达的数据,能够方便地用于社会科学定量研究。例如政府利用搜索指数来分析公众对政策、社会事件等的关注程度,旅游景区利用搜索指数来预测高峰期的游客数量等等。电子踪迹数据的分析要比内容分析容易得多,数据处理的精确性也高得多。
需要指出的是,很多人类行为互动数据同时包含用户生成内容(UGC)和电子踪迹两种数据,例如微博、微信、论坛等社交媒体数据,其中既有原创者发布的内容和参与者评论的内容,也有用户浏览、点赞、转发等行为留下的电子踪迹。对这类数据,在条件许可的情况下,计算社会科学研究经常会将对内容与电子踪迹两种数据的分析融合在一起。目前计算社会科学研究者一般未将内容(非结构化数据)和电子踪迹(结构化/可结构化数据)进行明确区分。这种区分实际上是十分必要的,有助于研究者对数据处理的误差作出正确判断。
电子踪迹大数据受伦理和法律限制较小。在人类行为互动数据中,有一些内容不能合法获得并用于研究,而其中的电子踪迹则在经过技术处理之后可以成为社会科学研究的资料。例如智能手机的即时通信和网络电子邮件,其通信内容一般涉及用户隐私,未经授权不得使用,而获得大规模用户群体的授权几乎是不可能的;不过其中的通信时间、通信双方的空间位置、通信频度等电子踪迹数据经过匿名、脱敏等处理,可以用于研究。这使得电子踪迹数据在现阶段受到数据驱动型知识发现的高度重视。
3 价值与质量:基于电子踪迹大数据的知识发现
电子踪迹数据记录了规模庞大的普通人群的行为状态,成为认识人和社会的全新知识来源。有学者认为,电子踪迹,互联网搜索、标上时间的文本、声音、图像,海量数据集,记录了人们的决定和活动。也许分析这些电子踪迹,就会破解人类行为的秘密[6]。当前,基于电子踪迹大数据的知识发现已经运用于社会科学研究的诸多学科,如政治学、经济学、社会学、传播学等。
在政治学领域,鉴于社交媒体已经成为各种政治势力的角力场,国外有学者试图探究运用推特电子踪迹数据推知民意乃至预测大选结果的可行性[7]。
在社会学领域,电子踪迹数据的社会内涵是焦点问题之一。例如,有学者探究了推特用户账户拥有的粉丝数量与该账户关注的账户数对结合型与桥接型在线社会资本的影响。他们发现结合型社会资本与用户帐户的粉丝数量相关,而桥接型社会资本则受其所关注账户数量的影响,但这种相关与影响并非绝对,仅在某种程度上呈现相关性[8]。
在经济学领域,电子踪迹数据所蕴含的经济价值问题颇受关注。有学者力图探寻个人在社交媒体上的受欢迎程度可否转化为现实的经济收益,如名人社交媒体账户粉丝数量的增减与其收入水平的浮动是否存在相关性[9]。
在传播学领域,国内学者利用微博电子踪迹数据来分析舆情传播的空间分布、传播速度、热度;国外学者从信息流转的角度阐释推特电子踪迹数据,例如,有学者将推特转发区分为信息型转发与对话型转发,前者指仅转发原信息,后者指在转发的同时添加评论,并析出两者出现的频率[10]。
这些具有创新意义的探索还仅仅是开始,电子踪迹数据将逐渐凸显巨大的社会科学价值。同时,数据质量也成为必须认真审视的问题。
社会科学研究对数据质量最基本的要求是(定性意义上的)真实性和(定量意义上的)准确性。大数据时代到来之时,很多人忽视了对数据质量的审慎考察,凭借简单的经验甚至直觉就断言大数据的真实性。2012年,IBM提出大数据的真实性(Veracity)特征,虽然在2013年又解释为“追求大数据的真实性”,但已经造成了广泛的误解,许多学者迄今还认为这家著名的互联网企业所表达的意思是大数据是真实的。维克托·迈尔-舍恩伯格认为大数据记录下来的是人们的平常状态,因此可以有效避免问卷调查等传统研究方法可能存在的偏见[11]。范·戴克甚至认为,大规模数据集具有真实、客观、准确的特征,可提供能够产生先前人们无法想象的深刻洞见的更高级形式的智能与知识[12]。依据上述观点,电子踪迹数据作为大数据的一种,它当然应该是真实、自然、客观、准确的数据。
这类观点有一个共同点——并未经过深思明辨,就草率给出结论。大数据种类繁多,不同的数据有不同的本质和特征,数据质量也有很大差别,大数据是否真实、自然、客观、准确,决不可一概而论。认真细致地考察各类人类行为互动数据的质量,对于将其正确运用于社会科学研究是极为必要的。文章将以社会科学研究最常使用的电子踪迹数据——网络搜索数据为例进行分析说明。
4 大数据也会说谎:信度存疑的网络搜索数据
提供搜索引擎服务的各大互联网公司积累了海量用户搜索行为数据,推出了基于搜索日志分析的应用产品,如全球搜索市场份额第一的谷歌公司的谷歌趋势,中国搜索市场份额第一的百度公司的百度指数等。这些应用产品通过对一段时间内的关键词搜寻量进行统计,了解用户关心的事物、话题,并展现用户行为的整体趋势、地域分布、时间特征等电子踪迹。
在很多人看来,搜索数据理应是最“不会说谎的大数据”,因此不论是谷歌趋势还是百度指数,其可靠性必定是相当高的。然而事实却不能如人所愿,盛极一时的“谷歌流感趋势”(Google Flu Trends, GFT),即是凭借用户搜索行为的电子踪迹来预测流感疫情,它以“大数据洞见的典范”步入舞台中心,最终以“大数据缺陷的典范”黯然退场。计算社会科学的提出者大卫·拉泽尔对谷歌流感趋势的失败原因进行了分析,发现导致预测出现严重偏差的原因之一是谷歌出于商业目的,不断地改变其搜索推荐算法,而很多用户会参考谷歌的推荐来进行搜索[13]。搜索推荐算法的变化影响了用户的搜索行为,在某种程度上引导了数据的生成,进而影响数据分析结果。谷歌目前无法克服这种引导性,因为搜索推荐算法是依据广告商的付费和诉求来变化的,谷歌离不开广告收入,作为一家企业,不能不把盈利放在首位。谷歌最终选择了将GFT下线。2017年6月,欧盟委员会向谷歌开出金额为24.2亿欧元的天价罚单,同时给出的一份声明称,谷歌进入购物比价市场后,利用其在网上搜索领域的主导地位,操纵搜索结果,不公平地把客户引向自己的购物服务,令规模较小的购物搜索服务供应商处于不利地位[14]。这一事件揭示了“大数据不会说谎”本身就是在说谎,因为搜索结果是可以操纵的,谷歌能够凭借技术手段按其偏好显示搜索结果。
百度也存在对用户搜索行为进行引导,对搜索结果进行操纵的情况。2016年的“魏则西事件”,充分暴露出百度通过竞价排名对搜索结果进行排序。百度指数的产品说明中关于常见问题有这样两则内容:①您可以通过更有效地使用百度营销产品,及其他营销活动,提高您的品牌、产品在网民中的知名度和购买需求,从而提高网民对您的品牌、产品的搜索指数;②百度指数在防作弊(反作弊)方面做了大量工作,研究并建立了一整套相应的防作弊(反作弊)技术体系,力求将作弊现象减少到最低限度。……为最大限度保证百度指数整体信息公平、公正,对于已经有明确证据证明使用作弊手段来提高排名的关键词,百度指数会对其数据进行很大幅度的降权处理[15]。
以上内容足以说明,百度指数是可以通过“百度营销产品”来提升的。此外,用户可能采用某些技术手段(如编写程序让计算机自动搜索,以生成电子踪迹数据)在前台作弊,百度也能够在后台对数据进行调控。或许正因为此,百度指数在免责声明中称:“百度指数仅能作为您的参考资料,我们不对数据的准确性、正确性、最新性及完整性做任何承诺和保证。因此,您在基于百度指数中的任何内容作出任何决策之前,您应该自行确认所有相关信息的准确性和完整性。”[16]
综上所述,网络搜索数据并不一定是真实、自然、客观、准确的电子踪迹,在数据生成过程中可能被引导、被操纵、被造假、被调控。此外,不同搜索引擎提供商的数据一般来说存在差异。图3和图4是以“云计算”和“人工智能”为关键词的百度指数和搜狗指数趋势,两者存在数量上的差异是正常的(百度的用户更多),但在整体趋势上也存在明显差异,就无法判断谁更准确可靠了。在计算社会科学研究中,基于网络搜索数据得出的结果具有重要参考价值,但要真正作出严谨可靠的科学结论,还必须借助其他研究方法进行交叉论证。
图3 2018年1月—2018年6月以“云计算”与“人工智能”为关键词的百度搜索指数趋势
图4 2018年1月—2018年6月以“云计算”与“人工智能”为关键词的搜狗搜索指数趋势
5 虚拟与现实:电子踪迹大数据的两重性
与网络搜索数据一样,其它种类的电子踪迹数据也存在数据质量问题。例如电子商务、社交媒体、网络约车平台上生成的电子踪迹数据等。
电子商务数据一直受到经济学、管理学研究的高度重视,在微观和宏观两个层面都具有研究价值。在微观层面,企业可以借助电子商务数据了解行业发展趋势、竞争品牌状况、市场对产品的态度、用户的消费偏好与消费习惯等等,从而将传统的专家决策转变为基于数据分析的“慧眼决策”。在宏观层面,电子商务数据可以用于分析经济运行状况,例如电子商务数据已经成为CPI(消费价格指数)调查与预测的一种新数据源。它最突出的优势是时效性强,在CPI预测中格外受青睐。
电子商务数据也是造假情况最为严重的数据。例如,淘宝作为中国最大电商交易平台,一直高度重视其数据的价值,但屡禁不止的造假行为大大损害了数据的信度。由于网店的浏览量、销量和好评率等电子踪迹数据是客户作出购买决策的重要参考,提高这些数据就可能提高销量,所以不少商家采用刷单的方法造假。据报道,电商领域的现状是“凡是你能想到有交易评价的线上平台都存在刷单”。刷单已经成为一个灰色行业,为了让刷出来的单看起来像真的,刷单公司还采取“空包快递”等方法,生成完整的物流信息。阿里巴巴是一个以大数据为基底的公司,搜索、广告等都是基于大数据的深度分析。大数据的基础是丰富可靠的数据,而刷单让数据变得不可靠,阿里巴巴的大数据和分析基底也不同程度地被污染。马云曾在内部会议中将炒信定义为三大“毒瘤”之一,要求零容忍。为此,阿里巴巴成立了“炒信特战队”,专门清查平台上的刷单、炒信行为:2015年,查处关停了2.9万家有严重造假行为的店铺;2016年,一个月内有22万多个卖家因为涉嫌刷单受到处罚,其中有严重刷单行为的6 000多个卖家被封店。阿里在对虚假交易的防控、识别和处置上,花费了大量人力、财力,投入数亿元资金巩固、升级整个防控体系。这种监控、打击力度不可谓不强,但在利益的驱使下,刷单者“前赴后继”,直至今日,“炒信特战队”与刷单商家的战争仍在继续[17]。
互联网/移动互联网有“第四媒体”之称,突破时空限制的强大传播能力,使其公众影响力日渐增强。在这种情况下,被认为最有助于人们自由表达的社交媒体,也在一定程度上成为了出于某种目的的工具,数据的“自然发生性”也被大大削弱。这一状况在政治领域表现得最为突出,随着互联网对政治活动影响力的日益增强,传统的参与行为逐步为鼠标点击行为所替代,支持、反对的程度被认为可由点击、阅读与转发数来衡量[18]。由此,这些电子踪迹数据日渐成为重要的政治资产,这就无法避免出于政治目的的数据操纵。《卫报》曾曝光美国军方授权一家公司开发一款能让其悄无声息地操控社交媒体的软件,该款软件可让一名军方人员操控10个伪装成各国人士的社交媒体账号[19]。韩国国家情报院也承认曾组建“网络水军”,帮助朴槿惠赢得选举。这些在专业机构的精心策划下生成的社交媒体电子踪迹,显然不会是“自然发生性”数据。
除了政治价值之外,有些社交媒体上生成的电子踪迹还具有商业价值,企业也可能雇佣“商业水军”来达到营销目的。已有学者指出,大数据将政府与企业决策过程中的公众角色不断弱化,取而代之的则是数据化的“幻影公众”[20]。因此,社交媒体数据中既有真实、自然的行为踪迹,也暗藏着权力斗争、商业利益等方面的较量。其他种类的电子踪迹数据也大多存在类似问题,如网约车平台一度宣称可以提供真实可靠的城市出行数据,但很快就出现了大量为骗取平台补贴的刷单现象。
6 结语
电子踪迹数据的质量取决于网络信息空间是否真实准确地反映了现实社会空间的状况。与现实世界对应,互联网被称为“虚拟世界”。有观点认为,“虚拟世界”既独立于现实世界,又与现实世界有联系,其实这还没有阐明其本质。网络空间是没有实物的信息空间,它一方面记录了现实社会空间的某些(而不是全部)状态,另一方面作为一种新型经济模式和新型社会文化生活的平台,它也是现实社会空间的组成部分。前者可以称为记录空间,后者则是新型的行动空间。例如,个人行为的时空轨迹被物联网设备记录,属于现实社会空间的状态被记录于网络信息空间;而个人在社交媒体上与他人讨论问题,则是利用新的平台交流信息、知识、思想和情感,本质上仍然属于一种现实社会活动。
作为现实社会空间的组成部分,网络信息空间具有工具性特征,亦即它可以被用作达到某种现实目的的工具。三大网络的日益普及,以及人们对网络数据价值的日益重视,使利用数据来达到政治、经济、社会、心理等方面的目的成为可能。因此,“虚拟世界”的工具性特征越来越强,越来越多地与现实世界的利益产生关联。
在社会科学研究所采用的众多电子踪迹数据中,有些原始数据质量很高,如物联网中用摄像头采集的道路交通流量数据;有些数据则充满虚假错误信息,尤其是互联网/移动互联网中通过人机互动产生的数据。因此,社会科学研究者在使用这些数据时,一定要对数据生成、采集、存储、分析、挖掘的方式与过程有全面的了解,并在此基础上准确辨识各种数据的本质与特征;了解复杂的计算机算法,审慎考量数据处理的精度。只有这样,才能在研究过程中避开陷阱,更好地把新数据、大数据的价值发挥出来[21]。从某种意义上说,对数据质量的把控将决定计算社会科学的未来。