量化人生与数据谎言
2021-12-11freelee
freelee
约莫一两个世纪前,数据相当于弄虚作假的代名词。当时西方流行一句谚语:“谎言有三种:谎言、该死的谎言,以及数据。”
过去人们不信任数据,一方面是不信任数据源—数据收集者未必能足够可靠地收集到充足数据;另一方面是不信任数据处理—数据分析者未必能毫无瑕疵地秉公处理数据。数学家尝试解决这个问题,他们提出样本量、标准差、置信空间等一系列概念,指出怎样的数据值得借鉴、怎样的数据纯属胡扯。
如今到了“大数据”时代,数据不但洗脱污名,甚至被追捧为一种洞察真相的方式。消费者用各样生成数据的数码产品记录自己的生活,自认为更好地掌握了自己的状态。企业则每时每刻都在储存业务数据,并通过数据分析寻找更有利于经营的方案。
久而久之,越来越多的人步入“量化人生”:他们定期获取数码产品推送的数据汇总结果,并为下一阶段的数据表现设立目标,从而提升生活质量。而数码产品开发者利用从数据中获取的信息,将他们塑造成“更理想”的用户。
这种被量化的人生,真的让大家都过得更好了吗?
天然失真的数据源
“大数据”之所以可靠,要基于两种假设。第一,有程序、摄像头、监视器等“不带感情”的工具收集原始数据,避免原始数据被数据收集者的主观操作污染。这解决了“不信任数据源”的问题。第二,数据量越大,越能反映出真实的趋势,这解决了小量样本准确还原事实的概率偏低的问题。
可是,各类数据研究机构都会开宗明义:大数据的数据源,天然存在失真可能。
即使收集数据的工具没有缺陷,依然有各种各样的麻烦影响数据源的准确度。比较典型的问题是“数据同步”。工具收集到数据后,还需要将数据传送到一个特定的空间汇总,将其整合成原始的大数据源。然而受网络质量等因素影响,数据往往未必能第一时间传送到汇总空间,甚至不能全部传送到汇总空间。
对于个人用户来说,这种问题比较常见。例如喜欢跑步的人使用跑步软件,记录个人的跑步时间、距离、速度。这类软件往往依赖GPS持续准确定位,来完整记录跑者的运动过程。假如这期间出现网络问题,跑者可能会发现自己只跑了10公里,软件却提示跑了15公里。然后软件计算出来的跑者配速自然也是错误的,速度比平日快了一半。
“自动化”恰恰是数据处理行业希望解决数据源不可靠问题的主要思路。
车况监控软件记录行车数据
又如,一位车主喜欢通过车况监控软件定时查阅自己的驾驶油耗。而一旦出现数据同步滞后,车主可能会发现自己周一驾驶的里程被算到周二。这样无论周一周二的油耗结果都不准确。
大数据的支持者会指出,只要数据记录的次数足够多,偶尔几次的数据源失真并不会影响数据分析结果的可靠性。譬如,对于发现油耗记录故障的车主来说,尽管周一周二的单日油耗错了,但是他整周的平均油耗仍然可能是正确的。
而一个与企业相关的例子说明,数据源失真未必只是“偶然”情况。
2021年10月,游戏公司艺电体育公布旗下足球游戏《FIFA 22》的玩家大数据,指出游戏上架的22天内玩家总共踢了21亿场、46万亿分钟比赛。然而几天后,艺电体育将数据修改为11亿场、123亿分钟比赛。前后两组数据的比赛场数相差接近一倍,显然说明艺电体育最早使用的数据极不可靠。
用自动化化解数据无效危机
数据源不准确,数据分析的准确度也无从谈起。这对于量化人生的追逐者来说,是个大问题。
每逢年底,国内消费者都会用支付软件来查查自己的年度账单。当消费者感叹“我怎么一年花了那么多錢”时,他们未必是在反思自己的消费习惯,而是真的疑惑究竟自己为什么有能力花这么多钱。
比较典型的场景是,某消费者经常需要用自己的账户帮公司垫支。这位消费者的年度账单,实际上就不是个人账单,而是包括公家支出。在公家支出的干扰下,消费者并不能通过年度账单准确地了解自己的消费习惯,甚至可能因为年收入不够覆盖年度账单所显示的支出数字,而怀疑年度账单的准确度。
假如这位消费者日常使用多款支付软件,其个人的完整消费汇总就更难成型。微信支付的数据不能合并到支付宝的数据,各大银行的APP数据也不互通。唯一让其掌握真实的理财情况的手段,是使用专门的记账软件,但这意味着消费者要自己执行一系列繁琐的数据录入。
上述问题说到底还是数据源问题。用数据管理来研究自己的消费习惯,需要完整的消费记录数据。然而这些数据分散在各类软件中,有时消费者采用现金支付,更连数据记录都没有。消费者需要一个能汇总各类支付手段的工具,组建起可靠的原始数据库,再进行有意义的数据分析。
消费者使用记账软件记录每一笔收入和支出,在数据处理领域,这就是一个人工确保数据源可靠性的过程。而假如有一款记账软件能读取其他支付软件的数据,消费者就能省下不少工夫,这在数据处理领域属于“自动化执行数据准备”。
沉迷机制令用户要么变成“数据的奴隶”,要么被困于数据制造的局限空间。
“自动化”恰恰是数据处理行业希望解决数据源不可靠问题的主要思路。在大数据环境下,手动检视原始数据的问题属于“不可能任务”,因为数据量太过庞大。即使100万条数据中无效率是5%,也要处理多达5万条数据,如果靠人手操作需时几十小时起。
几乎所有的數据处理公司都主张,用自动化工具解放人力。一家叫作“数据梯子”(Data Ladder)的公司这样建议客户,不要让你的数据专家亲自清洗数据,而要让他们使用正确的工具和方法帮你完成数据准备。这些“正确的工具”,主要指数据清洗软件。数据清洗软件通过编程、算法乃至人工智能等方法,对无效数据可能呈现的形式有一定理解,从而能更快地将具有无效特征的数据抓取出来,乃至自动处理。
伦理风险也难忽略
数据处理公司煞费苦心地研究自动化数据准备的方案,归根结底还是相信大数据的洞察意义。可是过度洞察的问题,令量化人生还存在伦理道德风险。
终端用户常常在日常使用的软件中,看到“你的运动量比上个月增加了200%”“你的消费金额排名全国的前1%”之类的评价。这些评价是软件“沉迷机制”的一部分:通过为用户提供横向或纵向比较排名,吸引用户花更多时间争取更好成绩、更高排名,从而增加软件使用时间。极端的用户会跌入过度运动、过度消费等陷阱,真正变成“为数据而生存”的人。
另一种软件沉迷机制,影响的不仅仅是极端用户,而是大部分用户—算法推荐。各种社交网络、娱乐应用,将这种机制玩得出神入化。一旦算法认为用户对某主题“感兴趣”,就不断推荐相关主题的内容。最终用户看到的都是类似主题的内容,而失去接触其他类型内容的渠道,最终被封锁在所谓的“信息茧房”中。
信息茧房造成信息交流不畅,其危害轻则导致不同茧房的群体互相无谓争执,重则成为谣言传播的温床。令人无奈的是,信息茧房极难打破。甚至有像优兔(YouTube)那样比较极端的机制:假如用户是从推荐页面、推荐栏点进一个新视频,平台会积极推荐相关主题的视频;但假如用户从搜索结果点进新视频,平台推送相关主题的视频的概率低很多。这意味着用户连通过搜索来无意中打破信息茧房的机会,都被剥夺。
沉迷机制令用户要么变成“数据的奴隶”,要么被困于数据制造的局限空间。用数据制造虚假的、片面的信息来控制用户,已非耸人听闻。
早前国内有关外卖平台算法机制的争议,将量化人生的潜在风险表达得更加清晰:企业貌似通过数据洞察了减少送外卖时间的机遇,但实际上外卖员正为此付出健康乃至生命代价,而消费者被提高的期待却没有得到满足,企业也最终陷入风口浪尖。
一个多世纪前,一个叫泰勒的美国人发明了“科学管理”。他大概可以被视为最早的量化人生实践者,通过记录每个工作的步骤及所需时间,设计出尽量提高效率的标准化流程。这本质上还是一个抓取数据源再分析数据的过程。如今“科学管理”被称为“机械管理”,成为“非人性化”的代名词,已被现代管理学抛弃。
大数据设计的量化人生,也会被视为反人性、也会最终被抛弃吗?