如何成为掌控大数据的“猎人海力布”
2019-06-15蔡运磊
蔡运磊
笔者小时候读过一篇童话《猎人海力布》,故事说,海力布从龙王那里获得了可以听懂飞禽走兽语言的宝石后,打的猎物就更多了。“人有人言,兽有兽语”,在信息大爆炸的今天,如何从海量的信息中获得有价值的东西、摸索出规律来呢?关键在于大数据。
大数据并非现代文明的产物。《吕氏春秋》记载,东郭牙发现齐桓公口型“呿而不唫”,成功判断出齐桓公“所言者‘莒也”,由此将齐桓公和管仲谋划讨伐莒国的事泄露了出去。如果缺乏足以观察到规律的大数据,东郭牙从何发现齐桓公的军事机密呢?!
马陵之战中,孙膑抓住对手庞涓善于进行数据分析的特点,有意“使齐军入魏地为十万灶,明日为五万灶,又明日为三万灶”,反其道而用之,终对庞涓成功实施诱杀。
1948年辽沈战役打响后,林彪正是凭借对在胡家窝棚缴获的短枪与长枪的比例、缴获和击毁的小车与大车的比例、俘虏和击毙的军官与士兵的比例比其他战斗略高的大数据分析,才确定了廖耀湘的兵团指挥所。
需要克服“大数据病”
数据是客观的,但人是主观的生物。面对大数据,很多人甚至专业的分析师也会犯主观错误,甚至被数据迷惑,被数据牵着鼻子走。
富兰克林·罗斯福是美国历史上唯一连任四届的总统。1936年罗斯福想竞选第二任总统时,许多人预测罗斯福很难如愿。大名鼎鼎的《文学文摘》杂志,此前几次对总统选举结果的预测都成功了,如今它又如法炮制,搞了个240万人的调查统计,具体方式就是在杂志里夹上关于总统选举的调查问卷,然后收集反馈。正是根据这个结果,《文学文摘》宣布兰登将赢得大选。
当时有个年轻人叫盖洛普,其预测结果刚好跟《文学文摘》相反。但他财不大气不粗,只访问调查了5000人。基于对这5000人的调查,盖洛普预测罗斯福连任,结果应验。盖洛普也由此名声大噪,并成立了一家民意调查公司—盖洛普咨询公司。
为什么会这样?其实很简单,《文学文摘》调查的240万个用户,家境一般都较好。也就是说,它调查的主要群体,其实相当单一。但盖洛普就完全不同了,他尽可能使抽样调查符合当时的选民结构。
中国人民大学统计与大数据研究院副院长朱利平认为,数据分析离不开两个基本概念:相关与因果。人们常常混淆这两个概念,常会把相关关系误以为是因果关系。这就是“大数据病”的根源。
比如,我们看到每年冰淇淋销量增加的同时,各地不幸溺亡的人数也在增加。二者能否构成因果关系呢?常识告诉我们,肯定不能。二者只是相关关系(都与气温升高有关)。
约500年前,丹麦天文学家第谷连续20年观察多颗行星的运动轨迹,在记录、分析了海量数据后,依然未能取得成果。后来,一个叫开普勒的人决定另辟蹊径:既然地球每隔365天会回到同一位置,如果把地球位置固定,再分析其他行星与地球的相对位置,是否就能成功得出其他行星的运行轨迹呢?
果不其然,他发现如果地球位置不变,那么其他行星的20年运行轨迹画出后,显示它们都是围着太阳转的,并且运行轨迹都是椭圆形。开普勒就此发现了行星运动规律。
由此可见,数据量大不一定就代表价值高,只有收集来的数据质量好、有代表性,才有可能取得研究成果。
扑面而来的“数字压力”
大数据正在完善我们的视听世界。不久前,古装言情剧《东宫》第十集中,女主和男主相继跳下忘川,形成首个剧情高峰。分析师对观众尤其是年轻观众的反馈进行大数据分析后,认为“跳忘川”的戏份没配BGM(背景音乐)太可惜,于是立马联系片方,加上了网友们最爱的插曲作为背景乐。就为这段音乐,不少观众甚至重刷了这一集。
据《人民日报》报道,到2018年年底,我国数字经济规模达到31万亿元,占GDP的1/3。全球IT研究与咨询公司权威机构Gartner预计,2020年中国产生的数据量将是2013年的20倍。
万物有利有弊,大数据亦不例外。
2019年5月27日,2019年中國国际大数据产业博览会贵州省贵阳市开幕
2018年,个人信息泄露事件接连发生:单单6月,视频网站AcFun对外宣称900万条用户数据外泄,招聘网站“前程无忧”的195万条用户求职简历泄露,圆通快递10亿条快递数据被售卖。而在7-9月,又传出顺丰快递3亿用户数据被兜售,华住旗下酒店5亿条客户开房数据被出售,万豪集团5亿名客人的信息被泄露……
最近被曝光的一份高达41GB的暗网中心交易数据文件,更是包含了14亿用户的用户名及密码,可能是迄今为止最大规模的数据泄漏事件。
这些个人信息成了明码标价、公开兜售的商品,也意味着每一个个体将因此成为广告、营销人员乃至不法分子的目标与猎物。
今年“3·15”的热门话题之一,是“疯狂的营销电话”。北京市消协发布的调查结果显示,56.92%的被调查者表示,有过被大数据“杀熟”的经历。有人说,全世界的企业可分为两种:一种是数据已泄露的企业,一种是将要发生数据泄露的企业。
童话里的海力布,掌握并成功分析了动物们的“大数据”,但他一泄密,就变成了坚硬的石头。在5月末“2019中国国际大数据产业博览会”现场,我充分感受到了扑面而来的“数字压力”。
论坛内外探讨的“数字压力”,是如何突破大数据时代各种技术瓶颈的压力,是担心在新一代信息技术蓬勃发展中“掉队”的压力,是急切地想抢抓数字化、网络化、智能化发展机遇的压力,更是直面大数据时代法律、安全、政府治理等各方面挑战的压力。
56.92%的被调查者表示,有过被大数据“杀熟”的经历。
我们既要充分利用大数据的“矛”,也要制好防范大数据泄密的“盾”。2015年图灵奖获得者惠特菲尔德·迪菲认为,目前世界公认的解决大数据安全问题的最好办法是密码学,即对数据进行一定程度的加密,即使偷听者拦截到信息,如果没有密钥也无法破解,无法了解信息的具体内容。
他认为,数据量越大,安全保障的重要性就越大。比如大数据赋能的道路网络管理和自动驾驶,可以显著提高生活质量,但如果安全问题没解决好,或遭遇恶意攻击,那将十分危险。
其实,大数据本身是可以帮助我们做好信息安全工作的。如在大数据场景中,我们可以根据用户的访问行为,判断他是否为异常用户,可及时跟踪、判断其意图,从而提前预警,防患于未然。
英国数学家托马斯·克伦普在《数字人类学》一书中指出,数据的本质是人,分析数据就是在分析人类族群自身。对公共部门和企业来说,在确保数据安全的前提下,将数据转化为服务和产品,才能更加准确地对接人们的需求和期待,从而让数据更好地服务人类社会。
在印度教中,宇宙由梵天睁眼之看产生;在佛教和耆那教中,这“看”应是来自佛陀和大雄的智慧之眼。人的六根所感是划了一个范围的,宇宙的呈现也因人之感而有一个范围。一人对宇宙不断地感,就形成了此人的世界;更多人不断地感,就形成了大数据,形成了世界。
依据《人类简史》的逻辑,大数据也可被认为是人类创造的“虚拟共同体”的一部分。当我们依托大数据、对芸芸众生有一个更为精准的表达时,我们也就成为了现代版的“猎人海力布”。