大数据,给你大视野
2015-07-01陈永东
陈永东
2014年春运期间,百度公司推出了“百度迁徙”项目,其全称是“百度地图春运人口迁徙大数据”。这一大数据可视化项目可以提供人口迁徙、实时航班、机场热度及车站热度等四大板块。通过百度迁徙动态图,我们能直观地了解迁入人口的来源和迁出人口的去向。
这个功能利用的是百度地图的LBS(基于位置的服务)大数据技术,并采用动态可视化呈现方式。它不仅可以为政府部门科学决策提供新的观察视角和方法工具,同时还可以为公众提供近距离接触大数据的机会。
无独有偶。2014年岁末,360浏览器也利用大数据平台推出了“中国人还乡地图”。2015年春节期间,360安全中心还利用大数据推出了“中国网络骗子地图”,人们可据此查看全国各地的恶意网站拦截次数及骚扰电话排行榜。
还有更神奇的故事。一次,美国明尼苏达州一家名为塔吉特的大卖场被一位中年男子投诉,他指控塔吉特乱弹琴,居然将婴儿产品优惠券寄给他还是高中生的女儿。但没多久,该男子却主动致电道歉,因为经他逼问,女儿承认自己确实怀孕了。其实,塔吉特百货之所以能够如此精准地选定这名高中生投送特需商品广告,靠的就是大数据分析。塔吉特的数据分析团队在查看准妈妈们的消费记录之后,找出了20多种关联物,通过这些关联物对顾客进行“怀孕趋势”预测,并寄送相应的优惠券,为消费推波助澜。
实际上,看似神秘的大数据,可能你平时就曾遇到过,只不过你可能不知道那就是大数据的应用。例如,你可能刚在某个购物网站查找或购买了某件商品,然后访问另一个网页时,就有相关的商品广告推送给你。这被称为RTB(Real Time Bidding,实时竞标)广告,其背后就是由大数据支撑的。
大数据的定义与特点
有人问:究竟什么是大数据?美国咨询界的翘楚麦肯锡咨询公司对大数据的定义是:“大数据”(Big Data)是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集合。高德纳咨询公司对大数据的定义是:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
“信息资产”的提法,将大数据提升到一个高度,也意味着大数据是一座“宝藏”。鉴于大数据应用的巨大潜力,目前已经出现了“数据科学”(Data Science)这一研究分支。甚至,阿里巴巴等公司提出要由IT转向DT(Data Technology)。
其实,多数人对于大数据4V特点中的“Value”,是有理解偏差的。Value指的不是大数据价值高,而是大数据中有价值的信息比例(即密度)并不高。想要搜寻有效信息犹如大海捞针,沙里淘金。
此外,大数据颠覆了传统的统计工作。过去统计中常用抽样调查法,而大数据则天生就是全样数据分析。
大数据的魅力何在
为何全世界都这么关注大数据?它主要的魅力源于其广泛的用途与巨大的价值,既有商业用途,又有城市服务价值,甚至可以预防自然灾害及犯罪行为。
2015年央视“3·15晚会”上曾经曝光不少汽车4S店“小病大修”。其实,如果充分利用大数据,加上提高服务意识,这一问题就可能比较好地解决,甚至大数据还可以救我们一命。方法是在你的汽车各主要部件上安装相应的芯片或传感器,通过这些遍布全车的传感器就可以收集车辆运行信息并形成基于大数据的预测性分析系统。这样,在你的汽车关键部件发生问题之前,它们就会提前向你或4S店或汽车制造商报警。此举不仅可以避免店大欺客,而且还对保护驾乘者的生命安全大有裨益。
事实上,美国的UPS快递公司早在2000年就利用这种预测性分析系统来检测其遍布全美的6万多辆车的实时车况,以便及时进行防御性修理,此举大大降低了维修成本。
更有趣的是,大数据还曾预测过美国总统大选结果,以及奥斯卡各个奖项的归属。在2012年美国总统选举中,微软研究院的David Rothschild就曾使用大数据模型,准确预测了美国51个选区中50个地区的投票结果,准确率高达98%。之后,他又通过大数据分析,对第85届奥斯卡各奖项的归属进行了预测,除误报最佳导演得主外,其他奖项全部命中。
大数据的商业用途
大数据的商业用途广泛,因为它可以帮助商家更好地了解用户的兴趣与消费习惯,从而达到投其所好或有效改善服务的目的。
文中之前提到的RTB广告,就是建立在利用大数据了解用户购买需求前提下的一种精准信息推送。为了达到这种精准,通常需要至少三方平台角色:一是SSP(Supply Side Platform,服务方平台,指可提供RTB广告放置位置的网站);二是DSP(Demand Side Platform,需求方平台,指接洽RTB广告投放商的机构);三是AD Exchange(广告交换中心)。
当用户登录SSP一类的网站时,DSP及AD Exchange立刻就知道谁登录了,然后DSP就开始从AD Exchange那里提取用户的基本信息及动态购买习惯。如果你喜欢购买体育用品,那么就让若干个体育用品广告投放商进行实时自动竞标,谁出的广告费用多,谁的广告就会出现在你登录的网站上。这一切只发生在100~200毫秒的时间里,所以你根本感觉不出来幕后这一套复杂的运行过程。不同的人登录同一个网站,看到的可能是不同的广告,因为他们的兴趣与购买习惯可能大不同。
如果能在产品生产之前就了解潜在用户的主要特征,以及他们对产品的期待,那么商家就可以投其所好。例如,Netflix在投拍《纸牌屋》之前,即通过大数据分析掌握了潜在观众最喜欢的导演与演员,结果果然捕获了观众的心。
当然,也有人担心商家、广告商及RTB广告的各方会不会侵犯用户的隐私。的确,这是一个问题,目前已经引起各方的重视,相关的规范正在行业内部制定与实施中。
大数据已经在许多行业中大行其道,也有更多的行业意识到大数据的巨大潜力。许多过去没想到或无法得到的指标或规律,都可能会在大数据的支撑下被发现。大数据大有可为!