大数据体验时
2016-01-06周自恒
周自恒
熟悉网上购物的网购党可能都会有这样的体验,当你在网上购买一支笔时,网页上很可能会出现这样的提示:
“购买这支笔的顾客,同时还选购了以下笔记本……”
在不经意间,系统竟然洞察了你的潜在需求。
这背后隐藏着的是对无数消费者购买记录的分析和挖掘,而这正是“大数据”的力量。。
最熟悉的陌生人
数据一直在我们身边,古人很早就开始观测并记录日月星辰的运动,指导农业生产。自人类步入信息时代,在数据量呈井喷式爆发性增长的同时,计算机的数据处理速度也同步跟进。即便遇到大量复杂的计算,只要交给由上万台计算机组成的数据计算中心便可轻松应付,这就是大数据在云端实现的“变身”——云计算。
技术的进步让人类能够驾驭更多的数据,而真正让数据变“大”的主动力还是互联网。有了互联网,网站的访问记录变成了数据,微博上的发言变成了数据,百度中搜索的关键词、分享的视频、淘宝的购买记录也都变成了数据。互联网不仅催生出了各类数据,还将原本分散的数据孤岛连接起来,让原本静止的数据流动起来,并实现了“数据”到“大数据”的变身。
直击大数据
2011年,著名咨询公司麦肯锡提出了“大数据(Big Data)”,之后这一概念便迅速席卷全世界。
字节(Byte)是计算机的基本存储单位,但仅Google一天的数据处理量就有100PB之多。100PB有多大?它相当于10万个容量为1TB(1TB=1012字节)的计算机硬盘的容量!如果你认为PB已经是大数据的极限,那你就大错特错了,事实上PB之上还有EB(1018字节)和ZB(1021字节)这些“度量大”的单位。有了它们,再庞大的数据也能对付。
在大数据时代之前,我们所需要处理的大多是电话、交易记录等“有条理”的数据,但现代社会邮件、微博、朋友圈等各类人与人沟通产生的数据、人与机器沟通产生的数据、甚至机器与机器之间交流产生的数据逐步将我们拉入大数据时代,但要想发现这些“杂乱无章”的大数据背后的价值并非易事。
新浪微博上每天会发出大约1亿条微博,相当于平均每分钟发送7万多条。有统计表明,2013年中,机器所产生的互联网流量已经首次超过了人类,搜索引擎的爬虫程序则是最大的贡献者。爬虫程序连续不停地在互联网上抓取网页上的信息并制作成索引,让我们能瞬间在网络上找到我们需要的内容。
容量(Volume)、多样性(Variety)和速度(Velocity)是描述大数据特点的“3V”模型,伴随着信息技术的发展,各种数据如雨后春笋般涌现。
数据记录下的生活“痕迹”
讲了这么多,你一定很想知道生活中到底哪里有大数据的影子,其实大数据早已在不知不觉中深入到生活的各个方面。
每天早上出门之前,小明都要打开手机App,查看一下当天的天气状况。今天App告诉他,空气质量状况良,适宜户外活动,实时天气情况为阴天,多云,可能伴有小雨。
天气预报依赖的就是对大量气象观测数据的处理、建模和计算。在大数据时代,得益于数据分析处理水平的提升,天气预报也越来越准确,甚至还能够提供精确到小时的天气信息以及穿衣、防晒等建议,让我们更合理地安排生活。
下午放学,果然下起了小雨,小明打算打车回家,为了更快捷地打到车,小明想起了手机里的打车App,很快打到了车。
打车App依赖的就是对大量数据的实时处理,它将数十万的乘客和司机通过位置信息实时匹配起来,哪里打车的人多,系统就引导司机去哪里接客,大大提高了城市的交通效率。
晚饭后,小明最近正在学习《粒子世界探秘》的在线课程,这个课程可不一般,是一个有几百个人的教学大课堂。完成学习后,他上交了自己的作业,不一会儿,他收到了请他为其他几个同学作业评分的邮件,他知道,自己的作业也会被分配给另外几个同学评分。
慕课(MOOC,Massive Open Online Courses)是一种大规模的在线学习模式,在虚拟课堂上,数百万个学生可以同时上课和互动。此外,课程组织者还可以根据学生的学习进度和掌握情况等这些大数据对课程进行调整和优化,这一切都比传统教育来得更精准、快速,并且更具针对性。
20多年来,各个领域的数据量加速增长,大数据在不知不觉中已经全面“入侵”我们的生活,改变我们的生活,也难怪会有“数据就是第二石油”的说法。
你的隐私安全吗
2013年,棱镜门事件引发了人们对数据安全问题的热议。大数据时代,上网浏览、邮件、信息、信用卡消费、网上购物、交通出行等这些所有的行为都包含了很多敏感的个人信息。隐私安全是大数据时代不可回避的问题之一,而大数据时代的很多应用正是建立在汇聚和共享个人数据的基础之上的,例如你在选购时可以参考别人的购物记录和评价,商家甚至可以依据你的浏览记录推荐更为符合你个人喜好的商品。换句话说,大数据时代也有自己的等价交换法则——付出了隐私,相反你却可能享受到更贴心、更方便的服务。
在隐私保护上,美国、欧盟等发达国家都已经在积极制定相关的法律。我国也于2012年10月成立了中国通信学会大数据专家委员会。相信随着法律体系的不断完善,大数据潜力的挖掘与个人隐私之间的平衡一定能够实现。
大数据未来式
2014年巴西世界杯,当你坐在电视机前看球时,Google和微软的技术团队却在背后开展了一场利用大数据来预测比赛结果的较量。在淘汰赛阶段总共16场比赛中,微软预测正确率达15场,Google预测正确率达14场,两家的成绩可以说是旗鼓相当,而这正是大数据为人工智能发展注入的新动力。
在自然语言处理领域,现在计算机可以通过对互联网上海量语言数据的分析和学习,在一瞬间将一篇文章翻译成几十种语言,并且大数据和机器语言的运用还让语音识别变得更加准确和高效。在Skype软件中,实时对话翻译这一技术已经初具雏形,相信在不久的将来,我们就可以和老外无障碍地打电话聊天了。
随着地理、交通、能源等基础信息的完善,大数据也让城市变得更加智能。交通数据的实时处理和共享不仅能够帮助管理部门更好地进行调度,大大缓解交通拥堵,便捷出行,还能够在未来帮助汽车实现无人自动驾驶。
数据是人类的宝贵财富,通过分析和学习大数据,计算机会变得更“聪明”。2015年2月,国家工信部正式批准大数据产业发展集聚区落户贵州,也由此正式拉开了大数据应用的序幕。未来,相信大数据会为我们在通向智能生活的道路上带来更大的变革。
TIPS 1
大数据时代的领军人才
——数据科学家
数据科学家是大数据时代的魔术师,他们能够从看似杂乱无章的数据中发现价值。打车App如何才能为乘客匹配到更多的车,网上商城如何才能为顾客做出更准确的推荐,要解决这些问题都需要数据科学家探索数据中的规律。要成为数据科学家,你需要在数学、统计学、计算机科学等多个领域小有所成,你要做得了科研、编得了程序、画得了图表、写得了报告。当然,数据科学家的身价自然也不菲,现在全球市场上的数据科学家十分抢手,对大数据感兴趣的同学们,现在就要开始努力了哦。
TIPS 2
大数据还能预测什么?
美国总统大选!
2012年美国总统大选,一位年轻的统计学家奈特·希尔福运用统计学和大数据预测了美国各州的选举结果,并给出了“奥巴马获胜的概率为90.9%”的论断。事实证明,他的预测完全正确,而这不仅是奈特的胜利,也是大数据的胜利。2016年又是美国大选年,据报道称Google的预测认为希拉里将当选,大数据到底能不能继续发威,让我们拭目以待。