神通大数据
2019-09-10大可
大可
世界排名第一的中国围棋选手柯洁,与阿尔法狗大战三个回合,三战全输。在人类棋手面前自信满满的柯洁,落下了眼泪。
面对网上千奇百怪的图画“试题”,不到半分钟,小诗机就创作出一首诗,什么“雨引鸟声过路上,日移花影到窗边。赖有公园夏风地,欣喜玩沙遍河山。”什么“啼鸟古藤古清壁,树荫花草砖墙旁。约公快活重来此,延纳北风尽一觞。” 哇哇哇,这不跟我们背的唐诗一个套路吗?
这些机器人也太逆天了吧?
呵呵,只不过是大数据帮了它们的忙!
小链接:
阿尔法狗(Alpha Go)的“狗”是对英文“Go”的音譯,而“Go”在英文中不仅仅有走、离开等意思,还表示“围棋”呢!
到处可见
大数据的作用到处可见。
十字路口的红绿灯,多久转换一次能让道路更顺畅?这要统计有多少车、多少行人经过路口等数据。设置合理的红绿灯,对降低交通事故也有很大作用,这要统计人们的开车习惯、忍耐等待过马路的最长时间等。
公共场所的警力安排,则要统计不同时段的人流,如工作日、双休日、各类国定假等。没看到“热门”假期连武警都在维持秩序吗?
小诗机是“消化”了几百位诗人的作品、跟诗词有关的语文和景物知识、图片识别方法等大量数据,才会“看图写诗”。
小链接:警察“先知”
美国某小城的地图,会根据“贼情”不断画出贼们出没的动向,在与小偷的较中,警察屡战屡胜。这也是托了大数据的福。从大量信息中提炼出的数据,让犯罪行为无所遁形:窃贼通常出没的社区、最有可能犯罪的时间段、犯罪的类型……
4步大数据
从信息到数据不是一蹴而就,有人说有10个步骤,有人说要8种方法。我们浮光掠影地看一看。
首先是从信息中采集数据。
自从有了互联网,人人都可发信息:公众号、博客、微信、社交网络聊天……这就是大数据的生长土壤。大数据讲究的是数据的全体性、完整性,而不是以前常用的报刊摘录、抽样调查,这样的数据才更有用。比如网上商城会持续收集人们的网购记录、聊天记录等。这需要有极速容纳信息的设施。有些网上商城在“购物节”网络瘫痪,影响了数据采集。
海量的信息有的有价值,有的是垃圾,让信息变成有用的数据,是第2步要做的事:将信息迅速分门别类归入便于查询的数据库,同时“清洗”掉无用信息。想象一下中药柜:各种药材被收入各自的抽屉,杂质则被抛弃。药柜设计要满足这样的需要:可随时根据药方从抽屉中取材配药。当然,数据库构成要复杂多啦。
接下来是分析、统计数据。比如,某类人的购买热点,什么样的优惠会增强网购,某种商品购买量的变化……优秀的分析、统计工具,会做到数据实时更新、秒级响应。
最后一步是对数据的挖掘应用。比如对于“网红”商品,要挖掘与“网红”原因、购买人群的年龄、季节等之间的关系。这要经过大量的数据计算,才能得出结论。而根据结论及时调整,是网上商城成功的秘诀之一。
大数据与学习
全班同学听同一位老师讲课,考同样的卷子。分数高被认为聪明、努力,分数低的简直与“差生”画上等号。你再不服气,说自己多努力也没用。
别泄气,大数据出招了。
有家公司建立的学习平台,无论你是花几分钟还是几个小时在上面,它都会跟踪收集信息,并通过答题情况来分析用户的学习方式,统计大多数人会对哪些问题困惑,哪类人群容易犯某些错误等。比如,他们发现说西班牙语的人要学好英语,有些词应该晚点学,于是调整了课程。
这样看来,分数低很可能并不是你不努力,而是学习方式不对。当有了可靠的大数据依据后,教育方法将会有所改变。
辉煌的明天
早期的阿尔法狗“吃”了人类几百万个棋谱,用获得的大量数据进行训练,掌握了各种最有胜率的棋招。
后来的阿尔法狗抛弃了人类棋谱,只学习围棋规则,然后自己跟自己下,凭借人类望尘莫及的运算速度,迅速积累了大量棋谱数据。随后,阿尔法狗就像一个真正的人类棋手那样,运用多种“深度学习”模式,一边抛弃那些明显的“蠢招儿”,一边推演、判断局势,拥有了最好的、甚至人类从未想到过的棋路,直逼得柯洁潸然泪下。
发现没有,大数据进入了新旅程:数据库不依赖信息搜集,而是来源于“机器学习”。超越了人类的信息提供,大数据是否将走向更快、更多和更强?