千里马和大数据
2021-05-28岑嵘
岑嵘
春秋时期有个叫孙阳的人,由于他善于相马,人们便称他为伯乐(天界管理马匹的神仙)。有一天,伯乐看到一匹马拉着盐车吃力地行走。当伯乐走近时,马突然昂起头大声嘶鸣,伯乐立即判断出这是一匹世间罕见的千里马。
这个故事很可能不仅仅是传说,而是真实发生的事情,伯乐的相马术,究竟是怎么做到的?它在今天可能有一个更时髦的字眼:大数据。
我们先说一个当代伯乐的故事。
2013年夏天,纽约东部一家公司照例要拍卖一些马,这次拍卖会总共有152匹周岁马要拍卖。在这些马中,有一匹红褐色的马,它比一般的马体型大些,有着黑色的鬃毛,因为它还没有名字,人们便用85号来指代它。
85号的主人是埃及啤酒大亨艾哈迈德·扎耶特,他来到纽约的目的是想卖掉这匹马,同时再买几匹。85号的外观有一些问题,例如它的脚踝处有一些划痕,一些买家担心它可能受过伤。
和所有富有的马主一样,扎耶特聘请了专家团队来帮助他选马。不过这次他聘请的是一家不知名的小公司,公司的负责人杰夫·塞德不是一个传统的赛马界行家,而是一个毕业于哈佛大学的数据怪才。
塞德的团队仔细研究了所有将要拍卖的马匹,最后给出了一个建议:绝对不能卖掉85号马。塞德说:就算卖掉你的房子,也别卖掉这匹马。85号不但是这次拍卖中最棒的马,还是全年拍卖的一万匹马中最好的,甚至还可能是十年中遇到的最好的马。
在塞德的眼中,85号就是传说中的千里马。
扎耶特听从了塞德的建议,还给85号取了一个响亮的名字“美国法老王”。
事實证明塞德没有看错。18个月后,85号成了30年来首个国际赛马大赛的三冠王。
塞德究竟如何成为当代的伯乐呢?他和传统的相马方式不同,他只对数据感兴趣,他测量了赛马的各种属性,分析其中哪些与它们的表现相关。
他曾经测量过马的鼻孔大小,给马做心电图,检查它们的心脏,还测量马腿的肌肉体积。总之,塞德对马的一切数据都感兴趣。
那么发现85号是神骏的终极秘密又是什么?塞德并没有隐瞒,他说:赛马的左心室越大,它在比赛中的成绩越好。85号马的所有重要器官,包括心脏和脾脏都大得异乎寻常。一匹马如果单单左心室很大,其他器官却很小,很可能是患有疾病的征兆,而85号所有的关键器官都高于平均水平,左心室更是超大,由此塞德断定,85号是数十年难遇,百万中挑一的好马。
春秋时期的伯乐可能同样通过类似的数据技术来挑选千里马,而这个大数据就是他的个人经验。伯乐一定观察过成千上万匹马,他一定比较过所有良马的外观、毛色、步态、嘶鸣,各种数据都存在他的心中,所以当他遇到那匹拉盐车的马,看到它的步态,观察它的体型,细听它的嘶鸣,立马和自己记忆中庞大的数据库进行比对,由此断定眼前这匹就是千里马。