用大数据寻找真爱
2014-12-29张明萌

麦肯锡咨询公司最早提出“大数据”时代来临之时,人们沉浸在海量数据挖掘与应用带来的生产盈余中,没人想到能用它来寻找真爱。35岁的克里斯·麦克金雷(Chris Mckinley)做到了。
这位加利福尼亚大学洛杉矶分校的数学系博士像其他4000万美国单身年轻人一样,一直试图通过OkCupid(美国知名婚恋交友网站)等社交网站寻找理想的约会对象。
在 OkCupid 里,每个用户需回答350道题,问题随机选取,包含政治、宗教、爱情观等。系统会根据问题的答案自动计算用户间的匹配程度并予以推荐。克里斯分到了一些冷门问题,只有不到100位姑娘勉强达到90%的匹配度。
面对满屏代码及空空如也的约会日程表,他想拿出专业办法搞定这一难题。他决定通过抽样与统计,知道他喜欢的姑娘们在意哪些问题,再根据这些问题建立一份新档案,这样,全洛杉矶适合他的姑娘就都能找到了。
克里斯不是数学宅男。他毕业于明德学院中文系,曾在纽约世贸中心从事翻译工作,“9·11”那天,他因在家睡觉躲过一劫。之后他应邀加入大名鼎鼎的MIT-21点记牌团队的一个分部,开始了职业赌徒生涯。在算牌的日子里,他发现自己为数学倾倒,毅然转投加利福尼亚大学洛杉矶分校,成为数学系博士生。
现在,他的满腔热情被这个叫OkCupid的网站再次唤醒了。
为了获取资料,克里斯申请了12个OkCupid账户,编了一个基于Python的脚本。利用这12个账户,该脚本自动搜索25至45岁的女性,访问她们的主页,获取各种数据。在收集了一千个左右的样本之后,程序因读取信息过快被OkCupid的防御系统屏蔽。克里斯便修改自己的程序,通过模拟朋友的点击率和打字速度来欺骗OkCupid。
仅仅3周,他获取了600万个问题和全国两万名女性的回答数据。他利用贝尔实验室的K-Modes算法,将姑娘们自动分为7组,随后缩小范围,用同样的方式给一个月内在洛杉矶登录过OKCupid的5000名女性分了类。两队人马脱颖而出:A组的姑娘二十出头,特立独行,热爱音乐和艺术。B组的姑娘年龄稍长,从事设计类工作。
在计算机的帮助下,克里斯了解了这两拨姑娘的喜好,对此精挑细选了500个问题,如实填写了答案。他借此创建了两份最终档案,并针对性地附上照片:A组姑娘看到的他正在攀岩,而在B组眼中,他正忧郁地弹着吉他。
当他再次运行OkCupid配对搜索时,结果惊人:99% 匹配的姑娘有好多页,拉到第1万个,匹配度仍高达 90%。
为引起注意,他又编写了一套程序自动访问所有的高匹配度页面,并以年龄为周期;周一访问41岁女性,周二访问40岁女性……回报很丰厚:他的主页有时一天有400次的回访量,信息也开始不断涌入。
A组的网页设计师谢拉达成了他的首位约会对象,他们在咖啡馆共进午餐,约会成了一次学术交流会。第二次约会是和一名网站编辑,来自 B 组。他幻想着两人会在公园湖畔漫步,可姑娘一直吟诗,让他无所适从。第三次约会是和一名学编剧的在校生,他们约在了酒吧,结果他大醉一场,怎么回的家都不知道。
一次次约会换来一次次失望。夏季结束时,他约会了近百次,只有3个姑娘给了他第二次机会,仅有一个约会了3次。
克里斯开始怀疑自己的人品及程序。可就在这时,28岁的克丽丝丁主动跟他打招呼。两人同校,她是美术专业的硕士生,匹配度91%。他们在学校花园碰了头,又一起在寿司店吃了饭,相谈甚欢,彼此留下深刻印象。
这是克里斯的第88次约会,很快又成了第89次,两周后,两人都暂停了 OkCupid 的账户。
“我认为我和其他人一样,只是多了一点算法思维、大数据和机器学习视野。”克里斯总结。
现在,他已经拿到博士学位,在大学里做授课讲师。克丽丝丁远赴卡塔尔学习艺术。一天,视频聊天时,克里斯拿出一枚钻戒,她点头了。克里斯觉得,自己需要再编个程序,让计算机帮他们挑个黄道吉日。
