职业体育不需要大数据
2014-03-04乔尔·华纳
乔尔·华纳
数据分析是职业体育和大学体育的重要组成部分。在NBA,所有球队都有专业的数据统计员,他们追踪每一名球员的移动,俱乐部老板也会搜集数据,以便为观众提供最佳的体育场馆体验。与过去相比,我们似乎更清楚哪些变量决定胜败。但你有没有想过,体育项目也许并不像人们想象的那样复杂。
艾伦·克劳希特是科罗拉多大学的一位计算机学科教授。前不久,克劳希特以近十年来总数超过4万场大学橄榄球、职业橄榄球、职业冰球和篮球比赛为样本,研究了这些比赛中的每一次得分。结论如何?“与绝大多数人的想法相比,这些体育项目要简单多了。”
克劳希特以分析数据为业,他擅长从复杂混乱的现象中发现简单规律。最近,克劳希特将注意力转向了团队运动,他认为这是一个值得深挖的成熟课题。“我总是不太理解体育数据的统计分析”,他说,“绝大多数分析都专注于球员的各项数据,但这些数据与比赛局势、结果之间的关系却并不稳定”。
在博士生希尔斯·梅里特的帮助下,克劳希特希望改变现状。在给《运动定量分析》杂志的一期投稿中,克劳希特详细阐述了自己的结论:无论是在冰球、橄榄球或篮球比赛中,球队得分节奏均十分稳定。比赛开始阶段,得分率相对较低;当双方度过预热期后,得分率会逐渐上升,并进入稳定期。当比赛接近尾声时,得分率会突然飙升。
这个规律听似稀疏平常,但克劳希特指出,它表明球场上每次得分都是独立的,彼此之间关联性微乎其微。换句话说,他认为球员“手热得发烫”或进攻高潮等说法均属无稽之谈,这些在体育运动中并不存在。连胜纪录?那不过是一连串随机发生的事件罢了。
克劳希特和梅里特还发现了另一个有趣规律。冰球和橄榄球队擅长扩大领先优势,但职业篮球队在比分领先时,表现却相对糟糕。事实上,此结论并非他俩最先做出,宾夕法尼亚大学沃顿商学院教授约纳·伯杰就曾指出,这种现象证明比分落后的球队更努力。但为何这种现象只在篮球比赛中出现?克劳希特解释说,这是因为“篮球比赛得分频率高,球员内心动力之差异很有可能影响双方的得分。在冰球和橄榄球比赛中,得分频率相对较低且更离散,也许球员们充满动力,但将动力转变为得分却十分困难。”
在克劳希特看来,“落后方动力论”很有趣,但他希望看到更多数据。“动力如何量化?我不知道”,克劳希特认为,NBA球队之所以容易失去领先优势,是因为绝大多数教练都会在球队领先时让更优秀的首发球员休息,而这意味着该队得分率将下降。与篮球相比,橄榄球教练极少以这种方式替换球员,冰球队则因为球员轮换过于频繁,很难判断最佳球员入场或离场的规律。
基于对团队运动规律的总结,克劳希特与梅里特耗费3个月时间,联手发明了一套数学模型,用来测试自己的结论是否可靠。他俩利用这套模型预测了数场职业橄榄球、冰球和NBA比赛的结果,准确率惊人——超过很多体育博彩网站的赛前预测,甚至接近在线博彩网站Bovada的准确率。
克劳希特相信,其大数据发现对职业球队和赔率制定者都将大有裨益。通过观察各项运动得分规律,教练能够合理调整战术,更好地驾驭比赛局势。但与此同时,他的研究成果也让很多人感到沮丧,因为橄榄球、冰球和篮球的比赛结果和得分规律并没有太大关系。克劳希特写道:“在这几项运动中,球队总是强烈关注如何在短时段内将得分机会最大化。没有证据表明比赛过程中存在任何策略规划——就像在国际象棋或围棋中那样。某种程度而言,球队只会在事情发生后才做出调整。”所有球队都投入了大量时间和金钱研究策略,但按照克劳希特的说法,我们心爱的运动很可能没那么复杂。
《棒球章程》杂志撰稿人、计量历史学者罗素-卡列顿指出,克劳希特的结论与网络漫画《Xkcd》中的一个观点不谋而合:均暗示团队运动乃随机的。不过,他并不认为大数据能摧毁球场内战术的魅力或体育运动的“小数据”。他说:“即便有人跑来告诉我,‘我分析了三项运动,模型准确率达到97%,我亦不会觉得这会对体育运动构成威胁。我兴许会写文章阐述他的理论基础,但到此为止。”
克劳希特则称:“体育运动的得分规律随机性高,有点像硬币投掷,但这对球迷来说是件好事。”这意味着运动项目本身是平衡的,所有球队都或多或少的各具优势。比赛双方胜负取决于小概率事件——诸如球员的致命错误、幸运的比赛暂停,或比赛场馆内观众的欢呼和助威。
“从一名球迷的角度来看,这是最令人兴奋的运动规律”,克劳希特说,“没有什么比不看过程就直接预测出结果更让球迷倒胃口了”。
译,黄一舟