APP下载

一群“臭皮匠”能做出高质量决策吗

2023-11-18王烁

青年文摘 2023年8期
关键词:泰特平均分民调

王烁

绝大多数时候,一群人合起来都会比一个人更有智慧。问题是,每个人天生都知道怎么运用自己的智慧,但群体是个人的集合,而汇聚许多人的智慧,需要方法。

豆瓣上曾经出现过一部2 分电影,99% 以上的评分是一星(豆瓣评分五星制, 五星是10 分,一星是2 分)。導演很生气,说毁了他12 年的心血,但没人同情他。因为观众更相信豆瓣评分,而不是导演自评。这显然更合理。有17022 人打分,你相信17022人,还是相信一个人?

豆瓣评分机制的算法就是平均聚合。原则上就是一人一票,简单平均。这办法虽然简单,但比较靠谱。如果投票者数量足够多,投票相对独立,那么简单平均值的准确度会系统性地超越个体判断。这就是群体智慧的原意。它已经足以战胜绝大多数有专家头衔的评委。

豆瓣的简单平均法简洁但不完美。比如,假设一部电影只有两个人打分10 分,另一部电影100 万人打分平均9.8分。哪部电影更好?简单平均法识别不了。这时候就需要另一种算法——贝叶斯推理。

电影评价类网站IMDb 用的就是贝叶斯推理这种算法,它能够解决极少数用户打极高分或者极低分的时候, 对一部电影的评价出现不准确或不公平的问题。它从预先的假设开始。既然事先不知道一部电影得分会是多少,那就给它一个基准分,对应一个基准的投票数。IMDb给的基准分是网站上所有电影的平均分,比如6.5,对应基准的打分人数,比如3000 人。也就是说,不管是什么电影,在获得第一个用户打分之前,默认都是得6.5 分,对应着3000张投票。

你看了电影, 开始打分,新信息进来了。贝叶斯推理会用这些新信息修正得分,随着每个用户的打分变化。其算法大体如下:如果只有一个用户打分,那么电影得分无限接近于网站平均分;如果有3000 真实用户打分, 跟基准数一样,那么得分正好是3000 名真实用户实际打分与网站平均分两个分值之间的平均分;如果打分用户数量极大,那么得分会极度逼近这些用户的实际打分。

投票人数的问题处理好了,但问题还没完。一人一票是平等的,但看电影这件事仍有许多理由支持搞不平等:“水军”跟观众不应该平等,掏钱买票看的跟白看的不应该平等,高水平观众跟普通观众不应该平等。一人一票反映不出每一票中包含的独特信息,而这些信息是有价值的。怎么把信息解放出来?答案就是第三种聚合的方法:动态加权。希弗近年来在选举预测领域大火。他的选举预测网站在2008 年美国总统大选及国会选举一战成名,准确率超过所有民调。希弗并不直接做预测, 他做的是对民调的聚合。他根据每个民调机构准确率的历史记录和当下表现,动态调整其权重,表现好的权重高,表现差的权重低,聚合起来,生成预测。这种算法就是动态加权,根据民调机构不同的准确率,分别加上不同的权重,根据接下来的表现随时调整权重,再重新聚合起来。

能不能再往前走一步,做得更好?这就是第四种聚合方法:极化。

美国著名政治学者泰特罗克领导预测项目“善断计划”。几年间,两万多人在善断计划网站上就美国情报界抛出来的五百个问题做持续预测,实时检验。泰特罗克给每个预测者的每次预测都打分,汇总成个人总分,有2% 的人脱颖而出,攀到最优秀一级,成为“超级预测者”。善断计划则根据每个人的得分调整其在整体预测中的权重分配,生成预测。到这一步,泰特罗克的方法与希弗相似。下一步则是泰特罗克的创举:将对加权平均后形成的预测结果再做一道加工——极化,将预测结果往100% 或者0 的方向推。比如,预测一任美国总统是否能连任,如果预测者加权平均后的预测概率是70%,那就把它上调到比如85% ;相反,如果预测值是30%,那就把它下调到15%。

极化的理由是这样的:假设群体中的每个人都获得了群体的全部信息,他们做预测时一定会更为自信。极化就是要捕捉这个自信:如果是乐观预测,极化会输出一个更乐观的预测;如果是悲观预测,极化会输出一个更悲观的预测。

善断计划的预测准确率高得惊人。参与者不过是一群普通人,但借助简单的算法,他们的预测击败了全部现有的预测系统,甚至战胜了专业情报分析师。

正确地聚合群体智慧,就获得了这个时代最接近于千里眼的工具。

(张秋伟摘自“罗辑思维”微信公众号,郭德鑫图)

猜你喜欢

泰特平均分民调
这样做合理吗
教你学会平均分
谁说非洲野犬不流泪
平均分一半
“暗杀奥巴马民调”惊现美网站
两种分法