珍贵的概率
2015-05-30岑嵘
岑嵘
2006年,美国佐治亚州亚特兰大市如期举行了一次大统考(CRCT)。不久,相关人员发现了这次考试的不同寻常之处:答题纸上出现了大量“由错变对”的更正痕迹,导致这次考试的分数出奇地高。
在现实中,学生在考试中肯定会对答案进行修改,而且总有一些学生会将错误的答案改成正确的,比如通过再次验算发现了错误,这也许是凑巧一大帮学生撞了好运,因此,这也不能判断为作弊。
不过,概率很容易让这种所谓“巧合”穿帮。一些考场的学生答题纸上“由错改对”的痕迹数量高于全州正常水平20~50个标准差,而在一个分布中,绝大多数数据都会落在平均值的两个标准差范围以内。
那么这么多学生在那么短的时间内仅凭“运气”,改正了那么多错题的概率是多大?打个形象的比喻,这个概率相当于有7万名身高7英尺(2.13米)以上的观众,同时出现在佐治亚穹顶体育场观看足球比赛。你能想象这个场面吗?
CRCT是佐治亚州的统一考试,而根据美国2002年开始实施的《不让一个孩子掉队》法案,如果学校的数学统考通过率不及58%,语文统考通过率不及67%,州政府就有权关闭这所学校。中南部地区的公立学校在教学质量和学生成绩上差一大截,因而面临关闭的危险。美国的媒体后来调查发现,正是这种制度,使得一些老师铤而走险,制造了这起美国历史上最大的作弊丑闻。
概率发现了作弊事件,更揭露出教育制度中的弊端。事实上,概率在生活中方方面面使用的广泛,超出我们的想象。
我们在享受电子邮件的便利时,也会碰到一种烦恼——垃圾邮件的骚扰。一个叫做“贝叶斯定理”的概率计算法则对我们摆脱垃圾邮件有帮助。
不同词语在垃圾邮件和正常邮件中出现的概率是不同的。比如,在垃圾邮件中常常看到“高薪工作”,而在正常邮件中很少看到它。但是垃圾邮件过滤器事先并不知道这些概率(即出现“高薪工作”这个词的邮件是垃圾邮件的概率),所以必须训练它,让它知道某个词有多大的概率是属于垃圾邮件的。为了训练过滤器,需要收集大量的邮件,并手工标注其是否为垃圾邮件。
对于每封训练邮件中的每个词,过滤器会调整它在垃圾邮件和正常邮件中的概率,举例来说,“贝叶斯垃圾邮件过滤器”会学习到“销售主管”是属于垃圾邮件的概率很高,而像朋友姓名、家庭成员这些只能在正常邮件中看到的词,具有很低的垃圾概率。经过训练之后,垃圾邮件过滤器就会像狗鼻子一样灵敏,如果某封邮件的垃圾概率超过某个预先设定的阈值(如95%),过滤器就将其标注为垃圾邮件。
贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes) 发展而来,用来描述两个条件概率之间的关系。贝叶斯1701年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论,并首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论。
内特?西尔弗是一位美国统计学家,他在纽约时报网站上开有一个博客,估算2012年两个总统候选人的得票,最终他准确预测了所有 50 个州的选举结果。他还把贝叶斯定理应用在家庭婚姻上。西尔弗说,假设你是一位女性,你在衣橱里发现了其他女人的内裤,这说明你的丈夫很有可能出轨了。但问题是如果他有外遇,应该很小心才是,所以内衣的出现可能还有其他原因。
首先假设他真的出轨了,那么其他女人的内衣会出现在你衣橱里的概率假定为50%(y)。他要是没有出轨,或许有其他无辜的原因。虽然这些情况也令人不快,比如那就是他自己穿的,或者他的行李被弄错了,也可能是他想送给你的礼物,但他忘记打开了。这些说法都站不住脚,就像家庭作业被狗给吃了的借口,这些加在一起把它们的概率定为5%(z)。
最后,研究表明,每年大概有4%(x)的已婚夫妇出轨。即使你没有看到任何证据,你丈夫也有4%的出轨可能,神秘内裤出现后,根据贝叶斯定理的计算公式xy/xy+z*(1-x),你丈夫出轨概率提高到29%,比一般情况的4%高很多,但仍然低于50%。所以你最好的选择是不露声色,继续观察。
然而真实的概率常会被噪音所掩盖(噪音是妨碍和误导我们寻找信号的无关信息)。以“9?11”恐怖袭击为例,这种袭击方法令人感到非常意外,但不是没有贝叶斯式的先例——1985年印度航空的例子和在那三年之后的洛克比空难,因此类似袭击的发生概率至少有4%。
在2001年夏天,明尼苏达州一家飞行学校的工作人员告诉FBI探员,有一位出生于摩洛哥的学员想学习如何在飞行途中驾驶波音747,略过起飞和着陆课程。几位探员认真对待这一消息,但其搜查和窃听要求被否决。还有一位飞行教师说,装满燃油的飞机是可怕的武器。至少,这些信号应该把使用飞机发起袭击的概率提高到比如15%,所以调查人员应该去认真调查飞行学校。
但令人遗憾的是,FBI和CIA每天得到海量的信息,所以忽视了这个珍贵的概率,最终导致了巨大灾难的发生。
责任编辑:张蕾磊