贝叶斯定理一旦与算法相结合,就不再是一套枯燥的数学理论或认识论,而变成了应用广泛的知识宝库,催生了众多现代数学定理,以及令人称道的实践成果。在瑞士洛桑联邦理工学院科学信息与通信学院研究员黄黎原看来,贝叶斯主义的定义,就是假设“现实”的所有模型、理论或概念都只不过是某种信念、虚构或诗歌,尤其要指出的是,“所有模型都是错的”;然后,实际数据应该迫使我们调整赋予不同模型的重要性,即置信度;关键在于,调整这些置信度的方式应该尽可能严谨地遵循贝叶斯公式。
关于贝叶斯主义曲折动人的历史,需要讲一点关于 17 世纪的闲话很有好处,那正是布莱兹·帕斯卡和皮埃尔·德·费马终于尝试将概率这个概念数学化的时代。
1 概率论的起源
帕斯卡和费马当时考虑的问题,就是当纯粹靠运气的赌局中断之后,怎么根据当前的比分来分配赌金。比如说,想象一下两位玩家各自赌上 10 欧元,进行一盘抛 11 次均匀硬币然后比较正反面出现次数的胜负。押注在次数较多(即出现 6 次或以上)那一边的玩家就能把赌上的全部 20 欧元收入囊中。假设在赌局因事中断时,比分是 4 - 0,那么应该如何公平地划分赌金?
布莱兹‧帕斯卡(Blaise Pascal,1623年6月19日—1662年8月19日)。图源:维基百科
从直觉上来说,4 - 0 领先的那一方应该分到更多的赌金,因为他最后获胜的概率更大。但他应该获得其中几分之几?为了得到严谨的答案,帕斯卡和费马需要确立一种方法来传播每一次抛硬币的不确定性。换句话说,他们知道了原因——赌局不确定性(也就是每一次抛硬币的不确定性),需要由此确定结果——两位玩家最终获胜的概率。帕斯卡和费马需要构建一套关于概率的演绎逻辑。这让他们奠定了概率论的基础,还引入了数学期望和二项分布等概念。
皮埃尔·德·费马(法语:Pierre de Fermat,1601年—1665年1月12日),法国律师、数学家
但帕斯卡和费马的理论仍然很不完善。真正赋予概率论血肉的人,可能是亚伯拉罕·棣莫弗。在 17 世纪末,棣莫弗因宗教迫害逃离法国,在英国皇家学会这个充满智识的环境中受到了庇护,而且可以与艾萨克·牛顿、约翰·沃利斯和约翰·洛克等人共处。在那里,他发表了题为《机会论》(The Doctrine of Chances)的开创性著作。该书初步概述了数学中最漂亮的定理之一——中心极限定理。用这个定理可以推断出,如果将无数个微小的独立随机扰动加起来,得到的随机变量遵循怎样的概率分布。
亚伯拉罕·棣莫弗(Abraham de Moivre,1667年5月26日—1754年11月27日),法国数学家。图源:维基百科
2 神秘的托马斯·贝叶斯
然而,概率论中还有一个问题,棣莫弗不知道如何解决,该问题回应了大卫·休谟的哲学思考。这个基础性问题叫作逆概率问题,但它其实就是关于归纳的问题,也就是在已知结果的前提下计算不同原因的概率。
这就是加尔文宗的教会牧师托马斯·贝叶斯出场的时候了。好数学家碰到难题时就会做,贝叶斯首先考虑了一个简单的例子。他想象有一张桌子,上面(均匀)随机地放着一个白球,而贝叶斯本人背向桌子,对白球位置一无所知。然后,贝叶斯必须从白球位置引出的结果出发,判定这个位置,或者至少给出对应的可能性。
托马斯·贝叶斯(Thomas Bayes,约1701年—1761年4月7日),18世纪英国数学家。图源:维基百科
贝叶斯的助手会将一个黑球放在桌面上,位置同样(均匀)随机。贝叶斯仍然背对桌子,同样不知道黑球的位置。接下来,贝叶斯向助手提问白球到底在黑球的左边还是右边,助手会回答他的问题。然后,这位助手会用第二个黑球重复同样的步骤,告诉贝叶斯这个新的黑球到底在白球的左边还是右边,然后重复第三个、第四个黑球,以此类推。
如果知道白球位置的话,贝叶斯就可以计算助手的每个答案的概率。所以白球位置应该是助手对贝叶斯的提问做出那些回答的原因(之一)。逆概率问题就是在已知结果的情况下确定原因,也就是在已知助手的回答的情况下,确定白球的可能位置。你可能也猜到了,贝叶斯正是通过直觉,得到了以他的名字命名的公式,从而解决了确定白球(可能)位置这个问题。
你可能会觉得,这样就终结了逆概率的问题。事实远非如此。正如本章中将会谈到的众多统计学家那样,贝叶斯行事隐秘,没有发表他的神奇公式。他是不是害怕引起论战?这似乎不太可能。他在世时曾经挺身反对乔治·伯克利对牛顿建立的新数学体系的批评。他是不是害怕质疑自己的宗教信仰?肯定不是,因为他发展逆概率理论的重要目的就是强调原因这个概念,而原因可以追溯到所谓的第一因,从而证明上帝的存在。
为什么贝叶斯没有发表他的公式?最可信的解释之一很简单,就是他没有看到他这个公式全部的美,或者自己也不相信这种美。无论如何,不少专家赞同,贝叶斯很可能不是贝叶斯主义者。
1763 年,在贝叶斯辞世两年之后,他的公式才最终得以发表,这要归功于理查德·普赖斯的不朽之作。实际上,在这两位智者之中,普赖斯反而比贝叶斯更像一个贝叶斯主义者,但他其实也没有那么秉持贝叶斯主义。另外,他同意投入出版贝叶斯遗作这一工作,动机似乎是为了证明上帝的存在。普赖斯这样断言:“我的目标就是弄清我们究竟出于什么原因相信,物体的组成中存在一些固定法则,而这些法则正是物体产生的依据;我们又为何会相信,世界的框架也因此必然源自一个智能本因的智慧和能力。所以,(我的目标就是)通过终极原因确立上帝的存在。”
理查德·普莱斯(Richard Price,1723年2月23日—1791年4月19日),威尔士道德哲学家、牧师、数学家。图源:维基百科
3 拉普拉斯,贝叶斯主义之父
实际上,称得上贝叶斯主义者第一人的并不是英国人,而是法国人皮埃尔–西蒙·拉普拉斯。拉普拉斯是历史上最伟大的数学家之一,他大概也是我心目中最伟大的英雄。长久以来,他为人们所熟知的原因是他对分析及其在天文学中的应用所做的工作,他将这些工作成果集结成五卷题为《天体力学》(Traité de mécanique céleste)的著作并发表。特别是,这本巨著给出了关于太阳系稳定性问题的新解答。牛顿此前已经证明了,如果宇宙中只有地球和太阳,那么它们就会组成一个稳定的系统,直到时间的尽头。然而,如果这个模型必须包括木星的话,那么相应的方程就无法求解。牛顿最后举手投降,得出的结论是只有上帝的干预才能给予这个复杂系统秩序,将行星的轨道稳定下来。
拉普拉斯侯爵皮埃尔-西蒙(法语:Pierre-Simon, marquis de Laplace,1749年3月23日—1827年3月5日),法国著名天文学家和数学家。图源:维基百科
装备上以他自己的名字命名的“拉普拉斯变换”等新数学分析工具之后,拉普拉斯成功给出了太阳系其实无须上帝的干预也很稳定的理由。拿破仑·波拿巴在阅读了拉普拉斯的《天体力学》之后,问了一句:“牛顿在他的书里谈到了上帝。我看了你的书,这个名词在里面一次都没有出现过。”拉普拉斯的回答是:“我不需要上帝这个假设。”
然而,拉普拉斯并没有完全严谨地解决太阳系稳定性的问题,而我们绝不能责怪他。之后一代又一代数学家在这个难得超出想象的问题上磕磕绊绊,其中包括卡尔·弗里德里希·高斯、亨利·庞加莱、安德烈·柯尔莫哥洛夫、雅克·拉斯卡尔和塞德里克·维拉尼。正如庞加莱在他自己的一篇本应证明了太阳系稳定性的论文中找出了错误那样,数学界与天体物理学界对于太阳系稳定性的置信度也是左右摇摆的。在今天,雅克·拉斯卡尔的模拟似乎获得了科学界的肯定。这些模拟预言:太阳系将在很长一段时期内变得不稳定。但请放心,要看到这一天还需要相当长的时间。
拉普拉斯在解决这个问题时遇到的困难之一就是手头上的观察结果不够准确。需要说明一下,这些数据来自公元 1000 年左右的阿拉伯人、公元 100 年左右的古罗马人、公元前 200 年的古希腊人,甚至公元前 1100 年的中国人。但不巧的是,当时的测量仪器都不够精确。拉普拉斯手头的数据是错误的,但他是怎样还能够探索这些含有错误的数据的呢?
拉普拉斯着手研究这个问题的角度也是典型贝叶斯式的。他知道此前数个世纪天文学家的观察结果,而且需要从中推断错误的原因——天体在天空中真正的位置。在意识到这个问题的结构之后,即使他当时似乎还没有听到有关贝叶斯的发现的风声,拉普拉斯还是正面进攻了这个逆概率问题。1774 年,拉普拉斯发表了《论事件原因存在的概率》(Mémoire sur la probabilité des causes par les événements)。这是多么出色的文章!他在论文中结合了棣莫弗之前的工作、拉格朗日创造的分析工具以及他本人的才华,以最广泛、最壮丽的方式确立了贝叶斯公式。
拉普拉斯的兴趣并不止于天文学。在之后的岁月里,他将想法发表在了两部著作中。在书中,他将数学延伸到了通常的应用领域以外。拉普拉斯还特别提出,除了可以将他的概率理论应用到天文学等自然科学之外,还可以应用到社会科学、目击证词、医学检验、法庭审判、人口普查等许多其他问题上。拉普拉斯还亲自利用自己的新理论来研究新生儿的性别,这让他以很高的置信度得出了结论:新生儿更可能是男孩而不是女孩。
对拉普拉斯来说,概率推理不过是常识的数学化。他肯定将贝叶斯公式看成思考的正确方式。然而,他也意识到同时代的人在应用这个公式时会重复犯下某些错误。与他同时代的人的“常识”被谬论侵蚀了。因此,拉普拉斯的著作中有一部分可以被看成认知科学的萌芽。
在他生命最后的时光中,拉普拉斯同样发展了非贝叶斯式的统计方法,它们特别依靠于他证明的中心极限定理。所以拉普拉斯也理解,对于足够大的数据集来说,这种频率主义式的做法等价于贝叶斯主义式的做法。出于处理大量数据时的便利性,拉普拉斯最终更倾向于在众多实践事例中利用非贝叶斯式的方法。拉普拉斯是一位实用贝叶斯主义者。
4 贝叶斯主义的寒冬
不幸的是,科学在当年还没有发展到那一步。19 世纪的智者并没有看到贝叶斯推理那令人醉心的有效性,而是几乎一致否定了拉普拉斯的逆概率。数学家乔治·克里斯特尔断言:“(这些概率)已经死了,我们应该将它们体面地埋葬在看不到的地方,而不是在课本和试题中介绍它们……我们应该允许自己悄悄忘却伟人的鲁莽之处。”
对于拉普拉斯方法和理论中存在主观置信度这一点,其他人的反应更刻毒。哲学家约翰·斯图尔特·密尔对拉普拉斯提出了批评,将他的哲学形容成“心智失常”甚至是“自称科学,其实是无知”。
除了被约瑟夫·贝特朗在战争的不确定性中用于决策,以及被亨利·庞加莱在德雷福斯事件中用于排除定罪证据的有效性以外,拉普拉斯的置信度和贝叶斯公式似乎在科学领域中销声匿迹了。
20 世纪初的情况变得更糟糕,而此时涌现了频率学派的统计学家埃贡·皮尔逊、耶日·内曼和罗纳德·费希尔。即使这些天才互不理解,却都同意应该终结贝叶斯和拉普拉斯理论中的主观性。费希尔疯狂地侮辱了这些理论,用上了“谬误的垃圾”这种字眼,而内曼在他自己的置信区间理论中完全略去了所有贝叶斯式的概念,因为“如果理论的建造从一开始就不涉及贝叶斯主义和先验概率的话,任何理论都会更漂亮”。自此之后,在几乎整个 20 世纪中,“主观”“先验”和“贝叶斯”这些术语被驱逐出了统计学系。
但贝叶斯主义没有死。有几个坚定不屈的人,比如埃米尔·博雷尔、弗兰克·拉姆齐和布鲁诺·德·菲内蒂,他们认为主观概率是理解赌博必不可少的数学工具。然而,他们在当时是相对来说被忽略的一群人。
费希尔在贝叶斯主义上的劲敌是地理学家哈罗德·杰弗里斯。费希尔将他的频率主义理论出色地应用在遗传学的实验中,但杰弗里斯从中看到,频率主义如果用在地震学上会出现严重的局限性。实际上,为了研究地震波的传播而重现地震,这可相当困难……对地震的测量稀少而模糊,但在得到贝叶斯方法这一武器后,杰弗里斯就知道应该如何解释他获得的数据,并由此确定地震中心,甚至正确猜测出地球的内部是液态的。然而,费希尔否认贝叶斯方法科学性的汹汹之势淹没了杰弗里斯的心平气和。
5 贝叶斯主义拯救盟军
第二次世界大战打响之时,学术界的统计学家都是反贝叶斯主义者。但在学术界以外,统计学的地位也不怎么样。英国政府认识到破译纳粹密码可能成为战争的关键,他们为此优先聘请的是文字工作者、艺术家和历史学家。幸运的是,英国数学家也加入进来,他们自称物理学家来博取英国政府的关注。相反,统计学家却被忽略了。这可能是件好事,因为被这些“真正”的统计学家唾弃的贝叶斯公式将成为此次行动的关键。
第二次世界大战用的是一种新的密码术,也就是机械密码。纳粹军队专用的密码机叫作恩尼格玛密码机(Enigma)。恩尼格玛密码机与打字机类似,其特点是将输入内容加密并打印出来。更妙的是,要解密某段密码,只需要将它输入机器即可。
好吧,并不完全是这样。这种机器的加密和解密方式依赖于机器配置。纳粹军队每天都会使用不同的机器配置,然而,恩尼格玛密码机在出厂时就包含上百万个配置方式。更大的问题在于纳粹军队手中的机器还有额外的功能,可以大大扩充恩尼格玛密码机的可能配置总数,差不多有数万兆种。要测试所有这些配置简直是痴心妄想。
在温斯顿·丘吉尔等人的推动下,英国政府逐步了解到,数学将是破译这些敌方密码的关键。在布莱切利园,一支梦之队就此结成,其中包括了彼得·特温、戈登·韦尔什曼、德里克·汤特、比尔·塔特、马克斯·纽曼、杰克·古德,当然最重要的还是伟大的艾伦·图灵。
艾伦·麦席森·图灵(Alan Mathison Turing,1912年6月23日—1954年6月7日),英国计算机科学家、数学家、逻辑学家、密码分析学家和理论生物学家。图源:维基百科
正如电影《模仿游戏》(Imitation Game)中描述的那样,图灵很快理解了应该如何将大量计算步骤自动化,从而破译恩尼格玛密码机。这让他能够建造名为“炸弹”(Bombe)的机器,这种机器每天都能破译纳粹陆军和空军的密码。然而,纳粹海军用到了更高级的恩尼格玛密码机,而要破译它的话,“炸弹”的速度不够。更糟糕的是,纳粹当局用的密码更为复杂,其原型不是恩尼格玛密码机,而是洛仑兹(Lorenz)密码机。
图灵接受的第一个挑战就是说服英国当局,无论是纳粹海军的恩尼格玛密码机还是纳粹当局的洛仑兹密码机,都是可以破译的,而且,破译这些密码的投资并不会毫无回报。英国当局在很长一段时间内并不信服。这些密码似乎过于复杂,而要破译它们,无论是在时间、人力还是硬件上都要付出高昂的代价。然而图灵的结论是,这些都是值得的。
丘吉尔最后被说服了。他后来承认:“战争中唯一真正令人恐惧的,就是(纳粹海军的)潜水艇带来的危险。”这些潜水艇已经击沉了大量从大洋彼岸驶来的补给船舶。杰里·罗伯茨上尉补充道,如果这种情况长期持续下去的话,“英国可能,甚至非常可能陷入饥荒并输掉战争”。而破译洛仑兹密码机则可以让英国直接知晓阿道夫·希特勒的意图与策略,特别是有助于知道他究竟预计英军会在法国加莱还是诺曼底登陆。
图灵的研究得到了绿灯放行,接下来就要找到正确的想法了。你可能猜到了,答案就是贝叶斯公式。图灵找到了一种试探性的方法,能以定量的方式应用贝叶斯公式。图灵用的单位叫班伯里(banburismus),简称班(ban)——这其实是一座城市的名字,它提供了用于尽可能将相关计算自动化的物资。战争落下帷幕之后,图灵于战争期间在美国遇见过的一位数学家克劳德·香农提出了班伯里的一种变体,赋予它一个今天人们耳熟能详的名字:比特(bit)。我们之后会再谈到这一点。
现在,我们先回到图灵和第二次世界大战。每当某个恩尼格玛密码机的配置方式似乎能够部分解码某条信息的时候,这个配置就会获得班伯里值,或者说是贝叶斯置信度。图灵将不同配置方式的班伯里值结合起来考虑,就能够将搜索引导到优先测试更有希望的配置上。我在这里大大简化了对相关过程的叙述,但这个过程的确能让解码速度大大提高。最后,图灵及其同事与他们的机器逐渐能够解读纳粹的大部分信息。
历史学家哈里·欣斯利断言,英国数学家的工作“将战争缩短了至少两年,甚至四年”。有人甚至认为,如果没有他们的话,战争的结果并不明朗。更无可非议的是,图灵和同事的数学工作,以及对贝叶斯公式的适时应用,拯救了数千万人的生命。
然而,战争落下帷幕之后,这一切都被保密。温斯顿·丘吉尔用尽一切办法确保这种保密状态。他下令销毁所有可能暗示纳粹密码曾被破译的文件,并将贝叶斯公式(以及图灵的那些机器)深深地埋藏了起来。
6 频率主义海洋中的贝叶斯孤岛
战争之后,“贝叶斯”这个术语仍然是一种侮辱。在 20 世纪 50 年代,一位美国统计学家半开玩笑地说某位同事是“反对美国的,因为他是贝叶斯主义者,而贝叶斯主义会让美国政府失去威信”。另一位统计学家补充说:“贝叶斯主义统计学家还不够贝叶斯。如果他们追随贝叶斯的脚步,只在死后发表文章的话,我们就能避免很多问题了。”大学中的统计学系对贝叶斯主义的反对尤为深切。在战争中与图灵并肩使用贝叶斯公式的杰克·古德曾经尝试弘扬贝叶斯方法的好处,但人们一次又一次对他的话充耳不闻。
贝叶斯的火焰却在远离学院的地方重新燃起,这要归功于亚瑟·贝利这位富有魅力的美国精算师。估算人的一生中的随机事件对于决定保险价格来说至关重要。某项风险的概率越大,为这项风险提供保障的代价就越大,所以保险价格也应该越高。然而,这些概率并非基于费希尔的值,而是通过某些难以理解的公式计算而来的。知道这些公式来源的精算师十分稀少,但所有人都察觉到这些公式都会给出一致的结果。精算师的计算很有效,但没有人知道为什么!受频率主义学派训练的贝利对此相当震惊。
然而,贝利最终发现这些奇怪的精算公式,比如我们在之后的章节中会看到的神奇公式,与贝叶斯公式有着神秘的相似之处。在经过一年的怀疑之后,贝利最终拥抱了作为保险定价基础的这些类贝叶斯式的推断方法,甚至将自己接受的频率主义教育抛诸脑后,发起了反对费希尔方法的运动。1950 年,贝利发表了一篇论文,将作为精算基础的信度理论与拉普拉斯、普赖斯和贝叶斯的工作联系在了一起。他在文章中高度赞赏了主观概率的概念,宣布频率主义的“暴政”将会终结。不幸的是,在打出反对费希尔的旗帜不久之后,贝利就因为心血管疾病去世了。
还有两个半学者有着贝叶斯式的思考方式。我们先从那半个贝叶斯主义者说起。在第二次世界大战之前,安德烈·柯尔莫哥洛夫在 1933 年最终提出了一套公理,可以作为概率论的基础。对于柯尔莫哥洛夫来说,最重要的不是对概率意义的诠释,而是处理概率的规则。但即使柯尔莫哥洛夫自称倾向于频率主义,当他被迫将其概率理论应用到军事策略中时,他所发展出的一种推理方法,与一个世纪以前贝特朗的方法完全一致。
在第二次世界大战之后,概率论的数学形式化让丹尼斯·林德利和伦纳德·萨维奇开始否定费希尔的频率主义统计学。与之相对的是,贝叶斯公式是柯尔莫哥洛夫公理的直接推论,因此它在数学上有着坚实基础。此外在 1958 年,林德利发表了一篇论文,证明了被称为“信念推断”的一种费希尔的概率推断方法自相矛盾。林德利敢于拒绝向费希尔俯首称臣,他是正确的。由此大获全胜后,林德利成了倡导贝叶斯主义的活跃分子,宣称所有统计都是贝叶斯公式的某种特殊情况或近似,并在英国建立了数个偏向贝叶斯主义的统计学系。
轮到萨维奇了,他在 1954 年出版了《统计学基础》(The Foundations of Statistics),在书中他对概率的主观诠释进行了辩护。萨维奇与其他人不同的地方在于,他将贝叶斯公式当作“救世主”。萨维奇并不像其他人那样认为贝叶斯公式不过是众多推理工具之一。对他来说,贝叶斯公式就是唯一的推理工具。正确的推理就是根据贝叶斯公式进行的计算,而所有妥协都是非理性的(但有可能在实用主义上是合理的)。萨维奇对贝叶斯主义有着宗教般的信仰。
萨维奇(Leonard J. Savage, 1917-1971)。图源:https://www.hetwebsite.net/het/profiles/savage.htm
当人们问萨维奇这会不会给科学的客观性带来疑问时,他的回答是,客观性就是科学共同体中涌现出的共识,当积累的数据足够多时,这种共识就会出现。然而,萨维奇也补充道,这也是定义客观性的唯一方式。对于萨维奇来说,频率主义的方法并不客观,因为这些方法总是需要对统计结果进行解释,甚至对频率主义具体方法加以选择。此外,费希尔对统计分析的客观化尝试,尤其是他的信念推断,最终还是“一种顽固的尝试,想煎出贝叶斯的煎蛋,又不想打破贝叶斯的鸡蛋”。可叹的是,像贝利一样,正当推广贝叶斯主义的运动如火如荼之际,萨维奇死于了心血管疾病。
7 被实干者拯救的贝叶斯主义
贝叶斯主义统计学家没有感受到理论家的那种不安,照样推动了众多领域的变革,在这些领域中,频率主义的方法似乎不敷应用。特别是罗伯特·施莱弗和霍华德·赖法以冯·诺伊曼和莫根施特恩的博弈论为基础,结合了效用理论和主观概率,发展出包含不确定性的决策理论。由此,施莱弗和赖法将哈佛商学院转变成贝叶斯主义的温床。在他们的专著出版后不久,各商学院就以学习和教授贝叶斯统计而自豪,诺贝尔经济学奖也多次颁发给贝叶斯主义研究者,如约翰·豪尔绍尼和罗杰·迈尔森。
贝叶斯统计的神奇之处在于可以处理数据稀少的情况。1950 年,某位经济学家询问统计学家戴维·布莱克韦尔应该如何推算五年内发生另一场世界大战的概率。作为一位频率主义的好学生,布莱克韦尔这样回答:“啊,这个问题毫无意义。概率只对由可重复事件组成的长序列有效。但这显然是独一无二的情况。概率要么是 0,要么是 1,但五年之内我们不会知道这个概率。”经济学家这样回答:“我就怕你这样说。我跟另外几位统计学家谈过,他们都这样说。”后来,在理解了频率主义统计在预测能力上的缺陷之后,布莱克韦尔归顺了贝叶斯主义。
戴维·布莱克韦尔(David Harold Blackwell,1919年4月24日—2010年7月8日),美国统计学家、加利福尼亚大学伯克利分校统计学名誉教授,拉奥-布莱克韦尔定理的提出者之一。图源:维基百科
贝叶斯统计的另一个重要应用,就是研究烟草在导致肺癌方面的危害。开展这一流行病学研究的英雄是杰尔姆·科恩菲尔德。科恩菲尔德首先遇到的就是来自反贝叶斯主义者内曼和费希尔的猛烈批评。特别是费希尔,他指责科恩菲尔德的研究中缺少频率主义方法要求的对照组和重复实验。众所周知,费希尔接受了烟草行业的资助,试图否定烟草的危害。他甚至提出了这样的假设:肺癌会使人倾向于吸烟!正如林德利那样,随着时间流逝,科恩菲尔德最后还是获胜了。科学共同体得到了统一的结论:吸烟是导致肺癌的重要危险因素。
约翰·图基则将贝叶斯统计应用到总统选举结果的预测中。1960 年,尼克松与肯尼迪的选举得票不相上下,胜负难分,没有一家电视台敢宣布最终的结果。在凌晨两点,图基最终给美国全国广播公司(NBC)电视台开了绿灯,让他们宣布肯尼迪的胜利。但直到早上 8 点,电视台才鼓起勇气正式宣布这一结果。图基利用的方法长期以来都是秘密,尤其是作为统计学教授,他不肯承认方法中有着贝叶斯的成分。
近十几年来,贝叶斯方法可谓一帆风顺,特别是在 2008 年,内特·西尔弗成为历史上第一个正确预测美国 50 个州的选举结果的人。西尔弗在 2016 年的预测就没有那么亮眼了,我们之后会再谈到这一点。
同样,很多人在遇到稀有事件这种不确定性时,为了寻找问题的实用解决方案,都不可避免地转向了贝叶斯公式。诺曼·拉斯穆森正是如此,他以贝叶斯置信度为工具,估计了核电站发生重大事故的概率;而美国国家航空航天局则聘用了一个机构,该机构利用贝叶斯主义的工具,预测火箭发射出现重大事故的概率是三十五分之一。这远远大于美国国家航空航天局自己预测的十万分之一的概率,也更贴近现实。
然而,直到 20 世纪 90 年代,贝叶斯主义的这些成功仍然罕见且不一致,但这是有理由的。贝叶斯式的计算既冗长又困难,很快就超出了数学公式的实用范畴,其中经常需要计算没有闭式的积分。贝叶斯主义似乎前途大好,但并不一定实用。使相关计算更广泛、更容易应用的理论的出现,很快就改变了整体情况。最终还是贝叶斯主义胜利了!
8 贝叶斯主义的胜利
20 世纪 60 年代,雷·所罗门诺夫将图灵的可计算性理论与贝叶斯公式结合起来,这就是人工智能一般性框架的前身。就像在他之前的人那样,所罗门诺夫对频率主义和频率主义大师怀着深深的敌意:“科学中的主观性通常被认为是罪恶……如果它出现,那么结果就完全不是‘科学’。这就是统计学大师费希尔的意见。他希望让统计学成为‘一门真正的科学’,完全脱离其中曾存在过的主观性。我认为费希尔在这个问题上犯了严重的错误,他在这个领域的工作严重破坏了科学共同体对统计的理解——从这种破坏中恢复过来的速度太慢了。”不幸的是,所罗门诺夫的想法长期以来处于纯粹理论的状态,因为他没有必要的机器对这些想法开展实验。
然而,计算机甫一出现,贝叶斯主义就终于等到了神圣的重生。弗雷德里克·莫斯特勒正是最初利用这些新工具来解决贝叶斯难题的几个人之一。然而,特别是从 20 世纪 80 年代开始,所谓的蒙特卡罗方法(Monte Carlo)的出现,特别是马尔可夫链蒙特卡罗方法(Markov - Chain - Monte - Carlo,以下简称 MCMC),给贝叶斯公式的实际应用带来了革命。与其精确计算那些无法用数学公式表达的积分,蒙特卡罗方法能够利用抽样进行积分的近似计算。而一个名为吉布斯抽样贝叶斯推断(Bayesian inference Using Gibbs Sampling,简称 BUGS)的程序更是宣布了贝叶斯主义的最终胜利,而近年来出现的深度学习以及其他机器学习方法也从贝叶斯的先验概率中获益,这些方法也许会导致人类历史上翻天覆地的社会变革。
最后,在近几十年中,贝叶斯公式和贝叶斯主义的框架似乎给我们对智能的理解带来了变革,无论是关于人工智能还是人类智能。犹地亚·珀尔、杰弗里·欣顿和迈克尔·乔丹等计算机科学家,还有乔希·特南鲍姆、卡尔·弗里斯顿和斯坦尼斯拉斯·德阿纳等神经科学研究者,都将贝叶斯主义视为所有认知形式无法回避的支柱。我们之后会再讨论这一点。
9 贝叶斯无处不在
最后回顾一下历史上贝叶斯统计学那宽广得让人难以置信的应用范围。我们可以写出这样的名单,排名不分先后:医学诊断、遗传学、流行病学、天体物理学、生物学、政治、战争、密码学、地理学、神学、博弈、保险、赌博、决策、经济、航空航天工程、人工智能、神经科学……
即便如此,贝叶斯公式的应用远远超出了这张名单中的内容。我们还可以加上(排名仍然不分先后,而且并不全面):运动、心理学、考古学、古生物学、教育、社交网络、自动翻译、信号处理、基因组测序、蛋白质研究、资源分配、通信、图像分析、广告、金融、规划、物流以及许多其他领域……