贝叶斯公式的通俗讲解

徐鸿鹄 SerendipityCamp

本文素材来自芬兰政府官方免费发布的网络课程《人工智能简介》当中对贝叶斯原理的介绍 course.elementsofai.com

现实世界中，很少有明确的事情。除了完美的信息，还有很多未知的可能性，从丢失信息到故意欺骗。

以自动驾驶汽车为例-你可以设定一个目标，从A到B，以一种高效和安全的方式，遵循所有的交通法规。但如果交通状况比预期的更糟，比如因为前方发生了事故，会发生什么呢？突然的坏天气呢？一个在街上蹦蹦跳跳的球？或者一块垃圾直接飞进汽车的摄像头？

自动驾驶汽车需要使用各种传感器，包括像声纳一样的传感器和摄像头，来检测它在哪里以及周围的情况。这些传感器从来都不是完美的，因为来自传感器的数据总是包含一些错误和不准确，称为“噪声”。通常情况下，一个传感器指示前方道路左转，而另一个传感器指示相反方向。即便只存在轻微大的噪声，这些矛盾都需要在不停车的情况下解决。

现代人工智能方法在现实世界问题中实际有效的原因之一是它们处理不确定性的能力，而不是19世纪60年代早期的大多数“老式”方法：

在人工智能的历史上，处理不确定和不精确信息的方式有很多种。例如，你可能听说过模糊逻辑。模糊逻辑曾一度是处理不确定和不精确信息的最佳方法的竞争者，并用于许多应用中。

例如洗衣机，在洗衣机中，洗衣机可以检测到脏物（一个程度的问题，不仅是脏的或干净的），并相应地调整程序。

然而，概率已经被证明是在不确定条件下进行推理的最佳方法，而且几乎所有当前的人工智能应用至少在某种程度上都是基于概率的。

为什么概率很重要呢？

我们可能最熟悉概率在游戏中的应用：在扑克中得到三个A的概率是多少（大约1/46），在彩票中获胜的概率是多少（非常小），等等。

然而，更重要的是，概率也可以用来量化和比较日常生活中的风险：如果你超速，撞车的几率有多大，抵押贷款利率在未来5年内上升5个百分点的几率有多大，或者人工智能将自动执行特定任务的可能性有多大…

关于概率的最重要的一课不是概率演算。相反，它是一种将不确定性视为至少在原则上可以量化的东西的能力。这意味着我们可以像谈论数字一样谈论不确定性：数字可以被比较（“这件事比那件事更可能吗？”），而且它们常常可以被测量。

测量概率是很困难的：我们通常需要对一个现象进行大量观察才能得出结论。

然而，通过系统地收集数据，我们可以批判性地评估概率陈述。换言之，为了让不确定性不超出理性思考和讨论的范围，概率提供了一种系统的方法来做到这一点。

不确定性可以量化这一事实至关重要，例如，为疫苗接种制定公共政策。在进入市场之前，任何一种疫苗都要经过临床测试，这样它的益处和风险都被量化了。这些风险从来就不为人所知，但通过临床测试，足够优秀的疫苗，足以证明其收益是否大于风险。

如果我们认为不确定性是无法量化或测量的，那么不确定性方面可能成为理性讨论的障碍。

例如，我们可能会争辩说，由于我们不清楚疫苗是否会产生有害的副作用，所以使用疫苗太危险了。然而，这可能会导致我们忽视一种危及生命的疾病，这种疾病将被疫苗根除。在大多数情况下，收益和风险被充分精确地知道，以清楚地看到一个比另一个更重要。

以上思考在许多日常场景和专业领域都很有用：例如，医生、法院法官或投资者必须处理不确定的信息，并根据这些信息做出合理的决定。

发生比和概率

所谓发生比（Odds），我们指的是例如3:1（三对一），这意味着我们期望一个结果的每三个案例，例如赢了一个赌注，就有一个相反结果的案例。

另一种表达同样观点的方式是说获胜的概率是3/4（四分之三）。有了完整的数字，很容易想象，例如，四个人中，三个人的眼睛是棕色的。或者四天中三天下雨。

为什么我们使用发生比而不是百分比？（概率）

即使发生比可以用小数0.2来表示，也不同于20%的概率（或用数学家的符号表示的概率0.2）。发生率1:5意味着你必须打六次比赛才能平均赢得一场比赛。20%的概率意味着你必须打五场比赛才能平均获得一场胜利。

例如5:1，我们很容易识别，我们并不是在处理概率，因为任何概率都不能大于1（或大于100%），但是对于小于1的概率，例如1:5，概念混乱的危险就潜伏在角落里。所以一定要知道我们什么时候在谈论发生比，什么时候在谈论概率。

贝叶斯规则

这个特别的公式是既简单和优雅，以及难以置信的强大。它可以用来衡量医学、法庭和许多（如果不是全部）科学学科中相互矛盾的证据。该公式称为Bayes规则（或Bayes公式）。

首先，我们将通过一个简单的医学诊断问题来展示贝叶斯规则的威力，在这个问题中，我们的直觉很难将相互矛盾的证据结合起来。然后我们将展示如何使用Bayes规则来构建能够处理冲突和噪声观测的人工智能方法。

先验概率和后验概率

贝叶斯规则可以用多种形式表示，最简单的一个是概率。

我们的想法是对发生的事情（与未发生的事情相反）进行概率计算，我们将其写为先验概率。prior这个词指的是我们在获得一些可能相关的新信息之前对概率的评估。

公式的目的是在新信息可用时更新先验概率，以获得后验概率，或获得信息后的赔率（后验的字典含义是“之后的某物，以后的某物”）

以今天晚些时候下雨的可能性为例，想象一下在早晨起床的情景。

365天中有206天下雨（包括雨、雪和冰雹）。因此，不下雨的天数为159天。这将转化为先前的206:159的发生比，所以在你睁开眼睛之前，赌局就已经对你不利了。

然而，睁开眼睛向外看一眼后，你会发现天阴沉沉的。假设雨天早晨多云的概率是10分之9，这意味着10天中只有一天的天空是蓝色的。但有时也有不下雨的云：在不下雨的日子有云的概率是十分之一。现在下雨天出现云层的概率比不下雨天高多少？

答案是，下雨天出现云彩的几率是不下雨天的九倍，而在不下雨天出现云彩的几率是不下雨天的十分之一，这就使今天出现云彩的几率增加了九倍。

似然比

上述比率（雨天出现云层的几率是雨天的9倍）称为似然比。更一般地说，似然比是当发生感兴趣的事件（雨）时观测的概率，除以没有事件（没有雨）时观测的概率。

所以我们得出结论，在多云的早晨，我们有：似然比=（9/10）/（1/10）=9

我们发现了，强大的贝叶斯规则就是：后验概率=似然比×先验概率

现在你可能在想：等等，这就是公式么？这只是一个乘法运算！很简单，不是吗？你不会想象一个简单的乘法运算可以用于各种非常有用的场景，但是贝叶斯公式可以。

一句忠告：有很多不同的形式可以写贝叶斯规则，而我们使用的概率形式并不是最常见的。

实践中的Bayes法则：乳腺癌筛查

这个实际应用是使用Bayes规则的经典示例，即医学诊断。这个例子还说明了在处理不确定信息时的一种常见偏见，称为基准利率谬误。（base-rate fallacy），即个体忽视事物发生的既率而作出错误的判断。

考虑乳腺癌的钼靶筛查。为了简化数字，我们假设百分之五的女性患有乳腺癌。假设一个人得了乳腺癌，那么乳房X光检查会发现100例中有80例是乳腺癌。当检测结果表明乳腺癌存在时，我们说结果是阳性的，尽管对于被检测者来说，一种技术上的说法是检测的灵敏度是80%。

该测试也可能在另一个角度失败，即当没有乳腺癌时指示了乳腺癌。这被称为假阳性结果。假设被测试者实际上没有乳腺癌，那么测试结果呈阳性的几率是10/100。

基于上述概率，你就可以计算出似然比了。

朴素贝叶斯分类器

贝叶斯规则最有用的应用之一是所谓的朴素贝叶斯分类器(Naive Bayes)。

Bayes分类器是一种机器学习技术，可用于将文本文档等对象分类为两个或多个类。通过分析一组训练数据对分类器进行训练，并给出正确的分类。

Naive Bayes分类器可用于确定给定多个不同观测值的类的概率。

现实世界的应用：垃圾邮件过滤器

我们将使用垃圾邮件过滤器作为一个运行示例来说明朴素贝叶斯分类器的思想。因此，分类指示邮件是垃圾邮件（“Junk”）还是合法邮件（“Ham”）。邮件中的单词对应于特征字符，特征字符的数量由邮件的长度决定。

为什么我们称之为“朴素”？

我们的想法是将单词看作是通过一个接一个地选择单词而产生的，这样单词的选择就只取决于邮件是垃圾邮件还是合法邮件。这是对这个过程的粗略简化，因为它意味着相邻单词之间没有依赖关系，单词的顺序也没有意义。这就是为什么这个方法被称为朴素的原因。

上面的想法通常用下面的例子来描述，其中邮件的类别（垃圾邮件或合法邮件）是影响单词的唯一因素。

尽管它很幼稚，但是朴素的Bayes方法在实践中往往非常有效。

这是一个很好的例子，说明了统计学中的一句俗语，“所有的模型都是错误的，但有些模型是有用的”意思。这句格言来自统计学家George.E.P.Box

我们需要指定垃圾邮件对合法邮件的先验概率。为了简单起见，假设这是1:1，这意味着平均一半的传入消息是垃圾邮件（实际上，垃圾邮件的数量可能要高得多）。

为了得到我们的似然比，我们需要两个不同的概率来计算任何单词的出现：一个在垃圾邮件中，另一个在合法邮件中。

这两个类的单词分布最好是根据包含一些垃圾邮件和合法邮件的实际训练数据估计的。最简单的方法是计算每个单词出现在数据中的次数，然后除以单词总数。

为了说明这个想法，让我们假设我们有一些垃圾邮件和合法邮件。通过将一批电子邮件保存在两个文件中，您可以轻松获得这些数据。

例如，我们发现，Million（百万）这个词出现在垃圾邮件中的概率为59791分之156，即大概与614分之1相同。而在一条合法邮件中，306438个单词中有98个是“百万”，即3127分之1。

这两种概率估计都很小，不到1/500，但更重要的是，前者高于后者：1/614高于1/3127。这意味着似然比大于1。更准确地说，这个比率是（1/614）/（1/3127）=3127/614=5.1（四舍五入到小数点后一位）。

然而，直接从计数估计概率的一个问题是，零计数导致零估计。这可能会对分类器的性能造成很大的危害——它很容易导致后验概率为0/0的情况，这是毫无意义的。最简单的解决方案是对所有概率估计使用一个大于0的很小的下界。例如，值1/100000就可以完成这项工作。

使用上述逻辑，我们可以确定所有可能单词的似然比，而不必使用零，从而达成分类目标。

一旦我们计算出了先验概率和似然比，我们就可以应用Bayes规则了，我们已经在医学诊断案例中实践过了同样的方法。

万岁！现在，您已经掌握了一种强大的技术，它每天都被广泛应用于现实世界中的各种人工智能应用程序，即朴素的贝叶斯分类器。即使你不得不跳过一些技术细节，你也应该试着确保你理解应用概率来更新信念的基本原则。

通过医疗诊断和垃圾邮件过滤的例子，我们演示了这个机制是如何工作的。

正如我们在本章开头所讨论的，概率推理的强大之处是能够处理不确定和冲突的证据。

完

▲

在浩瀚太空的狂野风暴里，乐享宇宙的浪漫和温情

追逐Gran Turismo 超炸裂的赛道火焰

金融传奇：从高维货币到上帝粒子

制表：脑力过剩者的福音

科学精神的缘起：经验主义和理性主义

科学，是没有恒常逻辑的实践—漫谈归纳·演绎·溯因三大方法论

无序的冰花:物理学审视下的人工神经网络

长按二维码关注公众号

继续滑动看下一个