概率论的数学基础

1,261 阅读10分钟

作者|Tivadar Danka 编译|VK 来源|Towards Data Science

抽象是为了隐藏不相关的东西,只关注重要的细节。虽然有时看起来很可怕,但它是管理复杂性的最佳工具。

如果你让n个数学家来定义数学是什么,你可能会得到2n个不同的答案。我的定义是,它是一门将事物抽象出来,直到只剩下核心的科学,为任何事物的推理提供了最终的框架。

你想过概率到底是多少吗?你肯定用它来推理数据,做统计分析,甚至通过统计学习为你建立推理算法。在这篇文章中,我们将深入探索概率论。

前置知识

为了贯彻下去,你不需要任何高等数学,我会集中精力从基础上解释一切。但是,如果你知道以下几点,这是有益的:

  • 集合和集合运算,如并集、交集和差集。

  • 极限和一些基本微积分。

事件与度量

概率可以被启发式地认为是一个函数,用来测量事件发生的可能性。但从数学上讲,目前还不清楚什么是事件和度量。在我们能恰当地讨论概率之前,我们需要先打下坚实的基础。所以,让我们从事件开始。

事件

“我用这个骰子掷奇数的概率是多少?”

当我们谈到概率时,这个简单的问题作为一个例子出现在我们的脑海中。在这个简单的问题中,事件是掷出一个奇数。

为了进行数学建模,我们使用集合。包含实验结果的基本集合“全集”是Ω={1,2,3,4,5,6},事件是Ω的子集。这里,掷出奇数对应于子集A={1,3,5}。

所以,要定义概率,需要一个基础集Ω和它的子集∑的集合,我们称之为事件。然而,∑不能只是子集的任何集合。必须满足三个条件。

  • Ω是一个事件。

  • 如果X是一个事件,那么它的补Ω\X也是一个事件。也就是说,一个没有发生的事件也是另一个事件。

  • 事件的联合也必须是事件。也就是说,事件和其他事件的联合也是一个事件。

如果满足这些条件,∑称为σ-代数。用适当的数学术语:

在我们的情况下,我们有

当Ω是实数集时,出现了一个更有趣的情况。稍后我们将看到,如果实数的所有子集都被视为事件,那么会发生非常奇怪的事情。

描述σ-代数

这些用σ-代数定义的事件空间很难描述。我们可以立即看到,为了在一个非平凡的基集Ω上有一个有意义的事件空间,我们应该有无限多的事件。

例如,我们在一块板上发射子弹,想计算击中某个区域的概率。在这些情况下,指定一些子集并取包含这些子集的最小σ-代数就足够了。

假设我们在射击一块矩形板。如果我们说我们的事件空间是包含板的所有矩形子集的最小σ-代数,那么我们

  1. 对σ-代数有一个非常简单的描述,

  2. 会有各种形状,因为σ-代数在并集下是闭的。

很多集合可以描述为矩形的无限并集,如下所示。

我们称板内的矩形集合为生成集,而称最小的σ-代数为生成σ-代数。

你可以将此生成过程视为获取生成集的所有元素,并以所有可能的方式获取联合和补集。

既然我们有了一个处理事件的数学框架,我们就应该把注意力转向测量。

测量

虽然直观地衡量某件事情是很清楚的,但这是一件很难正式化的事情。度量基本上是一个函数,将一个集合映射到一个数字。举一个简单的例子,测量三维物体的体积似乎很简单,但即使在这里,我们也有严重的问题。你能想出一个你无法测量面积的物体吗?

也许你不能马上,但绝对不是这样。可以看出,如果空间的每一个子集都有一个定义明确的体积,那么就可以取一个单位体积的球体,将其分割成若干块,并将两个单位体积的球体放在一起。

这就是所谓的Banach-Tarski悖论。由于你不能真正做到这一点,因此你无法测量空间中每个子集的体积。

但在这种情况下,有什么措施呢?实际上,我们只有三个条件:

  1. 一个度量值应该总是正的;
  2. 空集的度量值应该是零;
  3. 如果你把不相交集的度量值加起来,你就得到了它们的并集的度量值。

为了正确地定义它们,我们需要子集的基集Ω和∑σ-代数。函数

是一种衡量,如果

属性3。称为σ-可加性。如果我们只有有限个集,我们将简单地称之为度量的可加性。

这个定义只是体积度量的抽象。这可能看起来很奇怪,但这三个属性才是最重要的。其他一切都是从他们那里来的。例如,我们有

这是因为A\B和B是不相交的,它们的并集是A。

另一个重要的性质是度量的连续性。也就是

此属性类似于实值函数连续性的定义,因此命名不是偶然的。

描述度量

正如我们在σ-代数中看到的,你只需要给出一个生成集,而不是一个完整的σ-代数。这对我们处理措施非常有用。虽然度量是在σ-代数上定义的,但是在生成子集上定义度量就足够了,因为由于σ-可加性,它决定了σ-代数中每个元素的测度。

概率的定义

现在一切都被设定为数学上定义概率。

概率空间由元组定义

其中Ω是基集,∑是其子集的σ-代数,P是这样的度量

所以,概率与面积和体积等量密切相关。面积、体积和概率都是在各自的空间里测量的。然而,这是一个相当抽象的概念,所以让我们举几个例子。

抛硬币

最简单的概率空间由抛硬币事件来描述。假设我们用0编码正面,用1编码反面

由于σ-代数和测度的性质,你只需要定义事件{0}(头)和事件{1}(尾)的概率,这就完全决定了概率测度。

随机数

一个更有趣的例子是随机数生成。如果你熟悉Python,那么可能已经使用了随机的函数,它给你一个介于0和1之间的随机数。虽然这看起来很神秘,但是用概率空间来描述它是相当简单的。

再次注意,这足以给出生成集各元素的概率。例如,我们有

要查看更复杂的示例,什么是P({0.5})?我们如何计算选出0.5的概率?(或介于0和1之间的任何其他数字)为此,我们需要依赖度量的属性。我们有

其中,这适用于所有ε>0。这里,我们使用了概率测度的可加性。因此,这就意味着

同样,因为它适用于所有的ε>0。这意味着概率小于任何正实数,所以它必须为零。

对于任何0≤x≤1,都有一个类似的论点。看到选择一个特定数字的概率为零,可能会令人惊讶。所以,在生成随机数并观察结果之后,要知道它发生的概率正好为0。然而,你面前还有一个结论。

零概率事件是可能发生的。

分布和密度

我们已经走了很长的路。然而,从实际的角度来看,使用测度和σ-代数并不十分方便。幸运的是,这不是处理概率的唯一方法。

为了简单起见,假设我们的基集是实数集。具体来说,我们有概率空间(Ω,∑,P),其中

P是这个空间上的任何概率测度。我们以前已经看到,事件的概率(a,b)决定了事件空间中其他事件的概率。然而,我们可以进一步压缩这些信息。实际上,函数

包含所有我们必须知道的关于概率度量的信息。想想看:我们有

对于所有a和b,这称为P的分布函数。对于所有概率测度,分布函数满足以下性质:

(第四个称为左连续性。不要强调如果你不熟悉连续性的定义,现在就不需要了。)

同样,如果这太抽象,让我们考虑一个例子。对于前面的随机数生成示例,我们有

这称为[0,1]上的均匀分布。

总而言之,如果你给我一个概率测度,我会给你一个描述概率测度的分布函数。

然而,这并不是关于分布函数的最佳选择。从数学的角度来看,如果你给一个函数满足上述1–4的性质,我也可以用它构造一个概率测度。此外,如果两个分布函数处处相等,则其相应的概率测度也相同。

因此,从数学的角度来看,分布函数和概率测度在某些情况下是相同的。这对我们非常有用。

密度函数

如我们所见,分布函数从概率测度中获取所有信息,并对其进行压缩。这是一个很好的工具,但有时不方便。例如,当我们只有分布函数时,计算期望值是困难的。(如果你不知道期望值,请不要担心,我们现在不会使用它。)

在许多实际应用中,我们用密度函数来描述概率测度。函数

是概率测度P的密度函数,如果

适用于σ-代数∑中的所有E。也就是说,启发式地,给定集合的概率由f(x)曲线下的面积决定。这个定义可能看起来很简单,但是这里隐藏了很多细节,我不想详细讨论。

你可能熟悉微积分中著名的牛顿-莱布尼兹定律。这里,也就是

这基本上意味着如果分布函数是可微的,它的导数就是密度函数。

有一定的概率分布,其中只有密度函数是已知的封闭形式。(具有闭合形式意味着它可以用有限个标准运算和初等函数来表示)最著名的分布之一是这样的:高斯分布。它的定义是

其中μ和σ是参数。

密度函数

分布函数

不管看起来多么令人惊讶,我们不能用封闭的形式来表示高斯分布函数。并不是数学家们还没有搞清楚,而是证明了这是不可能的。(相信我,证明在数学上做不到的事情有时是极其困难的。)

结尾

到目前为止,我们所看到的只是冰山一角。(想想看,这可以在每一次关于数学的讨论结束时说)这里,我们只以数学(半)精确的方式定义了什么是概率。

真正有趣的东西,比如机器学习,仍然摆在我们面前。

原文链接:towardsdatascience.com/the-mathema…

欢迎关注磐创AI博客站: panchuang.net/

sklearn机器学习中文官方文档: sklearn123.com/

欢迎关注磐创博客资源汇总站: docs.panchuang.net/