2.6 概率 | Yuyuzheng2499 の Blog

type

Page

status

Invisible

date

Jan 9, 2026

slug

summary

动手深度学习v2课程

2.6.1. 基本概率论

假设我们掷骰子，想知道看到1的几率有多大，而不是看到另一个数字。如果骰子是公平的，那么所有六个结果都有相同的可能发生，因此我们可以说发生的概率为。

在现实中，对于真实的骰子，我们想要检查它的方法是多次投掷并记录结果。对于每个骰子，我们将观察到中的一个值。对于每个值，一种自然的方法是将它出现的次数除以投掷的总次数，此即事件（event）概率的估计值。由大数定律可知，随着投掷次数的增加，这个估计值会越来越接近真实的潜在概率。接下来验证一下：

首先，导入相关包

在统计学中，我们把从概率分布中抽取样本的过程称为抽样（sampling）。笼统来说，可以把分布（distribution）看作对事件的概率分配，稍后我们将给出的更正式定义。将概率分配给一些离散选择的分布称为多项分布（multinomial distribution）。

为了抽取一个样本，即掷骰子，只需传入一个概率向量。输出的是另一个相同长度的向量：它在索引处的值是采样结果中出现的次数。

在估计一个骰子的公平性时，希望从同一分布中生成多个样本。如果使用Python的for循环来完成该任务，速度会很慢。因此我们使用深度学习框架的函数同时抽取多个样本，得到我们想要的任意形状的独立样本数组。

知道如何对骰子进行采样之后，可以模拟1000次投掷。然后计算其相对概率，以作为真实概率的估计。

因为我们是从一个公平的骰子中生成的数据，我们知道每个结果都有真实的概率，大约是，所以上面输出的估计值看起来不错。

接下来看看这些概率如何随时间的推移收敛到真实概率。进行500组实验，每组抽10个样本。

每条实线对应于骰子的6个值中的一个，并给出骰子在每组实验后出现值的估计概率。当我们通过更多的实验获得更多的数据时，这条实体曲线向真实概率收敛。

2.6.1.1. 概率论公理

在处理骰子掷出时，我们将集合称为样本空间（sample space）或者结果空间（outcome space），其中每个元素都是结果（outcome）。事件（event是一组给定样本空间的随机结果。例如，“看到5”（）和“看到奇数”（）都是掷出骰子的有效事件。如果一个随机实验的结果在中，则事件已经发生。也就是说，如果投掷出点，因为

，我们可以说，“看到奇数”的事件发生了。

概率（probability）可以被认为是将集合映射到真实值的函数。在给定的样本空间中，事件的概率，表示为，满足以下属性：

对于任意事件，其概率从不会是负数，即；

整个样本空间的概率为，即；

对于互斥（mutually exclusive）事件（对于所有都有）的任意一个可数序列，序列中任意一个事件发生的概率等于它们各自发生的概率之和，即。

2.6.1.2. 随机变量

在我们掷骰子的随机实验中，我们引入了随机变量（random variable）的概念。随机变量几乎可以是任何数量，并且它可以在随机实验的一组可能性中取一个值。考虑一个随机变量，其值在掷骰子的样本空间中。我们可以将事件“看到一个”表示为或，其概率表示为或。通过，我们区分了随机变量和可以采取的值（例如）。然而，这可能会导致繁琐的表示。为了简化符号，一方面，我们可以将表示为随机变量上的分布（distribution）：分布告诉我们获得某一值的概率。另一方面，我们可以简单用表示随机变量取值的概率。

由于概率论中的事件是来自样本空间的一组结果，因此我们可以为随机变量指定值的可取范围。例如，表示事件，即的概率。等价地，表示随机变量从中取值的概率。

请注意，离散（discrete）随机变量（如骰子的每一面）和连续（continuous）随机变量（如人的体重和身高）之间存在微妙的区别。现实生活中，测量两个人是否具有完全相同的身高没有太大意义。如果我们进行足够精确的测量，最终会发现这个星球上没有两个人具有完全相同的身高。在这种情况下，询问某人的身高是否落入给定的区间，比如是否在1.79米和1.81米之间更有意义。在这些情况下，我们将这个看到某个数值的可能性量化为密度（density）。高度恰好为1.80米的概率为0，但密度不是0。在任何两个不同高度之间的区间，我们都有非零的概率。

2.6.2. 处理多个随机变量

很多时候，我们会考虑多个随机变量。

一个例子：图像包含数百万像素，因此有数百万个随机变量。在许多情况下，图像会附带一个标签（label），标识图像中的对象。我们也可以将标签视为一个随机变量。我们甚至可以将所有元数据视为随机变量，例如位置、时间、光圈、焦距、ISO、对焦距离和相机类型。所有这些都是联合发生的随机变量。当我们处理多个随机变量时，会有若干个变量是我们感兴趣的。

2.6.2.1 联合概率

第一个被称为联合概率（joint probability）。给定任意值和，联合概率可以回答：和同时满足的概率是多少？请注意，对于任何和的取值，。这点是确定的，因为要同时发生和，就必须发生，也必须发生（反之亦然）。因此，和同时发生的可能性不大于或是单独发生的可能性。

2.6.2.2. 条件概率

联合概率的不等式带给我们一个有趣的比率：。我们称这个比率为条件概率（conditional probability），并用表示它：它是的概率，前提是已发生。

2.6.2.3. 贝叶斯定理

使用条件概率的定义，我们可以得出统计学中最有用的方程之一：Bayes定理（Bayes' theorem）。根据乘法法则（multiplication rule ）可得到。根据对称性，可得到。假设，求解其中一个条件变量，我们得到

请注意，这里我们使用紧凑的表示法：其中是一个联合分布（joint distribution），是一个条件分布（conditional distribution）。这种分布可以在给定值上进行求值。

2.6.2.4. 边际化

为了能进行事件概率求和，我们需要求和法则（sum rule），即的概率相当于计算的所有可能选择，并将所有选择的联合概率聚合在一起：

这也称为边际化（marginalization）。边际化结果的概率或分布称为边际概率（marginal probability）或边际分布（marginal distribution）。

2.6.2.5. 独立性

另一个有用属性是依赖（dependence）与独立（independence）。如果两个随机变量和是独立的，意味着事件的发生跟事件的发生无关。在这种情况下，统计学家通常将这一点表述为。根据贝叶斯定理，马上就能同样得到。在所有其他情况下，我们称和依赖。比如，两次连续抛出一个骰子的事件是相互独立的。相比之下，灯开关的位置和房间的亮度并不是（因为可能存在灯泡坏掉、电源故障，或者开关故障）。

由于等价于，因此两个随机变量是独立的，当且仅当两个随机变量的联合分布是其各自分布的乘积。同样地，给定另一个随机变量时，两个随机变量和是条件独立的（conditionally independent），当且仅当。这个情况表示为。

2.6.2.6. 应用

假设一个医生对患者进行艾滋病病毒（HIV）测试。这个测试是相当准确的，如果患者健康但测试显示他患病，这个概率只有1%；如果患者真正感染HIV，它永远不会检测不出。我们使用来表示诊断结果（如果阳性，则为，如果阴性，则为），来表示感染艾滋病病毒的状态（如果阳性，则为，如果阴性，则为）。在下表中列出了这样的条件概率。

条件概率为

条件概率
	1	0.01
	0	0.99

请注意，每列的加和都是1（但每行的加和不是），因为条件概率需要总和为1，就像概率一样。让我们计算如果测试出来呈阳性，患者感染HIV的概率，即。显然，这将取决于疾病有多常见，因为它会影响错误警报的数量。假设人口总体是相当健康的，例如，。为了应用贝叶斯定理，我们需要运用边际化和乘法法则来确定

因此，我们得到

换句话说，尽管使用了非常准确的测试，患者实际上患有艾滋病的几率只有13.06%。正如我们所看到的，概率可能是违反直觉的。

患者在收到这样可怕的消息后应该怎么办？很可能，患者会要求医生进行另一次测试来确定病情。第二个测试具有不同的特性，它不如第一个测试那么精确，如下表所示。

条件概率为

条件概率
	0.98	0.03
	0.02	0.97

不幸的是，第二次测试也显示阳性。让我们通过假设条件独立性来计算出应用Bayes定理的必要概率：

现在我们可以应用边际化和乘法规则：

最后，鉴于存在两次阳性检测，患者患有艾滋病的概率为

也就是说，第二次测试使我们能够对患病的情况获得更高的信心。尽管第二次检验比第一次检验的准确性要低得多，但它仍然显著提高我们的预测概率。

2.6.3. 期望和方差

为了概括概率分布的关键特征，我们需要一些测量方法。一个随机变量的期望（expectation，或平均值（average））表示为

当函数的输入是从分布中抽取的随机变量时，的期望值为

在许多情况下，我们希望衡量随机变量与其期望值的偏置。这可以通过方差来量化

方差的平方根被称为标准差（standard deviation）。随机变量函数的方差衡量的是：当从该随机变量分布中采样不同值时，函数值偏离该函数的期望的程度：

2.6.4 小结

我们可以从概率分布中采样。

我们可以使用联合分布、条件分布、Bayes定理、边缘化和独立性假设来分析多个随机变量。

期望和方差为概率分布的关键特征的概括提供了实用的度量形式。