数学笔记6:概率统计看这一篇就够


本文是我的数学笔记系列的第六篇文章。这个系列记录了大学本科期间数学课程的笔记和心得,同时穿插概率统计与现代 AI 技术的深刻关联,希望对你有帮助。此次的主题是概率论与数理统计。

为什么要学习概率统计

概率统计对机器学习有很大的帮助,可以通过统计方法选择和优化模型,例如线性回归、逻辑回归、支持向量机等;应用贝叶斯方法进行参数估计和模型选择,在机器学习中常用于构建贝叶斯网络和隐马尔可夫模型。

生成式 AI 的核心是概率分布建模。语言模型预测下一个词的概率分布,这直接应用了条件概率理论。模型训练过程依赖于最大似然估计、贝叶斯推断等统计推断方法,用于从数据中学习参数。

核心知识有:

  • 随机事件与概率
  • 一维离散随机变量及其分布
  • 一维连续随机变量及其分布
  • 二维连续随机变量及其分布
  • 二维离散随机变量及其分布
  • 随机变量的数学期望
  • 随机变量的方差与协方差

文末附带真题练习。

随机事件与概率

a. 条件概率公式

条件概率是描述一个事件在另一个事件已经发生的前提下的概率。公式如下:

P(AB)=P(AB)P(B)=P(AB)P(B)P(A|B) = \frac{P(A \cap B)}{P(B)} =\frac{P(AB)}{P(B)}

语言模型的基本任务是预测序列中下一个词的概率分布。以数学形式表示,给定前面的词序列 w1,w2,...,wt1w1,w2,...,wt−1 ,模型需要计算下一个词 wtw_t 的条件概率:

P(wtw1,w2,...,wt1)P(w_t|w_1, w_2, ..., w_{t-1})

b. 贝叶斯公式

它利用先验概率条件概率来更新事件发生的概率,是贝叶斯统计的核心基础(已知结果,倒过来找原因)。其公式为:

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)·P(A)}{P(B)}

例如,假设你进行了一个新冠病毒(COVID-19)检测,检测结果为阳性。我们想知道你实际感染新冠病毒的概率。假设某个城市中,每 1000 个人中有 1 人感染新冠病毒(先验概率);如果一个人确实感染了,检测阳性的概率为 99%(似然),未感染的人中有 5% 的概率会被检测为阳性。

设检测阳性为 BB,感染为 AA。结合条件概率公式,代入贝叶斯公式可得:

P(AB)=0.990.010.990.001+0.9990.05=0.0194P(A|B)=\frac{0.99*0.01}{0.99*0.001 + 0.999 * 0.05}=0.0194

也就是说,即使你的新冠检测呈阳性,你患新冠的概率也只有 1.94%。

再例如,某人外出可以乘坐飞机、火车、轮船、汽车四种交通工具,其概率分别为 5%、20%、30%、45%,乘坐这几种交通工具能如期到达的概率依次为 100%、70%、50%、80%。假设该人如期到达,求坐火车的概率?

设坐火车的概率为P(A2)P(A_2),如期到达的概率为P(B)P(B)。根据贝叶斯公式:

P(A2B)=P(A2B)P(B)=P(BA2)P(A2)P(B)P(A_2|B) = \frac{P(A_2|B)}{P(B)} = \frac{P(B|A_2)P(A_2)}{P(B)}

根据全概率公式,容易得到 P(B)=0.7P(B) = 0.7。所以结果为 0.2。

现代语言模型虽然不直接使用贝叶斯公式,但其工作原理类似于根据观察到的上下文(先验信息)推断最可能的下一个词(后验概率)。

c. 乘法公式

P(AB)=P(B)P(AB)=P(A)P(BA)P(A∩B) = P(B) * P(A|B) = P(A) * P(B|A)

假设你连续抛一枚均匀的硬币两次,求两次都抛出正面的概率。

  • 事件 A: 第一次抛出正面,P(A)=12P(A) = \frac{1}{2}
  • 事件 B: 第二次抛出正面,P(B)=12P(B) = \frac{1}{2}
  • 由于两次抛硬币是独立的,P(BA)=P(B)P(B|A) = P(B)

所以概率为 1/4

d. 事件独立性

如果两个事件 AABB 相互独立,它们具有以下重要性质:

  • 一个事件的发生不改变另一个事件发生的概率,即 P(AB)=P(A)  P(A|B) = P(A) ,反之亦然
  • P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B)
  • 没有所谓传递性:A 与 B 独立、B 与 C 独立,不能保证 A 与 C 独立。需要额外验证 P(AC)=P(A)P(C)P(A ∩ C) = P(A)P(C)

例如,一个打印店小程序,订单处理时间 AA 和金额 BB 相关,即没有独立性。高金额订单(例如大幅海报)通常需要更长的处理时间。

联合概率分布

联合概率分布是对多个随机变量的所有可能取值组合及其对应的联合概率的完整描述。对于离散型随机变量,通常用一个表格来表示联合概率分布;对于连续型随机变量,则用联合概率密度函数来描述。

边缘概率

边缘概率可以通过对联合概率分布进行求和(离散型)或积分(连续型)来计算。

一维离散随机变量及其分布

离散随机变量的分布采用概率质量函数来描述。

连续随机变量的分布采用概率密度函数来描述。

a. 几何分布

进行独立的伯努利实验(实验结果只有两种,彼此独立),直到第一次成功,所需的试验次数 XX 服从参数为 pp 的几何分布。例如:

  • 射手连续射击目标,每次射中的概率为 pp,射中后就停止。求需要 nn 次停止的概率;
  • 连续投掷一个骰子,投到 6 点就停止。求需要 nn 次停止的概率;
  • 连续投一个硬币,投到正面就停止。求需要 nn 次停止的概率;

在这些例子里,nn 就是随机变量(取值为1,2,3….),我们称这些随机变量符合几何分布

以投掷骰子为例,假设我们想求需要次数为 3 的概率,直接带入概率质量函数即可:

P(X=k)=(1p)k1pP(X = k) = (1-p)^{k-1}p

这里 p=16p = \frac{1}{6} , k=3,k = 3, 所以求出概率为 0.1157。

b. 二项分布

如果一个实验只有两种可能结果(成功或失败),且实验重复进行 nn 次,每次成功的概率为 pp,则随机变量 XX 表示成功的次数。例如:‘

  • 假设投掷一枚硬币 10 次,正面向上的概率为 0.5,求正面出现 nn 次的概率。
  • 某商品次品率 10%,抽取50次,抽到次品的次数最有可能为多少件?

其中 nn 就是随机变量,我们称这类随机变量符合二项分布。

以投硬币为例,假设我们想求正面出现 6 次的概率,直接带入概率质量函数即可:

P(X=k)=C(n,k)pk(1p)nkP(X = k) = C(n, k)p^k(1-p)^{n-k}

这里 n=10n = 10p=0.5p = 0.5,所以求出概率为 0.205。

再看一个复杂一点的例子:

设随机变量 XX 服从二项分布 B(400,0.01)B(400, 0.01) ,则 kk 取多少,P = { X = k } 取最大值?

**对于二项分布,概率质量函数在 k=npk = np 时取最大值(当 np 为整数时)。如果 np 不是整数,则最大值在 npnp 的向下取整或向上取整处取得。**所以本题答案为 4。

c. 泊松分布

如果在单位时间内某事件的发生次数是一个随机变量,且其发生率为 λ\lambda,则该随机变量 XX 服从参数为 λ \lambda 的泊松分布,记为 XP(λ)X \sim P(\lambda) 。例如:

  • 某网站每分钟平均有 2 次访问请求,求一分钟内有 3 次访问请求的概率;
  • 某商品每月平均销售数量为 4,求一个月销量为 8 的概率 λ\lambda

以销售商品为例,泊松分布的概率质量函数为:

P(X=k)=λkeλk!P(X = k) = \frac{\lambda^ke^{-\lambda}}{k!}

查询泊松分布表可得概率为 0.9786。换句话说,如果每个月进货8件,那么就有 97.86% 的概率保证商品不脱销。

一维连续随机变量及其分布

连续随机变量的计算涉及定积分。

值得注意的是,三种分布有三种不同的表示符号。每种分布都有对应的概率密度函数。概率密度函数的积分则为概率分布函数,或称累积分布函数。

一个函数若要作为密度函数,必须满足以下条件:

  • 概率分布函数在值域上的定积分为 1
  • 单调且连续

现代生成模型(如VAE、GAN、扩散模型)通常在连续的潜在空间中操作。这些潜在向量的每个维度可以被视为一个连续随机变量,服从特定的概率分布(如正态分布)。

a. 正态分布

正态分布是一种最常见的连续概率分布,描述了很多自然现象中的随机变量。一个随机变量 X $$$$ 服从参数为 μ \mu(均值)和 σ2\sigma^2 (方差)的正态分布,记为 XN(μ,σ2)X \sim N(\mu, \sigma^2)

它的概率密度函数为:

f(x)=12πσ2exp((xμ)22σ2)f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})

均值 μ\mu 决定了分布的对称中心,方差 σ2\sigma^2 决定了分布的“宽度”。其本质是一个高斯函数。

例如:

  • 假设某次考试成绩服从均值为 75 分,标准差为 10 分的正态分布,求一个学生成绩在 85 分以上的概率。
  • 某品牌灯泡的寿命服从正态分布,平均寿命为 1000 小时,标准差为 200 小时。求一个灯泡寿命超过 1300 小时的概率。
  • 某国成年男性身高服从正态分布,平均身高为175厘米,标准差为6厘米。求随机选择一名成年男性,其身高在180到190厘米之间的概率。

以考试为例,首先进行标准化(表示一个观察值与平均值的差距):

Z=Xμσ=857510=1 Z = \frac{X - \mu}{\sigma} = \frac{85 - 75}{10} = 1

根据正态分布表,

 P(Z>1)0.1587  P(Z > 1) \approx 0.1587 

正态分布有一些优美的性质:

  • 图像关于 x=μx=\mu 对称

b. 均匀分布

均匀分布表示在某个区间内的所有值都等可能。一个随机变量 XX 在区间 [a,b][a, b] 上服从均匀分布,记为 XU(a,b)X \sim U(a, b) 。例如:

  • 假设某种商品的重量均匀分布在 50 克到 100 克之间,求商品重量在 60 克到 80 克之间的概率。

其概率密度公式为:

f(x)=1(ba)f(x) = \frac{1}{(b-a)}

这个例子展示了均匀分布的一个重要特性:概率与区间长度成正比。在均匀分布中,我们只需要知道所关心的区间占总区间的比例,就可以直接得出概率

c. 指数分布

指数分布常用于描述事件间隔时间。一个随机变量 XX 服从参数为 λ\lambda(率参数)的指数分布,记为 Xe(λ)X \sim e(\lambda) 。例如 Xe(1)X \sim e(1) 表示 XX 服从 λ\lambda 为 1 的指数分布。其概率密度函数:

f(x)=λeλxf(x) = \lambda e^{-\lambda x}

例如,设随机变量 Xe(1)X \sim e(1) ,则 P{X3X>2}P \{ X \leq 3 | X > 2 \} 为多少?

注意,这里运用了条件概率公式。

P{X3X>2}=1P(2<X3)=F(3)F(2)P \{ X \leq 3 | X > 2 \} = 1 - P( 2 < X \leq 3) = F(3) - F(2)

二维离散随机变量及其分布

二维离散随机变量是一对离散随机变量的组合,用于描述两个变量之间的联合分布。设 XXYY 是两个离散随机变量,定义它们的联合概率分布 P(X=xi,Y=yj)P(X = x_i, Y = y_j),表示 XX 取值为 xix_i 且 Y 取值为 yjy_j 的概率。

通常我们使用表格来表示联合分布。联合分布具有以下性质:

  • 所有概率之和必须等于1
  • 如果 XXYY 是相互独立的,这意味着:P(X=xi)=P(X=xi,Y=y1)+P(X=xi,Y=y2)+P(X=xi,Y=y3)P(X = x_i) = P(X = x_i, Y = y_1) + P(X = x_i, Y = y_2) + P(X = x_i, Y = y_3) 对于每个 xix_i 都成立。

二维连续随机变量及其分布

二维连续随机变量是指一对随机变量 (X,Y)(X,Y),它们的值在二维实数平面上的某个区域内连续取值,且其概率分布由联合概率密度函数(joint probability density function)描述。

这个分布也有归一性。两个随机变量 XXYY 相互独立,当且仅当它们的联合概率密度函数可以分解为边际密度函数的乘积。

例如,打印店小程序的案例中,处理时间是 XX,下单金额为 YY,给出密度函数后可以得到如下信息:

  • 边际密度函数 fX(x)f_X(x) 可以看出是处理时间长的订单多一点还是少一点
  • 边际密度函数 fY(y)f_Y(y) 可以看出是高价订单多还是低价订单多
  • 期望值 E(X)E(X) 可以看出平均处理时间
  • 期望值 E(Y)E(Y) 可以看出平均金额

随机变量的数学期望

随机变量函数的数学期望,也被称为期望值,是随机变量取值的加权平均数,权重为相应取值的概率。设 XX 是一个随机变量,g(X)g(X)XX 的一个函数,数学期望 E[g(X)]E[g(X)] 的计算方法根据 (X) 是离散型还是连续型而有所不同。

常见分布的期望公式如下:

  • 几何分布:1/p1/p
  • 泊松分布:λ\lambda
  • 均匀分布:2a+b\frac{2}{a + b}
  • 指数分布:1λ\frac{1}{\lambda}

a. 离散型

离散型随机变量期望值的计算公式为:

E[g(X)]=ig(xi)piE[g(X)] = \sum_{i}{}g(x_i)p_i

其中 xix_i 是离散型随机变量的取值,pip_i 是对应的概率。

例如,设 XX 是一个骰子的点数,XX 取值为 1 到 6,每个值的概率均为 16\frac{1}{6}。我们求 g(X)=X2g(X) = X^2 的期望值:

E[X2]=16(1+4+9+16+25+36)=916E[X^2] = \frac{1}{6}(1+4+9+16+25+36)=\frac{91}{6}

再来看一个更复杂的例子:

Image
Image

其实隐含的条件为:

  • g(Z)=X+Yg(Z) = X + Y
  • 区间[-2, 2]可分为三段

所以带入公式即可快速解出:

E(X+Y)=14(2)+120+142=0E(X+Y)=\frac{1}{4}*(-2)+\frac{1}{2}*0 + \frac{1}{4} * 2 = 0 D(X+Y)=E[(X+Y)2]E(X+Y)2D(X + Y) = E[(X + Y)^2] - E(X + Y)^2

b. 连续型

假设 XX 是一个连续型随机变量,其概率密度函数为 f(x)f(x),则 XX 的数学期望(又称均值)定义为:

E(X)=[,+]xf(x)dxE(X) = ∫[-∞, +∞] x * f(x) dx

其本质就是对离散型的计算公式求定积分。我们可以直接记住一些常见分布的积分结果,见本章开头部分。

c. 切比雪夫不等式

切比雪夫不等式给出了随机变量偏离其期望值一定距离的概率的上界。这个不等式适用于任何随机变量,无论其分布形状如何。

XX 是一个随机变量,具有期望值 E(X)=μE(X) = \mu 和方差 Var(X)=σ2\text{Var}(X) = \sigma^2。对于任何正数 (k > 0),切比雪夫不等式表明:

P(xμkσ)1k2P(|x-\mu|\ge k\sigma)\leq\frac{1}{k^2}

例如,假设某班级数学考试的平均分是75分 μμ ,标准差是10分(σ)。我们想知道分数偏离平均分20分以上的学生比例上限。

这里 k=20/10=2k = 20/10 = 2,根据切比雪夫不等式:P(X7520)1/22=1/4=25%P(|X - 75| ≥ 20) ≤ 1/2² = 1/4 = 25\%,这意味着最多 25% 的学生可能得分低于55分或高于95分。

随机变量的方差与协方差

方差和协方差用于描述随机变量的分布和相互关系。

a. 方差

方差(Variance)衡量随机变量取值的离散程度,即其值偏离期望值的程度。设 XX 是一个随机变量,其期望值为 E[X]=μE[X] = \mu,则 X $$$$ 的方差记为 Var(X) \text{Var}(X)σX2\sigma_X^2,定义如下:

Var(X)=E[(Xμ2)]\text{Var}{(X)} = E[(X-\mu^2)]

此外,方差有几个重要性质:

  • 对于常数 a 和随机变量 XXVar(aX)=a2Var(X)Var(aX) = a²Var(X)
  • 对于相互独立的随机变量 XXYYVar(X+Y)=Var(X)+Var(Y)Var(X + Y) = Var(X) + Var(Y)
  • 对于相互独立的随机变量 XXYYVar(XY)=Var(X)+Var(Y)Var(X - Y) = Var(X) + Var(Y)
  • 对于几何分布,其方差等于 1pp2\frac{1-p}{p^2}
  • 对于二项分布,其方差等于 np(1p)np(1-p)
  • 对于指数分布,其方差等于 1λ2\frac{1}{\lambda^2}
  • 对于泊松分布,其方差等于 λ\lambda
  • 对于均匀分布,其方差等于 (ba)212\frac{(b-a)^2}{12}

例如,设 XX 是一个骰子的点数,取值为 1 到 6。我们求 XX 的方差:

Var(X)=E(X2)E(X)2=16(1+2+3+4+5+6)916=17560\text{Var}{(X)} = E(X^2) - E(X)^2 = \frac{1}{6}(1+2+3+4+5+6) - \frac{91}{6} = \frac{175}{60}

再例如,设随机变量 XXYY 相互独立,方差分别为 4 和 8,则 4X2Y4X - 2Y 的方差为多少?

根据上面提到的三个性质容易得到:

Var(4X2Y)=16Var(X)+4Var(Y)=96\text{Var}{(4X - 2Y)} = 16 \text{Var}{(X)} + 4 \text{Var}{(Y)} = 96

b. 协方差

协方差(Covariance)用于描述两个随机变量之间的线性关系。设 XXYY 是两个随机变量,其期望值分别为 E[X]=μXE[X] = \mu_XE[Y]=μYE[Y] = \mu_Y,则 XXYY 的协方差记为 Cov(X,Y)\text{Cov}(X, Y),定义如下:

Cov(X,Y)=E[(Xμx)(Yμy)]\text{Cov}{(X,Y)} = E[(X-\mu_x)(Y-\mu_y)]

✍️ 综合练习

连续型随机变量考察

已知连续型随机变量 X 的密度函数为:

Image
Image

试求常数 aaP{1<x1} P\{-1 < x \leq 1\}

[0,a]2xπ2dx=1∫[0, a] \frac{2x}{\pi^2} dx = 1

计算可得:

1π2a2=1\frac{1}{\pi^2}a^2 = 1

故解得:

a=πa = \pi P{1<x1}=F(1)F(1) P\{-1 < x \leq 1\} = F(1) - F(-1)

由于 a=πa = \pi ,所以 F(1)=0 F(-1) = 0F(1)=1π2F(1) = \frac{1}{\pi^2}

全概率公式和独立性考察

Image
Image

本题可以通过全概率公式求解,背后隐含了联合概率的知识。

二维随机变量考察

Image
Image

解题的关键在于理解:概率密度函数必须满足的基本性质,即在整个样本空间上的积分等于1。

所以,求二重积分即可。解得 a=14a = \frac{1}{4}

分布函数考察

Image
Image

本题的关键在于要理解 P(Yy)=P(24Xy)P(Y ≤ y) = P(2 - 4X ≤ y)

即:分布函数 F(x)F(x) 定义为 XX 小于或等于 xx 的概率。

正态分布考察

Image
Image

本题要求理解正态分布中的两个参数。只需要知道根据 XX 和 Y 计算出两个参数(期望值和方差)即可得到答案。

σ2=Var(X)+4Var(Y)=25\sigma^2 = \text{Var}(X) + 4\text{Var}(Y) = 25 μ=E(X2Y)=3\mu = \text{E}(X - 2Y) = 3

方差、二项分布综合考察

Image
Image

本题要求能立刻反应到 YY 实质上是二项分布。首先易得P{X12}=18P\{X \leq \frac{1}{2}\} = \frac{1}{8}. 二项分布的方差计算公式为 np(1p)np(1 - p),其中 nn 为 3,pp18\frac{1}{8},所以本题选C。

随机变量的理解

一台机器的故障率为 0.01,一个人同时看管 20 台机器。试求不能及时维修的概率。

本质上是指同时两台以上机器出问题的概率。

本题描述的变量符合二项分布,其中 p 为 0.01 ,n 为 20,k 是出问题机器的数量。也就是求:

1P{X1}=1P{X=0}P{X=1}1 - P\{X \leq 1\} = 1- P\{X = 0\} - P\{X = 1\}

分布综合考察

XU25X \sim U(2,5),现在对 XX 进行3次独立观测,求至少有两次观测值大于3的概率。

首先,利用均匀分布求出一次观测大于3的概率,为 23\frac{2}{3} .

然后利用二项分布即可求出结果。

P{Y=2}=3232(123)32=1227P \{ Y = 2\} = 3 * \frac{2}{3}^2 * (1 - \frac{2}{3})^{3-2} = \frac{12}{27} P{Y=3}=233130=827P\{Y = 3\} = \frac{2}{3}^3 * \frac{1}{3}^0 = \frac{8}{27}

总结

概率统计研究的本质问题是描述、理解和利用不确定性。它通过数学工具和方法,分析随机现象的规律性,为决策、预测和推断提供科学依据。它是处理不确定性世界的核心学科,广泛应用于自然科学、社会科学和工程技术领域。