数学笔记6:概率统计看这一篇就够


本文是我的数学笔记系列的第六篇文章。这个系列记录了大学本科期间数学课程的笔记和心得,希望对你有帮助。此次的主题是概率论与数理统计。

概率统计对机器学习有很大的帮助,可以通过统计方法选择和优化模型,例如线性回归、逻辑回归、支持向量机等;应用贝叶斯方法进行参数估计和模型选择,在机器学习中常用于构建贝叶斯网络和隐马尔可夫模型。

核心知识有:

  • 随机事件与概率
  • 一维离散随机变量及其分布
  • 一维连续随机变量及其分布
  • 二维连续随机变量及其分布
  • 二维离散随机变量及其分布
  • 随机变量的数学期望
  • 随机变量的方差与协方差

文末附带真题练习。

随机事件与概率

条件概率是描述一个事件在另一个事件已经发生的前提下的概率。公式如下:

P(AB)=P(AB)P(B)=P(AB)P(B)P(A|B) = \frac{P(A \cap B)}{P(B)} =\frac{P(AB)}{P(B)}

它利用先验概率条件概率来更新事件发生的概率,是贝叶斯统计的核心基础(已知结果,倒过来找原因)。其公式为:

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)·P(A)}{P(B)}

例如,假设你进行了一个新冠病毒(COVID-19)检测,检测结果为阳性。我们想知道你实际感染新冠病毒的概率。假设某个城市中,每 1000 个人中有 1 人感染新冠病毒(先验概率);如果一个人确实感染了,检测阳性的概率为 99%(似然),未感染的人中有 5% 的概率会被检测为阳性。

设检测阳性为 BB,感染为 AA。结合条件概率公式,代入贝叶斯公式可得:

P(AB)=0.990.010.990.001+0.9990.05=0.0194P(A|B)=\frac{0.99*0.01}{0.99*0.001 + 0.999 * 0.05}=0.0194

也就是说,即使你的新冠检测呈阳性,你患新冠的概率也只有1.94%。

再例如,某人外出可以乘坐飞机、火车、轮船、汽车四种交通工具,其概率分别为5%、20%、30%、45%,乘坐这几种交通工具能如期到达的概率依次为100%、70%、50%、80%。假设该人如期到达,求坐火车的概率?

设坐火车的概率为P(A2)P(A_2),如期到达的概率为P(B)P(B)。根据贝叶斯公式:

P(A2B)=P(A2B)P(B)=P(BA2)P(A2)P(B)P(A_2|B) = \frac{P(A_2|B)}{P(B)} = \frac{P(B|A_2)P(A_2)}{P(B)}

根据全概率公式,容易得到 P(B)=0.7P(B) = 0.7。所以结果为 0.2。

P(AB)=P(B)P(AB)=P(A)P(BA)P(A∩B) = P(B) * P(A|B) = P(A) * P(B|A)

如果两个事件 AABB 相互独立,它们具有以下重要性质:

  • 一个事件的发生不改变另一个事件发生的概率,即 P(AB)=P(A)  P(A|B) = P(A) 
  • P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B)

一维离散随机变量及其分布

进行独立的伯努利实验(实验结果只有两种,彼此独立),直到第一次成功,所需的试验次数 XX 服从参数为 ( p ) 的几何分布。例如:

  • 射手连续射击目标,每次射中的概率为 pp,射中后就停止。求需要 nn 次停止的概率;
  • 连续投掷一个骰子,投到 6 点就停止。求需要 nn 次停止的概率;
  • 连续投一个硬币,投到正面就停止。求需要 nn 次停止的概率;

在这些例子里,nn 就是随机变量(取值为1,2,3….),我们称这些随机变量符合几何分布

以投掷骰子为例,假设我们想求需要次数为 3 的概率,直接带入概率质量函数即可:

P(X=k)=(1p)k1pP(X = k) = (1-p)^{k-1}p

这里 p=16p = \frac{1}{6} , k=3,k = 3, 所以求出概率为 0.1157。

如果一个实验只有两种可能结果(成功或失败),且实验重复进行 nn 次,每次成功的概率为 pp,则随机变量 XX 表示成功的次数。例如:

  • 假设投掷一枚硬币 10 次,正面向上的概率为 0.5,求正面出现 nn 次的概率。
  • 某商品次品率 10%,抽取50次,抽到次品的次数最有可能为多少件?

其中 n 就是随机变量,我们称这类随机变量符合二项分布。

以投硬币为例,假设我们想求正面出现 6 次的概率,直接带入概率质量函数即可:

P(X=k)=C(n,k)pk(1p)nkP(X = k) = C(n, k)p^k(1-p)^{n-k}

这里 n=10n = 10p=0.5p = 0.5,所以求出概率为 0.205。

再看一个复杂一点的例子:

设随机变量 X 服从二项分布 B(400,0.01)B(400, 0.01) ,则 kk 取多少,P = { X = k } 取最大值?

**对于二项分布,概率质量函数在 k=npk = np 时取最大值(当 np 为整数时)。如果 np 不是整数,则最大值在 np 的向下取整或向上取整处取得。**所以本题答案为 4。

如果在单位时间内某事件的发生次数是一个随机变量,且其发生率为 λ\lambda,则该随机变量 XX 服从参数为 λ \lambda 的泊松分布,记为 XP(λ)X \sim P(\lambda) 。例如:

  • 某网站每分钟平均有 2 次访问请求,求一分钟内有 3 次访问请求的概率;
  • 某商品每月平均销售数量为 4,求一个月销量为 8 的概率 λ\lambda

以销售商品为例,泊松分布的概率质量函数为:

P(X=k)=λkeλk!P(X = k) = \frac{\lambda^ke^{-\lambda}}{k!}

查询柏松分布表可得概率为 0.9786。换句话说,如果每个月进货8件,那么就有97.86%的概率保证商品不脱销。

一维连续随机变量及其分布

连续随机变量的计算涉及定积分。

值得注意的是,三种分布有三种不同的表示符号。每种分布都有对应的概率密度函数。概率密度函数的积分则为概率分布函数

一个函数若要作为密度函数,必须满足以下条件:

  • 概率分布函数在值域上的定积分为 1
  • 单调且连续

正态分布是一种最常见的连续概率分布,描述了很多自然现象中的随机变量。一个随机变量 X $$$$ 服从参数为 μ \mu(均值)和 σ2\sigma^2 (方差)的正态分布,记为 XN(μ,σ2)X \sim N(\mu, \sigma^2)

概率密度函数为:

f(x)=12πσ2exp((xμ)22σ2)f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})

例如:

  • 假设某次考试成绩服从均值为 75 分,标准差为 10 分的正态分布,求一个学生成绩在 85 分以上的概率。
  • 某品牌灯泡的寿命服从正态分布,平均寿命为1000小时,标准差为 200 小时。求一个灯泡寿命超过1300小时的概率。
  • 某国成年男性身高服从正态分布,平均身高为175厘米,标准差为6厘米。求随机选择一名成年男性,其身高在180到190厘米之间的概率。

以考试为例,首先进行标准化(表示一个观察值与平均值的差距):

Z=Xμσ=857510=1 Z = \frac{X - \mu}{\sigma} = \frac{85 - 75}{10} = 1

根据正态分布表,

 P(Z>1)0.1587  P(Z > 1) \approx 0.1587 

正态分布有一些优美的性质:

  • 图像关于 x=μx=\mu 对称

均匀分布表示在某个区间内的所有值都等可能。一个随机变量 XX 在区间 [a,b][a, b] 上服从均匀分布,记为 XU(a,b)X \sim U(a, b) 。例如:

  • 假设某种商品的重量均匀分布在 50 克到 100 克之间,求商品重量在 60 克到 80 克之间的概率。

其概率密度公式为:

f(x)=1(ba)f(x) = \frac{1}{(b-a)}

这个例子展示了均匀分布的一个重要特性:概率与区间长度成正比。在均匀分布中,我们只需要知道所关心的区间占总区间的比例,就可以直接得出概率

指数分布常用于描述事件间隔时间。一个随机变量 XX 服从参数为 λ\lambda(率参数)的指数分布,记为 Xe(λ)X \sim e(\lambda) 。例如 Xe(1)X \sim e(1) 表示 XX 服从 λ\lambda 为 1 的指数分布。其概率密度函数:

f(x)=λeλxf(x) = \lambda e^{-\lambda x}

例如,设随机变量 Xe(1)X \sim e(1) ,则 P{X3X>2}P \{ X \leq 3 | X > 2 \} 为多少?

注意,这里运用了条件概率公式。

P{X3X>2}=1P(2<X3)=F(3)F(2)P \{ X \leq 3 | X > 2 \} = 1 - P( 2 < X \leq 3) = F(3) - F(2)

二维离散随机变量及其分布

二维离散随机变量是一对离散随机变量的组合,用于描述两个变量之间的联合分布。设 XXYY 是两个离散随机变量,定义它们的联合概率分布 P(X=xi,Y=yj)P(X = x_i, Y = y_j),表示 XX 取值为 xix_i 且 Y 取值为 yjy_j 的概率。

通常我们使用表格来表示联合分布。联合分布具有以下性质:

  • 所有概率之和必须等于1
  • 如果 XXYY 是相互独立的,这意味着:P(X=xi)=P(X=xi,Y=y1)+P(X=xi,Y=y2)+P(X=xi,Y=y3)P(X = x_i) = P(X = x_i, Y = y_1) + P(X = x_i, Y = y_2) + P(X = x_i, Y = y_3) 对于每个 xix_i 都成立。

二维连续随机变量及其分布

随机变量的数学期望