17.1 条件概率

条件概率的定义

设 A、B 为两个事件,且 P(A) > 0,则称

P(B|A) = P(AB) / P(A)

为在事件 A 已经发生的条件下事件 B 发生的条件概率

直觉理解:条件概率就是"缩小样本空间"后重新计算概率。已知 A 发生,样本空间从 Ω 缩小为 A,再看 B 在其中的比例。

条件概率的性质

乘法公式

乘法公式
P(AB) = P(A) · P(B|A) = P(B) · P(A|B)

乘法公式可以推广到多个事件:

P(A₁A₂A₃) = P(A₁) · P(A₂|A₁) · P(A₃|A₁A₂)
例 1:条件概率的基本计算

一个袋子中有 3 个红球和 2 个白球,依次不放回地取两个球。已知第一个球是红球,求第二个球也是红球的概率。

:设 A = "第一个球是红球",B = "第二个球是红球"。

P(A) = 3/5,P(AB) = P(第一个红且第二个红) = (3×2)/(5×4) = 6/20 = 3/10

P(B|A) = P(AB)/P(A) = (3/10)/(3/5) = (3/10)×(5/3) = 1/2

直觉验证:已知第一个是红球后,袋中剩 2 红 2 白,第二个为红球的概率确实是 2/4 = 1/2。

例 2:乘法公式的应用

一批产品共 100 件,其中有 5 件次品。从中依次不放回地取 3 件,求恰好取到 1 件次品的概率。

:设 X 为取到的次品数,恰好取到 1 件次品的情况分 C(3,1)=3 种位置。

以"次品在第1个"为例:

P = P(第1个次品)·P(第2个正品|第1个次品)·P(第3个正品|前1次1正)

= (5/100)×(95/99)×(94/98) = 0.05×0.9596×0.9592 ≈ 0.04604

三种位置(次品在第1、2或3个)的概率相同,故

P(X=1) = 3 × 0.04604 ≈ 0.1381

17.2 全概率公式与贝叶斯公式

完备事件组(样本空间的划分)

设 B₁, B₂, ..., Bₙ 是一组事件,满足:

  1. B₁, B₂, ..., Bₙ 两两互斥(BᵢBⱼ = ∅, i ≠ j)
  2. B₁ ∪ B₂ ∪ ... ∪ Bₙ = Ω(完备性

则称 B₁, B₂, ..., Bₙ 为样本空间 Ω 的一个完备事件组划分

全概率公式
P(A) = Σ P(Bᵢ) · P(A|Bᵢ) = P(B₁)P(A|B₁) + P(B₂)P(A|B₂) + ... + P(Bₙ)P(A|Bₙ)

含义:由"原因"推"结果"——将事件 A 按不同原因 Bᵢ 分解,再汇总。

贝叶斯公式
P(Bⱼ|A) = P(Bⱼ) · P(A|Bⱼ) / Σ P(Bᵢ) · P(A|Bᵢ)

含义:由"结果"推"原因"——已知结果 A 发生,反推是由原因 Bⱼ 导致的概率。

其中 P(Bⱼ) 称为先验概率,P(Bⱼ|A) 称为后验概率

全概率 vs 贝叶斯:全概率公式是"正向"思维——已知各原因的概率,求结果的概率;贝叶斯公式是"逆向"思维——已知结果发生了,推断各原因的可能性。
例 3:全概率公式

工厂有甲、乙、丙三个车间生产同一种产品,产量分别占总量的 50%、30%、20%,次品率分别为 3%、4%、5%。从全部产品中随机取一件,求取到次品的概率。

:设 A = "取到次品",B₁ = "甲车间产品",B₂ = "乙车间产品",B₃ = "丙车间产品"。

P(B₁) = 0.5, P(B₂) = 0.3, P(B₃) = 0.2

P(A|B₁) = 0.03, P(A|B₂) = 0.04, P(A|B₃) = 0.05

P(A) = 0.5×0.03 + 0.3×0.04 + 0.2×0.05

= 0.015 + 0.012 + 0.010 = 0.037

例 4:贝叶斯公式

沿用例 3 的条件。若取到的产品是次品,求它来自甲车间的概率。

P(B₁|A) = P(B₁)·P(A|B₁) / P(A)

= (0.5 × 0.03) / 0.037

= 0.015 / 0.037

= 15/37 ≈ 0.4054

同理:P(B₂|A) = 0.012/0.037 = 12/37 ≈ 0.3243

P(B₃|A) = 0.010/0.037 = 10/37 ≈ 0.2703

验证:15/37 + 12/37 + 10/37 = 37/37 = 1 ✓

17.3 离散型随机变量及其分布列

离散型随机变量

如果随机变量 X 的所有可能取值能够一一列举出来(有限个或可列无穷多个),则称 X 为离散型随机变量

分布列

设离散型随机变量 X 的所有可能取值为 x₁, x₂, ..., xₙ,则

Xx₁x₂...xₙ
Pp₁p₂...pₙ

称为 X 的分布列(或概率分布表)。

分布列的性质

基本性质
  1. 非负性:pᵢ ≥ 0(对所有 i)
  2. 归一性:p₁ + p₂ + ... + pₙ = 1(即 Σpᵢ = 1)

这两条性质是分布列合法的充要条件。

常见离散型分布

两点分布(0-1 分布 / Bernoulli 分布)

若随机变量 X 只取 0 和 1 两个值,分布列为

X10
Pp1-p

则称 X 服从参数为 p 的两点分布,记作 X ~ B(1, p)

二项分布

在 n 次独立重复试验中,每次事件 A 发生的概率为 p,则事件 A 发生的次数 X 服从二项分布,记作 X ~ B(n, p)

P(X = k) = C(n,k) · pk · (1-p)n-k,k = 0, 1, 2, ..., n

关键特征:① n次试验 ② 每次只有"成功/失败" ③ 各次独立 ④ 成功概率恒为 p

超几何分布

总体 N 个个体中有 M 个"特殊个体",从中不放回地抽取 n 个,X 表示抽到的特殊个体数:

P(X = k) = C(M,k) · C(N-M, n-k) / C(N, n)

其中 max(0, n-N+M) ≤ k ≤ min(M, n)。

与二项分布的区别:超几何分布对应不放回抽样;二项分布对应有放回(或独立重复)试验。当 N 远大于 n 时,超几何分布近似于二项分布。

例 5:二项分布的应用

某射手每次射击命中目标的概率为 0.8,独立射击 5 次,求恰好命中 3 次的概率。

:设 X 为命中的次数,X ~ B(5, 0.8)。

P(X=3) = C(5,3) · (0.8)3 · (0.2)2

= 10 × 0.512 × 0.04

= 10 × 0.02048

= 0.2048

例 6:超几何分布的应用

一批产品共 20 件,其中 4 件是次品。从中不放回地抽取 5 件进行检验,求恰好抽到 2 件次品的概率。

:N=20, M=4, n=5, k=2。

P(X=2) = C(4,2)·C(16,3) / C(20,5)

C(4,2) = 6

C(16,3) = 16×15×14/(3×2×1) = 560

C(20,5) = 20×19×18×17×16/(5×4×3×2×1) = 15504

P(X=2) = (6 × 560) / 15504 = 3360 / 15504 = 210/969 ≈ 0.2167

17.4 离散型随机变量的数字特征

数学期望(均值)

设离散型随机变量 X 的分布列为 P(X = xᵢ) = pᵢ,则

E(X) = Σ xᵢ pᵢ = x₁p₁ + x₂p₂ + ... + xₙpₙ

含义:E(X) 是 X 的加权平均值,反映随机变量取值的平均水平("重心")。

方差与标准差
D(X) = Σ (xᵢ - E(X))² pᵢ = E(X²) - [E(X)]²

含义:D(X) 衡量随机变量取值的离散程度(波动大小)。

标准差:σ(X) = √D(X),与 X 量纲相同。

期望与方差的运算法则

重要公式
期望的线性性质
E(aX + b) = aE(X) + b
E(X + Y) = E(X) + E(Y)

注意:E(XY) = E(X)·E(Y) 仅在 X、Y 独立时成立。

方差的运算
D(aX + b) = a²D(X)
D(X ± Y) = D(X) + D(Y) ± 2Cov(X,Y)

若 X、Y 独立:D(X + Y) = D(X) + D(Y)

常见分布的期望与方差

分布记号E(X)D(X)
两点分布X ~ B(1, p)pp(1-p)
二项分布X ~ B(n, p)npnp(1-p)
超几何分布X ~ H(N, M, n)nM/NnM(N-M)(N-n) / [N²(N-1)]
记忆技巧:二项分布的期望和方差非常常用,记住 E=np, D=npq(其中 q=1-p)。考试中大多数涉及分布列的解答题都会用到这两个公式。
例 7:期望与方差的计算

设随机变量 X 的分布列为

X0123
P1/83/83/81/8

求 E(X) 和 D(X)。

E(X) = 0×(1/8) + 1×(3/8) + 2×(3/8) + 3×(1/8)

= 0 + 3/8 + 6/8 + 3/8 = 12/8 = 3/2

E(X²) = 0×(1/8) + 1×(3/8) + 4×(3/8) + 9×(1/8)

= 0 + 3/8 + 12/8 + 9/8 = 24/8 = 3

D(X) = E(X²) - [E(X)]² = 3 - (3/2)² = 3 - 9/4 = 3/4

例 8:二项分布的期望与方差

某批产品的合格率为 95%,从中随机抽取 100 件检验。设 X 为合格品的件数,求 E(X) 和 D(X)。

:X ~ B(100, 0.95)。

E(X) = np = 100 × 0.95 = 95

D(X) = np(1-p) = 100 × 0.95 × 0.05 = 4.75

标准差 σ = √4.75 ≈ 2.179

例 9:期望的实际应用

某商场搞促销活动,顾客消费满一定金额后可抽奖一次。设奖金 X(元)的分布列为:

X01050100
P0.50.30.150.05

若商场有 1000 人参与抽奖,预计总支出是多少?

E(X) = 0×0.5 + 10×0.3 + 50×0.15 + 100×0.05

= 0 + 3 + 7.5 + 5 = 15.5(元)

1000 人总支出期望 = 1000 × 15.5 = 15500(元)

17.5 正态分布

正态分布

如果连续型随机变量 X 的概率密度函数为

f(x) = (1/(σ√(2π))) · e-(x-μ²)/(2σ²)

则称 X 服从参数为 μ、σ² 的正态分布,记作 X ~ N(μ, σ²)

正态曲线的特点

形状特征
  • 钟形曲线,关于 x = μ 对称
  • 在 x = μ 处取得最大值
  • 曲线与 x 轴之间的面积为 1
  • x 轴为水平渐近线
参数的影响
  • μ 决定位置:μ 增大则曲线右移
  • σ 决定形状:σ 越大曲线越"胖矮"
  • σ 越小曲线越"瘦高"
  • 峰值 = 1/(σ√(2π))
3σ 原则(经验法则)

若 X ~ N(μ, σ²),则:

P(μ - σ < X < μ + σ) ≈ 0.6827 (约68.27%)
P(μ - 2σ < X < μ + 2σ) ≈ 0.9545 (约95.45%)
P(μ - 3σ < X < μ + 3σ) ≈ 0.9973 (约99.73%)

这意味着几乎所有(99.73%)的数据落在 μ ± 3σ 范围内,这就是著名的 "3σ法则"

标准正态分布

标准正态分布

当 μ = 0, σ = 1 时,X ~ N(0, 1) 称为标准正态分布

一般的正态分布可以通过标准化变换转为标准正态分布:

Z = (X - μ) / σ,则 Z ~ N(0, 1)
例 10:3σ 原则的应用

某工厂生产的零件长度 X(cm)服从正态分布 N(10, 0.04)。质检标准为长度在 9.4cm 到 10.6cm 之间为合格。求一个零件合格的概率。

:μ = 10, σ² = 0.04, σ = 0.2。

9.4 = 10 - 3×0.2 = μ - 3σ

10.6 = 10 + 3×0.2 = μ + 3σ

P(9.4 < X < 10.6) = P(μ - 3σ < X < μ + 3σ) ≈ 0.9973

即合格率约为 99.73%。

例 11:正态分布的对称性

设 X ~ N(50, 100),求 P(X > 60) 和 P(40 < X < 60)。

:μ = 50, σ = 10。

60 = μ + σ,40 = μ - σ

由正态分布关于 μ 的对称性:

P(X > μ + σ) = [1 - P(μ-σ < X < μ+σ)] / 2

= (1 - 0.6827) / 2 = 0.3173 / 2 = 0.1587

P(40 < X < 60) = P(μ-σ < X < μ+σ) = 0.6827

例 12:综合应用

某次考试成绩 X ~ N(75, σ²),已知 P(X ≥ 85) = 0.1,求 σ 的近似值。

:由对称性,P(X ≤ 65) = P(X ≥ 85) = 0.1(因为 65 和 85 关于 75 对称)。

P(65 < X < 85) = 1 - 0.1 - 0.1 = 0.8

85 = 75 + σ·z,其中 z 需满足 Φ(z) - Φ(-z) = 0.8。

查标准正态分布表:Φ(1.28) ≈ 0.8997,Φ(1.29) ≈ 0.9015

取 z ≈ 1.28,则 85 - 75 = σ × 1.28,解得

σ ≈ 10 / 1.28 ≈ 7.81

本章核心知识总结