随机变量及其分布 - 高中数学知识总结

17.1 条件概率

条件概率的定义

设 A、B 为两个事件，且 P(A) > 0，则称

P(B|A) = P(AB) / P(A)

为在事件 A 已经发生的条件下事件 B 发生的条件概率。

直觉理解：条件概率就是"缩小样本空间"后重新计算概率。已知 A 发生，样本空间从 Ω 缩小为 A，再看 B 在其中的比例。

条件概率的性质

非负性：0 ≤ P(B|A) ≤ 1
规范性：P(Ω|A) = 1
可加性：若 B、C 互斥，则 P(B∪C|A) = P(B|A) + P(C|A)
一般加法：P(B∪C|A) = P(B|A) + P(C|A) - P(BC|A)

乘法公式

P(AB) = P(A) · P(B|A) = P(B) · P(A|B)

乘法公式可以推广到多个事件：

P(A₁A₂A₃) = P(A₁) · P(A₂|A₁) · P(A₃|A₁A₂)

例 1：条件概率的基本计算

一个袋子中有 3 个红球和 2 个白球，依次不放回地取两个球。已知第一个球是红球，求第二个球也是红球的概率。

解：设 A = "第一个球是红球"，B = "第二个球是红球"。

P(A) = 3/5，P(AB) = P(第一个红且第二个红) = (3×2)/(5×4) = 6/20 = 3/10

P(B|A) = P(AB)/P(A) = (3/10)/(3/5) = (3/10)×(5/3) = 1/2

直觉验证：已知第一个是红球后，袋中剩 2 红 2 白，第二个为红球的概率确实是 2/4 = 1/2。

例 2：乘法公式的应用

一批产品共 100 件，其中有 5 件次品。从中依次不放回地取 3 件，求恰好取到 1 件次品的概率。

解：设 X 为取到的次品数，恰好取到 1 件次品的情况分 C(3,1)=3 种位置。

以"次品在第1个"为例：

P = P(第1个次品)·P(第2个正品|第1个次品)·P(第3个正品|前1次1正)

= (5/100)×(95/99)×(94/98) = 0.05×0.9596×0.9592 ≈ 0.04604

三种位置（次品在第1、2或3个）的概率相同，故

P(X=1) = 3 × 0.04604 ≈ 0.1381

17.2 全概率公式与贝叶斯公式

完备事件组（样本空间的划分）

设 B₁, B₂, ..., Bₙ 是一组事件，满足：

B₁, B₂, ..., Bₙ 两两互斥（BᵢBⱼ = ∅, i ≠ j）
B₁ ∪ B₂ ∪ ... ∪ Bₙ = Ω（完备性）

则称 B₁, B₂, ..., Bₙ 为样本空间 Ω 的一个完备事件组或划分。

全概率公式

P(A) = Σ P(Bᵢ) · P(A|Bᵢ) = P(B₁)P(A|B₁) + P(B₂)P(A|B₂) + ... + P(Bₙ)P(A|Bₙ)

含义：由"原因"推"结果"——将事件 A 按不同原因 Bᵢ 分解，再汇总。

贝叶斯公式

P(Bⱼ|A) = P(Bⱼ) · P(A|Bⱼ) / Σ P(Bᵢ) · P(A|Bᵢ)

含义：由"结果"推"原因"——已知结果 A 发生，反推是由原因 Bⱼ 导致的概率。

其中 P(Bⱼ) 称为先验概率，P(Bⱼ|A) 称为后验概率。

全概率 vs 贝叶斯：全概率公式是"正向"思维——已知各原因的概率，求结果的概率；贝叶斯公式是"逆向"思维——已知结果发生了，推断各原因的可能性。

例 3：全概率公式

工厂有甲、乙、丙三个车间生产同一种产品，产量分别占总量的 50%、30%、20%，次品率分别为 3%、4%、5%。从全部产品中随机取一件，求取到次品的概率。

解：设 A = "取到次品"，B₁ = "甲车间产品"，B₂ = "乙车间产品"，B₃ = "丙车间产品"。

P(B₁) = 0.5, P(B₂) = 0.3, P(B₃) = 0.2

P(A|B₁) = 0.03, P(A|B₂) = 0.04, P(A|B₃) = 0.05

P(A) = 0.5×0.03 + 0.3×0.04 + 0.2×0.05

= 0.015 + 0.012 + 0.010 = 0.037

例 4：贝叶斯公式

沿用例 3 的条件。若取到的产品是次品，求它来自甲车间的概率。

解：

P(B₁|A) = P(B₁)·P(A|B₁) / P(A)

= (0.5 × 0.03) / 0.037

= 0.015 / 0.037

= 15/37 ≈ 0.4054

同理：P(B₂|A) = 0.012/0.037 = 12/37 ≈ 0.3243

P(B₃|A) = 0.010/0.037 = 10/37 ≈ 0.2703

验证：15/37 + 12/37 + 10/37 = 37/37 = 1 ✓

17.3 离散型随机变量及其分布列

离散型随机变量

如果随机变量 X 的所有可能取值能够一一列举出来（有限个或可列无穷多个），则称 X 为离散型随机变量。

分布列

设离散型随机变量 X 的所有可能取值为 x₁, x₂, ..., xₙ，则

X	x₁	x₂	...	xₙ
P	p₁	p₂	...	pₙ

称为 X 的分布列（或概率分布表）。

分布列的性质

基本性质

非负性：pᵢ ≥ 0（对所有 i）
归一性：p₁ + p₂ + ... + pₙ = 1（即 Σpᵢ = 1）

这两条性质是分布列合法的充要条件。

常见离散型分布

两点分布（0-1 分布 / Bernoulli 分布）

若随机变量 X 只取 0 和 1 两个值，分布列为

X	1	0
P	p	1-p

则称 X 服从参数为 p 的两点分布，记作 X ~ B(1, p)。

二项分布

在 n 次独立重复试验中，每次事件 A 发生的概率为 p，则事件 A 发生的次数 X 服从二项分布，记作 X ~ B(n, p)。

P(X = k) = C(n,k) · p^k · (1-p)^n-k，k = 0, 1, 2, ..., n

关键特征：① n次试验 ② 每次只有"成功/失败" ③ 各次独立 ④ 成功概率恒为 p

超几何分布

总体 N 个个体中有 M 个"特殊个体"，从中不放回地抽取 n 个，X 表示抽到的特殊个体数：

P(X = k) = C(M,k) · C(N-M, n-k) / C(N, n)

其中 max(0, n-N+M) ≤ k ≤ min(M, n)。

与二项分布的区别：超几何分布对应不放回抽样；二项分布对应有放回（或独立重复）试验。当 N 远大于 n 时，超几何分布近似于二项分布。

例 5：二项分布的应用

某射手每次射击命中目标的概率为 0.8，独立射击 5 次，求恰好命中 3 次的概率。

解：设 X 为命中的次数，X ~ B(5, 0.8)。

P(X=3) = C(5,3) · (0.8)³ · (0.2)²

= 10 × 0.512 × 0.04

= 10 × 0.02048

= 0.2048

例 6：超几何分布的应用

一批产品共 20 件，其中 4 件是次品。从中不放回地抽取 5 件进行检验，求恰好抽到 2 件次品的概率。

解：N=20, M=4, n=5, k=2。

P(X=2) = C(4,2)·C(16,3) / C(20,5)

C(4,2) = 6

C(16,3) = 16×15×14/(3×2×1) = 560

C(20,5) = 20×19×18×17×16/(5×4×3×2×1) = 15504

P(X=2) = (6 × 560) / 15504 = 3360 / 15504 = 210/969 ≈ 0.2167

17.4 离散型随机变量的数字特征

数学期望（均值）

设离散型随机变量 X 的分布列为 P(X = xᵢ) = pᵢ，则

E(X) = Σ xᵢ pᵢ = x₁p₁ + x₂p₂ + ... + xₙpₙ

含义：E(X) 是 X 的加权平均值，反映随机变量取值的平均水平（"重心"）。

方差与标准差

D(X) = Σ (xᵢ - E(X))² pᵢ = E(X²) - [E(X)]²

含义：D(X) 衡量随机变量取值的离散程度（波动大小）。

标准差：σ(X) = √D(X)，与 X 量纲相同。

期望与方差的运算法则

重要公式

期望的线性性质

E(aX + b) = aE(X) + b

E(X + Y) = E(X) + E(Y)

注意：E(XY) = E(X)·E(Y) 仅在 X、Y 独立时成立。

方差的运算

D(aX + b) = a²D(X)

D(X ± Y) = D(X) + D(Y) ± 2Cov(X,Y)

若 X、Y 独立：D(X + Y) = D(X) + D(Y)

常见分布的期望与方差

分布	记号	E(X)	D(X)
两点分布	X ~ B(1, p)	p	p(1-p)
二项分布	X ~ B(n, p)	np	np(1-p)
超几何分布	X ~ H(N, M, n)	nM/N	nM(N-M)(N-n) / [N²(N-1)]

记忆技巧：二项分布的期望和方差非常常用，记住 E=np, D=npq（其中 q=1-p）。考试中大多数涉及分布列的解答题都会用到这两个公式。

例 7：期望与方差的计算

设随机变量 X 的分布列为

X	0	1	2	3
P	1/8	3/8	3/8	1/8

求 E(X) 和 D(X)。

解：

E(X) = 0×(1/8) + 1×(3/8) + 2×(3/8) + 3×(1/8)

= 0 + 3/8 + 6/8 + 3/8 = 12/8 = 3/2

E(X²) = 0×(1/8) + 1×(3/8) + 4×(3/8) + 9×(1/8)

= 0 + 3/8 + 12/8 + 9/8 = 24/8 = 3

D(X) = E(X²) - [E(X)]² = 3 - (3/2)² = 3 - 9/4 = 3/4

例 8：二项分布的期望与方差

某批产品的合格率为 95%，从中随机抽取 100 件检验。设 X 为合格品的件数，求 E(X) 和 D(X)。

解：X ~ B(100, 0.95)。

E(X) = np = 100 × 0.95 = 95

D(X) = np(1-p) = 100 × 0.95 × 0.05 = 4.75

标准差 σ = √4.75 ≈ 2.179

例 9：期望的实际应用

某商场搞促销活动，顾客消费满一定金额后可抽奖一次。设奖金 X（元）的分布列为：

X	0	10	50	100
P	0.5	0.3	0.15	0.05

若商场有 1000 人参与抽奖，预计总支出是多少？

解：

E(X) = 0×0.5 + 10×0.3 + 50×0.15 + 100×0.05

= 0 + 3 + 7.5 + 5 = 15.5（元）

1000 人总支出期望 = 1000 × 15.5 = 15500（元）

17.5 正态分布

正态分布

如果连续型随机变量 X 的概率密度函数为

f(x) = (1/(σ√(2π))) · e^{-(x-μ²)/(2σ²)}

则称 X 服从参数为 μ、σ² 的正态分布，记作 X ~ N(μ, σ²)。

正态曲线的特点

形状特征

钟形曲线，关于 x = μ 对称
在 x = μ 处取得最大值
曲线与 x 轴之间的面积为 1
x 轴为水平渐近线

参数的影响

μ 决定位置：μ 增大则曲线右移
σ 决定形状：σ 越大曲线越"胖矮"
σ 越小曲线越"瘦高"
峰值 = 1/(σ√(2π))

3σ 原则（经验法则）

若 X ~ N(μ, σ²)，则：

P(μ - σ < X < μ + σ) ≈ 0.6827 (约68.27%)

P(μ - 2σ < X < μ + 2σ) ≈ 0.9545 (约95.45%)

P(μ - 3σ < X < μ + 3σ) ≈ 0.9973 (约99.73%)

这意味着几乎所有（99.73%）的数据落在 μ ± 3σ 范围内，这就是著名的 "3σ法则"。

标准正态分布

当 μ = 0, σ = 1 时，X ~ N(0, 1) 称为标准正态分布。

一般的正态分布可以通过标准化变换转为标准正态分布：

Z = (X - μ) / σ，则 Z ~ N(0, 1)

例 10：3σ 原则的应用

某工厂生产的零件长度 X（cm）服从正态分布 N(10, 0.04)。质检标准为长度在 9.4cm 到 10.6cm 之间为合格。求一个零件合格的概率。

解：μ = 10, σ² = 0.04, σ = 0.2。

9.4 = 10 - 3×0.2 = μ - 3σ

10.6 = 10 + 3×0.2 = μ + 3σ

P(9.4 < X < 10.6) = P(μ - 3σ < X < μ + 3σ) ≈ 0.9973

即合格率约为 99.73%。

例 11：正态分布的对称性

设 X ~ N(50, 100)，求 P(X > 60) 和 P(40 < X < 60)。

解：μ = 50, σ = 10。

60 = μ + σ，40 = μ - σ

由正态分布关于 μ 的对称性：

P(X > μ + σ) = [1 - P(μ-σ < X < μ+σ)] / 2

= (1 - 0.6827) / 2 = 0.3173 / 2 = 0.1587

P(40 < X < 60) = P(μ-σ < X < μ+σ) = 0.6827

例 12：综合应用

某次考试成绩 X ~ N(75, σ²)，已知 P(X ≥ 85) = 0.1，求 σ 的近似值。

解：由对称性，P(X ≤ 65) = P(X ≥ 85) = 0.1（因为 65 和 85 关于 75 对称）。

P(65 < X < 85) = 1 - 0.1 - 0.1 = 0.8

85 = 75 + σ·z，其中 z 需满足 Φ(z) - Φ(-z) = 0.8。

查标准正态分布表：Φ(1.28) ≈ 0.8997，Φ(1.29) ≈ 0.9015

取 z ≈ 1.28，则 85 - 75 = σ × 1.28，解得

σ ≈ 10 / 1.28 ≈ 7.81

本章核心知识总结

条件概率：P(B|A) = P(AB)/P(A)，理解"缩小样本空间"的思想
全概率公式：由"因"推"果"，P(A) = ΣP(Bᵢ)P(A|Bᵢ)
贝叶斯公式：由"果"推"因"，P(Bⱼ|A) = P(Bⱼ)P(A|Bⱼ) / P(A)
分布列：非负性（pᵢ ≥ 0）+ 归一性（Σpᵢ = 1）
二项分布 X~B(n,p)：E(X)=np，D(X)=np(1-p)
超几何分布：不放回抽样，注意与二项分布的区别
正态分布 X~N(μ,σ²)：掌握 3σ 原则，会利用对称性解题
核心公式：E(aX+b) = aE(X)+b，D(aX+b) = a²D(X)