第九章统计 - 高中数学知识总结

9.1 随机抽样

抽样调查的基本概念

在统计中，所要考察对象的全体称为总体，其中每一个考察对象称为个体，从总体中抽取的一部分个体叫做总体的一个样本，样本中个体的数目叫做样本容量。抽样调查是通过样本的特征来估计总体的特征。

一、简单随机抽样

1定义与适用条件

设一个总体含有 N 个个体，从中逐个不放回地抽取 n 个个体作为样本（n ≤ N），如果每次抽取时总体内的各个个体被抽到的机会都相等，这种抽样方法叫做简单随机抽样。

简单随机抽样必须满足以下条件：

被抽取的样本总体的个体数 N 是有限的
从总体中逐个不放回地抽取
每一个个体被抽到的概率相等，均为 n/N

签抽签法

适用情况：总体个数较少。

操作步骤：

将总体中的个体编号
将号码写在形状、大小相同的号签上
将号签放在一个容器中，搅拌均匀
每次从中抽取一个号签，连续抽取 n 次

优点：简单易行，操作方便。

缺点：当总体个数较多时，操作不方便。

数随机数表法

适用情况：总体个数较多时替代抽签法。

操作步骤：

将总体中的个体编号（每个号码位数一致）
在随机数表中任选一个数作为开始
按照一定方向读取数字
凡在总体编号范围内的号码即为选中
直到取够所需的样本容量

优点：客观、公平，不受主观影响。

二、系统抽样（等距抽样）

等系统抽样的定义与操作

当总体中的个体数较多时，将总体分成均衡的几个部分，然后按照预先定出的规则，从每一部分抽取一个个体，得到所需要的样本，这种抽样方法叫做系统抽样。

操作步骤：

编号：将总体中的 N 个个体编号
分段：确定分段间隔 k = N/n（当 N/n 不是整数时，先随机剔除多余的个体），将编号均分成 n 段
确定起始号：在第一段中用简单随机抽样确定起始编号 l（1 ≤ l ≤ k）
等距抽取：按照规则依次抽取编号为 l, l+k, l+2k, ..., l+(n-1)k 的个体

适用范围：总体个数较多且个体分布均匀的情况。

注意事项：当 N 不能被 n 整除时，需要先用简单随机抽样从总体中随机剔除多余个体，使剩下的个体数能被 n 整除。

三、分层抽样

分层抽样的定义

一般地，在抽样时，将总体分成互不交叉的层，然后按照一定的比例，从各层独立地抽取一定数量的个体，将各层取出的个体合在一起作为样本，这种抽样方法叫做分层抽样。

分层抽样的核心原则

各层抽取的样本数与该层在总体中所占的比例相同。即：如果总体分为 k 层，第 i 层的个体数为 N_i，则第 i 层抽取的样本数为：

分层抽样各层样本数

n_i = n × (N_i / N)

其中 n 为总样本容量，N 为总体容量。

四、三种抽样方法的比较

比较项目	简单随机抽样	系统抽样	分层抽样
适用范围	总体个数较少	总体个数较多且分布均匀	总体由差异明显的几部分组成
抽样方式	逐个不放回抽取	按间隔等距抽取	各层按比例独立抽取
共同特点	都是等概率抽样，每个个体被抽到的机会均等
优点	简单直观，容易操作	系统性强，样本代表性好	样本代表性好，误差小
缺点	总体较多时工作量大	若总体有周期性则产生偏差	需要了解总体分层信息
联系	系统抽样第一段用简单随机抽样；分层抽样各层内可用简单随机抽样或系统抽样

例题 1：抽样方法的选择

某校有高中生 1200 人，初中生 1800 人，教师 120 人。现需要抽取容量为 n 的样本，已知从教师中抽取了 4 人。

解：由于该校有高中生、初中生和教师三个差异明显的群体，应采用分层抽样。

教师抽取比例 = 4/120 = 1/30

高中生应抽取：1200 × (1/30) = 40 人

初中生应抽取：1800 × (1/30) = 60 人

样本容量 n = 40 + 60 + 4 = 104 人

9.2 用样本估计总体

一、频率分布表

表频率分布表的编制

编制频率分布表的步骤：

求极差：极差 = 最大值 - 最小值，反映数据的变化范围
确定组距与组数：组数 = 极差 / 组距（一般取整数），通常分为 5~12 组
确定分点：使分点比数据多一位小数，且第一组的起点比最小值略小
列频率分布表：统计各组的频数，计算频率 = 频数 / 样本容量

关键概念

频数：落在各小组内的数据的个数。

频率：每一小组的频数与数据总数的比值。所有组的频率之和 = 1。

二、频率分布直方图

频率分布直方图的构造

频率分布直方图以图形的方式直观地展示数据的频率分布情况：

横轴：表示数据的取值（分组区间）
纵轴：表示 频率/组距（即频率密度）
每个小矩形的面积 = 组距 × (频率/组距) = 该组的频率
所有小矩形的面积之和 = 1

重要提醒

频率分布直方图中，纵轴是"频率/组距"而不是"频率"。这是学生最容易犯的错误。每个小矩形的面积才代表该组的频率，而不是小矩形的高度。

读如何从直方图中读取信息

小矩形的高度反映数据落在该区间内的频率/组距
小矩形的面积反映数据落在该区间内的频率
最高的矩形对应的区间为众数组
中位数左侧的面积之和 = 0.5，右侧的面积之和 = 0.5
从左往右面积累计达到 0.5 时对应的值即为中位数的估计值

三、频率分布折线图

将频率分布直方图中各小矩形上边的中点顺次连接起来，并将两端与横轴上的相邻组的中点相连，就得到频率分布折线图（也称为频率折线图）。

四、茎叶图

叶茎叶图的特点

茎叶图是一种将数据按照位数进行分组的统计图：

"茎"：表示数据的高位数字（如十位数）
"叶"：表示数据的低位数字（如个位数）
适用于数据量不太大（一般不超过 50 个）的情况
优点：保留了原始数据的信息，可以随时记录新数据
缺点：数据量大时不方便使用

例题 2：茎叶图的制作与阅读

某次考试中，10 名同学的成绩（单位：分）如下：72, 85, 63, 91, 78, 82, 95, 88, 76, 81。制作茎叶图并分析。

解：将十位数作为"茎"，个位数作为"叶"：

茎 | 叶

6 | 3

7 | 2 6 8

8 | 1 2 5 8

9 | 1 5

由茎叶图可以看出：

成绩集中在 70~89 分段
中位数为 (81 + 82) / 2 = 81.5 分
最高分 95，最低分 63，极差 = 32

五、总体密度曲线

总体密度曲线

当样本容量不断增大，分组的组距不断缩小时，频率分布折线图会越来越接近于一条光滑曲线，这条光滑曲线就是总体密度曲线。它反映了总体在各个范围内取值的规律。

总体密度曲线与横轴之间的面积等于 1。

9.3 集中趋势的估计

集中趋势是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置。常用的集中趋势指标有平均数、中位数和众数。

一、平均数（算术平均数）

平均数公式

x̄ = (x₁ + x₂ + ... + xₙ) / n = (1/n) Σxᵢ

平平均数的性质与特点

平均数充分利用了所有数据的信息
平均数受极端值（过大或过小的值）影响较大
如果数据 x₁, x₂, ..., xₙ 的平均数为 x̄，则 x₁+a, x₂+a, ..., xₙ+a 的平均数为 x̄+a
如果数据 x₁, x₂, ..., xₙ 的平均数为 x̄，则 ax₁, ax₂, ..., axₙ 的平均数为 ax̄

加权平均数

加权平均数公式

x̄ = (x₁·f₁ + x₂·f₂ + ... + xₐ·fₐ) / (f₁ + f₂ + ... + fₐ) = Σ(xᵢ·fᵢ) / Σfᵢ

其中 fᵢ 为数据 xᵢ 出现的次数（频数），也称为权重。

二、中位数

中位数的定义

将一组数据按大小顺序依次排列，处在最中间位置的一个数据（或最中间两个数据的平均数）叫做这组数据的中位数，记作 Me。

奇数据个数为奇数

设有 n 个数据（n 为奇数），按大小排列后，第 (n+1)/2 个数据即为中位数。

例：数据 1, 3, 5, 7, 9 的中位数为 5。

偶数据个数为偶数

设有 n 个数据（n 为偶数），按大小排列后，第 n/2 个和第 n/2+1 个数据的平均数为中位数。

例：数据 2, 4, 6, 8 的中位数为 (4+6)/2 = 5。

中位数的特点

中位数不受极端值影响，具有较好的抗干扰性
中位数不一定出现在原始数据中
一组数据的中位数是唯一的

三、众数

众数的定义

一组数据中，出现次数最多的数据叫做这组数据的众数，记作 Mo。

众数的特点

众数不受极端值影响
众数不一定唯一，一组数据可能有多个众数，也可能没有众数
众数一定是原始数据中的某一个值
当有两个数据出现次数并列最多时，这两个数据都是众数（双众数）

四、三种数字特征的比较

比较项目	平均数 x̄	中位数 Me	众数 Mo
定义	所有数据之和除以数据个数	按大小排列后最中间的数	出现次数最多的数据
个数	唯一	唯一	不一定唯一
是否为原始数据	不一定	不一定	一定是
受极端值影响	受影响大	不受影响	不受影响
信息利用	利用所有数据	仅利用位置信息	仅利用频数信息
适用场景	数据分布较均匀时	数据有极端值或偏态分布时	需要了解数据集中趋势时
三者关系	正态分布时：x̄ = Me = Mo；右偏分布时：Mo < Me < x̄；左偏分布时：x̄ < Me < Mo

例题 3：集中趋势的计算

某班 30 名学生的数学成绩如下：60, 65, 70, 70, 72, 75, 75, 75, 78, 80, 80, 82, 82, 85, 85, 85, 85, 88, 88, 90, 90, 92, 92, 95, 95, 95, 98, 98, 100, 100。求平均数、中位数和众数。

平均数：

x̄ = (60+65+70+70+72+75+75+75+78+80+80+82+82+85+85+85+85+88+88+90+90+92+92+95+95+95+98+98+100+100) / 30

= 2547 / 30 = 84.9 分

中位数：

共 30 个数据，中位数为第 15 个和第 16 个数据的平均数 = (85 + 85) / 2 = 85 分

众数：

85 出现了 4 次，是出现次数最多的数据，众数 = 85 分

9.4 离散程度的估计

仅有集中趋势指标是不够的，还需要了解数据的离散程度（波动大小）。例如两组数据的平均数相同，但数据的分布可能有很大差异。

一、极差

极差的定义

一组数据中最大值与最小值的差称为极差：极差 = x_max - x_min

极差是最简单的离散程度度量，但仅利用了最大值和最小值两个数据的信息，不能全面反映数据的波动情况。

二、方差

方差公式

s² = (1/n) Σ(xᵢ - x̄)² = (1/n)[(x₁ - x̄)² + (x₂ - x̄)² + ... + (xₙ - x̄)²]

方差简化计算公式

s² = (1/n) Σxᵢ² - x̄²

方方差的性质与特点

方差 s² ≥ 0，当且仅当所有数据都相等时方差为 0
方差越大，数据的波动越大（越分散）
方差越小，数据的波动越小（越集中）
方差的单位是原始数据单位的平方，不直观
如果数据 x₁, x₂, ..., xₙ 的方差为 s²，则 ax₁+b, ax₂+b, ..., axₙ+b 的方差为 a²s²

三、标准差

标准差公式

s = √(s²) = √[(1/n) Σ(xᵢ - x̄)²]

标准差的优势

标准差与原始数据单位相同，比方差更直观、更常用。在实际应用中，通常使用标准差来衡量数据的离散程度。

四、变异系数

变异系数公式

CV = s / |x̄|

变异系数的应用

当需要比较量纲不同或平均数差异较大的两组数据的离散程度时，不能直接比较方差或标准差，而应使用变异系数（无量纲）进行比较。

例：比较身高（单位 cm）和体重（单位 kg）的波动大小时，应使用变异系数。

例题 4：方差与标准差的计算

甲、乙两名同学在 5 次数学测试中的成绩分别为：

甲：80, 85, 90, 85, 80

乙：75, 80, 90, 95, 80

分别计算两人的平均数和方差，并分析谁的成绩更稳定。

甲的平均数：x̄_甲 = (80+85+90+85+80) / 5 = 420 / 5 = 84

甲的方差：

s²_甲 = [(80-84)² + (85-84)² + (90-84)² + (85-84)² + (80-84)²] / 5

= [16 + 1 + 36 + 1 + 16] / 5 = 70 / 5 = 14

乙的平均数：x̄_乙 = (75+80+90+95+80) / 5 = 420 / 5 = 84

乙的方差：

s²_乙 = [(75-84)² + (80-84)² + (90-84)² + (95-84)² + (80-84)²] / 5

= [81 + 16 + 36 + 121 + 16] / 5 = 270 / 5 = 54

分析：两人的平均成绩相同（84 分），但 s²_甲 = 14 < s²_乙 = 54，因此甲的成绩更稳定。

甲的标准差 s_甲 = √14 ≈ 3.74，乙的标准差 s_乙 = √54 ≈ 7.35。

例题 5：使用简化公式计算方差

已知数据 3, 5, 7, 9, 11，用简化公式求方差。

解：

平均数：x̄ = (3+5+7+9+11) / 5 = 35 / 5 = 7

计算 xᵢ² 的平均值：

(1/5) Σxᵢ² = (9 + 25 + 49 + 81 + 121) / 5 = 285 / 5 = 57

由简化公式：

s² = (1/n) Σxᵢ² - x̄² = 57 - 49 = 8

标准差 s = √8 = 2√2 ≈ 2.83

本章知识总结

三种随机抽样方法：简单随机抽样、系统抽样、分层抽样，各有适用场景和优缺点
数据的表示方法：频率分布表、频率分布直方图（纵轴为频率/组距）、茎叶图
集中趋势指标：平均数（信息全面但受极端值影响）、中位数（抗干扰）、众数（最常见值）
离散程度指标：极差（最简单）、方差和标准差（最常用）、变异系数（比较不同量纲数据）
方差简化公式：s² = (1/n)Σxᵢ² - x̄²，计算更便捷
频率分布直方图中所有小矩形面积之和为 1，面积代表频率，高度代表频率/组距
统计的核心思想是用样本估计总体，样本的代表性至关重要