9.1 随机抽样
抽样调查的基本概念
在统计中,所要考察对象的全体称为总体,其中每一个考察对象称为个体,从总体中抽取的一部分个体叫做总体的一个样本,样本中个体的数目叫做样本容量。抽样调查是通过样本的特征来估计总体的特征。
一、简单随机抽样
设一个总体含有 N 个个体,从中逐个不放回地抽取 n 个个体作为样本(n ≤ N),如果每次抽取时总体内的各个个体被抽到的机会都相等,这种抽样方法叫做简单随机抽样。
简单随机抽样必须满足以下条件:
- 被抽取的样本总体的个体数 N 是有限的
- 从总体中逐个不放回地抽取
- 每一个个体被抽到的概率相等,均为
n/N
适用情况:总体个数较少。
操作步骤:
- 将总体中的个体编号
- 将号码写在形状、大小相同的号签上
- 将号签放在一个容器中,搅拌均匀
- 每次从中抽取一个号签,连续抽取 n 次
优点:简单易行,操作方便。
缺点:当总体个数较多时,操作不方便。
适用情况:总体个数较多时替代抽签法。
操作步骤:
- 将总体中的个体编号(每个号码位数一致)
- 在随机数表中任选一个数作为开始
- 按照一定方向读取数字
- 凡在总体编号范围内的号码即为选中
- 直到取够所需的样本容量
优点:客观、公平,不受主观影响。
二、系统抽样(等距抽样)
当总体中的个体数较多时,将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样。
操作步骤:
- 编号:将总体中的 N 个个体编号
- 分段:确定分段间隔
k = N/n(当 N/n 不是整数时,先随机剔除多余的个体),将编号均分成 n 段 - 确定起始号:在第一段中用简单随机抽样确定起始编号
l(1 ≤ l ≤ k) - 等距抽取:按照规则依次抽取编号为
l, l+k, l+2k, ..., l+(n-1)k的个体
适用范围:总体个数较多且个体分布均匀的情况。
注意事项:当 N 不能被 n 整除时,需要先用简单随机抽样从总体中随机剔除多余个体,使剩下的个体数能被 n 整除。
三、分层抽样
分层抽样的定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样。
各层抽取的样本数与该层在总体中所占的比例相同。即:如果总体分为 k 层,第 i 层的个体数为 Ni,则第 i 层抽取的样本数为:
其中 n 为总样本容量,N 为总体容量。
四、三种抽样方法的比较
| 比较项目 | 简单随机抽样 | 系统抽样 | 分层抽样 |
|---|---|---|---|
| 适用范围 | 总体个数较少 | 总体个数较多且分布均匀 | 总体由差异明显的几部分组成 |
| 抽样方式 | 逐个不放回抽取 | 按间隔等距抽取 | 各层按比例独立抽取 |
| 共同特点 | 都是等概率抽样,每个个体被抽到的机会均等 | ||
| 优点 | 简单直观,容易操作 | 系统性强,样本代表性好 | 样本代表性好,误差小 |
| 缺点 | 总体较多时工作量大 | 若总体有周期性则产生偏差 | 需要了解总体分层信息 |
| 联系 | 系统抽样第一段用简单随机抽样;分层抽样各层内可用简单随机抽样或系统抽样 | ||
例题 1:抽样方法的选择
某校有高中生 1200 人,初中生 1800 人,教师 120 人。现需要抽取容量为 n 的样本,已知从教师中抽取了 4 人。
解:由于该校有高中生、初中生和教师三个差异明显的群体,应采用分层抽样。
教师抽取比例 = 4/120 = 1/30
高中生应抽取:1200 × (1/30) = 40 人
初中生应抽取:1800 × (1/30) = 60 人
样本容量 n = 40 + 60 + 4 = 104 人
9.2 用样本估计总体
一、频率分布表
编制频率分布表的步骤:
- 求极差:极差 = 最大值 - 最小值,反映数据的变化范围
- 确定组距与组数:组数 = 极差 / 组距(一般取整数),通常分为 5~12 组
- 确定分点:使分点比数据多一位小数,且第一组的起点比最小值略小
- 列频率分布表:统计各组的频数,计算频率 = 频数 / 样本容量
频数:落在各小组内的数据的个数。
频率:每一小组的频数与数据总数的比值。所有组的频率之和 = 1。
二、频率分布直方图
频率分布直方图的构造
频率分布直方图以图形的方式直观地展示数据的频率分布情况:
- 横轴:表示数据的取值(分组区间)
- 纵轴:表示 频率/组距(即频率密度)
- 每个小矩形的面积 = 组距 × (频率/组距) = 该组的频率
- 所有小矩形的面积之和 = 1
频率分布直方图中,纵轴是"频率/组距"而不是"频率"。这是学生最容易犯的错误。每个小矩形的面积才代表该组的频率,而不是小矩形的高度。
- 小矩形的高度反映数据落在该区间内的频率/组距
- 小矩形的面积反映数据落在该区间内的频率
- 最高的矩形对应的区间为众数组
- 中位数左侧的面积之和 = 0.5,右侧的面积之和 = 0.5
- 从左往右面积累计达到 0.5 时对应的值即为中位数的估计值
三、频率分布折线图
将频率分布直方图中各小矩形上边的中点顺次连接起来,并将两端与横轴上的相邻组的中点相连,就得到频率分布折线图(也称为频率折线图)。
四、茎叶图
茎叶图是一种将数据按照位数进行分组的统计图:
- "茎":表示数据的高位数字(如十位数)
- "叶":表示数据的低位数字(如个位数)
- 适用于数据量不太大(一般不超过 50 个)的情况
- 优点:保留了原始数据的信息,可以随时记录新数据
- 缺点:数据量大时不方便使用
例题 2:茎叶图的制作与阅读
某次考试中,10 名同学的成绩(单位:分)如下:72, 85, 63, 91, 78, 82, 95, 88, 76, 81。制作茎叶图并分析。
解:将十位数作为"茎",个位数作为"叶":
茎 | 叶
6 | 3
7 | 2 6 8
8 | 1 2 5 8
9 | 1 5
由茎叶图可以看出:
- 成绩集中在 70~89 分段
- 中位数为 (81 + 82) / 2 = 81.5 分
- 最高分 95,最低分 63,极差 = 32
五、总体密度曲线
总体密度曲线
当样本容量不断增大,分组的组距不断缩小时,频率分布折线图会越来越接近于一条光滑曲线,这条光滑曲线就是总体密度曲线。它反映了总体在各个范围内取值的规律。
总体密度曲线与横轴之间的面积等于 1。
9.3 集中趋势的估计
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置。常用的集中趋势指标有平均数、中位数和众数。
一、平均数(算术平均数)
- 平均数充分利用了所有数据的信息
- 平均数受极端值(过大或过小的值)影响较大
- 如果数据 x₁, x₂, ..., xₙ 的平均数为 x̄,则 x₁+a, x₂+a, ..., xₙ+a 的平均数为 x̄+a
- 如果数据 x₁, x₂, ..., xₙ 的平均数为 x̄,则 ax₁, ax₂, ..., axₙ 的平均数为 ax̄
加权平均数
其中 fᵢ 为数据 xᵢ 出现的次数(频数),也称为权重。
二、中位数
中位数的定义
将一组数据按大小顺序依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,记作 Me。
设有 n 个数据(n 为奇数),按大小排列后,第 (n+1)/2 个数据即为中位数。
例:数据 1, 3, 5, 7, 9 的中位数为 5。
设有 n 个数据(n 为偶数),按大小排列后,第 n/2 个和第 n/2+1 个数据的平均数为中位数。
例:数据 2, 4, 6, 8 的中位数为 (4+6)/2 = 5。
- 中位数不受极端值影响,具有较好的抗干扰性
- 中位数不一定出现在原始数据中
- 一组数据的中位数是唯一的
三、众数
众数的定义
一组数据中,出现次数最多的数据叫做这组数据的众数,记作 Mo。
- 众数不受极端值影响
- 众数不一定唯一,一组数据可能有多个众数,也可能没有众数
- 众数一定是原始数据中的某一个值
- 当有两个数据出现次数并列最多时,这两个数据都是众数(双众数)
四、三种数字特征的比较
| 比较项目 | 平均数 x̄ | 中位数 Me | 众数 Mo |
|---|---|---|---|
| 定义 | 所有数据之和除以数据个数 | 按大小排列后最中间的数 | 出现次数最多的数据 |
| 个数 | 唯一 | 唯一 | 不一定唯一 |
| 是否为原始数据 | 不一定 | 不一定 | 一定是 |
| 受极端值影响 | 受影响大 | 不受影响 | 不受影响 |
| 信息利用 | 利用所有数据 | 仅利用位置信息 | 仅利用频数信息 |
| 适用场景 | 数据分布较均匀时 | 数据有极端值或偏态分布时 | 需要了解数据集中趋势时 |
| 三者关系 | 正态分布时:x̄ = Me = Mo;右偏分布时:Mo < Me < x̄;左偏分布时:x̄ < Me < Mo | ||
例题 3:集中趋势的计算
某班 30 名学生的数学成绩如下:60, 65, 70, 70, 72, 75, 75, 75, 78, 80, 80, 82, 82, 85, 85, 85, 85, 88, 88, 90, 90, 92, 92, 95, 95, 95, 98, 98, 100, 100。求平均数、中位数和众数。
平均数:
x̄ = (60+65+70+70+72+75+75+75+78+80+80+82+82+85+85+85+85+88+88+90+90+92+92+95+95+95+98+98+100+100) / 30
= 2547 / 30 = 84.9 分
中位数:
共 30 个数据,中位数为第 15 个和第 16 个数据的平均数 = (85 + 85) / 2 = 85 分
众数:
85 出现了 4 次,是出现次数最多的数据,众数 = 85 分
9.4 离散程度的估计
仅有集中趋势指标是不够的,还需要了解数据的离散程度(波动大小)。例如两组数据的平均数相同,但数据的分布可能有很大差异。
一、极差
极差的定义
一组数据中最大值与最小值的差称为极差:极差 = xmax - xmin
极差是最简单的离散程度度量,但仅利用了最大值和最小值两个数据的信息,不能全面反映数据的波动情况。
二、方差
- 方差 s² ≥ 0,当且仅当所有数据都相等时方差为 0
- 方差越大,数据的波动越大(越分散)
- 方差越小,数据的波动越小(越集中)
- 方差的单位是原始数据单位的平方,不直观
- 如果数据 x₁, x₂, ..., xₙ 的方差为 s²,则 ax₁+b, ax₂+b, ..., axₙ+b 的方差为 a²s²
三、标准差
标准差与原始数据单位相同,比方差更直观、更常用。在实际应用中,通常使用标准差来衡量数据的离散程度。
四、变异系数
当需要比较量纲不同或平均数差异较大的两组数据的离散程度时,不能直接比较方差或标准差,而应使用变异系数(无量纲)进行比较。
例:比较身高(单位 cm)和体重(单位 kg)的波动大小时,应使用变异系数。
例题 4:方差与标准差的计算
甲、乙两名同学在 5 次数学测试中的成绩分别为:
甲:80, 85, 90, 85, 80
乙:75, 80, 90, 95, 80
分别计算两人的平均数和方差,并分析谁的成绩更稳定。
甲的平均数:x̄甲 = (80+85+90+85+80) / 5 = 420 / 5 = 84
甲的方差:
s²甲 = [(80-84)² + (85-84)² + (90-84)² + (85-84)² + (80-84)²] / 5
= [16 + 1 + 36 + 1 + 16] / 5 = 70 / 5 = 14
乙的平均数:x̄乙 = (75+80+90+95+80) / 5 = 420 / 5 = 84
乙的方差:
s²乙 = [(75-84)² + (80-84)² + (90-84)² + (95-84)² + (80-84)²] / 5
= [81 + 16 + 36 + 121 + 16] / 5 = 270 / 5 = 54
分析:两人的平均成绩相同(84 分),但 s²甲 = 14 < s²乙 = 54,因此甲的成绩更稳定。
甲的标准差 s甲 = √14 ≈ 3.74,乙的标准差 s乙 = √54 ≈ 7.35。
例题 5:使用简化公式计算方差
已知数据 3, 5, 7, 9, 11,用简化公式求方差。
解:
平均数:x̄ = (3+5+7+9+11) / 5 = 35 / 5 = 7
计算 xᵢ² 的平均值:
(1/5) Σxᵢ² = (9 + 25 + 49 + 81 + 121) / 5 = 285 / 5 = 57
由简化公式:
s² = (1/n) Σxᵢ² - x̄² = 57 - 49 = 8
标准差 s = √8 = 2√2 ≈ 2.83
本章知识总结
- 三种随机抽样方法:简单随机抽样、系统抽样、分层抽样,各有适用场景和优缺点
- 数据的表示方法:频率分布表、频率分布直方图(纵轴为频率/组距)、茎叶图
- 集中趋势指标:平均数(信息全面但受极端值影响)、中位数(抗干扰)、众数(最常见值)
- 离散程度指标:极差(最简单)、方差和标准差(最常用)、变异系数(比较不同量纲数据)
- 方差简化公式:s² = (1/n)Σxᵢ² - x̄²,计算更便捷
- 频率分布直方图中所有小矩形面积之和为 1,面积代表频率,高度代表频率/组距
- 统计的核心思想是用样本估计总体,样本的代表性至关重要