18.1 成对数据的相关关系
函数关系与相关关系
两个变量之间存在确定性的对应关系,给定一个变量的值,另一个变量的值完全确定。
示例:圆的面积 S 与半径 r 的关系 S = πr²。
两个变量之间存在非确定性的依赖关系,但有一定的统计规律。
示例:身高与体重、学习时间与考试成绩。
正相关与负相关
一个变量增大时,另一个变量也倾向于增大。
示例:广告投入与销售额的关系。
散点图中,点的分布趋势从左下到右上。
一个变量增大时,另一个变量倾向于减小。
示例:气温与取暖费用的关系。
散点图中,点的分布趋势从左上到右下。
Pearson 相关系数
对于成对数据 (x₁,y₁), (x₂,y₂), ..., (xₙ,yₙ),Pearson 相关系数定义为:
等价计算公式:
相关系数的解读
| |r| 的范围 | 相关程度 | 说明 |
|---|---|---|
| 0.75 ≤ |r| ≤ 1 | 强相关 | 线性关系显著,适合用线性回归 |
| 0.5 ≤ |r| < 0.75 | 中等相关 | 存在一定的线性关系 |
| 0.3 ≤ |r| < 0.5 | 弱相关 | 线性关系较弱 |
| |r| < 0.3 | 极弱/无相关 | 几乎不存在线性关系 |
已知 5 组数据如下,求相关系数 r 并判断相关性。
| i | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| xᵢ | 1 | 2 | 3 | 4 | 5 |
| yᵢ | 2 | 3 | 5 | 4 | 6 |
解:先计算基本统计量:
x̄ = (1+2+3+4+5)/5 = 3,ȳ = (2+3+5+4+6)/5 = 4
Σxᵢyᵢ = 1×2 + 2×3 + 3×5 + 4×4 + 5×6 = 2+6+15+16+30 = 69
Σxᵢ² = 1+4+9+16+25 = 55
Σyᵢ² = 4+9+25+16+36 = 90
nx̄ȳ = 5×3×4 = 60,nx̄² = 5×9 = 45,nȳ² = 5×16 = 80
分子:Σxᵢyᵢ - nx̄ȳ = 69 - 60 = 9
分母:√[(55-45)(90-80)] = √[10×10] = √100 = 10
r = 9/10 = 0.9
因为 |r| = 0.9 > 0.75,所以 x 和 y 之间存在较强的正线性相关关系。
18.2 一元线性回归模型
对成对数据 (xᵢ, yᵢ),用模型
来描述 y 与 x 之间的关系,其中 β0 为截距,β1 为斜率,ε 为随机误差。
最小二乘法的原理:选择回归系数,使得残差平方和
达到最小值。
回归系数的估计
对 n 组数据 (x₁,y₁), (x₂,y₂), ..., (xₙ,yₙ),回归系数的估计值为:
等价计算形式:
回归直线方程为:ŷ = b̂x + â
残差分析
残差(residual)定义为观测值与预测值之差:
残差图:以 xᵢ 为横轴、eᵢ 为纵轴绘制散点图,用于检验回归模型的拟合效果。
- 残差在 0 附近随机波动→ 模型拟合良好
- 残差呈现某种规律(如抛物线形)→ 模型不适合
- 残差范围过大 → 可能存在异常值
决定系数 R²
- R² 越接近 1,模型拟合效果越好
- R² 越接近 0,模型拟合效果越差
- R² 的含义:自变量 x 解释了因变量 y 变异的百分比
某研究者收集了 6 组数据,研究学生每周学习时间 x(小时)与数学成绩 y(分)的关系:
| i | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| xᵢ | 5 | 8 | 10 | 12 | 15 | 20 |
| yᵢ | 55 | 62 | 70 | 72 | 80 | 91 |
求 y 关于 x 的线性回归方程。
解:n = 6
x̄ = (5+8+10+12+15+20)/6 = 70/6 = 35/3 ≈ 11.667
ȳ = (55+62+70+72+80+91)/6 = 430/6 = 215/3 ≈ 71.667
Σxᵢyᵢ = 5×55 + 8×62 + 10×70 + 12×72 + 15×80 + 20×91
= 275 + 496 + 700 + 864 + 1200 + 1820 = 5355
Σxᵢ² = 25+64+100+144+225+400 = 958
nx̄ȳ = 6 × (35/3) × (215/3) = 6 × 7525/9 = 45150/9 = 5016.667
nx̄² = 6 × (35/3)² = 6 × 1225/9 = 7350/9 = 816.667
b̂ = (5355 - 5016.667) / (958 - 816.667) = 338.333 / 141.333 ≈ 2.394
â = ȳ - b̂x̄ = 71.667 - 2.394 × 11.667 ≈ 71.667 - 27.931 ≈ 43.736
回归方程为:ŷ = 2.394x + 43.736
验证:将 x̄ = 11.667 代入:ŷ = 2.394×11.667 + 43.736 = 27.931 + 43.736 = 71.667 = ȳ ✓
解释:每周学习时间每增加 1 小时,数学成绩平均提高约 2.394 分。
沿用例 2 的结果 ŷ = 2.394x + 43.736。预测每周学习 18 小时的学生的数学成绩。
解:将 x = 18 代入回归方程:
ŷ = 2.394 × 18 + 43.736 = 43.092 + 43.736 = 86.828 ≈ 87(分)
即预测每周学习 18 小时的学生数学成绩约为 87 分。
已知 4 组数据 (1,2), (2,3), (3,5), (4,4),求回归方程并验证其过样本中心点。
解:x̄ = (1+2+3+4)/4 = 2.5,ȳ = (2+3+5+4)/4 = 3.5
Σxᵢyᵢ = 2+6+15+16 = 39
Σxᵢ² = 1+4+9+16 = 30
nx̄ȳ = 4×2.5×3.5 = 35
nx̄² = 4×6.25 = 25
b̂ = (39-35)/(30-25) = 4/5 = 0.8
â = 3.5 - 0.8×2.5 = 3.5 - 2.0 = 1.5
回归方程:ŷ = 0.8x + 1.5
验证:x̄ = 2.5 代入,ŷ = 0.8×2.5 + 1.5 = 2.0 + 1.5 = 3.5 = ȳ ✓
回归直线确实过样本中心点 (2.5, 3.5)。
18.3 列联表与独立性检验
2 × 2 列联表
将两个分类变量的频次数据交叉列成表格,称为列联表(contingency table)。2×2 列联表的一般形式如下:
| B | B̄(非B) | 合计 | |
|---|---|---|---|
| A | a | b | a+b |
| Ā(非A) | c | d | c+d |
| 合计 | a+c | b+d | n=a+b+c+d |
独立性检验的基本思想
- 提出假设
- H₀(零假设):两个分类变量无关(独立)
- H₁(备择假设):两个分类变量有关(不独立)
- 列出 2×2 列联表,整理数据
- 计算 χ² 统计量
- 查临界值表,确定显著性水平
- 做出判断,得出结论
其中 n = a + b + c + d 为样本总量。
χ² 临界值表
| α(显著性水平) | 0.10 | 0.05 | 0.01 | 0.001 |
|---|---|---|---|---|
| 临界值 xα | 2.706 | 3.841 | 6.635 | 10.828 |
判断标准
在 α=0.001 水平下拒绝 H₀
有极强证据证明两变量有关
在 α=0.01 水平下拒绝 H₀
有较强证据证明两变量有关
在 α=0.05 水平下拒绝 H₀
有证据证明两变量有关
为研究性别是否与"是否喜欢数学"有关,随机调查了 200 名学生,结果如下:
| 喜欢数学 | 不喜欢数学 | 合计 | |
|---|---|---|---|
| 男生 | 40 | 60 | 100 |
| 女生 | 30 | 70 | 100 |
| 合计 | 70 | 130 | 200 |
能否在 α = 0.05 的显著性水平下认为性别与是否喜欢数学有关?
解:
第一步:提出假设
H₀:性别与是否喜欢数学无关(独立)
H₁:性别与是否喜欢数学有关
第二步:列出列联表(已给出),a=40, b=60, c=30, d=70, n=200
第三步:计算 χ² 统计量
ad - bc = 40×70 - 60×30 = 2800 - 1800 = 1000
(ad-bc)² = 1000000
n(ad-bc)² = 200 × 1000000 = 200000000
(a+b)(c+d)(a+c)(b+d) = 100 × 100 × 70 × 130 = 91000000
χ² = 200000000 / 91000000 ≈ 2.198
第四步:查表,α=0.05 对应临界值 3.841
第五步:因为 2.198 < 3.841,所以不能拒绝 H₀
结论:在 α=0.05 的显著性水平下,没有充分证据认为性别与是否喜欢数学有关。
某医院研究吸烟与患某种疾病的关系,调查了 400 人,数据如下:
| 患病 | 未患病 | 合计 | |
|---|---|---|---|
| 吸烟 | 45 | 155 | 200 |
| 不吸烟 | 15 | 185 | 200 |
| 合计 | 60 | 340 | 400 |
能否在 α=0.01 的显著性水平下认为吸烟与患该疾病有关?
解:
H₀:吸烟与患该疾病无关
H₁:吸烟与患该疾病有关
a=45, b=155, c=15, d=185, n=400
ad - bc = 45×185 - 155×15 = 8325 - 2325 = 6000
(ad-bc)² = 36000000
n(ad-bc)² = 400 × 36000000 = 14400000000
(a+b)(c+d)(a+c)(b+d) = 200 × 200 × 60 × 340 = 816000000
χ² = 14400000000 / 816000000 ≈ 17.647
查表:α=0.01 对应临界值 6.635
因为 17.647 > 6.635(实际上也 > 10.828),所以拒绝 H₀
结论:在 α=0.01 的显著性水平下,有 99% 的把握认为吸烟与患该疾病有关。甚至在 α=0.001 水平下也显著。
某学校为了解学生使用手机时间与视力状况的关系,调查了 300 名学生,结果如下:
| 视力正常 | 视力异常 | 合计 | |
|---|---|---|---|
| 每天使用 ≥ 3小时 | 50 | 100 | 150 |
| 每天使用 < 3小时 | 90 | 60 | 150 |
| 合计 | 140 | 160 | 300 |
(1)能否在 α=0.01 水平下认为手机使用时间与视力状况有关?
(2)从视力异常的学生中,用分层抽样方法抽取 8 人,再从 8 人中随机抽取 2 人了解具体用眼习惯,求 2 人都来自"使用 ≥ 3小时"组的概率。
解(1):
H₀:手机使用时间与视力状况无关
a=50, b=100, c=90, d=60, n=300
ad - bc = 50×60 - 100×90 = 3000 - 9000 = -6000
(ad-bc)² = 36000000
n(ad-bc)² = 300 × 36000000 = 10800000000
(a+b)(c+d)(a+c)(b+d) = 150 × 150 × 140 × 160 = 504000000
χ² = 10800000000 / 504000000 ≈ 21.429
因为 21.429 > 6.635,所以拒绝 H₀。
结论:有 99% 的把握认为手机使用时间与视力状况有关。
解(2):
视力异常共 160 人,其中"使用 ≥ 3小时"组 100 人,"使用 < 3小时"组 60 人。
分层抽样抽取 8 人:从 ≥3小时组抽 8×(100/160) = 5 人,从 <3小时组抽 3 人。
从 8 人中随机取 2 人,2 人都来自 ≥3小时组的概率:
P = C(5,2)/C(8,2) = 10/28 = 5/14
某工厂测试 5 种不同的催化剂用量 x(kg)与产品产量 y(吨)的关系,数据如下:
| xᵢ | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|
| yᵢ | 2.2 | 3.8 | 5.5 | 6.5 | 7.0 |
(1)求 y 关于 x 的线性回归方程。
(2)计算相关系数 r 并判断拟合效果。
解(1):n = 5
x̄ = (2+3+4+5+6)/5 = 4,ȳ = (2.2+3.8+5.5+6.5+7.0)/5 = 25/5 = 5
Σxᵢyᵢ = 2×2.2 + 3×3.8 + 4×5.5 + 5×6.5 + 6×7.0
= 4.4 + 11.4 + 22.0 + 32.5 + 42.0 = 112.3
Σxᵢ² = 4+9+16+25+36 = 90
nx̄ȳ = 5×4×5 = 100,nx̄² = 5×16 = 80
b̂ = (112.3 - 100)/(90 - 80) = 12.3/10 = 1.23
â = 5 - 1.23×4 = 5 - 4.92 = 0.08
回归方程:ŷ = 1.23x + 0.08
解(2):
Σyᵢ² = 4.84+14.44+30.25+42.25+49.00 = 140.78
nȳ² = 5×25 = 125
r = (112.3-100)/√[(90-80)(140.78-125)] = 12.3/√[10×15.78]
= 12.3/√157.8 ≈ 12.3/12.562 ≈ 0.979
因为 |r| = 0.979 > 0.75,说明线性相关性很强,回归方程拟合效果良好。
本章核心知识总结
- 相关系数 r:衡量两个变量的线性相关程度,|r| > 0.75 为强相关
- 回归方程 ŷ = b̂x + â:用最小二乘法求得,必过样本中心点 (x̄, ȳ)
- 回归系数:b̂ = [Σxᵢyᵢ - nx̄ȳ]/[Σxᵢ² - nx̄²],â = ȳ - b̂x̄
- 残差分析:eᵢ = yᵢ - ŷᵢ,残差图检验模型适合度
- 决定系数 R²:越接近 1 拟合越好
- 列联表:整理两个分类变量的频次数据
- χ² 检验:χ² = n(ad-bc)²/[(a+b)(c+d)(a+c)(b+d)]
- 判断标准:χ² ≥ 3.841(α=0.05),χ² ≥ 6.635(α=0.01)
- 解题步骤:提出假设 → 列表 → 计算 χ² → 查表 → 下结论