18.1 成对数据的相关关系

函数关系与相关关系

函数关系

两个变量之间存在确定性的对应关系,给定一个变量的值,另一个变量的值完全确定。

示例:圆的面积 S 与半径 r 的关系 S = πr²。

相关关系

两个变量之间存在非确定性的依赖关系,但有一定的统计规律。

示例:身高与体重、学习时间与考试成绩。

正相关与负相关

正相关

一个变量增大时,另一个变量也倾向于增大

示例:广告投入与销售额的关系。

散点图中,点的分布趋势从左下到右上。

负相关

一个变量增大时,另一个变量倾向于减小

示例:气温与取暖费用的关系。

散点图中,点的分布趋势从左上到右下。

散点图是判断两个变量之间是否存在相关关系以及相关方向(正/负)的最直观工具。通过观察散点的分布趋势和密集程度,可以初步判断相关性的方向和强弱。

Pearson 相关系数

相关系数

对于成对数据 (x₁,y₁), (x₂,y₂), ..., (xₙ,yₙ),Pearson 相关系数定义为:

r = Σ(xᵢ - x̄)(yᵢ - ȳ) / √[Σ(xᵢ - x̄)² · Σ(yᵢ - ȳ)²]

等价计算公式:

r = [Σxᵢyᵢ - nx̄ȳ] / √[(Σxᵢ² - nx̄²)(Σyᵢ² - nȳ²)]

相关系数的解读

|r| 的范围相关程度说明
0.75 ≤ |r| ≤ 1强相关线性关系显著,适合用线性回归
0.5 ≤ |r| < 0.75中等相关存在一定的线性关系
0.3 ≤ |r| < 0.5弱相关线性关系较弱
|r| < 0.3极弱/无相关几乎不存在线性关系
注意:r > 0 表示正相关,r < 0 表示负相关。相关系数只衡量线性相关程度,r = 0 不代表两个变量完全无关(可能存在非线性关系)。高考中一般以 |r| > 0.75 作为"相关性较强"的判断标准。
例 1:计算相关系数

已知 5 组数据如下,求相关系数 r 并判断相关性。

i12345
xᵢ12345
yᵢ23546

:先计算基本统计量:

x̄ = (1+2+3+4+5)/5 = 3,ȳ = (2+3+5+4+6)/5 = 4

Σxᵢyᵢ = 1×2 + 2×3 + 3×5 + 4×4 + 5×6 = 2+6+15+16+30 = 69

Σxᵢ² = 1+4+9+16+25 = 55

Σyᵢ² = 4+9+25+16+36 = 90

nx̄ȳ = 5×3×4 = 60,nx̄² = 5×9 = 45,nȳ² = 5×16 = 80

分子:Σxᵢyᵢ - nx̄ȳ = 69 - 60 = 9

分母:√[(55-45)(90-80)] = √[10×10] = √100 = 10

r = 9/10 = 0.9

因为 |r| = 0.9 > 0.75,所以 x 和 y 之间存在较强的正线性相关关系

18.2 一元线性回归模型

一元线性回归模型

对成对数据 (xᵢ, yᵢ),用模型

y = β0 + β1x + ε,其中 ε ~ N(0, σ²)

来描述 y 与 x 之间的关系,其中 β0 为截距,β1 为斜率,ε 为随机误差。

最小二乘法

最小二乘法的原理:选择回归系数,使得残差平方和

Q = Σ(yᵢ - ŷᵢ)² = Σ(yᵢ - a - bxᵢ)²

达到最小值。

回归系数的估计

最小二乘估计公式

对 n 组数据 (x₁,y₁), (x₂,y₂), ..., (xₙ,yₙ),回归系数的估计值为:

b̂ = Σ(xᵢ - x̄)(yᵢ - ȳ) / Σ(xᵢ - x̄)²

等价计算形式:

b̂ = [Σxᵢyᵢ - nx̄ȳ] / [Σxᵢ² - nx̄²]
â = ȳ - b̂x̄

回归直线方程为:ŷ = b̂x + â

重要性质:回归直线 ŷ = b̂x + â 必定过样本中心点 (x̄, ȳ)。这个性质常用来快速验证回归方程的正确性,也常作为高考考点。

残差分析

残差

残差(residual)定义为观测值与预测值之差:

eᵢ = yᵢ - ŷᵢ

残差图:以 xᵢ 为横轴、eᵢ 为纵轴绘制散点图,用于检验回归模型的拟合效果。

决定系数 R²

决定系数(拟合优度)
R² = 1 - Σ(yᵢ - ŷᵢ)² / Σ(yᵢ - ȳ)²
例 2:求线性回归方程

某研究者收集了 6 组数据,研究学生每周学习时间 x(小时)与数学成绩 y(分)的关系:

i123456
xᵢ5810121520
yᵢ556270728091

求 y 关于 x 的线性回归方程。

:n = 6

x̄ = (5+8+10+12+15+20)/6 = 70/6 = 35/3 ≈ 11.667

ȳ = (55+62+70+72+80+91)/6 = 430/6 = 215/3 ≈ 71.667

Σxᵢyᵢ = 5×55 + 8×62 + 10×70 + 12×72 + 15×80 + 20×91

        = 275 + 496 + 700 + 864 + 1200 + 1820 = 5355

Σxᵢ² = 25+64+100+144+225+400 = 958

nx̄ȳ = 6 × (35/3) × (215/3) = 6 × 7525/9 = 45150/9 = 5016.667

nx̄² = 6 × (35/3)² = 6 × 1225/9 = 7350/9 = 816.667

b̂ = (5355 - 5016.667) / (958 - 816.667) = 338.333 / 141.333 ≈ 2.394

â = ȳ - b̂x̄ = 71.667 - 2.394 × 11.667 ≈ 71.667 - 27.931 ≈ 43.736

回归方程为:ŷ = 2.394x + 43.736

验证:将 x̄ = 11.667 代入:ŷ = 2.394×11.667 + 43.736 = 27.931 + 43.736 = 71.667 = ȳ ✓

解释:每周学习时间每增加 1 小时,数学成绩平均提高约 2.394 分。

例 3:利用回归方程进行预测

沿用例 2 的结果 ŷ = 2.394x + 43.736。预测每周学习 18 小时的学生的数学成绩。

:将 x = 18 代入回归方程:

ŷ = 2.394 × 18 + 43.736 = 43.092 + 43.736 = 86.828 ≈ 87(分)

即预测每周学习 18 小时的学生数学成绩约为 87 分。

例 4:验证回归直线过中心点

已知 4 组数据 (1,2), (2,3), (3,5), (4,4),求回归方程并验证其过样本中心点。

:x̄ = (1+2+3+4)/4 = 2.5,ȳ = (2+3+5+4)/4 = 3.5

Σxᵢyᵢ = 2+6+15+16 = 39

Σxᵢ² = 1+4+9+16 = 30

nx̄ȳ = 4×2.5×3.5 = 35

nx̄² = 4×6.25 = 25

b̂ = (39-35)/(30-25) = 4/5 = 0.8

â = 3.5 - 0.8×2.5 = 3.5 - 2.0 = 1.5

回归方程:ŷ = 0.8x + 1.5

验证:x̄ = 2.5 代入,ŷ = 0.8×2.5 + 1.5 = 2.0 + 1.5 = 3.5 = ȳ ✓

回归直线确实过样本中心点 (2.5, 3.5)。

18.3 列联表与独立性检验

2 × 2 列联表

列联表(交叉表)

将两个分类变量的频次数据交叉列成表格,称为列联表(contingency table)。2×2 列联表的一般形式如下:

BB̄(非B)合计
Aaba+b
Ā(非A)cdc+d
合计a+cb+dn=a+b+c+d

独立性检验的基本思想

核心思路:假设两个分类变量无关(独立),然后看实际数据与这个假设的偏差有多大。如果偏差太大(超过临界值),就拒绝"无关"的假设,认为两个变量之间存在关联。
假设检验的基本步骤
  1. 提出假设
    • H₀(零假设):两个分类变量无关(独立)
    • H₁(备择假设):两个分类变量有关(不独立)
  2. 列出 2×2 列联表,整理数据
  3. 计算 χ² 统计量
  4. 查临界值表,确定显著性水平
  5. 做出判断,得出结论
χ² 统计量
χ² = n(ad - bc)² / [(a+b)(c+d)(a+c)(b+d)]

其中 n = a + b + c + d 为样本总量。

χ² 临界值表

α(显著性水平)0.100.050.010.001
临界值 xα2.7063.8416.63510.828

判断标准

χ² ≥ 10.828

在 α=0.001 水平下拒绝 H₀

有极强证据证明两变量有关

χ² ≥ 6.635

在 α=0.01 水平下拒绝 H₀

有较强证据证明两变量有关

χ² ≥ 3.841

在 α=0.05 水平下拒绝 H₀

有证据证明两变量有关

高考常用标准:当 χ² ≥ 3.841 时,有 95% 的把握认为两个变量有关;当 χ² ≥ 6.635 时,有 99% 的把握认为两个变量有关。当 χ² < 3.841 时,没有充分证据拒绝 H₀,即不能认为两个变量有关。
例 5:独立性检验的完整过程

为研究性别是否与"是否喜欢数学"有关,随机调查了 200 名学生,结果如下:

喜欢数学不喜欢数学合计
男生4060100
女生3070100
合计70130200

能否在 α = 0.05 的显著性水平下认为性别与是否喜欢数学有关?

第一步:提出假设

H₀:性别与是否喜欢数学无关(独立)

H₁:性别与是否喜欢数学有关

第二步:列出列联表(已给出),a=40, b=60, c=30, d=70, n=200

第三步:计算 χ² 统计量

ad - bc = 40×70 - 60×30 = 2800 - 1800 = 1000

(ad-bc)² = 1000000

n(ad-bc)² = 200 × 1000000 = 200000000

(a+b)(c+d)(a+c)(b+d) = 100 × 100 × 70 × 130 = 91000000

χ² = 200000000 / 91000000 ≈ 2.198

第四步:查表,α=0.05 对应临界值 3.841

第五步:因为 2.198 < 3.841,所以不能拒绝 H₀

结论:在 α=0.05 的显著性水平下,没有充分证据认为性别与是否喜欢数学有关。

例 6:独立性检验(拒绝 H₀ 的情况)

某医院研究吸烟与患某种疾病的关系,调查了 400 人,数据如下:

患病未患病合计
吸烟45155200
不吸烟15185200
合计60340400

能否在 α=0.01 的显著性水平下认为吸烟与患该疾病有关?

H₀:吸烟与患该疾病无关

H₁:吸烟与患该疾病有关

a=45, b=155, c=15, d=185, n=400

ad - bc = 45×185 - 155×15 = 8325 - 2325 = 6000

(ad-bc)² = 36000000

n(ad-bc)² = 400 × 36000000 = 14400000000

(a+b)(c+d)(a+c)(b+d) = 200 × 200 × 60 × 340 = 816000000

χ² = 14400000000 / 816000000 ≈ 17.647

查表:α=0.01 对应临界值 6.635

因为 17.647 > 6.635(实际上也 > 10.828),所以拒绝 H₀

结论:在 α=0.01 的显著性水平下,有 99% 的把握认为吸烟与患该疾病有关。甚至在 α=0.001 水平下也显著。

例 7:综合练习

某学校为了解学生使用手机时间与视力状况的关系,调查了 300 名学生,结果如下:

视力正常视力异常合计
每天使用 ≥ 3小时50100150
每天使用 < 3小时9060150
合计140160300

(1)能否在 α=0.01 水平下认为手机使用时间与视力状况有关?

(2)从视力异常的学生中,用分层抽样方法抽取 8 人,再从 8 人中随机抽取 2 人了解具体用眼习惯,求 2 人都来自"使用 ≥ 3小时"组的概率。

解(1)

H₀:手机使用时间与视力状况无关

a=50, b=100, c=90, d=60, n=300

ad - bc = 50×60 - 100×90 = 3000 - 9000 = -6000

(ad-bc)² = 36000000

n(ad-bc)² = 300 × 36000000 = 10800000000

(a+b)(c+d)(a+c)(b+d) = 150 × 150 × 140 × 160 = 504000000

χ² = 10800000000 / 504000000 ≈ 21.429

因为 21.429 > 6.635,所以拒绝 H₀。

结论:有 99% 的把握认为手机使用时间与视力状况有关。

解(2)

视力异常共 160 人,其中"使用 ≥ 3小时"组 100 人,"使用 < 3小时"组 60 人。

分层抽样抽取 8 人:从 ≥3小时组抽 8×(100/160) = 5 人,从 <3小时组抽 3 人。

从 8 人中随机取 2 人,2 人都来自 ≥3小时组的概率:

P = C(5,2)/C(8,2) = 10/28 = 5/14

例 8:回归与独立性检验综合

某工厂测试 5 种不同的催化剂用量 x(kg)与产品产量 y(吨)的关系,数据如下:

xᵢ23456
yᵢ2.23.85.56.57.0

(1)求 y 关于 x 的线性回归方程。

(2)计算相关系数 r 并判断拟合效果。

解(1):n = 5

x̄ = (2+3+4+5+6)/5 = 4,ȳ = (2.2+3.8+5.5+6.5+7.0)/5 = 25/5 = 5

Σxᵢyᵢ = 2×2.2 + 3×3.8 + 4×5.5 + 5×6.5 + 6×7.0

        = 4.4 + 11.4 + 22.0 + 32.5 + 42.0 = 112.3

Σxᵢ² = 4+9+16+25+36 = 90

nx̄ȳ = 5×4×5 = 100,nx̄² = 5×16 = 80

b̂ = (112.3 - 100)/(90 - 80) = 12.3/10 = 1.23

â = 5 - 1.23×4 = 5 - 4.92 = 0.08

回归方程:ŷ = 1.23x + 0.08

解(2)

Σyᵢ² = 4.84+14.44+30.25+42.25+49.00 = 140.78

nȳ² = 5×25 = 125

r = (112.3-100)/√[(90-80)(140.78-125)] = 12.3/√[10×15.78]

= 12.3/√157.8 ≈ 12.3/12.562 ≈ 0.979

因为 |r| = 0.979 > 0.75,说明线性相关性很强,回归方程拟合效果良好。

本章核心知识总结