成对数据的统计分析 - 高中数学知识总结

18.1 成对数据的相关关系

函数关系与相关关系

函数关系

两个变量之间存在确定性的对应关系，给定一个变量的值，另一个变量的值完全确定。

示例：圆的面积 S 与半径 r 的关系 S = πr²。

正相关与负相关

正相关

一个变量增大时，另一个变量也倾向于增大。

示例：广告投入与销售额的关系。

散点图中，点的分布趋势从左下到右上。

负相关

一个变量增大时，另一个变量倾向于减小。

示例：气温与取暖费用的关系。

散点图中，点的分布趋势从左上到右下。

散点图是判断两个变量之间是否存在相关关系以及相关方向（正/负）的最直观工具。通过观察散点的分布趋势和密集程度，可以初步判断相关性的方向和强弱。

Pearson 相关系数

\|r\| 的范围	相关程度	说明
0.75 ≤ \|r\| ≤ 1	强相关	线性关系显著，适合用线性回归
0.5 ≤ \|r\| < 0.75	中等相关	存在一定的线性关系
0.3 ≤ \|r\| < 0.5	弱相关	线性关系较弱
\|r\| < 0.3	极弱/无相关	几乎不存在线性关系

i	1	2	3	4	5
xᵢ	1	2	3	4	5
yᵢ	2	3	5	4	6

18.2 一元线性回归模型

一元线性回归模型

对成对数据 (xᵢ, yᵢ)，用模型

y = β₀ + β₁x + ε，其中 ε ~ N(0, σ²)

来描述 y 与 x 之间的关系，其中 β₀ 为截距，β₁ 为斜率，ε 为随机误差。

最小二乘法

最小二乘法的原理：选择回归系数，使得残差平方和

Q = Σ(yᵢ - ŷᵢ)² = Σ(yᵢ - a - bxᵢ)²

达到最小值。

回归系数的估计

最小二乘估计公式

对 n 组数据 (x₁,y₁), (x₂,y₂), ..., (xₙ,yₙ)，回归系数的估计值为：

b̂ = Σ(xᵢ - x̄)(yᵢ - ȳ) / Σ(xᵢ - x̄)²

等价计算形式：

b̂ = [Σxᵢyᵢ - nx̄ȳ] / [Σxᵢ² - nx̄²]

â = ȳ - b̂x̄

回归直线方程为：ŷ = b̂x + â

重要性质：回归直线 ŷ = b̂x + â 必定过样本中心点 (x̄, ȳ)。这个性质常用来快速验证回归方程的正确性，也常作为高考考点。

残差分析

残差

残差（residual）定义为观测值与预测值之差：

eᵢ = yᵢ - ŷᵢ

残差图：以 xᵢ 为横轴、eᵢ 为纵轴绘制散点图，用于检验回归模型的拟合效果。

残差在 0 附近随机波动→ 模型拟合良好
残差呈现某种规律（如抛物线形）→ 模型不适合
残差范围过大 → 可能存在异常值

决定系数 R²

决定系数（拟合优度）

R² = 1 - Σ(yᵢ - ŷᵢ)² / Σ(yᵢ - ȳ)²

R² 越接近 1，模型拟合效果越好
R² 越接近 0，模型拟合效果越差
R² 的含义：自变量 x 解释了因变量 y 变异的百分比

例 2：求线性回归方程

某研究者收集了 6 组数据，研究学生每周学习时间 x（小时）与数学成绩 y（分）的关系：

i	1	2	3	4	5	6
xᵢ	5	8	10	12	15	20
yᵢ	55	62	70	72	80	91

求 y 关于 x 的线性回归方程。

解：n = 6

x̄ = (5+8+10+12+15+20)/6 = 70/6 = 35/3 ≈ 11.667

ȳ = (55+62+70+72+80+91)/6 = 430/6 = 215/3 ≈ 71.667

Σxᵢyᵢ = 5×55 + 8×62 + 10×70 + 12×72 + 15×80 + 20×91

= 275 + 496 + 700 + 864 + 1200 + 1820 = 5355

Σxᵢ² = 25+64+100+144+225+400 = 958

nx̄ȳ = 6 × (35/3) × (215/3) = 6 × 7525/9 = 45150/9 = 5016.667

nx̄² = 6 × (35/3)² = 6 × 1225/9 = 7350/9 = 816.667

b̂ = (5355 - 5016.667) / (958 - 816.667) = 338.333 / 141.333 ≈ 2.394

â = ȳ - b̂x̄ = 71.667 - 2.394 × 11.667 ≈ 71.667 - 27.931 ≈ 43.736

回归方程为：ŷ = 2.394x + 43.736

验证：将 x̄ = 11.667 代入：ŷ = 2.394×11.667 + 43.736 = 27.931 + 43.736 = 71.667 = ȳ ✓

解释：每周学习时间每增加 1 小时，数学成绩平均提高约 2.394 分。

例 3：利用回归方程进行预测

沿用例 2 的结果 ŷ = 2.394x + 43.736。预测每周学习 18 小时的学生的数学成绩。

解：将 x = 18 代入回归方程：

ŷ = 2.394 × 18 + 43.736 = 43.092 + 43.736 = 86.828 ≈ 87（分）

即预测每周学习 18 小时的学生数学成绩约为 87 分。

例 4：验证回归直线过中心点

已知 4 组数据 (1,2), (2,3), (3,5), (4,4)，求回归方程并验证其过样本中心点。

解：x̄ = (1+2+3+4)/4 = 2.5，ȳ = (2+3+5+4)/4 = 3.5

Σxᵢyᵢ = 2+6+15+16 = 39

Σxᵢ² = 1+4+9+16 = 30

nx̄ȳ = 4×2.5×3.5 = 35

nx̄² = 4×6.25 = 25

b̂ = (39-35)/(30-25) = 4/5 = 0.8

â = 3.5 - 0.8×2.5 = 3.5 - 2.0 = 1.5

回归方程：ŷ = 0.8x + 1.5

验证：x̄ = 2.5 代入，ŷ = 0.8×2.5 + 1.5 = 2.0 + 1.5 = 3.5 = ȳ ✓

回归直线确实过样本中心点 (2.5, 3.5)。

18.3 列联表与独立性检验

2 × 2 列联表

列联表（交叉表）

将两个分类变量的频次数据交叉列成表格，称为列联表（contingency table）。2×2 列联表的一般形式如下：

	B	B̄（非B）	合计
A	a	b	a+b
Ā（非A）	c	d	c+d
合计	a+c	b+d	n=a+b+c+d

独立性检验的基本思想

核心思路：假设两个分类变量无关（独立），然后看实际数据与这个假设的偏差有多大。如果偏差太大（超过临界值），就拒绝"无关"的假设，认为两个变量之间存在关联。

假设检验的基本步骤

提出假设
- H₀（零假设）：两个分类变量无关（独立）
- H₁（备择假设）：两个分类变量有关（不独立）
列出 2×2 列联表，整理数据
计算 χ² 统计量
查临界值表，确定显著性水平
做出判断，得出结论

χ² 统计量

χ² = n(ad - bc)² / [(a+b)(c+d)(a+c)(b+d)]

其中 n = a + b + c + d 为样本总量。

χ² 临界值表

α（显著性水平）	0.10	0.05	0.01	0.001
临界值 x_α	2.706	3.841	6.635	10.828

判断标准

χ² ≥ 10.828

在 α=0.001 水平下拒绝 H₀

有极强证据证明两变量有关

χ² ≥ 6.635

在 α=0.01 水平下拒绝 H₀

有较强证据证明两变量有关

χ² ≥ 3.841

在 α=0.05 水平下拒绝 H₀

有证据证明两变量有关

高考常用标准：当 χ² ≥ 3.841 时，有 95% 的把握认为两个变量有关；当 χ² ≥ 6.635 时，有 99% 的把握认为两个变量有关。当 χ² < 3.841 时，没有充分证据拒绝 H₀，即不能认为两个变量有关。

例 5：独立性检验的完整过程

为研究性别是否与"是否喜欢数学"有关，随机调查了 200 名学生，结果如下：

	喜欢数学	不喜欢数学	合计
男生	40	60	100
女生	30	70	100
合计	70	130	200

能否在 α = 0.05 的显著性水平下认为性别与是否喜欢数学有关？

解：

第一步：提出假设

H₀：性别与是否喜欢数学无关（独立）

H₁：性别与是否喜欢数学有关

第二步：列出列联表（已给出），a=40, b=60, c=30, d=70, n=200

第三步：计算 χ² 统计量

ad - bc = 40×70 - 60×30 = 2800 - 1800 = 1000

(ad-bc)² = 1000000

n(ad-bc)² = 200 × 1000000 = 200000000

(a+b)(c+d)(a+c)(b+d) = 100 × 100 × 70 × 130 = 91000000

χ² = 200000000 / 91000000 ≈ 2.198

第四步：查表，α=0.05 对应临界值 3.841

第五步：因为 2.198 < 3.841，所以不能拒绝 H₀

结论：在 α=0.05 的显著性水平下，没有充分证据认为性别与是否喜欢数学有关。

例 6：独立性检验（拒绝 H₀ 的情况）

某医院研究吸烟与患某种疾病的关系，调查了 400 人，数据如下：

	患病	未患病	合计
吸烟	45	155	200
不吸烟	15	185	200
合计	60	340	400

能否在 α=0.01 的显著性水平下认为吸烟与患该疾病有关？

解：

H₀：吸烟与患该疾病无关

H₁：吸烟与患该疾病有关

a=45, b=155, c=15, d=185, n=400

ad - bc = 45×185 - 155×15 = 8325 - 2325 = 6000

(ad-bc)² = 36000000

n(ad-bc)² = 400 × 36000000 = 14400000000

(a+b)(c+d)(a+c)(b+d) = 200 × 200 × 60 × 340 = 816000000

χ² = 14400000000 / 816000000 ≈ 17.647

查表：α=0.01 对应临界值 6.635

因为 17.647 > 6.635（实际上也 > 10.828），所以拒绝 H₀

结论：在 α=0.01 的显著性水平下，有 99% 的把握认为吸烟与患该疾病有关。甚至在 α=0.001 水平下也显著。

例 7：综合练习

某学校为了解学生使用手机时间与视力状况的关系，调查了 300 名学生，结果如下：

	视力正常	视力异常	合计
每天使用 ≥ 3小时	50	100	150
每天使用 < 3小时	90	60	150
合计	140	160	300

（1）能否在 α=0.01 水平下认为手机使用时间与视力状况有关？

（2）从视力异常的学生中，用分层抽样方法抽取 8 人，再从 8 人中随机抽取 2 人了解具体用眼习惯，求 2 人都来自"使用 ≥ 3小时"组的概率。

解（1）：

H₀：手机使用时间与视力状况无关

a=50, b=100, c=90, d=60, n=300

ad - bc = 50×60 - 100×90 = 3000 - 9000 = -6000

(ad-bc)² = 36000000

n(ad-bc)² = 300 × 36000000 = 10800000000

(a+b)(c+d)(a+c)(b+d) = 150 × 150 × 140 × 160 = 504000000

χ² = 10800000000 / 504000000 ≈ 21.429

因为 21.429 > 6.635，所以拒绝 H₀。

结论：有 99% 的把握认为手机使用时间与视力状况有关。

解（2）：

视力异常共 160 人，其中"使用 ≥ 3小时"组 100 人，"使用 < 3小时"组 60 人。

分层抽样抽取 8 人：从 ≥3小时组抽 8×(100/160) = 5 人，从 <3小时组抽 3 人。

从 8 人中随机取 2 人，2 人都来自 ≥3小时组的概率：

P = C(5,2)/C(8,2) = 10/28 = 5/14

例 8：回归与独立性检验综合

某工厂测试 5 种不同的催化剂用量 x（kg）与产品产量 y（吨）的关系，数据如下：

xᵢ	2	3	4	5	6
yᵢ	2.2	3.8	5.5	6.5	7.0

（1）求 y 关于 x 的线性回归方程。

（2）计算相关系数 r 并判断拟合效果。

解（1）：n = 5

x̄ = (2+3+4+5+6)/5 = 4，ȳ = (2.2+3.8+5.5+6.5+7.0)/5 = 25/5 = 5

Σxᵢyᵢ = 2×2.2 + 3×3.8 + 4×5.5 + 5×6.5 + 6×7.0

= 4.4 + 11.4 + 22.0 + 32.5 + 42.0 = 112.3

Σxᵢ² = 4+9+16+25+36 = 90

nx̄ȳ = 5×4×5 = 100，nx̄² = 5×16 = 80

b̂ = (112.3 - 100)/(90 - 80) = 12.3/10 = 1.23

â = 5 - 1.23×4 = 5 - 4.92 = 0.08

回归方程：ŷ = 1.23x + 0.08

解（2）：

Σyᵢ² = 4.84+14.44+30.25+42.25+49.00 = 140.78

nȳ² = 5×25 = 125

r = (112.3-100)/√[(90-80)(140.78-125)] = 12.3/√[10×15.78]

= 12.3/√157.8 ≈ 12.3/12.562 ≈ 0.979

因为 |r| = 0.979 > 0.75，说明线性相关性很强，回归方程拟合效果良好。

本章核心知识总结

相关系数 r：衡量两个变量的线性相关程度，|r| > 0.75 为强相关
回归方程 ŷ = b̂x + â：用最小二乘法求得，必过样本中心点 (x̄, ȳ)
回归系数：b̂ = [Σxᵢyᵢ - nx̄ȳ]/[Σxᵢ² - nx̄²]，â = ȳ - b̂x̄
残差分析：eᵢ = yᵢ - ŷᵢ，残差图检验模型适合度
决定系数 R²：越接近 1 拟合越好
列联表：整理两个分类变量的频次数据
χ² 检验：χ² = n(ad-bc)²/[(a+b)(c+d)(a+c)(b+d)]
判断标准：χ² ≥ 3.841（α=0.05），χ² ≥ 6.635（α=0.01）
解题步骤：提出假设 → 列表 → 计算 χ² → 查表 → 下结论

18.1 成对数据的相关关系

函数关系与相关关系

正相关与负相关

Pearson 相关系数

相关系数的解读

18.2 一元线性回归模型

回归系数的估计

残差分析

决定系数 R²

18.3 列联表与独立性检验

2 × 2 列联表

独立性检验的基本思想

χ² 临界值表

判断标准

本章核心知识总结