进阶方法

偏相关分析

案例数据

300 名中学生 × 5 列连续变量。围绕"学习时长是否真的影响数学成绩"这个问题,构造了家庭月收入、课外辅导支出两个典型混杂变量,用于演示在控制第三变量后,原始相关系数会如何被"挤干水分"乃至消失。

文件名par_correlation.xlsx
样本量300 行
变量数5 列(3 核心变量 + 2 混杂变量)
数据用途教育研究:在控制家庭社会经济地位(家庭月收入、课外辅导支出)后,"自主学习时长"和"睡眠时长"是否还能独立解释数学成绩。
变量说明学习时长(小时/天,连续)、睡眠时长(小时/天,连续)、数学成绩(0-150,连续)、家庭月收入(千元,连续)、课外辅导支出(元/月,连续)。

完整案例

1. 背景

一所重点中学想知道"每天多学一小时,成绩就一定会提高吗?"。最常见的做法是直接算 Pearson 相关:学习时长越长,数学成绩越高,r=0.71,p<0.001,看似"非常显著"。但教育研究中,"家庭社会经济地位"是出了名的混杂变量 —— 高收入家庭的孩子既更愿意/有能力延长学习时间,也能购买更多课外辅导,更可能拿到高分。也就是说,学习时长↔数学成绩的高相关,可能不是因果,而是被家庭收入和课外辅导"共同推高"的伪相关偏相关分析(Partial Correlation)通过先回归剔除控制变量的影响,再对残差求相关,等价于"在收入和课外辅导都相同的孩子中再看一次",把混杂的部分清洗掉。本案例用 300 名学生展示:当我们把家庭月收入和课外辅导支出作为控制变量后,原本"高度显著"的学习时长↔数学成绩相关会发生怎样的反转。

2. 理论与公式

偏相关本质是"去除控制变量影响后的两残差之相关"。当控制变量只有一个时,可直接代入公式;当控制变量为多个时,通常通过 OLS 残差法计算。

一阶偏相关(控制 1 个变量)

控制 Z 后 X 与 Y 的相关。

多控制变量(残差法)

先把 X、Y 各自对控制变量集 Z 做 OLS 回归,再对两个残差求 Pearson 相关。

显著性检验

n=样本量,k=控制变量个数;t 统计量服从 df=n−2−k 的 t 分布。

3. 数据结构

每行 1 名学生,5 列均为连续变量,按角色分为"核心变量"与"控制变量":

角色变量名类型说明
核心变量学习时长连续 0.5-8 h/天学生自主报告的每日有效学习时间
睡眠时长连续 5-11 h/天每日实际睡眠时间
数学成绩连续 30-150期末数学卷面分(满分 150)
控制变量家庭月收入连续 3-30 千元家庭税后月收入
课外辅导支出连续 100-3000 元/月每月校外补课/网课的总投入

所有变量均为连续数值。偏相关要求变量近似正态分布、关系近似线性;如果存在严重偏态或非线性,应改用 Spearman 偏相关(基于秩转换后求残差相关)。

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 上传 par_correlation.xlsx
  2. 左侧方法栏 → 进阶方法 → 点击 偏相关分析
  3. 学习时长睡眠时长数学成绩 拖入 分析变量 框(系统会两两计算)
  4. 家庭月收入课外辅导支出 拖入 控制变量
  5. 方法选择 Pearson(默认);若数据偏态严重可切换 Spearman
  6. 点击 开始分析,系统会同时输出"原始 Pearson 矩阵"与"偏相关矩阵",方便对比
  7. 关注每个变量对的 r 值变化p 值95% CI,判断混杂效应大小

5. 结果表格与结果阅读

结果区先给出未控制的 Pearson 相关矩阵作为参考基线,再给出控制 家庭月收入 + 课外辅导支出 后的偏相关矩阵,最后用一张对比表突出两者的差异。

表1 原始 Pearson 相关矩阵(N=300,下三角为 r,上三角为 p 值)
变量学习时长睡眠时长数学成绩家庭月收入课外辅导支出
学习时长<0.001<0.001<0.001<0.001
睡眠时长−0.367***0.001<0.001<0.001
数学成绩0.709***−0.189**<0.001<0.001
家庭月收入0.792***−0.259***0.831***<0.001
课外辅导支出0.743***−0.277***0.755***0.799***
* p<0.05 ** p<0.01 *** p<0.001;下三角为 Pearson r,上三角为对应双尾 p

仅看原始相关:学习时长↔数学成绩 r=0.709 高度显著,似乎"多学就能多得分";但同时家庭月收入(0.792)、课外辅导支出(0.743) 与学习时长也都强相关 —— 这意味着学习时长本身可能就是"被家庭条件推高"的,混杂嫌疑非常大

表2 偏相关结果(控制变量:家庭月收入 + 课外辅导支出,N=300,df=296)
变量对偏相关 r95% CIp判断
学习时长 — 数学成绩0.075[−0.04, 0.19]0.196不显著
学习时长 — 睡眠时长−0.252[−0.36, −0.14]<0.001显著负相关
睡眠时长 — 数学成绩0.084[−0.03, 0.20]0.147不显著
偏相关通过 OLS 残差法计算:将每个核心变量分别对家庭月收入、课外辅导支出做 OLS 回归,对两残差再求 Pearson 相关

核心发现:学习时长↔数学成绩 在控制后 r 从 0.709 塌缩到 0.075(p=0.196,CI 跨过 0),即"多学就能多分"的关系在剔除家庭社会经济地位后并不成立;只有学习时长↔睡眠时长保持显著负相关,说明"学习时间挤占睡眠"是真实存在的,不依赖家庭条件。

表3 原始相关 vs 偏相关对比(控制 家庭月收入 + 课外辅导支出)
变量对原始 r偏 rΔr显著性变化
学习时长 — 数学成绩0.7090.075−0.634显著 → 不显著
学习时长 — 睡眠时长−0.367−0.252+0.115显著 → 显著(减弱)
睡眠时长 — 数学成绩−0.1890.084+0.273显著(负) → 不显著(方向反转)
Δr = 偏 r − 原始 r;|Δr| 越大说明该相关被控制变量"解释/吸收"得越多

三对相关的命运完全不同:①学习时长—数学成绩"几乎全部被混杂解释";②学习时长—睡眠时长"主要是真实关系,少部分被混杂稀释";③睡眠时长—数学成绩"原始的负相关其实是被家庭条件伪造出来的"。

7. 文字分析

对中学生学习时长 / 睡眠时长 / 数学成绩三者关系的偏相关综合分析:

  • 原始 Pearson 给出的"危险结论":学习时长与数学成绩 r=0.709(p<0.001),睡眠时长与数学成绩 r=−0.189(p=0.001)。若停在这一层,结论会是"多学少睡能拿高分",但这正是教育研究中典型的伪相关 —— 因为家庭月收入和课外辅导支出与这三个核心变量都强相关(r≥0.74);
  • 控制后真实关系暴露:偏相关把家庭月收入、课外辅导支出剔除后,学习时长↔数学成绩 r=0.075(95% CI [−0.04, 0.19],p=0.196)不再显著,即"在家庭经济条件相同的学生中,多学一小时和分数几乎没有关系"。睡眠时长↔数学成绩 r=0.084(p=0.147)也不显著,且方向由负转正,证明原始的负相关其实是被家庭条件"伪造"的;
  • 残存的真实关系:学习时长↔睡眠时长 偏相关 r=−0.252(95% CI [−0.36, −0.14],p<0.001)仍显著,但绝对值从 0.367 下降到 0.252,说明"学习时间挤占睡眠"是真实的、不依赖家庭条件的现象,但其中约 1/3 的强度其实是由家庭条件共同作用驱动的;
  • 显著性变化的解读:从 p<0.001 到 p≈0.2 不是"统计力不够",而是该相关本身就是混杂引起的;偏相关 95% CI 横跨 0,是判断"原始显著性是否被解释掉"的关键证据;
  • 业务结论:①不要单凭"学习时长—成绩"的简单相关给学生施压;②家长真正能改变的是"家庭支持环境(含辅导资源)",而不是单纯延长孩子学习时间;③学校如要研究"自主学习时长"的纯效应,必须把家庭社经地位作为协变量纳入分析(偏相关或回归均可);④对"睡眠和成绩负相关"这类反直觉发现,应当先排查混杂再下结论。

8. 剖析提醒

偏相关解决的是混杂问题,但不能解决因果问题 —— 即便控制后仍显著,也只能说"在控制变量取相同值的子样本中两变量仍相关",而非"X 因果地影响 Y"。控制变量的选择必须基于理论:盲目堆控制变量可能引入"碰撞器偏差"(控制了 X 和 Y 共同的下游变量),反而扭曲真实关系。变量需近似线性且无极端离群点;偏态严重时改用 Spearman 偏相关或先做变量变换。