进阶方法

SPSS典型相关分析

案例数据

300 名大学生 × 8 个连续变量,分为两组:X 集(学业投入:上课出勤率 / 作业完成度 / 课外阅读时长 / 小组讨论参与度)与 Y 集(学业成果:GPA / 竞赛获奖数 / 科研发表数 / 英语六级分数)。用于演示典型相关分析(CCA)如何在两组变量之间寻找最大相关的线性组合并解读其业务含义。

文件名caa.xlsx
样本量300 行(学生)
变量数9 列(1 个 ID + 4 个 X + 4 个 Y)
数据用途教育研究:用一组学业投入指标整体预测/解释一组学业成果指标,识别两组之间最主要的综合关联结构。
变量说明X 集:上课出勤率(%)、作业完成度(%)、课外阅读时长(小时/周)、小组讨论参与度(Likert 1-5);Y 集:GPA(0-4.0)、竞赛获奖数(次)、科研发表数(篇)、英语六级分数(425-710)。

完整案例

1. 背景

研究者在做学业相关研究时,常常面对"一组投入变量整体如何影响一组成果变量"的命题:单独跑 4×4=16 次 Pearson 相关或 4 次多元回归(每个 Y 各一)都无法回答"X 集与 Y 集的整体共变结构是什么"这一问题。典型相关分析(Canonical Correlation Analysis, CCA)专门处理这类"多对多"关系——它在 X 集和 Y 集中分别寻找一对线性组合 U=a'X 与 V=b'Y,使两者相关系数最大;然后在与第一对正交的子空间内再找第二对,直至 min(p, q) 对为止。除了教育研究里"投入 ↔ 成果",CCA 也常见于经济学(宏观经济指标 ↔ 社会发展指标)、心理学(人格量表 ↔ 行为表现)、医学(生化指标 ↔ 临床症状)等情境,是降维与典型关联识别的统一工具。

2. 理论与公式

CCA 在两组变量中各取线性组合,使其相关性逐对最大化,并按重要性自动正交分解。

典型变量

第 k 对 canonical variates 由两侧线性组合给出。

典型相关

在与前 k−1 对正交的子空间内最大化。

Wilks Λ & Bartlett χ²

整体检验第 k 对及以后是否仍显著。

3. 数据结构

每行 1 位学生,8 个连续变量按理论角色分为两组(不含 ID 列):

组别变量名类型说明
X 集 学业投入上课出勤率连续 0-100 %出勤课节占比
作业完成度连续 0-100 %学期内按时提交并完成作业比例
课外阅读时长连续 0-30 小时/周教材外阅读时长
小组讨论参与度Likert 1-5主动发言/协作频次(自评)
Y 集 学业成果GPA连续 0-4.0本学年加权平均绩点
竞赛获奖数计数 0-10近 2 年学科/创新竞赛获奖数
科研发表数计数 0-6论文/专利等学术产出数
英语六级分数连续 425-710CET-6 总分

建议样本量 n ≥ 10 × (p + q),本案例 n=300、p+q=8,远高于经验下限。建模前系统会先对各列做标准化(z-score),消除量纲差异。

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 上传 caa.xlsx
  2. 左侧方法栏 → 进阶方法 → 点击 SPSS典型相关分析
  3. 上课出勤率 / 作业完成度 / 课外阅读时长 / 小组讨论参与度 拖入 第一组变量(X 集)
  4. GPA / 竞赛获奖数 / 科研发表数 / 英语六级分数 拖入 第二组变量(Y 集)
  5. 勾选 标准化(默认开启,CCA 对量纲敏感,必须做)
  6. 点击 开始分析,系统输出 min(p, q)=4 对典型相关系数、Wilks Λ + Bartlett χ² 显著性检验、X/Y 载荷矩阵以及冗余度(redundancy)
  7. 解读时按 4 步走:①看哪几对 CC 显著(p<0.05)→ ②看显著 CC 的 X/Y 载荷绝对值大的变量给业务命名 → ③参考冗余度判断方向性解释力 → ④撰写结论

5. 结果表格与结果阅读

结果区按 3 张紧凑三线表给出完整 CCA 输出。

表1 典型相关系数与整体显著性检验(N=300,p=q=4)
k典型相关 ρₖρₖ²Wilks Λₖχ²dfp判断
CC10.6310.3980.570165.6816<0.001显著
CC20.1770.0310.94616.3190.061边缘
CC30.1450.0210.9776.9740.138不显著
CC40.0500.0030.9980.7510.388不显著
Wilks Λₖ 检验"第 k 及之后所有典型对是否仍含显著结构";CC1 高度显著 (ρ=0.631) 是 X-Y 两组之间最重要的综合关联维度。

关键观察:仅 CC1 显著(ρ=0.631, χ²(16)=165.68, p<0.001),可被解释为"学业投入"与"学业成果"之间的主轴;CC2 边缘(p=0.061)、CC3/CC4 不显著,按惯例仅解读 CC1,CC2 作辅助说明。

表2 典型载荷矩阵(仅显示前两对,|loading| > 0.40 加粗)
原变量U₁ (CC1)U₂ (CC2)原变量V₁ (CC1)V₂ (CC2)
上课出勤率0.931−0.107GPA0.979−0.052
作业完成度0.8840.395竞赛获奖数0.6340.033
课外阅读时长0.8040.258科研发表数0.4950.869
小组讨论参与度0.873−0.281英语六级分数0.630−0.078
载荷 = 原变量与 canonical variate 的 Pearson 相关;绝对值 > 0.40 一般认为对该 variate 有实质贡献。

命名:①U₁/V₁ → "综合学业投入 ↔ 综合学业成果":X 侧 4 个变量载荷都在 0.80 以上、Y 侧 GPA 极高(0.979)+ 其他三项中高,是一对"宽谱"主轴;②U₂/V₂ → "科研偏向":V₂ 上仅"科研发表数"载荷异常高(0.869),其余近 0,可解释为"独立的科研产出维度",但因整体检验未通过 (p=0.061) 仅作描述性参考。

表3 方差解释与冗余度(Redundancy Index)
维度ρ²U 提取 X 方差V 提取 Y 方差X|V 冗余Y|U 冗余
CC10.39876.4%50.1%30.4%19.9%
CC20.0317.8%19.1%0.2%0.6%
CC30.0217.8%16.5%0.2%0.3%
CC40.0038.0%14.3%0.0%0.0%
累计100.0%100.0%30.8%20.9%
冗余度 = ρ² × 提取方差,表示"通过对方 set 的 canonical variate 解释了本 set 多少原始方差"。CCA 两侧冗余度通常不相等。

方向性解读:用 V₁(成果 variate)可解释 X 集 30.4% 的方差;反之用 U₁(投入 variate)解释 Y 集 19.9% 的方差。前者更高,说明"学业成果对学业投入的整体反映"比反向更紧密,原因是 X 集 4 个指标都强烈同向(共变高、内部结构紧凑),而 Y 集除 GPA 外其他三项之间差异较大。

7. 文字分析

对 300 名大学生 X 集(学业投入)与 Y 集(学业成果)的典型相关综合分析:

  • 仅 CC1 通过显著性检验:ρ₁=0.631、χ²(16)=165.68、p<0.001,是两组变量之间唯一稳定的综合关联维度;CC2 ρ₂=0.177 边缘(p=0.061),CC3/CC4 均不显著,按 CCA 解读惯例只对 CC1 给出结论。
  • CC1 业务命名 = "综合学业投入 ↔ 综合学业成果":X 侧 4 个变量载荷均 ≥ 0.80(上课出勤 0.931、作业完成 0.884、小组讨论 0.873、课外阅读 0.804),Y 侧 GPA 几乎完美载入(0.979),竞赛/科研/英语载荷 0.49-0.63 —— CC1 反映的是一个泛化的"勤勉度因子"对应一个泛化的"学习产出因子",二者每变化 1 个标准差,对方变化约 0.63 个标准差。
  • CC2 仅作描述性参考:V₂ 上"科研发表数"载荷高达 0.869、其他三项接近 0,X 侧无任何变量载荷超过 0.40 —— 暗示"科研产出"可能独立于普通学业投入指标,更多由科研经验、导师资源等本研究未捕捉的因素驱动;但 p=0.061 未达常规阈值,不能下确定性结论。
  • 冗余度的方向性:通过成果 variate 可解释 X 集 30.8% 的累计方差,反向仅解释 Y 集 20.9%(差距来自 CC1:30.4% vs 19.9%)—— 表明 X 集内部结构更紧凑(4 个投入指标高度同向),Y 集存在不被投入解释的成分(科研/英语有其独立性)。
  • 业务建议:①勤勉度是单一维度而非多维度,因此提升大学生学业成果的关键并不是在"出勤/作业/阅读/讨论"之间挑一个,而是整体抬升投入水平;②对希望提高科研产出的院系,仅靠常规学业管理(提高出勤/作业)效果有限,需要单独设计科研激励通道;③将 CC1 得分作为综合"学业-成果"画像指标,可用于学业预警与因材施教。

8. 剖析提醒

CCA 对样本量较敏感,n ≥ 10×(p+q) 是经验下限,否则估计稳健性差。载荷的正负号由算法旋转方向决定,没有绝对意义,关键看同一个 variate 上各变量符号是否一致;如果 X 侧 CC1 上多数为正、Y 侧也多数为正,则方向一致可以直接命名"高 X → 高 Y",反之需谨慎反向表述。CCA 不等价于对每个 Y 各跑一次 OLS:CCA 寻找的是"X 集整体 ↔ Y 集整体"的最大相关结构,而多次 OLS 关心的是单个 Y 被 X 集解释的程度,两者结论可能不一致,应根据研究问题选择。最后请记住,所有 CC 与原变量的关系都是线性的,遇到非线性关联应考虑非线性 CCA 或核 CCA。