进阶方法

SPSS典型相关分析

案例数据

300 名大学生 × 8 个连续变量，分为两组：X 集（学业投入：上课出勤率 / 作业完成度 / 课外阅读时长 / 小组讨论参与度）与 Y 集（学业成果：GPA / 竞赛获奖数 / 科研发表数 / 英语六级分数）。用于演示典型相关分析（CCA）如何在两组变量之间寻找最大相关的线性组合并解读其业务含义。

下载案例数据查看数据文件

文件名	caa.xlsx
样本量	300 行（学生）
变量数	9 列（1 个 ID + 4 个 X + 4 个 Y）
数据用途	教育研究：用一组学业投入指标整体预测/解释一组学业成果指标，识别两组之间最主要的综合关联结构。
变量说明	X 集：上课出勤率（%）、作业完成度（%）、课外阅读时长（小时/周）、小组讨论参与度（Likert 1-5）；Y 集：GPA（0-4.0）、竞赛获奖数（次）、科研发表数（篇）、英语六级分数（425-710）。

完整案例

1. 背景

研究者在做学业相关研究时，常常面对"一组投入变量整体如何影响一组成果变量"的命题：单独跑 4×4=16 次 Pearson 相关或 4 次多元回归（每个 Y 各一）都无法回答"X 集与 Y 集的整体共变结构是什么"这一问题。典型相关分析（Canonical Correlation Analysis, CCA）专门处理这类"多对多"关系——它在 X 集和 Y 集中分别寻找一对线性组合 U=a'X 与 V=b'Y，使两者相关系数最大；然后在与第一对正交的子空间内再找第二对，直至 min(p, q) 对为止。除了教育研究里"投入 ↔ 成果"，CCA 也常见于经济学（宏观经济指标 ↔ 社会发展指标）、心理学（人格量表 ↔ 行为表现）、医学（生化指标 ↔ 临床症状）等情境，是降维与典型关联识别的统一工具。

2. 理论与公式

CCA 在两组变量中各取线性组合，使其相关性逐对最大化，并按重要性自动正交分解。

典型变量

第 k 对 canonical variates 由两侧线性组合给出。

典型相关

在与前 k−1 对正交的子空间内最大化。

Wilks Λ & Bartlett χ²

整体检验第 k 对及以后是否仍显著。

3. 数据结构

每行 1 位学生，8 个连续变量按理论角色分为两组（不含 ID 列）：

组别	变量名	类型	说明
X 集学业投入	上课出勤率	连续 0-100 %	出勤课节占比
	作业完成度	连续 0-100 %	学期内按时提交并完成作业比例
	课外阅读时长	连续 0-30 小时/周	教材外阅读时长
	小组讨论参与度	Likert 1-5	主动发言/协作频次（自评）
Y 集学业成果	GPA	连续 0-4.0	本学年加权平均绩点
	竞赛获奖数	计数 0-10	近 2 年学科/创新竞赛获奖数
	科研发表数	计数 0-6	论文/专利等学术产出数
	英语六级分数	连续 425-710	CET-6 总分

建议样本量 n ≥ 10 × (p + q)，本案例 n=300、p+q=8，远高于经验下限。建模前系统会先对各列做标准化（z-score），消除量纲差异。

4. 操作步骤

登录 SPSSzero，进入 工作台 → 上传 caa.xlsx
左侧方法栏 → 进阶方法 → 点击 SPSS典型相关分析
把 上课出勤率 / 作业完成度 / 课外阅读时长 / 小组讨论参与度 拖入 第一组变量（X 集）
把 GPA / 竞赛获奖数 / 科研发表数 / 英语六级分数 拖入 第二组变量（Y 集）
勾选 标准化（默认开启，CCA 对量纲敏感，必须做）
点击 开始分析，系统输出 min(p, q)=4 对典型相关系数、Wilks Λ + Bartlett χ² 显著性检验、X/Y 载荷矩阵以及冗余度（redundancy）
解读时按 4 步走：①看哪几对 CC 显著（p<0.05）→ ②看显著 CC 的 X/Y 载荷绝对值大的变量给业务命名 → ③参考冗余度判断方向性解释力 → ④撰写结论

5. 结果表格与结果阅读

结果区按 3 张紧凑三线表给出完整 CCA 输出。

表1 典型相关系数与整体显著性检验（N=300，p=q=4）

k	典型相关 ρₖ	ρₖ²	Wilks Λₖ	χ²	df	p	判断
CC1	0.631	0.398	0.570	165.68	16	<0.001	显著
CC2	0.177	0.031	0.946	16.31	9	0.061	边缘
CC3	0.145	0.021	0.977	6.97	4	0.138	不显著
CC4	0.050	0.003	0.998	0.75	1	0.388	不显著
Wilks Λₖ 检验"第 k 及之后所有典型对是否仍含显著结构"；CC1 高度显著 (ρ=0.631) 是 X-Y 两组之间最重要的综合关联维度。

关键观察：仅 CC1 显著（ρ=0.631, χ²(16)=165.68, p<0.001），可被解释为"学业投入"与"学业成果"之间的主轴；CC2 边缘（p=0.061）、CC3/CC4 不显著，按惯例仅解读 CC1，CC2 作辅助说明。

表2 典型载荷矩阵（仅显示前两对，|loading| > 0.40 加粗）

原变量	U₁ (CC1)	U₂ (CC2)	原变量	V₁ (CC1)	V₂ (CC2)
上课出勤率	0.931	−0.107	GPA	0.979	−0.052
作业完成度	0.884	0.395	竞赛获奖数	0.634	0.033
课外阅读时长	0.804	0.258	科研发表数	0.495	0.869
小组讨论参与度	0.873	−0.281	英语六级分数	0.630	−0.078
载荷 = 原变量与 canonical variate 的 Pearson 相关；绝对值 > 0.40 一般认为对该 variate 有实质贡献。

命名：①U₁/V₁ → "综合学业投入 ↔ 综合学业成果"：X 侧 4 个变量载荷都在 0.80 以上、Y 侧 GPA 极高（0.979）+ 其他三项中高，是一对"宽谱"主轴；②U₂/V₂ → "科研偏向"：V₂ 上仅"科研发表数"载荷异常高（0.869），其余近 0，可解释为"独立的科研产出维度"，但因整体检验未通过 (p=0.061) 仅作描述性参考。

表3 方差解释与冗余度（Redundancy Index）

维度	ρ²	U 提取 X 方差	V 提取 Y 方差	X\|V 冗余	Y\|U 冗余
CC1	0.398	76.4%	50.1%	30.4%	19.9%
CC2	0.031	7.8%	19.1%	0.2%	0.6%
CC3	0.021	7.8%	16.5%	0.2%	0.3%
CC4	0.003	8.0%	14.3%	0.0%	0.0%
累计	—	100.0%	100.0%	30.8%	20.9%
冗余度 = ρ² × 提取方差，表示"通过对方 set 的 canonical variate 解释了本 set 多少原始方差"。CCA 两侧冗余度通常不相等。

方向性解读：用 V₁（成果 variate）可解释 X 集 30.4% 的方差；反之用 U₁（投入 variate）解释 Y 集 19.9% 的方差。前者更高，说明"学业成果对学业投入的整体反映"比反向更紧密，原因是 X 集 4 个指标都强烈同向（共变高、内部结构紧凑），而 Y 集除 GPA 外其他三项之间差异较大。

7. 文字分析

对 300 名大学生 X 集（学业投入）与 Y 集（学业成果）的典型相关综合分析：

仅 CC1 通过显著性检验：ρ₁=0.631、χ²(16)=165.68、p<0.001，是两组变量之间唯一稳定的综合关联维度；CC2 ρ₂=0.177 边缘（p=0.061），CC3/CC4 均不显著，按 CCA 解读惯例只对 CC1 给出结论。
CC1 业务命名 = "综合学业投入 ↔ 综合学业成果"：X 侧 4 个变量载荷均 ≥ 0.80（上课出勤 0.931、作业完成 0.884、小组讨论 0.873、课外阅读 0.804），Y 侧 GPA 几乎完美载入（0.979），竞赛/科研/英语载荷 0.49-0.63 —— CC1 反映的是一个泛化的"勤勉度因子"对应一个泛化的"学习产出因子"，二者每变化 1 个标准差，对方变化约 0.63 个标准差。
CC2 仅作描述性参考：V₂ 上"科研发表数"载荷高达 0.869、其他三项接近 0，X 侧无任何变量载荷超过 0.40 —— 暗示"科研产出"可能独立于普通学业投入指标，更多由科研经验、导师资源等本研究未捕捉的因素驱动；但 p=0.061 未达常规阈值，不能下确定性结论。
冗余度的方向性：通过成果 variate 可解释 X 集 30.8% 的累计方差，反向仅解释 Y 集 20.9%（差距来自 CC1：30.4% vs 19.9%）—— 表明 X 集内部结构更紧凑（4 个投入指标高度同向），Y 集存在不被投入解释的成分（科研/英语有其独立性）。
业务建议：①勤勉度是单一维度而非多维度，因此提升大学生学业成果的关键并不是在"出勤/作业/阅读/讨论"之间挑一个，而是整体抬升投入水平；②对希望提高科研产出的院系，仅靠常规学业管理（提高出勤/作业）效果有限，需要单独设计科研激励通道；③将 CC1 得分作为综合"学业-成果"画像指标，可用于学业预警与因材施教。

8. 剖析提醒

CCA 对样本量较敏感，n ≥ 10×(p+q) 是经验下限，否则估计稳健性差。载荷的正负号由算法旋转方向决定，没有绝对意义，关键看同一个 variate 上各变量符号是否一致；如果 X 侧 CC1 上多数为正、Y 侧也多数为正，则方向一致可以直接命名"高 X → 高 Y"，反之需谨慎反向表述。CCA 不等价于对每个 Y 各跑一次 OLS：CCA 寻找的是"X 集整体 ↔ Y 集整体"的最大相关结构，而多次 OLS 关心的是单个 Y 被 X 集解释的程度，两者结论可能不一致，应根据研究问题选择。最后请记住，所有 CC 与原变量的关系都是线性的，遇到非线性关联应考虑非线性 CCA 或核 CCA。