问卷研究

对应分析

案例数据

300 行 × 2 列定类数据,1 个行变量(职业,5 类)、1 个列变量(主要媒体,5 类),演示 SVD 对应分析 + χ² 独立性检验,结论为职业与媒体偏好存在显著关联

文件名correspondence.xlsx
样本量300 行
变量数2 列(行变量 × 列变量,均为定类)
数据用途市场研究:不同职业人群的主要媒体接触渠道差异,用于受众画像与媒介投放策略
变量说明职业(行变量,5 类:学生 / 企业职员 / 公务员 / 自由职业 / 退休)、主要媒体(列变量,5 类:微博 / 微信公众号 / 抖音 / B 站 / 知乎)。

完整案例

1. 背景

某媒体调研机构希望验证:"不同职业的人群(X)在主要媒体使用偏好(Y)上是否存在系统性差异?"——若两者独立,则可以"一刀切"投放;若存在显著关联,则需要按职业差异化投放。本案例使用 300 份问卷数据验证三个关键问题:①职业 × 媒体的列联表是否拒绝独立性假设(χ² 检验)?②前 2 维能否解释足够多的关联结构(≥ 80%)?③在二维对应图中,哪些"职业–媒体"对距离最近,可作为受众–渠道匹配建议?

2. 理论与公式

对应分析(CA)通过对标准化残差矩阵做 SVD,把行列类别投影到低维空间,距离越近代表两个类别共现频次相对其期望越高。

期望频数

独立假设下的频数,与实际频数差异越大关联越强。

总惯量

偏离独立的总体程度,由各维度特征值(惯量)之和构成。

维度解释率

k 维度对关联结构的解释比例,前 2 维 ≥ 80% 时二维图可信。

3. 数据结构

每行 1 位受访者,2 列均为定类变量。对应分析既可输入原始两列定类数据(系统自动 crosstab),也可输入已汇总的列联表(行=类别1、列=类别2、单元格=频数):

变量名角色说明
职业行变量5 个类别:学生 / 企业职员 / 公务员 / 自由职业 / 退休
主要媒体列变量5 个类别:微博 / 微信公众号 / 抖音 / B 站 / 知乎

对应分析对低频类别敏感:建议每个类别 ≥ 5 例,整体期望频数 ≥ 5 的格子占比 ≥ 80%;类别过多(>10)会让对应图重叠难读,必要时先做类别合并。

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 上传 correspondence.xlsx
  2. 左侧方法栏 → 问卷研究 → 点击 对应分析
  3. 职业 拖入 行变量(分组变量)主要媒体 拖入 列变量(自变量)
  4. (可选)若已是汇总的列联表,可设置 权重列 指向频数
  5. 点击 开始分析

5. 结果表格与结果阅读

结果区按 SVD 对应分析流程输出 3 张紧凑三线表:①列联表 + 边缘合计;②卡方独立性检验与惯量分解;③前 2 维行列点主坐标(用于绘制对应图)。

表1 职业 × 主要媒体 交叉频次表(N=300)
职业 \ 媒体微博微信公众号抖音B 站知乎行合计
学生21517231177
企业职员14288102888
公务员92432644
自由职业5111841654
退休122111237
列合计5090574063300
加粗 = 各行的最大频次格子,可初步判断职业与媒体的主导对应关系。

学生集中在 B 站(23/77),企业职员集中在知乎(28/88),公务员/退休集中在微信公众号(24/44、22/37),自由职业集中在抖音(18/54)—— 已能看到明显的非均匀模式,需要卡方检验确认是否显著。

表2 卡方独立性检验与惯量分解
指标取值说明
χ² 统计量100.699偏离独立的总体强度
自由度 df16(5-1)×(5-1)
p<0.001***拒绝独立性假设,两变量显著关联
总惯量 Φ²0.3357χ² / N = 100.699 / 300
Dim1 惯量 / 解释率0.2034 / 60.59%主导维度
Dim2 惯量 / 解释率0.0703 / 20.95%次要维度
前 2 维累计解释率81.54%≥ 80% → 二维对应图可信
* p<0.05 ** p<0.01 *** p<0.001;总惯量 = χ²/N,等于所有维度惯量之和

χ²=100.699(df=16, p<0.001)拒绝独立 → 职业与媒体偏好显著关联;前 2 维累计 81.54% > 80% → 用二维图解读对应结构是可信的

表3 行列点主坐标(前 2 维)—— 用于绘制对应分析图
类型类别Dim1(60.59%)Dim2(20.95%)
行点(职业)学生−0.664+0.010
企业职员+0.068+0.206
公务员+0.471+0.331
自由职业−0.011−0.406
退休+0.676−0.312
列点(媒体)微博−0.361+0.282
微信公众号+0.607+0.102
抖音−0.081−0.525
B 站−0.722+0.096
知乎−0.049+0.044
行点与列点距离最近的对应关系(按欧氏距离升序):学生 ↔ B 站(d=0.10)自由职业 ↔ 抖音(d=0.14)企业职员 ↔ 知乎(d=0.20)公务员 ↔ 微信公众号(d=0.27)、退休 ↔ 微信公众号(d=0.42)。

Dim1 区分"年轻–年长"语义(左侧 学生/B 站;右侧 退休/公务员/微信公众号);Dim2 区分"娱乐–专业"语义(下方 抖音/自由职业;上方 微博/微信公众号/公务员)。系统会基于这张表自动绘制对应分析散点图。

7. 文字分析

对职业 × 主要媒体的对应分析综合解读:

  • 整体显著性:χ² = 100.699(df=16, p < 0.001),强烈拒绝独立假设,说明不同职业人群在媒体偏好上确实存在系统性差异;
  • 降维可信度:前 2 维累计解释 81.54%(Dim1 60.59% + Dim2 20.95%),> 80% 阈值 → 二维对应图能充分概括原始 5×5 列联表的关联结构;
  • 四对强关联(按距离升序)
    • 学生 ↔ B 站(d=0.10):年轻群体的视频社区偏好;
    • 自由职业 ↔ 抖音(d=0.14):时间灵活,短视频消费高;
    • 企业职员 ↔ 知乎(d=0.20):白领倾向专业内容与深度问答;
    • 公务员 ↔ 微信公众号(d=0.27):官方资讯渠道偏好;
  • 退休群体:距离微信公众号也较近(d=0.42),同时与抖音存在二次关联(短视频高龄渗透)。

结论:职业是媒介接触渠道的有效细分变量,单一通道难以覆盖所有受众。媒介投放建议——①面向学生客群优先选 B 站;②面向白领(企业职员)选知乎深度内容;③面向公务员/退休群体选微信公众号官方号;④面向自由职业群体选抖音;⑤跨群体通用渠道可考虑微信公众号(最大列合计 90/300=30%)。

8. 剖析提醒

对应分析偏探索性,图上接近不等于因果;低频类别可能导致位置不稳定。当某类别样本 < 5 或前 2 维累计 < 60% 时,应慎重解读二维图,必要时增加第 3 维或合并相近类别。