问卷研究

多多分析

案例数据

300 行 × 8 列 0/1 多选编码，模拟"消费者购物渠道偏好（4 项）× 常购商品品类（4 项）"双多选场景，用于演示两组多选题的共现交叉分析与 Φ 相关检验。

文件名	multiple_to_multiple.xlsx
样本量	300 行
变量数	8 列（组 X：4 个渠道 + 组 Y：4 个品类，均为 0/1）
数据用途	电商消费者研究：购物渠道偏好与商品品类购买之间的共现关联画像
变量说明	组 X：渠道_淘宝 / 渠道_京东 / 渠道_抖音直播 / 渠道_拼多多；组 Y：品类_服装鞋包 / 品类_家电数码 / 品类_美妆护肤 / 品类_食品零食。1=该渠道/品类被选中，0=未选中，每位受访者可同时多选。

完整案例

1. 背景

某电商运营团队想搞清楚一个核心问题："不同购物渠道的用户，他们最常买的品类是否真的不一样？" 例如直觉上"淘宝服装、京东数码、抖音美妆、拼多多零食"的人群标签是否真在数据上成立？此类问题涉及两组多选题（受访者可同时选多个渠道、同时买多个品类），不能用普通卡方表分析，必须做多 × 多共现交叉。本案例回答三个层级的问题：①每个渠道-品类组合的共现人数有多少？②哪些组合的 Φ 相关系数显著（不是巧合）？③能否据此为各渠道画出鲜明的"品类标签"指导精准投放？

2. 理论与公式

多 × 多分析对两组 0/1 多选题做笛卡尔积式两两共现统计，每个 (X_j, Y_k) 单元都是一个独立的 2×2 列联表，并据此计算 Φ 系数判断关联强度。

共现响应率（个案 %）

同时选中 X 组第 j 项与 Y 组第 k 项的样本占总样本的比例。

条件选择率（行 %）

选中 X 组 j 的人当中，也选中 Y 组 k 的比例，反映"渠道用户的品类偏好"。

Φ 相关系数

取自 2×2 列联表，范围 [-1, 1]：>0 同向共现，<0 反向排斥；|Φ|>0.3 强关联，0.1-0.3 弱关联。

3. 数据结构

每行 1 位消费者，前 4 列为渠道组（X）的 0/1 多选编码，后 4 列为品类组（Y）的 0/1 多选编码。两组均为多重响应变量（multiple-response set）：

变量名	所属组	说明
渠道_淘宝	组 X（渠道，4 项）	是否在淘宝/天猫购物（1=是, 0=否）
渠道_京东	组 X	是否在京东购物
渠道_抖音直播	组 X	是否在抖音/快手直播间购物
渠道_拼多多	组 X	是否在拼多多购物
品类_服装鞋包	组 Y（品类，4 项）	近 3 个月是否购买服装/鞋/箱包
品类_家电数码	组 Y	是否购买家电/3C 数码
品类_美妆护肤	组 Y	是否购买美妆/护肤品
品类_食品零食	组 Y	是否购买食品/零食/生鲜

多 × 多分析的矩阵规模 = m × n（本案例 4×4=16 个共现单元）；列百分比之和不会等于 100%，因为每人可同时选多个选项。两组变量必须均为 0/1 编码，不可使用"用逗号分隔的文本答案"列。

4. 操作步骤

登录 SPSSzero，进入 工作台 → 上传 multiple_to_multiple.xlsx
左侧方法栏 → 问卷研究 → 点击 多多分析
把 4 个渠道_* 列拖入组 1（X），把 4 个品类_* 列拖入组 2（Y）
（可选）若编码不是 1/0 而是 "是/否"，在计数值处填写代表"选中"的取值（默认 1）
点击 开始分析

5. 结果表格与结果阅读

结果区按"边缘分布 → 共现矩阵 → 关联强度"三层输出：

表1 两组多选选项边缘分布（N=300）

选项	所属组	选中人数	响应率（组内 %）	普及率（占样本 %）
淘宝	渠道（X）	174	31.6%	58.0%
京东	渠道（X）	128	23.3%	42.7%
抖音直播	渠道（X）	122	22.2%	40.7%
拼多多	渠道（X）	126	22.9%	42.0%
服装鞋包	品类（Y）	146	27.7%	48.7%
家电数码	品类（Y）	101	19.2%	33.7%
美妆护肤	品类（Y）	132	25.0%	44.0%
食品零食	品类（Y）	148	28.1%	49.3%
渠道合计响应 550 次（人均 1.83 个渠道）；品类合计响应 527 次（人均 1.76 个品类）。淘宝普及率最高（58.0%）、服装鞋包与食品零食次之，符合大盘电商常识。

表2 渠道 × 品类共现交叉表（频数 / 个案 %） & Φ 相关系数

渠道 \ 品类	服装鞋包	家电数码	美妆护肤	食品零食	行响应合计
淘宝（n=174）	94 (31.3%) Φ=0.126*	56 (18.7%) Φ=-0.037	77 (25.7%) Φ=0.006	87 (29.0%) Φ=0.016	314
京东（n=128）	57 (19.0%) Φ=-0.071	57 (19.0%) Φ=0.198**	48 (16.0%) Φ=-0.113	55 (18.3%) Φ=-0.110	217
抖音直播（n=122）	57 (19.0%) Φ=-0.032	37 (12.3%) Φ=-0.058	62 (20.7%) Φ=0.114*	56 (18.7%) Φ=-0.057	212
拼多多（n=126）	65 (21.7%) Φ=0.050	35 (11.7%) Φ=-0.106	56 (18.7%) Φ=0.008	71 (23.7%) Φ=0.119*	227
列响应合计	273	185	243	269	970
单元格上行为共现频数（个案 %），个案 % = 同时选中两项的人 / N=300；下行为该 2×2 列联表的 Φ 系数。* p<0.05 ** p<0.01。粗体为每行最强正向关联对。

关键阅读路径：先看主对角线（粗体单元）—— 4 个渠道的最高共现品类恰好与业务直觉吻合且 Φ 均显著（淘宝-服装 31.3% / 京东-数码 19.0% / 抖音-美妆 20.7% / 拼多多-零食 23.7%）；再看非对角线—— 京东 × 美妆/食品的 Φ 均为负值（-0.11 左右），说明京东用户主动回避非数码品类。

7. 文字分析

对 300 位消费者"购物渠道 × 商品品类"的 4×4=16 个共现单元综合分析：

边缘画像：淘宝渗透率最高（58.0%），其余三个渠道在 40-43% 之间相近；品类侧服装鞋包（48.7%）和食品零食（49.3%）平分秋色，家电数码渗透率最低（33.7%），属于"低频高客单"品类；
四大主轴关联（均通过显著性检验）：京东 × 家电数码（Φ=0.198, p=0.001）关联最强，是 16 对组合中唯一达到 p<0.01 的；其次是 淘宝 × 服装鞋包（Φ=0.126, p=0.029）、拼多多 × 食品零食（Φ=0.119, p=0.039）、抖音直播 × 美妆护肤（Φ=0.114, p=0.049）；
反向排斥信号：京东用户对非数码品类（美妆 Φ=-0.113、食品 Φ=-0.110）均呈弱负相关，说明京东用户画像专一；拼多多 × 家电数码 Φ=-0.106，反映拼多多在大件耐用消费品上信任度仍不足；
条件偏好（行 % 视角）：选拼多多的人 56.3% 也买食品零食、淘宝的人 54.0% 买服装鞋包、抖音的人 50.8% 买美妆—— 这些条件比例都明显高于该品类的整体普及率，证实"渠道用户标签"确实成立。

结论：四个购物渠道呈现清晰的"品类专属"画像—— 淘宝-服装-广覆盖、京东-数码-单品类专注、抖音-美妆-直播带货、拼多多-零食-性价比。营销启示：①投放服装新品优先淘宝，3C 新品主投京东；②美妆品牌应加大抖音直播预算，零食快消优先拼多多；③京东上做美妆/食品的转化率会偏低，不建议把它当作综合电商对待。

8. 剖析提醒

多 × 多分析的所有百分比应以"频数 / 总样本 N"为基准（个案 %），不要写成"两项交集 / 任一项被选人数"等容易产生歧义的口径；Φ 系数仅适用 2×2 列联表，多分类变量须改用 Cramer's V；样本量须 ≥ 行×列×5（本案例 300 远大于 4×4×5=80）才可靠；编码不规范时（如同一列混用 1/2/是/否）需先在数据预处理里统一为 0/1 再分析。

算法说明：本案例的 χ² 与 Φ 均采用不带 Yates 连续性校正的标准 Pearson χ² 公式（与 SPSS / SPSSAU 默认一致）。若使用 scipy.stats.chi2_contingency 默认参数（带 Yates 校正）复现，4 对主轴中"抖音×美妆"、"拼多多×食品"会落在 p≈0.05-0.07 边缘 —— 这是连续性校正的差异，不是数据错误。