案例数据
300 行 × 8 列 0/1 多选编码,模拟"消费者购物渠道偏好(4 项)× 常购商品品类(4 项)"双多选场景,用于演示两组多选题的共现交叉分析与 Φ 相关检验。
| 文件名 | multiple_to_multiple.xlsx |
|---|---|
| 样本量 | 300 行 |
| 变量数 | 8 列(组 X:4 个渠道 + 组 Y:4 个品类,均为 0/1) |
| 数据用途 | 电商消费者研究:购物渠道偏好与商品品类购买之间的共现关联画像 |
| 变量说明 | 组 X:渠道_淘宝 / 渠道_京东 / 渠道_抖音直播 / 渠道_拼多多;组 Y:品类_服装鞋包 / 品类_家电数码 / 品类_美妆护肤 / 品类_食品零食。1=该渠道/品类被选中,0=未选中,每位受访者可同时多选。 |
完整案例
1. 背景
某电商运营团队想搞清楚一个核心问题:"不同购物渠道的用户,他们最常买的品类是否真的不一样?" 例如直觉上"淘宝服装、京东数码、抖音美妆、拼多多零食"的人群标签是否真在数据上成立?此类问题涉及两组多选题(受访者可同时选多个渠道、同时买多个品类),不能用普通卡方表分析,必须做多 × 多 共现交叉。本案例回答三个层级的问题:①每个渠道-品类组合的共现人数有多少?②哪些组合的 Φ 相关系数显著(不是巧合)?③能否据此为各渠道画出鲜明的"品类标签"指导精准投放?
2. 理论与公式
多 × 多分析对两组 0/1 多选题做笛卡尔积式两两共现统计,每个 (Xj, Yk) 单元都是一个独立的 2×2 列联表,并据此计算 Φ 系数判断关联强度。
同时选中 X 组第 j 项与 Y 组第 k 项的样本占总样本的比例。
选中 X 组 j 的人当中,也选中 Y 组 k 的比例,反映"渠道用户的品类偏好"。
取自 2×2 列联表,范围 [-1, 1]:>0 同向共现,<0 反向排斥;|Φ|>0.3 强关联,0.1-0.3 弱关联。
3. 数据结构
每行 1 位消费者,前 4 列为渠道组(X)的 0/1 多选编码,后 4 列为品类组(Y)的 0/1 多选编码。两组均为多重响应变量(multiple-response set):
| 变量名 | 所属组 | 说明 |
|---|---|---|
| 渠道_淘宝 | 组 X(渠道,4 项) | 是否在淘宝/天猫购物(1=是, 0=否) |
| 渠道_京东 | 组 X | 是否在京东购物 |
| 渠道_抖音直播 | 组 X | 是否在抖音/快手直播间购物 |
| 渠道_拼多多 | 组 X | 是否在拼多多购物 |
| 品类_服装鞋包 | 组 Y(品类,4 项) | 近 3 个月是否购买服装/鞋/箱包 |
| 品类_家电数码 | 组 Y | 是否购买家电/3C 数码 |
| 品类_美妆护肤 | 组 Y | 是否购买美妆/护肤品 |
| 品类_食品零食 | 组 Y | 是否购买食品/零食/生鲜 |
多 × 多分析的矩阵规模 = m × n(本案例 4×4=16 个共现单元);列百分比之和不会等于 100%,因为每人可同时选多个选项。两组变量必须均为 0/1 编码,不可使用"用逗号分隔的文本答案"列。
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 上传
multiple_to_multiple.xlsx - 左侧方法栏 → 问卷研究 → 点击 多多分析
- 把 4 个 渠道_* 列拖入组 1(X),把 4 个 品类_* 列拖入组 2(Y)
- (可选)若编码不是 1/0 而是 "是/否",在计数值处填写代表"选中"的取值(默认 1)
- 点击 开始分析
5. 结果表格与结果阅读
结果区按"边缘分布 → 共现矩阵 → 关联强度"三层输出:
| 选项 | 所属组 | 选中人数 | 响应率(组内 %) | 普及率(占样本 %) |
|---|---|---|---|---|
| 淘宝 | 渠道(X) | 174 | 31.6% | 58.0% |
| 京东 | 渠道(X) | 128 | 23.3% | 42.7% |
| 抖音直播 | 渠道(X) | 122 | 22.2% | 40.7% |
| 拼多多 | 渠道(X) | 126 | 22.9% | 42.0% |
| 服装鞋包 | 品类(Y) | 146 | 27.7% | 48.7% |
| 家电数码 | 品类(Y) | 101 | 19.2% | 33.7% |
| 美妆护肤 | 品类(Y) | 132 | 25.0% | 44.0% |
| 食品零食 | 品类(Y) | 148 | 28.1% | 49.3% |
| 渠道合计响应 550 次(人均 1.83 个渠道);品类合计响应 527 次(人均 1.76 个品类)。淘宝普及率最高(58.0%)、服装鞋包与食品零食次之,符合大盘电商常识。 | ||||
| 渠道 \ 品类 | 服装鞋包 | 家电数码 | 美妆护肤 | 食品零食 | 行响应合计 |
|---|---|---|---|---|---|
| 淘宝(n=174) | 94 (31.3%) Φ=0.126* | 56 (18.7%) Φ=-0.037 | 77 (25.7%) Φ=0.006 | 87 (29.0%) Φ=0.016 | 314 |
| 京东(n=128) | 57 (19.0%) Φ=-0.071 | 57 (19.0%) Φ=0.198** | 48 (16.0%) Φ=-0.113 | 55 (18.3%) Φ=-0.110 | 217 |
| 抖音直播(n=122) | 57 (19.0%) Φ=-0.032 | 37 (12.3%) Φ=-0.058 | 62 (20.7%) Φ=0.114* | 56 (18.7%) Φ=-0.057 | 212 |
| 拼多多(n=126) | 65 (21.7%) Φ=0.050 | 35 (11.7%) Φ=-0.106 | 56 (18.7%) Φ=0.008 | 71 (23.7%) Φ=0.119* | 227 |
| 列响应合计 | 273 | 185 | 243 | 269 | 970 |
| 单元格上行为共现频数(个案 %),个案 % = 同时选中两项的人 / N=300;下行为该 2×2 列联表的 Φ 系数。* p<0.05 ** p<0.01。粗体为每行最强正向关联对。 | |||||
关键阅读路径:先看主对角线(粗体单元)—— 4 个渠道的最高共现品类恰好与业务直觉吻合且 Φ 均显著(淘宝-服装 31.3% / 京东-数码 19.0% / 抖音-美妆 20.7% / 拼多多-零食 23.7%);再看非对角线—— 京东 × 美妆/食品的 Φ 均为负值(-0.11 左右),说明京东用户主动回避非数码品类。
7. 文字分析
对 300 位消费者"购物渠道 × 商品品类"的 4×4=16 个共现单元综合分析:
- 边缘画像:淘宝渗透率最高(58.0%),其余三个渠道在 40-43% 之间相近;品类侧服装鞋包(48.7%)和食品零食(49.3%)平分秋色,家电数码渗透率最低(33.7%),属于"低频高客单"品类;
- 四大主轴关联(均通过显著性检验):京东 × 家电数码(Φ=0.198, p=0.001)关联最强,是 16 对组合中唯一达到 p<0.01 的;其次是 淘宝 × 服装鞋包(Φ=0.126, p=0.029)、拼多多 × 食品零食(Φ=0.119, p=0.039)、抖音直播 × 美妆护肤(Φ=0.114, p=0.049);
- 反向排斥信号:京东用户对非数码品类(美妆 Φ=-0.113、食品 Φ=-0.110)均呈弱负相关,说明京东用户画像专一;拼多多 × 家电数码 Φ=-0.106,反映拼多多在大件耐用消费品上信任度仍不足;
- 条件偏好(行 % 视角):选拼多多的人 56.3% 也买食品零食、淘宝的人 54.0% 买服装鞋包、抖音的人 50.8% 买美妆—— 这些条件比例都明显高于该品类的整体普及率,证实"渠道用户标签"确实成立。
结论:四个购物渠道呈现清晰的"品类专属"画像—— 淘宝-服装-广覆盖、京东-数码-单品类专注、抖音-美妆-直播带货、拼多多-零食-性价比。营销启示:①投放服装新品优先淘宝,3C 新品主投京东;②美妆品牌应加大抖音直播预算,零食快消优先拼多多;③京东上做美妆/食品的转化率会偏低,不建议把它当作综合电商对待。
8. 剖析提醒
多 × 多分析的所有百分比应以"频数 / 总样本 N"为基准(个案 %),不要写成"两项交集 / 任一项被选人数"等容易产生歧义的口径;Φ 系数仅适用 2×2 列联表,多分类变量须改用 Cramer's V;样本量须 ≥ 行×列×5(本案例 300 远大于 4×4×5=80)才可靠;编码不规范时(如同一列混用 1/2/是/否)需先在数据预处理里统一为 0/1 再分析。
算法说明:本案例的 χ² 与 Φ 均采用不带 Yates 连续性校正的标准 Pearson χ² 公式(与 SPSS / SPSSAU 默认一致)。若使用 scipy.stats.chi2_contingency 默认参数(带 Yates 校正)复现,4 对主轴中"抖音×美妆"、"拼多多×食品"会落在 p≈0.05-0.07 边缘 —— 这是连续性校正的差异,不是数据错误。