案例数据
300 位消费者购物渠道偏好数据,因变量为主要购物渠道(线下实体店 / 综合电商 / 直播带货)无序三分类,解释变量包括年龄、月收入、教育水平、性别、网购年限。以综合电商为参照类建立 2 个 logit 子模型,演示多分类 Logit(MNL)的完整建模流程。
| 文件名 | mnlogistic.xlsx |
|---|---|
| 样本量 | 300 行 |
| 变量数 | 6 列(5 个 X + 1 个 Y) |
| 数据用途 | 消费者行为研究:哪些人口/收入/网购经验特征会驱动消费者偏好线下、综合电商还是直播带货 |
| 变量说明 | 主要渠道(Y,三分类无序)、年龄、月收入(元)、教育水平(1-4)、性别(0=女, 1=男)、网购年限(年)。参照类 = 综合电商。 |
完整案例
1. 背景
某电商研究团队想理解不同消费者群体在购物渠道上的偏好差异:哪些人更倾向于线下实体店?哪些人更愿意在直播间下单?综合电商作为最普遍的渠道是否在某些群体中受冷落?这是典型的无序三分类选择问题,无法用普通二元 Logistic 或线性回归处理。本案例以「综合电商」为参照类,建立 2 个 logit 子模型,验证:①年长者是否更偏线下实体店?②网购老用户和年轻人是否更偏直播带货?③教育水平、收入、性别是否对渠道选择有显著作用?
2. 理论与公式
每个非参照类别相对参照类别建模。
系数指数化后表示相对风险比。
3. 数据结构
每行 1 位消费者,1 列因变量 + 5 列解释变量。Y 为无序三分类,需指定参照类(本例以「综合电商」为参照,模型将输出 2 个子模型:线下实体店 vs 综合电商、直播带货 vs 综合电商):
| 变量名 | 角色 | 类型 | 说明 |
|---|---|---|---|
| 主要渠道 | 因变量 Y | 无序三分类 | 线下实体店 / 综合电商 / 直播带货(参照类 = 综合电商) |
| 年龄 | 解释变量 X | 连续(岁) | 18-65 岁 |
| 月收入 | 解释变量 X | 连续(元) | 3000-30000 元 |
| 教育水平 | 解释变量 X | 有序 1-4 | 1=高中及以下,2=大专,3=本科,4=硕士及以上 |
| 性别(男=1) | 解释变量 X | 二分类 | 0=女,1=男 |
| 网购年限 | 解释变量 X | 连续(年) | 使用电商购物的年数(0-25 年) |
参照类的选取应优先考虑样本量最大或最普遍的类别,便于解释。本案例「综合电商」占 50.7%,作为参照类合适。
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 上传
mnlogistic.xlsx - 左侧方法栏 → 进阶方法 → 点击 多分类 Logit 回归
- 把 主要渠道 拖入 因变量 Y,其余 5 个变量拖入 自变量 X
- 设置 参照类别 = 综合电商(系统默认选样本量最大的类别)
- (可选)勾选 输出 OR 值 与 分类预测正确率
- 点击 开始分析
5. 结果表格与结果阅读
结果区输出 2 个 logit 子模型的系数 + 模型整体拟合。下面用 2 张紧凑三线表展示:
| 变量 | 子模型1:线下实体店 vs 综合电商 | 子模型2:直播带货 vs 综合电商 | ||||
|---|---|---|---|---|---|---|
| B(SE) | OR | p | B(SE) | OR | p | |
| 常数项 | -0.696(0.971) | 0.499 | 0.474 | -0.122(0.807) | 0.885 | 0.880 |
| 年龄 | +0.030(0.019) | 1.030 | 0.121 | -0.046(0.015) | 0.955 | 0.002** |
| 月收入 | +0.0001(0.0000) | 1.000 | 0.098 | +0.0000(0.0000) | 1.000 | 0.644 |
| 教育水平 | -0.455(0.199) | 0.634 | 0.022* | -0.082(0.161) | 0.922 | 0.612 |
| 性别(男=1) | -0.337(0.344) | 0.714 | 0.327 | -0.436(0.277) | 0.647 | 0.115 |
| 网购年限 | -0.144(0.049) | 0.866 | 0.004** | +0.177(0.039) | 1.194 | 0.000*** |
| * p<0.05 ** p<0.01 *** p<0.001;OR = exp(B) 表示 X 每增 1 单位,归入该类(相对综合电商)的相对优势比 | ||||||
读法举例:网购年限每增加 1 年,归入「直播带货」(相对综合电商)的相对优势比为 1.194(p<0.001),即多 1 年网购经验 → 选直播带货的概率相对综合电商提高约 19%;同时归入「线下实体店」的优势比为 0.866(p=0.004),即多 1 年网购经验 → 选线下的概率相对综合电商下降约 13%。
| 指标 | 取值 | 说明 |
|---|---|---|
| 样本量 N | 300 | 综合电商 152 (50.7%) / 直播带货 100 (33.3%) / 线下实体店 48 (16.0%) |
| -2 Log Likelihood | 536.76 | 模型对数似然 LL = -268.38 |
| LR χ² 检验 | 65.58, df=10, p<0.001 | 整体显著,模型优于仅含截距的零模型 |
| McFadden Pseudo R² | 0.109 | 解释了 10.9% 的对数似然变异(Logit 模型 0.1-0.2 属正常) |
| Cox & Snell R² | 0.196 | 类比 OLS 的 R²,上限 < 1 |
| Nagelkerke R² | 0.227 | 调整后可达 1 的 Cox & Snell 修正版 |
| 分类预测正确率 | 59.0% | 高于基线(最大类 50.7%)8.3 个百分点,提升有限但显著 |
| 报告 MNL 模型时应同时展示 LR 整体检验 + 至少一种伪 R² + 分类正确率;只看伪 R² 容易低估模型贡献 | ||
整体 LR χ²(10) = 65.58, p<0.001 → 5 个解释变量联合显著提升了渠道偏好的预测能力。McFadden R² = 0.109 在 Logit 类模型中属正常水平(不要与 OLS 的 R² 直接对比)。
7. 文字分析
从 2 个子模型的系数 + OR 值,可对消费者购物渠道偏好作如下解读:
- 谁更可能去线下实体店(vs 综合电商):教育水平较低(OR=0.634, p=0.022 —— 教育水平每升 1 级,选线下的相对优势比下降 36.6%)和网购年限较短(OR=0.866, p=0.004 —— 多 1 年网购经验,选线下的概率相对综合电商下降 13.4%)的群体显著偏好实体店。年龄虽方向为正但未达显著(p=0.121),收入、性别均不显著。
- 谁更可能选直播带货(vs 综合电商):年轻人(OR=0.955, p=0.002 —— 每大 1 岁,选直播的相对优势比下降 4.5%)和网购老用户(OR=1.194, p<0.001 —— 多 1 年网购经验,选直播的相对优势比提升 19.4%)显著更偏好直播带货。教育水平、收入、性别均不显著。
- 共同信号:网购年限是渠道选择的核心驱动变量,在两个子模型中均达到 p<0.01 显著水平,且方向相反 —— 网购经验越丰富,越远离线下、越靠近直播;这与「数字原生 → 渠道下沉」的行业观察一致。
- 整体模型:LR χ²(10)=65.58, p<0.001,分类正确率 59.0%(vs 基线 50.7%),McFadden R²=0.109 —— 模型整体显著但解释力中等,提示渠道偏好还受其他未观测因素(如品牌信任、地域、社交属性)影响。
业务结论:①面向低教育、低网购经验群体的品牌应保留并强化线下渠道体验;②直播带货的核心受众是年轻网购老手,应在直播脚本、达人选择上贴合该群体偏好;③综合电商仍是大盘渠道(50.7% 占比),但需警惕年轻网购老用户向直播迁移的趋势。
8. 剖析提醒
多分类 Logit 的系数始终相对于参照类别解释,更换参照类后系数符号和大小会改变,报告时必须说明参照项。注意检验IIA 假设(不相关备选独立性)—— 若两个非参照类之间存在强替代关系(如直播带货与综合电商高度同质),可改用 Nested Logit 或 Mixed Logit。