进阶方法

SPSS多分类Logit分析

案例数据

300 位消费者购物渠道偏好数据,因变量为主要购物渠道(线下实体店 / 综合电商 / 直播带货)无序三分类,解释变量包括年龄、月收入、教育水平、性别、网购年限。以综合电商为参照类建立 2 个 logit 子模型,演示多分类 Logit(MNL)的完整建模流程。

文件名mnlogistic.xlsx
样本量300 行
变量数6 列(5 个 X + 1 个 Y)
数据用途消费者行为研究:哪些人口/收入/网购经验特征会驱动消费者偏好线下、综合电商还是直播带货
变量说明主要渠道(Y,三分类无序)、年龄、月收入(元)、教育水平(1-4)、性别(0=女, 1=男)、网购年限(年)。参照类 = 综合电商。

完整案例

1. 背景

某电商研究团队想理解不同消费者群体在购物渠道上的偏好差异:哪些人更倾向于线下实体店?哪些人更愿意在直播间下单?综合电商作为最普遍的渠道是否在某些群体中受冷落?这是典型的无序三分类选择问题,无法用普通二元 Logistic 或线性回归处理。本案例以「综合电商」为参照类,建立 2 个 logit 子模型,验证:①年长者是否更偏线下实体店?②网购老用户和年轻人是否更偏直播带货?③教育水平、收入、性别是否对渠道选择有显著作用?

2. 理论与公式

类别概率

每个非参照类别相对参照类别建模。

相对风险比

系数指数化后表示相对风险比。

3. 数据结构

每行 1 位消费者,1 列因变量 + 5 列解释变量。Y 为无序三分类,需指定参照类(本例以「综合电商」为参照,模型将输出 2 个子模型:线下实体店 vs 综合电商、直播带货 vs 综合电商):

变量名角色类型说明
主要渠道因变量 Y无序三分类线下实体店 / 综合电商 / 直播带货(参照类 = 综合电商)
年龄解释变量 X连续(岁)18-65 岁
月收入解释变量 X连续(元)3000-30000 元
教育水平解释变量 X有序 1-41=高中及以下,2=大专,3=本科,4=硕士及以上
性别(男=1)解释变量 X二分类0=女,1=男
网购年限解释变量 X连续(年)使用电商购物的年数(0-25 年)

参照类的选取应优先考虑样本量最大或最普遍的类别,便于解释。本案例「综合电商」占 50.7%,作为参照类合适。

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 上传 mnlogistic.xlsx
  2. 左侧方法栏 → 进阶方法 → 点击 多分类 Logit 回归
  3. 主要渠道 拖入 因变量 Y,其余 5 个变量拖入 自变量 X
  4. 设置 参照类别 = 综合电商(系统默认选样本量最大的类别)
  5. (可选)勾选 输出 OR 值分类预测正确率
  6. 点击 开始分析

5. 结果表格与结果阅读

结果区输出 2 个 logit 子模型的系数 + 模型整体拟合。下面用 2 张紧凑三线表展示:

表1 多分类 Logit 系数矩阵(N=300,参照类 = 综合电商)
变量子模型1:线下实体店 vs 综合电商子模型2:直播带货 vs 综合电商
B(SE)ORpB(SE)ORp
常数项-0.696(0.971)0.4990.474-0.122(0.807)0.8850.880
年龄+0.030(0.019)1.0300.121-0.046(0.015)0.9550.002**
月收入+0.0001(0.0000)1.0000.098+0.0000(0.0000)1.0000.644
教育水平-0.455(0.199)0.6340.022*-0.082(0.161)0.9220.612
性别(男=1)-0.337(0.344)0.7140.327-0.436(0.277)0.6470.115
网购年限-0.144(0.049)0.8660.004**+0.177(0.039)1.1940.000***
* p<0.05 ** p<0.01 *** p<0.001;OR = exp(B) 表示 X 每增 1 单位,归入该类(相对综合电商)的相对优势比

读法举例:网购年限每增加 1 年,归入「直播带货」(相对综合电商)的相对优势比为 1.194p<0.001),即多 1 年网购经验 → 选直播带货的概率相对综合电商提高约 19%;同时归入「线下实体店」的优势比为 0.866(p=0.004),即多 1 年网购经验 → 选线下的概率相对综合电商下降约 13%

表2 模型整体拟合优度
指标取值说明
样本量 N300综合电商 152 (50.7%) / 直播带货 100 (33.3%) / 线下实体店 48 (16.0%)
-2 Log Likelihood536.76模型对数似然 LL = -268.38
LR χ² 检验65.58, df=10, p<0.001整体显著,模型优于仅含截距的零模型
McFadden Pseudo R²0.109解释了 10.9% 的对数似然变异(Logit 模型 0.1-0.2 属正常)
Cox & Snell R²0.196类比 OLS 的 R²,上限 < 1
Nagelkerke R²0.227调整后可达 1 的 Cox & Snell 修正版
分类预测正确率59.0%高于基线(最大类 50.7%)8.3 个百分点,提升有限但显著
报告 MNL 模型时应同时展示 LR 整体检验 + 至少一种伪 R² + 分类正确率;只看伪 R² 容易低估模型贡献

整体 LR χ²(10) = 65.58, p<0.001 → 5 个解释变量联合显著提升了渠道偏好的预测能力。McFadden R² = 0.109 在 Logit 类模型中属正常水平(不要与 OLS 的 R² 直接对比)。

7. 文字分析

从 2 个子模型的系数 + OR 值,可对消费者购物渠道偏好作如下解读:

  • 谁更可能去线下实体店(vs 综合电商):教育水平较低(OR=0.634, p=0.022 —— 教育水平每升 1 级,选线下的相对优势比下降 36.6%)和网购年限较短(OR=0.866, p=0.004 —— 多 1 年网购经验,选线下的概率相对综合电商下降 13.4%)的群体显著偏好实体店。年龄虽方向为正但未达显著(p=0.121),收入、性别均不显著。
  • 谁更可能选直播带货(vs 综合电商):年轻人(OR=0.955, p=0.002 —— 每大 1 岁,选直播的相对优势比下降 4.5%)和网购老用户(OR=1.194, p<0.001 —— 多 1 年网购经验,选直播的相对优势比提升 19.4%)显著更偏好直播带货。教育水平、收入、性别均不显著。
  • 共同信号网购年限是渠道选择的核心驱动变量,在两个子模型中均达到 p<0.01 显著水平,且方向相反 —— 网购经验越丰富,越远离线下、越靠近直播;这与「数字原生 → 渠道下沉」的行业观察一致。
  • 整体模型:LR χ²(10)=65.58, p<0.001,分类正确率 59.0%(vs 基线 50.7%),McFadden R²=0.109 —— 模型整体显著但解释力中等,提示渠道偏好还受其他未观测因素(如品牌信任、地域、社交属性)影响。

业务结论:①面向低教育、低网购经验群体的品牌应保留并强化线下渠道体验;②直播带货的核心受众是年轻网购老手,应在直播脚本、达人选择上贴合该群体偏好;③综合电商仍是大盘渠道(50.7% 占比),但需警惕年轻网购老用户向直播迁移的趋势。

8. 剖析提醒

多分类 Logit 的系数始终相对于参照类别解释,更换参照类后系数符号和大小会改变,报告时必须说明参照项。注意检验IIA 假设(不相关备选独立性)—— 若两个非参照类之间存在强替代关系(如直播带货与综合电商高度同质),可改用 Nested Logit 或 Mixed Logit。