案例数据
300 行 × 9 列消费者满意度调查:8 个候选影响因素(Likert 1-7)与 1 个整体满意度评分(1-10),用于演示双向逐步回归自动筛选关键驱动因素,最终保留 5 个、剔除 3 个变量。
| 文件名 | stepwise_linear_regression.xlsx |
|---|---|
| 样本量 | 300 行 |
| 变量数 | 9 列(8 个候选 X + 1 个 Y) |
| 数据用途 | 消费者研究:从 8 个候选因素中筛选出影响整体满意度的核心驱动因素 |
| 变量说明 | 候选 X:产品质量、价格合理度、售后服务、包装设计、物流速度、广告印象、朋友推荐、颜色款式(均为 Likert 1-7);Y:整体满意度(1-10 分连续评分)。 |
完整案例
1. 背景
某电商平台对老客户做满意度回访,初步收集了 8 个候选影响因素的评分(产品质量、价格合理度、售后服务、包装设计、物流速度、广告印象、朋友推荐、颜色款式),但凭经验不确定哪些是真正驱动整体满意度的关键。研究者希望让算法从数据本身出发自动筛选,避免人为偏见,最终交付一份精简的满意度评分体系。本案例用双向逐步回归(前进 p<0.05 入选、后退 p>0.10 剔除)回答三个问题:①哪些因素显著驱动满意度?②按贡献排序前 3 名是谁?③需要砍掉哪些"看似重要其实无效"的指标?
2. 理论与公式
逐步回归通过统计准则在候选变量池中自动加入或剔除变量,每一步都重检查已入选变量是否仍显著,最终得到一个精简且变量全部显著的模型。
从未入选变量中挑出"对 R² 贡献最大且 p 最小"的一个,若 p<0.05 则加入模型。
每次加入新变量后重新检验已入选变量,若某变量 p>0.10 则剔除(避免共线性掩盖)。
S 为最终保留的变量子集,所有 β 均在 α=0.05 水平显著。
3. 数据结构
每行代表一位填写问卷的消费者,8 个候选自变量均为 Likert 1-7 评分,因变量为 1-10 分整体满意度:
| 变量名 | 角色 | 量表 | 业务含义 |
|---|---|---|---|
| 产品质量 | 候选 X1 | Likert 1-7 | 商品本身的做工、性能、耐用度 |
| 价格合理度 | 候选 X2 | Likert 1-7 | 售价相对于价值的合理程度 |
| 售后服务 | 候选 X3 | Likert 1-7 | 退换货、问题响应速度与态度 |
| 包装设计 | 候选 X4 | Likert 1-7 | 外包装的视觉与保护性 |
| 物流速度 | 候选 X5 | Likert 1-7 | 下单到收货的时长体验 |
| 广告印象 | 候选 X6 | Likert 1-7 | 购买前看到的广告内容感受 |
| 朋友推荐 | 候选 X7 | Likert 1-7 | 是否经亲友介绍购买 |
| 颜色款式 | 候选 X8 | Likert 1-7 | 商品颜色、款式的喜好度 |
| 整体满意度 | 因变量 Y | 1-10 连续分 | 对本次购物体验的整体打分 |
逐步回归要求 Y 为连续型;候选 X 之间不应存在强共线(VIF<5)。本案例 8 个候选变量两两近似独立(VIF≈1),适合演示算法的筛选能力。
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 上传
stepwise_linear_regression.xlsx - 左侧方法栏 → 进阶方法 → 点击 逐步回归
- 把 整体满意度 拖入 因变量 Y,把 8 个候选变量(产品质量 / 价格合理度 / 售后服务 / 包装设计 / 物流速度 / 广告印象 / 朋友推荐 / 颜色款式)全部拖入 自变量 X
- 选择 方法 = 逐步法(Stepwise),进入门槛 p<0.05、剔除门槛 p>0.10(默认值)
- 点击 开始分析,查看选入过程与最终模型
5. 结果表格与结果阅读
结果区按"选入轨迹 + 最终模型"两段输出。下面展示 2 张紧凑三线表:
| 步骤 | 动作 | 变量 | p(入选) | R² | 调整 R² | ΔR² | F |
|---|---|---|---|---|---|---|---|
| 1 | 入选 | 产品质量 | <0.001 | 0.273 | 0.270 | +0.273 | 111.80 |
| 2 | 入选 | 价格合理度 | <0.001 | 0.395 | 0.391 | +0.122 | 96.84 |
| 3 | 入选 | 物流速度 | <0.001 | 0.540 | 0.535 | +0.145 | 115.65 |
| 4 | 入选 | 售后服务 | <0.001 | 0.629 | 0.624 | +0.090 | 125.29 |
| 5 | 入选 | 包装设计 | <0.001 | 0.662 | 0.656 | +0.033 | 115.10 |
| — | 停止(剩余候选 p>0.05,无变量可入;全过程无后退剔除) | — | — | — | — | — | |
| 被剔除:广告印象(全模型 p=0.067)/ 朋友推荐(p=0.120)/ 颜色款式(p=0.890)。算法 5 步收敛,R² 从 0.273 平滑增长至 0.662,无后退。 | |||||||
入选顺序反映各变量的"边际贡献":产品质量单独可解释 27.3% 的方差,是最强驱动;后续加入的变量每步带来 3-15 个百分点的 R² 提升,到包装设计时 ΔR² 仅 +0.033,已接近临界,再补也无收益。
| 变量 | B | SE | β | t | p | VIF |
|---|---|---|---|---|---|---|
| (常数) | -0.331 | 0.316 | — | -1.049 | 0.295 | — |
| 产品质量 | 0.601 | 0.040 | 0.516 | 15.13 | <0.001*** | 1.01 |
| 价格合理度 | 0.470 | 0.039 | 0.409 | 11.94 | <0.001*** | 1.02 |
| 物流速度 | 0.408 | 0.038 | 0.367 | 10.68 | <0.001*** | 1.03 |
| 售后服务 | 0.336 | 0.038 | 0.299 | 8.78 | <0.001*** | 1.01 |
| 包装设计 | 0.197 | 0.037 | 0.181 | 5.31 | <0.001*** | 1.01 |
| * p<0.05 ** p<0.01 *** p<0.001;β 为标准化系数,可跨变量比较影响力大小;VIF 均≈1,无共线问题 | ||||||
5 个保留变量的 p 全部<0.001,β 排序为:产品质量 (0.516) > 价格合理度 (0.409) > 物流速度 (0.367) > 售后服务 (0.299) > 包装设计 (0.181)。模型整体 F=115.10(p<0.001),调整 R²=0.656 → 这 5 个变量联合可解释整体满意度 65.6% 的方差。
7. 文字分析
对消费者满意度 8 个候选驱动因素的逐步回归综合分析:
- 筛选结果:算法 5 步收敛,保留 5 个显著变量(产品质量、价格合理度、物流速度、售后服务、包装设计),剔除 3 个非显著变量(广告印象、朋友推荐、颜色款式),全过程无后退剔除;
- 影响力排序(按 β 绝对值):产品质量(β=0.516)> 价格合理度(β=0.409)> 物流速度(β=0.367)> 售后服务(β=0.299)> 包装设计(β=0.181);
- 模型拟合:R²=0.662、调整 R²=0.656,F(5,294)=115.10、p<0.001 → 模型整体显著且解释力良好;
- 共线性:5 个变量 VIF 均≈1.01,远小于 5 的警戒线,回归系数稳定可靠;
- 边际贡献:产品质量单独贡献 R²=0.273(最高),后续变量每步带来 0.033–0.145 的 ΔR²,越往后增益越小,符合典型逐步回归的"边际递减"规律。
结论:消费者整体满意度由产品质量、价格、物流、售后、包装五个核心维度决定,三大头部因素(质量+价格+物流)合计已解释 54% 的方差。建议产品团队:①精简满意度评分体系为这 5 项,剔除广告印象/朋友推荐/颜色款式 3 个噪声指标;②资源优先投入产品质量与价格策略(两项 β 合计 0.92,是最高 ROI 抓手);③物流与售后作为基础体验保障,需达标但边际效益相对较低。
8. 剖析提醒
逐步回归依赖统计准则自动筛选,存在三个常见陷阱:①结果对样本敏感,不同子样本可能选出不同变量;②多重检验问题,每步都做 t 检验,整体 α 实际高于名义值;③理论盲区,算法只看 p 值不看业务含义。正式论文中建议把逐步法当作探索性工具,再用理论或独立样本验证;如样本较小(<100)应改用 LASSO 或交叉验证。