进阶方法

逐步回归分析

案例数据

300 行 × 9 列消费者满意度调查：8 个候选影响因素（Likert 1-7）与 1 个整体满意度评分（1-10），用于演示双向逐步回归自动筛选关键驱动因素，最终保留 5 个、剔除 3 个变量。

文件名	stepwise_linear_regression.xlsx
样本量	300 行
变量数	9 列（8 个候选 X + 1 个 Y）
数据用途	消费者研究：从 8 个候选因素中筛选出影响整体满意度的核心驱动因素
变量说明	候选 X：产品质量、价格合理度、售后服务、包装设计、物流速度、广告印象、朋友推荐、颜色款式（均为 Likert 1-7）；Y：整体满意度（1-10 分连续评分）。

完整案例

1. 背景

某电商平台对老客户做满意度回访，初步收集了 8 个候选影响因素的评分（产品质量、价格合理度、售后服务、包装设计、物流速度、广告印象、朋友推荐、颜色款式），但凭经验不确定哪些是真正驱动整体满意度的关键。研究者希望让算法从数据本身出发自动筛选，避免人为偏见，最终交付一份精简的满意度评分体系。本案例用双向逐步回归（前进 p<0.05 入选、后退 p>0.10 剔除）回答三个问题：①哪些因素显著驱动满意度？②按贡献排序前 3 名是谁？③需要砍掉哪些"看似重要其实无效"的指标？

2. 理论与公式

逐步回归通过统计准则在候选变量池中自动加入或剔除变量，每一步都重检查已入选变量是否仍显著，最终得到一个精简且变量全部显著的模型。

前进准入

从未入选变量中挑出"对 R² 贡献最大且 p 最小"的一个，若 p<0.05 则加入模型。

后退剔除

每次加入新变量后重新检验已入选变量，若某变量 p>0.10 则剔除（避免共线性掩盖）。

最终模型

S 为最终保留的变量子集，所有 β 均在 α=0.05 水平显著。

3. 数据结构

每行代表一位填写问卷的消费者，8 个候选自变量均为 Likert 1-7 评分，因变量为 1-10 分整体满意度：

变量名	角色	量表	业务含义
产品质量	候选 X1	Likert 1-7	商品本身的做工、性能、耐用度
价格合理度	候选 X2	Likert 1-7	售价相对于价值的合理程度
售后服务	候选 X3	Likert 1-7	退换货、问题响应速度与态度
包装设计	候选 X4	Likert 1-7	外包装的视觉与保护性
物流速度	候选 X5	Likert 1-7	下单到收货的时长体验
广告印象	候选 X6	Likert 1-7	购买前看到的广告内容感受
朋友推荐	候选 X7	Likert 1-7	是否经亲友介绍购买
颜色款式	候选 X8	Likert 1-7	商品颜色、款式的喜好度
整体满意度	因变量 Y	1-10 连续分	对本次购物体验的整体打分

逐步回归要求 Y 为连续型；候选 X 之间不应存在强共线（VIF<5）。本案例 8 个候选变量两两近似独立（VIF≈1），适合演示算法的筛选能力。

4. 操作步骤

登录 SPSSzero，进入 工作台 → 上传 stepwise_linear_regression.xlsx
左侧方法栏 → 进阶方法 → 点击 逐步回归
把 整体满意度 拖入 因变量 Y，把 8 个候选变量（产品质量 / 价格合理度 / 售后服务 / 包装设计 / 物流速度 / 广告印象 / 朋友推荐 / 颜色款式）全部拖入 自变量 X
选择 方法 = 逐步法（Stepwise），进入门槛 p<0.05、剔除门槛 p>0.10（默认值）
点击 开始分析，查看选入过程与最终模型

5. 结果表格与结果阅读

结果区按"选入轨迹 + 最终模型"两段输出。下面展示 2 张紧凑三线表：

表1 逐步选入过程（N=300，前进 p<0.05 / 后退 p>0.10）

步骤	动作	变量	p(入选)	R²	调整 R²	ΔR²	F
1	入选	产品质量	<0.001	0.273	0.270	+0.273	111.80
2	入选	价格合理度	<0.001	0.395	0.391	+0.122	96.84
3	入选	物流速度	<0.001	0.540	0.535	+0.145	115.65
4	入选	售后服务	<0.001	0.629	0.624	+0.090	125.29
5	入选	包装设计	<0.001	0.662	0.656	+0.033	115.10
—	停止（剩余候选 p>0.05，无变量可入；全过程无后退剔除）		—	—	—	—	—
被剔除：广告印象（全模型 p=0.067）/ 朋友推荐（p=0.120）/ 颜色款式（p=0.890）。算法 5 步收敛，R² 从 0.273 平滑增长至 0.662，无后退。

入选顺序反映各变量的"边际贡献"：产品质量单独可解释 27.3% 的方差，是最强驱动；后续加入的变量每步带来 3-15 个百分点的 R² 提升，到包装设计时 ΔR² 仅 +0.033，已接近临界，再补也无收益。

表2 最终模型系数（保留 5 个变量，N=300，R²=0.662，调整 R²=0.656，F(5,294)=115.10，p<0.001）

变量	B	SE	β	t	p	VIF
(常数)	-0.331	0.316	—	-1.049	0.295	—
产品质量	0.601	0.040	0.516	15.13	<0.001***	1.01
价格合理度	0.470	0.039	0.409	11.94	<0.001***	1.02
物流速度	0.408	0.038	0.367	10.68	<0.001***	1.03
售后服务	0.336	0.038	0.299	8.78	<0.001***	1.01
包装设计	0.197	0.037	0.181	5.31	<0.001***	1.01
* p<0.05 p<0.01 * p<0.001；β 为标准化系数，可跨变量比较影响力大小；VIF 均≈1，无共线问题

5 个保留变量的 p 全部<0.001，β 排序为：产品质量 (0.516) > 价格合理度 (0.409) > 物流速度 (0.367) > 售后服务 (0.299) > 包装设计 (0.181)。模型整体 F=115.10（p<0.001），调整 R²=0.656 → 这 5 个变量联合可解释整体满意度 65.6% 的方差。

7. 文字分析

对消费者满意度 8 个候选驱动因素的逐步回归综合分析：

筛选结果：算法 5 步收敛，保留 5 个显著变量（产品质量、价格合理度、物流速度、售后服务、包装设计），剔除 3 个非显著变量（广告印象、朋友推荐、颜色款式），全过程无后退剔除；
影响力排序（按 β 绝对值）：产品质量（β=0.516）> 价格合理度（β=0.409）> 物流速度（β=0.367）> 售后服务（β=0.299）> 包装设计（β=0.181）；
模型拟合：R²=0.662、调整 R²=0.656，F(5,294)=115.10、p<0.001 → 模型整体显著且解释力良好；
共线性：5 个变量 VIF 均≈1.01，远小于 5 的警戒线，回归系数稳定可靠；
边际贡献：产品质量单独贡献 R²=0.273（最高），后续变量每步带来 0.033–0.145 的 ΔR²，越往后增益越小，符合典型逐步回归的"边际递减"规律。

结论：消费者整体满意度由产品质量、价格、物流、售后、包装五个核心维度决定，三大头部因素（质量+价格+物流）合计已解释 54% 的方差。建议产品团队：①精简满意度评分体系为这 5 项，剔除广告印象/朋友推荐/颜色款式 3 个噪声指标；②资源优先投入产品质量与价格策略（两项 β 合计 0.92，是最高 ROI 抓手）；③物流与售后作为基础体验保障，需达标但边际效益相对较低。

8. 剖析提醒

逐步回归依赖统计准则自动筛选，存在三个常见陷阱：①结果对样本敏感，不同子样本可能选出不同变量；②多重检验问题，每步都做 t 检验，整体 α 实际高于名义值；③理论盲区，算法只看 p 值不看业务含义。正式论文中建议把逐步法当作探索性工具，再用理论或独立样本验证；如样本较小（<100）应改用 LASSO 或交叉验证。