案例数据
300 行 × 4 列(4 组 × 75),1 个 4 类有序分组变量(学历)+ 3 个偏态定量因变量,演示 Kruskal-Wallis H 检验 + 两两比较(含显著/非显著对照)。
| 文件名 | non-parametrics.xlsx |
|---|---|
| 样本量 | 300 行(4 组 × 75) |
| 变量数 | 4 列(1 分组 + 3 因变量) |
| 数据用途 | 不同学历群体在收入/工龄/生活满意度上的差异比较(数据偏态,不宜用参数方法) |
| 变量说明 | 学历(高中及以下 / 大专 / 本科 / 硕士及以上);月收入(元,右偏)/ 工龄(年)/ 生活满意度(1-10)。 |
完整案例
1. 背景
某社会调研收集了 300 位职场人士的学历、月收入、工龄、生活满意度数据。其中月收入呈对数正态右偏(正态性检验已拒绝),不宜直接用方差分析。研究者改用非参数检验比较不同学历群体的中位数差异,并通过两两比较定位差异具体来自哪两组。
2. 理论与公式
非参数检验通常将原始数值转换为秩次后比较组间差异,适合等级数据、偏态数据或小样本场景。
先将原始数据转换为秩次。
用于三组及以上独立样本的非参数差异检验。
用于两组独立样本的非参数差异检验。
3. 数据结构
每行 1 位受访者,1 个分组变量 + 3 个定量因变量。各组样本量平衡(75 人/组):
| 变量名 | 角色 | 取值 / 分布 |
|---|---|---|
| 学历 | 分组变量 X(4 类) | 高中及以下 / 大专 / 本科 / 硕士及以上 |
| 月收入 | 因变量 Y₁ | 元(对数正态,强右偏) |
| 工龄 | 因变量 Y₂ | 年(Gamma 分布,右偏) |
| 生活满意度 | 因变量 Y₃ | 分(1-10) |
SPSSzero 会根据分组数自动选择检验:2 组 → Mann-Whitney U,3 组及以上 → Kruskal-Wallis H。本案例 4 组,使用 Kruskal-Wallis。
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 上传
non-parametrics.xlsx - 左侧方法栏 → 通用方法 → 点击 非参数
- 把 学历 拖入 分组变量 框
- 把 月收入 / 工龄 / 生活满意度 3 个变量拖入 分析项 Y 框
- 点击 开始分析

5. 结果表格与结果阅读
结果区按"主结果(中位数 + H 检验)→ 两两比较"输出。下面展示 2 张紧凑三线表:
| 分析项 | 高中及以下 M(P25,P75) | 大专 M(P25,P75) | 本科 M(P25,P75) | 硕士及以上 M(P25,P75) | H | p |
|---|---|---|---|---|---|---|
| 月收入 | 5204(4222, 6771) | 7515(5822, 8940) | 10501(7189, 12427) | 14258(10678, 18309) | 146.177 | 0.000*** |
| 工龄 | 9.5(6.6, 14.1) | 7.3(5.1, 10.1) | 6.5(4.2, 10.9) | 6.8(4.3, 8.9) | 23.005 | 0.000*** |
| 生活满意度 | 6.9(5.7, 8.1) | 6.8(5.5, 7.7) | 7.1(5.9, 8.2) | 6.9(5.9, 7.8) | 2.575 | 0.462 |
| M=中位数 (P25, P75);* p<0.05 ** p<0.01 *** p<0.001 | ||||||
月收入与工龄组间差异显著(学历越高,收入越高、工龄越短),生活满意度组间无显著差异。报告时用"中位数"而非"均值",因为数据偏态、均值不稳健。
| (I) 组别 | (J) 组别 | (I) 中位数 | (J) 中位数 | 差值 (I−J) | p |
|---|---|---|---|---|---|
| 高中及以下 | 大专 | 5204 | 7515 | -2311 | 0.000*** |
| 高中及以下 | 本科 | 5204 | 10501 | -5297 | 0.000*** |
| 高中及以下 | 硕士及以上 | 5204 | 14258 | -9054 | 0.000*** |
| 大专 | 本科 | 7515 | 10501 | -2986 | 0.000*** |
| 大专 | 硕士及以上 | 7515 | 14258 | -6743 | 0.000*** |
| 本科 | 硕士及以上 | 10501 | 14258 | -3757 | 0.000*** |
| 6 对全部显著(p<0.001),4 组学历的月收入呈严格的"高中 < 大专 < 本科 < 硕士及以上"递增。 | |||||
总体 H 显著后,必须做两两比较才能定位具体差异组别。本例 6 对全部 p<0.001,结论一致清晰。
7. 文字分析
对 3 个变量的 Kruskal-Wallis 检验综合分析:
- 月收入:H=146.18, p<0.001 —— 4 组中位数从 5204 → 7515 → 10501 → 14258 严格递增,6 对两两比较全部显著。学历对月收入有显著且单调的正向影响;
- 工龄:H=23.01, p<0.001 —— 4 组中位数从 9.5 → 7.3 → 6.5 → 6.8 整体递减(高中及以下工龄最长),但本科与硕士组接近。学历越高工龄越短,可能与教育延迟入职有关;
- 生活满意度:H=2.58, p=0.462 —— 4 组中位数均在 6.8-7.1 之间,无显著差异,说明学历不影响整体生活满意度水平。
结论:本样本中学历显著影响经济类指标(月收入、工龄),但不影响主观幸福感(生活满意度)。这与"金钱不能直接换来幸福"的常识相符,是非参数检验在偏态数据上的典型应用案例。
8. 剖析提醒
非参数检验通常比较秩次或分布,不应直接写成均值显著不同。
方法定位
非参数检验用于在数据不满足参数检验假设时进行差异比较,尤其适合等级数据、小样本、明显偏态或存在极端值的场景。它通常比较秩次或分布差异,而不是直接比较均值。
常见方法包括 Mann-Whitney U 检验、Wilcoxon 符号秩检验、Kruskal-Wallis 检验和 Friedman 检验。
方法选择
| 研究设计 | 参数方法 | 非参数替代 |
|---|---|---|
| 两个独立组 | t 检验 | Mann-Whitney U 检验 |
| 两个配对条件 | 配对 t 检验 | Wilcoxon 符号秩检验 |
| 三组及以上独立组 | 方差分析 | Kruskal-Wallis 检验 |
| 三个及以上配对条件 | 重复测量方差分析 | Friedman 检验 |
选择非参数检验时,先判断样本是否独立、组数是多少、变量是否为配对或重复测量。
数据与变量准备
非参数检验通常需要分组变量和检验变量。检验变量可以是定量变量,也可以是有序等级变量。
| 变量角色 | 要求 |
|---|---|
| 分组变量 | 区分不同组或条件 |
| 检验变量 | 定量或有序变量 |
| 配对变量 | 同一对象多次测量时成对放置 |
SPSSzero 操作建议
在工作台选择对应非参数检验方法,根据研究设计放置变量。若系统提供多重比较,只有在总体检验显著时才需要重点解读事后比较。
对于等级题或满意度题,如果不希望假设其为连续变量,非参数检验更合适。
结果解读
| 输出内容 | 解读重点 |
|---|---|
| 秩均值或中位数 | 判断组间大致方向 |
| 检验统计量 | 方法对应的统计量 |
| p 值 | 判断差异是否显著 |
| 事后比较 | 判断具体哪些组不同 |
非参数检验显著表示分布或秩次存在差异,不应简单写成“均值显著不同”,除非结果表明确提供并支持均值比较。
写作模板
可写为:“由于变量不满足参数检验假设,采用 xx 非参数检验比较各组差异。结果显示,检验统计量为 xx,p 值为 xx,说明不同组之间存在或不存在显著差异。”
若有事后比较,可补充:“进一步比较发现,A 组与 B 组差异显著,而 A 组与 C 组差异不显著。”
常见问题
非参数检验是不是一定更好
不是。非参数检验对分布假设更少,但通常检验效能较低。如果参数检验条件基本满足,参数方法解释更直接。
非参数检验结果为什么是秩
多数非参数方法把原始数值转换为排名后再比较,因此结果常出现秩均值、秩和等指标。
多重比较如何选择
总体检验显著后,再结合 Dunn、Nemenyi 等方法进行事后比较。具体选择应与数据结构和软件输出一致。
与相近方法区分
| 目标 | 推荐方法 |
|---|---|
| 参数假设满足的均值比较 | t 检验或方差分析 |
| 偏态或等级数据差异比较 | 非参数检验 |
| 分类变量关联 | 卡方分析 |
| 同一对象多次等级测量 | Friedman 检验 |