| 文件名 | normality.xlsx |
|---|---|
| 样本量 | 300 行 |
| 变量数 | 4 列(全部为定量) |
| 数据用途 | 正态性检验:分布形态判断 + 后续方法选型依据 |
| 变量说明 | 身高(cm)/ 体重(kg):近似正态;月收入(元)/ 反应时(ms):明显右偏。 |
完整案例
1. 背景
研究者在跑 t 检验/方差分析/回归前,需要先判断核心变量是否服从正态分布,以决定后续使用参数方法(要求正态)还是非参数方法(不要求正态)。本案例提供 4 个分布形态不同的变量,演示"通过"和"拒绝"两种典型结论及对应的方法学决策。
2. 理论与公式
正态性检验的原假设通常是变量服从正态分布,实际判断时需要同时结合检验 p 值和分布图形。
用于判断分布是否明显偏斜。
S 为偏度,K 为峰度。
p 值较小时,拒绝正态分布原假设。
3. 数据结构
每行 1 位受访者,4 列均为定量变量,刻意设计为不同分布:
| 变量名 | 单位 | 期望分布形态 | 教学用途 |
|---|---|---|---|
| 身高 | cm | 正态 N(170, 8) | 演示通过正态性检验 |
| 体重 | kg | 正态 N(65, 10) | 演示通过正态性检验 |
| 月收入 | 元 | 对数正态(强右偏) | 演示拒绝正态(偏度 1.5) |
| 反应时 | ms | Gamma 分布(中右偏) | 演示拒绝正态(偏度 0.95) |
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 上传
normality.xlsx - 左侧方法栏 → 通用方法 → 点击 正态性检验
- 把 身高 / 体重 / 月收入 / 反应时 4 个变量全部拖入 分析项 框
- 点击 开始分析
大样本(n > 50)建议看 K-S 检验;小样本(n < 50)建议看 Shapiro-Wilk 检验。SPSSzero 默认同时输出两种,方便对照。

5. 结果表格与结果阅读
结果区按"主检验 + Jarque-Bera 辅助检验"输出,并附 QQ 图。下面展示 2 张紧凑三线表:
| 名称 | M | SD | 偏度 | 峰度 | K-S p | S-W p | 判定 |
|---|---|---|---|---|---|---|---|
| 身高 | 169.94 | 7.79 | 0.10 | 0.22 | 0.908 | 0.783 | ✅ 通过 |
| 体重 | 64.79 | 9.62 | 0.14 | -0.08 | 0.939 | 0.810 | ✅ 通过 |
| 月收入 | 9454.02 | 5058.93 | 1.50 | 2.77 | 0.000*** | 0.000*** | ❌ 拒绝 |
| 反应时 | 247.68 | 126.99 | 0.95 | 0.68 | 0.008** | 0.000*** | ❌ 拒绝 |
| * p<0.05 ** p<0.01 *** p<0.001;p>0.05 → 通过正态;p<0.05 → 拒绝正态 | |||||||
注意:原假设是"数据服从正态"。p 大表示证据不足以拒绝(即"近似正态"),p 小才表示明显偏离正态。这与 t 检验等"想要 p 小"的逻辑相反。
| 名称 | χ² | df | p | 结论 |
|---|---|---|---|---|
| 身高 | 0.988 | 2 | 0.610 | 通过 |
| 体重 | 1.020 | 2 | 0.601 | 通过 |
| 月收入 | 203.542 | 2 | 0.000*** | 拒绝 |
| 反应时 | 49.700 | 2 | 0.000*** | 拒绝 |
| JB 与 K-S / S-W 结果一致,4 个变量的结论稳健 | ||||
实务中通常以 K-S(n > 50)或 S-W(n < 50)为主,JB 检验作为辅证。三个检验结果一致时结论最可靠。
7. 文字分析
对 4 个变量的正态性检验综合分析:
- 身高:M=169.94±7.79,偏度 0.10、峰度 0.22 均接近 0;K-S p=0.908, S-W p=0.783, JB p=0.610 —— 三检验全通过,可视为正态分布,可放心使用 t 检验 / 方差分析等参数方法;
- 体重:M=64.79±9.62,偏度 0.14、峰度 -0.08;三检验 p 均>0.5 —— 同样通过正态性;
- 月收入:M=9454±5059,偏度 1.50(强右偏)、峰度 2.77(尖峰);K-S/S-W/JB 三检验 p<0.001 一致拒绝 —— 明显偏离正态,应改用非参数方法(如 Wilcoxon、Kruskal-Wallis)或先做 log 变换;
- 反应时:M=247.68±126.99,偏度 0.95(中度右偏);三检验拒绝 —— 同样不能直接用参数方法。
结论:本案例中 身高、体重 可使用参数方法(t / ANOVA / 线性回归),月收入、反应时 需改用非参数方法或对数变换后再检验。这就是正态性检验作为"前置筛选"的核心价值。
8. 剖析提醒
大样本下正态性检验很敏感,轻微偏离也可能显著,不能只凭 p 值机械决定方法。
方法定位
正态性检验用于判断定量变量是否近似服从正态分布。它常作为 t 检验、方差分析、线性回归残差诊断等方法的前置检查,也可用于了解变量是否存在偏态。
正态性检验不是越显著越好。常见原假设是“数据服从正态分布”,当 p 值小于显著性水平时,说明数据偏离正态分布的证据较强。
数据与变量准备
正态性检验适用于定量变量。分类变量不适合做正态性检验。若需要分组检验,应先确定分组变量,再分别查看各组内的定量变量分布。
| 场景 | 推荐做法 |
|---|---|
| 单个定量变量 | 直接放入检验变量 |
| 分组后的定量变量 | 按组查看每组正态性 |
| 回归模型 | 更关注残差正态性 |
| 样本量很大 | 结合图形和偏度峰度判断 |
SPSSzero 操作建议
将需要检查的定量变量放入分析项。若系统同时输出 Shapiro-Wilk、Kolmogorov-Smirnov、Anderson-Darling 或 Jarque-Bera 等结果,建议结合样本量和图形共同判断。
样本量较小时,Shapiro-Wilk 更常用;样本量较大时,检验会非常敏感,轻微偏离也可能显著,因此应结合直方图、Q-Q 图和实际研究目的。
结果解读
| 结果情况 | 常见解释 |
|---|---|
| p 值大于 0.05 | 未发现明显偏离正态的证据 |
| p 值小于 0.05 | 数据与正态分布存在显著差异 |
| 图形近似钟形但检验显著 | 大样本下常见,应结合偏度峰度 |
| 偏度峰度较大 | 可能存在偏态或重尾 |
如果变量不满足正态,可考虑非参数检验、变量转换、稳健方法,或在样本量足够大时依据中心极限定理谨慎使用参数检验。
写作模板
可写为:“对主要定量变量进行正态性检验,结果显示,变量 xx 的 Shapiro-Wilk 检验 p 值为 xx。结合直方图和 Q-Q 图观察,该变量整体分布近似或不近似正态,因此后续采用 xx 方法进行分析。”
如果样本量很大,可写为:“由于样本量较大,正态性检验对轻微偏离较敏感,本文同时参考偏度、峰度及图形判断。”
常见问题
直方图看起来正常但检验显著怎么办
大样本时检验容易显著。建议结合 Q-Q 图、偏度峰度、研究目的以及后续方法的稳健性综合判断。
不满足正态就不能做 t 检验吗
不一定。t 检验对轻微偏离正态通常较稳健,尤其样本量较大且无严重极端值时。若样本量小且偏态明显,可使用非参数检验。
检验原假设是什么
正态性检验通常以“数据服从正态分布”为原假设。p 值小表示拒绝该假设,提示偏离正态。
与相近方法区分
| 目标 | 推荐方法 |
|---|---|
| 检查定量变量分布是否近似正态 | 正态性检验 |
| 查看变量均值和标准差 | 描述探索分析 |
| 比较非正态两组差异 | 非参数检验 |
| 查看残差是否近似正态 | 回归诊断或残差正态性检验 |