数据处理

异常值

案例数据

包含身高、体重、收入和评分变量,并故意保留少量极端值用于演示异常识别和处理。

文件名dataprocess_outlier.xlsx
数据用途异常值处理案例数据
变量说明height_cm、weight_kg、income_monthly 和 score 为待检查变量,group 可用于分组观察。

完整案例

1. 背景

建模前发现某些变量存在明显超出业务范围或统计范围的数值,需要判断是否设为空值或填补。

2. 理论与公式

异常值处理需要先识别极端值,再决定保留、设为空值、填补或缩尾,目标是降低错误或极端观测对结论的扭曲。

Z 分数

绝对 Z 分数过大时可能为异常值。

IQR 规则

箱线图常用异常值判定规则。

均值填补

用正常样本均值替换被判定的异常值。

3. 数据结构

height_cm、weight_kg、income_monthly 和 score 为待检查变量,group 可用于分组观察。

4. 操作步骤与截图

  1. 上传案例数据
  2. 先用描述探索或箱线图定位异常范围
  3. 进入异常值处理
  4. 设置小于、大于或标准差规则
  5. 选择设为空值、均值填补或中位数填补
无异常值散点关系示意
无异常值散点关系示意
异常值扭曲关系示意
异常值扭曲关系示意
异常值规则选择示意
异常值规则选择示意

5. 结果表格与核验

表1 异常值处理前后示例
变量处理前最大值规则处理方式处理后最大值
height_cm226>210设为空值188
income_monthly180000大于3个标准差中位数填补32000
score-2<0设为空值98

处理前后应保留口径说明,避免结果不可追溯。

重点比较处理前后的最小值、最大值、均值和样本量,确认异常处理没有误伤正常样本。

6. 辅助截图

异常值处理操作示意
异常值处理操作示意
异常值处理示例
异常值处理示例

7. 文字分析

异常值处理后,极端数值对均值、相关和回归系数的扭曲会降低,结果解释更稳健。

8. 剖析提醒

异常值不一定都是错误数据。处理前应结合业务含义、录入规则和原始记录判断。