数据处理

异常值

案例数据

包含身高、体重、收入和评分变量，并故意保留少量极端值用于演示异常识别和处理。

文件名	dataprocess_outlier.xlsx
数据用途	异常值处理案例数据
变量说明	height_cm、weight_kg、income_monthly 和 score 为待检查变量，group 可用于分组观察。

建模前发现某些变量存在明显超出业务范围或统计范围的数值，需要判断是否设为空值或填补。

异常值处理需要先识别极端值，再决定保留、设为空值、填补或缩尾，目标是降低错误或极端观测对结论的扭曲。

Z 分数

绝对 Z 分数过大时可能为异常值。

IQR 规则

箱线图常用异常值判定规则。

均值填补

用正常样本均值替换被判定的异常值。

height_cm、weight_kg、income_monthly 和 score 为待检查变量，group 可用于分组观察。

表1 异常值处理前后示例

变量	处理前最大值	规则	处理方式	处理后最大值
height_cm	226	>210	设为空值	188
income_monthly	180000	大于3个标准差	中位数填补	32000
score	-2	<0	设为空值	98

处理前后应保留口径说明，避免结果不可追溯。

重点比较处理前后的最小值、最大值、均值和样本量，确认异常处理没有误伤正常样本。

异常值处理后，极端数值对均值、相关和回归系数的扭曲会降低，结果解释更稳健。

异常值不一定都是错误数据。处理前应结合业务含义、录入规则和原始记录判断。