数据处理

数据编码

案例数据

包含学历、反向题、年龄和满意度评分，用于演示合并分组、反向计分和范围编码。

文件名	dataprocess_coding.xlsx
数据用途	数据编码案例数据
变量说明	education 为 1 到 5 的学历编码，reverse_item 为 1 到 5 的反向题，age 可按区间重新分组。

研究者希望把学历五分类合并为三组，并把反向量表题处理成与其他题方向一致。

数据编码会改变变量取值，常见用途包括合并类别、反向计分和按区间生成分组。

重编码函数

按预设规则把原始取值转换为新取值。

反向计分

常用于 1 到 5 或 1 到 7 量表反向题。

范围编码

落入指定区间的样本赋为同一组别。

education 为 1 到 5 的学历编码，reverse_item 为 1 到 5 的反向题，age 可按区间重新分组。

表1 数据编码规则示例

合并类别和反向计分后应重新检查频数分布。

重点查看编码前后频数是否合理，新变量是否保留样本数，反向题方向是否与正向题一致。

数据编码后，原始分类被整理为更适合分析的组别，反向题也被转换为与正向题一致的解释方向。

覆盖原变量不可逆，正式数据建议先生成新变量并核验，再决定是否替代原字段。