通用方法

频数分析

案例数据

300 行、6 个问卷常见分类变量(人口统计 + 单选题),已使用文字标签录入,可直接看到选项分布。

文件名frequency.xlsx
样本量300 行
变量数6 列(全部为定类 / 定序)
数据用途问卷研究人口统计描述、单选题分布展示
变量说明性别、学历、年龄段、职业、月收入段、是否使用过本产品。

完整案例

1. 背景

某产品研究团队在前期问卷中收集了 300 位受访者的基本信息(性别、学历、年龄、职业、月收入)以及一道核心单选题(是否使用过本产品)。在正式建模前,研究者希望先做一份样本结构描述,回答三个问题:①各类别受访者各占多少;②样本是否符合预期目标群体;③主力人群(学历/年龄/收入段)画像是什么。

2. 理论与公式

频数分析的核心是统计每个类别的样本数,并将类别频数转换为百分比或有效百分比。

类别频数

统计第 j 个类别出现的样本数。

百分比

用类别频数除以总样本量,得到该类别占比。

有效百分比

m 为缺失样本数,排除缺失后计算比例。

3. 数据结构

数据每行代表一位受访者,共 6 列分类变量,全部使用文字标签录入(无需另设 1=男、2=女 这类码表,前端表格直接显示完整标签)。

变量名类型选项
性别二分类(定类)男 / 女
学历五级(定序)高中及以下 / 大专 / 本科 / 硕士 / 博士
年龄段五级(定序)18-25 岁 / 26-35 岁 / 36-45 岁 / 46-55 岁 / 56 岁及以上
职业六类(定类)学生 / 企业职员 / 公务员·事业单位 / 自由职业 / 退休 / 其他
月收入段五级(定序)3000 元以下 / 3000-5000 元 / 5000-10000 元 / 10000-20000 元 / 20000 元以上
是否使用过本产品二分类(定类)是 / 否

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 点击 上传数据,选择 frequency.xlsx
  2. 左侧方法栏 → 通用方法 → 点击 频数
  3. 性别 / 学历 / 年龄段 / 职业 / 月收入段 / 是否使用过本产品 6 个变量全部拖入 分析项
  4. 点击 开始分析,等待结果区刷新
SPSSzero 频数分析变量选择截图
变量已全部放入"分析项"框(示意,实际截图待补)

5. 结果表格与结果阅读

结果区会先输出一张汇总表(所有变量按选项展开),随后按变量分别给出含累积百分比的明细表,以及对应的可视化图表。

表1 频数分析结果(N=300,汇总)
名称选项频数百分比(%)
性别16153.67
性别13946.33
学历高中及以下227.33
学历大专4816.00
学历本科15451.33
学历硕士5317.67
学历博士237.67
年龄段18-25 岁8428.00
年龄段26-35 岁12341.00
年龄段36-45 岁5217.33
年龄段46-55 岁3311.00
年龄段56 岁及以上82.67
职业企业职员12842.67
职业学生5618.67
职业公务员·事业单位4615.33
职业自由职业4515.00
职业退休155.00
职业其他103.33
月收入段3000 元以下3311.00
月收入段3000-5000 元6822.67
月收入段5000-10000 元11237.33
月收入段10000-20000 元6722.33
月收入段20000 元以上206.67
是否使用过本产品19866.00
是否使用过本产品10234.00

备注:本案例无缺失值,故百分比 = 有效百分比;当存在缺失值时,结果表会额外给出缺失行与有效百分比列。

表2 学历分布明细(含累积百分比)
选项频数百分比累积百分比
高中及以下227.33%7.33%
大专4816.00%23.33%
本科15451.33%74.67%
硕士5317.67%92.33%
博士237.67%100.00%
合计300100.00%-

学历是有序变量,累积百分比可读出"本科及以下占 74.67%"这种区间结论。

解读顺序建议先看表 1 中各变量的最高频选项快速勾勒画像,再逐表查看明细,特别关注有序变量(学历、年龄段、收入段)的累积百分比

7. 文字分析

从结果表可知,本案例 300 位受访者的画像为:

  • 性别:女性占 53.67%,男性占 46.33%,分布较为均衡;
  • 学历:本科为主力(51.33%),硕士(17.67%)与大专(16.00%)次之,本科及以下累计 74.67%;
  • 年龄段:26-35 岁占 41.00% 最高,叠加 18-25 岁后青年群体(35 岁以下)累计 69.00%;
  • 职业:企业职员占 42.67% 显著高于其他职业,反映样本以城市上班族为主;
  • 月收入段:5000-10000 元为主力(37.33%),与 26-35 岁青年职员的画像一致;
  • 是否使用过本产品:使用率 66.00%,已具备一定用户基础。

综合来看,样本主要构成为城市中等学历(本科)、26-35 岁、企业职员、月收入 5000-10000 元的青年群体,符合产品目标用户画像,后续做差异性 / 关联性分析时具备代表性。

8. 剖析提醒

不要把分类编码直接解释为均值大小;如果变量本身是定量变量,应优先使用描述探索分析。

方法定位

频数分析用于查看分类变量中各类别出现的次数和比例,适合描述样本结构、问卷单选题分布、基本背景变量构成等内容。它回答的问题通常是“每个选项有多少人选择”“各类别占比是多少”“样本构成是否符合预期”。

频数分析不用于比较两组均值,也不直接判断变量之间是否存在统计关系。如果需要比较两个分类变量之间的关联,应使用卡方分析;如果需要查看多个题项的平均水平,应使用描述分析。

数据与变量准备

每一行代表一个样本,每一列代表一个变量。频数分析常见变量包括性别、学历、地区、是否购买、满意度等级等。

场景 推荐变量类型 示例
人口统计信息 定类或定序 性别、年龄段、学历
单选题 定类或定序 是否推荐、购买渠道
等级题 定序 满意度 1 到 5 分
需要展示标签 数值编码加变量标签 1=男,2=女

缺失值会影响百分比解释。正式汇报前建议先确认是否需要把缺失作为单独类别展示,或在分析前筛除缺失样本。

SPSSzero 操作建议

在主站工作台选择“频数分析”,把需要统计分布的变量放入分析项。一次可以放入多个变量,系统会分别输出每个变量的频数表,并在适合时生成对应图表。

如果多个题目的选项标签完全一致,SPSSzero 可输出汇总对比表,用于比较同一组选项在不同题目中的选择比例。若标签不一致,建议先在数据标签中统一选项文字。

结果解读

频数分析结果通常包含频数、百分比、有效百分比和累计百分比。解读顺序建议如下:

  1. 先看样本量,确认有效样本数是否与预期一致。
  2. 再看最高频类别,说明样本主体特征。
  3. 如果是有序变量,再观察累计百分比,判断低分到高分的累积趋势。
  4. 对问卷题项,可结合柱形图或饼图描述主要选择倾向。
指标 含义 解读重点
频数 某类别出现次数 判断样本数量
百分比 该类别占总样本比例 适合描述总体构成
有效百分比 排除缺失后的比例 缺失较多时优先参考
累计百分比 当前类别及之前类别的累计比例 适合有序类别

写作模板

可写为:“对样本基本特征进行频数分析,结果显示,某类别占比最高,为 xx%;其次为 xx%,占比 xx%。整体来看,样本在该变量上的分布较为集中或较为均衡。”

如果用于问卷题项,可写为:“在该题项中,选择 xx 的样本占比最高,说明受访者对该选项的认同程度相对更高。”

常见问题

为什么结果中少了某个选项

如果原始数据中没有该选项对应的观测值,结果表不会凭空生成该类别。需要展示完整选项时,应先在数据中保留标签信息,或在报告中说明该类别样本数为 0。

多选题能不能直接做频数分析

如果多选题已经拆成多个 0/1 变量,可以用多选题分析更直接;如果每个选项是单独变量,普通频数分析只能逐列展示,不会自动合并为多选题汇总。

频数分析和描述分析有什么区别

频数分析主要看分类变量的数量和比例;描述分析主要看定量变量的均值、标准差、中位数、最小值和最大值。

与相近方法区分

目标 推荐方法
看单个分类变量的分布 频数分析
看定量变量的均值和离散程度 描述分析
比较两个分类变量是否有关联 卡方分析
比较不同组的定量变量均值 t 检验或方差分析