问卷研究

内容效度

案例数据

12 题 × 5 位专家的"大学生学业拖延量表"评分矩阵，演示 I-CVI / S-CVI/Ave / S-CVI/UA 的完整计算与题项保留/修订/删除决策，结论为整体接近合格、需删除 2 题后重测。

文件名	content_validity.xlsx
样本量	12 行（题项）× 5 列（专家）
变量数	1 列题项文字 + 5 列专家评分（专家1 ~ 专家5）
数据用途	心理测量学：在大样本施测前邀请 5 位心理学/教育学专家评估每个题项与"学业拖延"构念的相关性
变量说明	题项（条目文字）；专家1-5（每位专家对该题的相关性评分：1=不相关 / 2=略相关 / 3=较相关 / 4=高度相关）。

完整案例

1. 背景

某教育心理学课题组编制了一份 12 题的"大学生学业拖延量表"初稿，计划用于大样本调查前必须先做内容效度评定。研究者邀请 5 位心理学与教育学领域专家，对每个题项与"学业拖延"构念的相关性按 4 点尺度评分（1=不相关 / 2=略相关 / 3=较相关 / 4=高度相关）。本案例要回答三个问题：①每个题项是否被多数专家判定相关（I-CVI）？②整张量表的内容效度是否达标（S-CVI/Ave、S-CVI/UA）？③哪些题项需要保留、修订或删除？

2. 理论与公式

内容效度索引（CVI）通过把专家评分二值化（3-4 = 相关 / 1-2 = 不相关）来量化"专家共识"。题项级（I-CVI）回答"这题该不该保留"，量表级（S-CVI）回答"整张表能不能用"。

题项 I-CVI

评分 3 或 4 的专家数 / 总专家数；N=5 时严格标准要求 = 1.00，N>5 时 ≥ 0.78。

平均一致 S-CVI/Ave

所有题项 I-CVI 的算术平均，判断标准 ≥ 0.90。

全体一致 S-CVI/UA

全部专家都评 3 或 4 的题项数 / 总题项数，判断标准 ≥ 0.80。

3. 数据结构

CVI 数据形态与一般量表分析不同 —— 是 "题项 × 专家" 矩阵，而非 "样本 × 变量"。每行 1 个题项，每列 1 位专家的 1-4 评分：

列名	角色	说明
题项	条目文字	待评估的量表题目（共 12 个）
专家1 ~ 专家5	专家评分（5 列）	每位专家对该题相关性的 1-4 评分（1 不相关 / 2 略相关 / 3 较相关 / 4 高度相关）

专家人数建议 3-10 位，本案例使用 N=5（心理学量表常见配置）。N≤5 时 I-CVI 标准严格要求 1.00；N>5 时放宽至 0.78。

4. 操作步骤

登录 SPSSzero，进入 工作台 → 上传 content_validity.xlsx
左侧方法栏 → 问卷研究 → 点击 内容效度 CVI
把 5 列专家评分（专家1 ~ 专家5）拖入 专家评分列 区域
把题项列拖入 条目名称列（可选，用于结果表行标签显示）
确认评分阈值 = 3（默认；评 3 或 4 视为"专家认可"）
点击 开始分析

5. 结果表格与结果阅读

结果区按"题项级 → 量表级"两层输出 2 张紧凑三线表：

表1 各题项 I-CVI 明细（N 专家=5，N 题项=12）

题项	专家1	专家2	专家3	专家4	专家5	评3/4人数	I-CVI	判定
Q1 我经常推迟开始做作业	4	4	4	4	4	5/5	1.000	✅ 通过
Q2 我总是临时抱佛脚	4	4	4	4	3	5/5	1.000	✅ 通过
Q3 面对难题时我会先做别的事	4	4	3	4	4	5/5	1.000	✅ 通过
Q4 我习惯把学习任务拖到截止日前一晚	4	4	4	3	4	5/5	1.000	✅ 通过
Q5 我会因为玩手机而推迟学习	3	4	4	4	3	5/5	1.000	✅ 通过
Q6 即使知道重要我也会推迟开始	4	4	4	4	3	5/5	1.000	✅ 通过
Q7 我经常无法按计划完成学习任务	4	3	4	4	3	5/5	1.000	✅ 通过
Q8 我会用整理桌面等琐事逃避学习	3	4	4	3	4	5/5	1.000	✅ 通过
Q9 我承认自己常因拖延而焦虑	3	4	4	2	4	4/5	0.800	⚠ 边缘
Q10 我喜欢明日复明日的拖延感	4	4	3	3	2	4/5	0.800	⚠ 边缘
Q11 我有时会怀疑自己的拖延是完美主义	4	2	3	2	3	3/5	0.600	❌ 修订
Q12 我每天早上习惯喝一杯咖啡	2	1	1	2	1	0/5	0.000	❌ 删除
N=5 时 I-CVI 严格通过线 = 1.000（5/5 全部认可）；0.78 ≤ I-CVI < 1.0 为"边缘可接受"（需 9-10 位专家时才作为达标线）。

关键观察：8 题（Q1-Q8）全部 5 位专家一致评 3-4，I-CVI=1.00 完美通过；Q9、Q10 仅 1 位专家给低分，处于"宽松达标"区间；Q11（I-CVI=0.60）专家共识不足，应根据专家书面意见修订表述；Q12（I-CVI=0.00）全员判定"不相关"，必须删除。

表2 量表整体内容效度 S-CVI 汇总

指标	计算	值	判定标准	评价
S-CVI/Ave	12 个 I-CVI 的算术平均	0.850	≥ 0.90	⚠ 未达标
S-CVI/UA	全员评 3-4 的题项数 / 总题项数 = 8/12	0.667	≥ 0.80	⚠ 未达标
合格题项数（I-CVI=1.0）	8 / 12	66.7%	—	核心题项稳定
边缘题项数（0.78 ≤ I-CVI < 1.0）	2 / 12	16.7%	—	可保留
需修订 / 删除题项数（I-CVI < 0.78）	2 / 12	16.7%	—	Q11 修订、Q12 删除
如果删除 Q11+Q12 两题（剩 10 题），S-CVI/Ave ≈ 0.960；如果仅删除 Q12、保留并彻底修订 Q11 使其 I-CVI 达到 1.00（剩 11 题），S-CVI/Ave ≈ 0.967。两条路径均可通过 0.90 标准。

S-CVI/Ave=0.85 略低于 0.90 通过线；S-CVI/UA=0.667 也未达 0.80 —— 原因集中在 Q11、Q12 两题拖低均值。剔除 Q12、改写 Q11 后整张量表预计可顺利达标。

7. 文字分析

对大学生学业拖延量表（12 题）的内容效度评定结果综合分析：

题项级（I-CVI）：8 题（Q1-Q8）取得 5 位专家一致认可，I-CVI=1.000 完美通过；2 题（Q9、Q10）I-CVI=0.800，仅 1 位专家给低分，属"宽松达标"区间，可保留；2 题（Q11=0.600 / Q12=0.000）未达标。
量表级（S-CVI）：S-CVI/Ave = 0.850，略低于 0.90 通过线；S-CVI/UA = 0.667，亦低于 0.80。整体内容效度接近但未达标，主因来自 2 道题项。
建议处理 1（删除）：Q12 "我每天早上习惯喝一杯咖啡" —— 5 位专家全部评 1 或 2，I-CVI=0.000，与"学业拖延"构念明显无关，专家共识高度一致地认为"不相关"，直接删除。
建议处理 2（修订）：Q11 "我有时会怀疑自己的拖延是完美主义" —— I-CVI=0.600，3 位专家认可、2 位不认可。问题在于该题混合了"完美主义动机"和"拖延行为"两个构念，语义模糊。建议改写为单一行为表述（如"我会因为追求完美而推迟提交作业"），或彻底删除。
预期改进：剔除 Q12、修订 Q11 后，按其余 10 题重新计算，S-CVI/Ave ≈ 0.960，可顺利通过 0.90 标准。

结论：本量表核心题项（Q1-Q8）测量学业拖延的构念效度良好，专家共识高度一致；外围题项 Q9、Q10 可保留但表述可优化；Q11 需修订、Q12 必须删除。修订后建议进入下一阶段：在 200+ 大学生样本上施测，做项目分析、探索性因子分析（EFA）与结构效度（CFA）检验。

8. 剖析提醒

内容效度只是问卷开发的第一道关，仅基于专家判断和理论覆盖，不能替代后续基于受测者数据的项目分析、信度（Cronbach's α）、结构效度（EFA/CFA）与效标效度检验。专家人数建议不少于 3 位、不超过 10 位；N≤5 时 I-CVI 须 = 1.00 才算严格通过，N=6-10 时放宽至 ≥ 0.78。