案例数据
12 题 × 5 位专家 的"大学生学业拖延量表"评分矩阵,演示 I-CVI / S-CVI/Ave / S-CVI/UA 的完整计算与题项保留/修订/删除决策,结论为整体接近合格、需删除 2 题后重测。
| 文件名 | content_validity.xlsx |
|---|---|
| 样本量 | 12 行(题项)× 5 列(专家) |
| 变量数 | 1 列题项文字 + 5 列专家评分(专家1 ~ 专家5) |
| 数据用途 | 心理测量学:在大样本施测前邀请 5 位心理学/教育学专家评估每个题项与"学业拖延"构念的相关性 |
| 变量说明 | 题项(条目文字);专家1-5(每位专家对该题的相关性评分:1=不相关 / 2=略相关 / 3=较相关 / 4=高度相关)。 |
完整案例
1. 背景
某教育心理学课题组编制了一份 12 题的"大学生学业拖延量表"初稿,计划用于大样本调查前必须先做内容效度评定。研究者邀请 5 位心理学与教育学领域专家,对每个题项与"学业拖延"构念的相关性按 4 点尺度评分(1=不相关 / 2=略相关 / 3=较相关 / 4=高度相关)。本案例要回答三个问题:①每个题项是否被多数专家判定相关(I-CVI)?②整张量表的内容效度是否达标(S-CVI/Ave、S-CVI/UA)?③哪些题项需要保留、修订或删除?
2. 理论与公式
内容效度索引(CVI)通过把专家评分二值化(3-4 = 相关 / 1-2 = 不相关)来量化"专家共识"。题项级(I-CVI)回答"这题该不该保留",量表级(S-CVI)回答"整张表能不能用"。
评分 3 或 4 的专家数 / 总专家数;N=5 时严格标准要求 = 1.00,N>5 时 ≥ 0.78。
所有题项 I-CVI 的算术平均,判断标准 ≥ 0.90。
全部专家都评 3 或 4 的题项数 / 总题项数,判断标准 ≥ 0.80。
3. 数据结构
CVI 数据形态与一般量表分析不同 —— 是 "题项 × 专家" 矩阵,而非 "样本 × 变量"。每行 1 个题项,每列 1 位专家的 1-4 评分:
| 列名 | 角色 | 说明 |
|---|---|---|
| 题项 | 条目文字 | 待评估的量表题目(共 12 个) |
| 专家1 ~ 专家5 | 专家评分(5 列) | 每位专家对该题相关性的 1-4 评分(1 不相关 / 2 略相关 / 3 较相关 / 4 高度相关) |
专家人数建议 3-10 位,本案例使用 N=5(心理学量表常见配置)。N≤5 时 I-CVI 标准严格要求 1.00;N>5 时放宽至 0.78。
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 上传
content_validity.xlsx - 左侧方法栏 → 问卷研究 → 点击 内容效度 CVI
- 把 5 列专家评分(专家1 ~ 专家5)拖入 专家评分列 区域
- 把 题项 列拖入 条目名称列(可选,用于结果表行标签显示)
- 确认评分阈值 = 3(默认;评 3 或 4 视为"专家认可")
- 点击 开始分析
5. 结果表格与结果阅读
结果区按"题项级 → 量表级"两层输出 2 张紧凑三线表:
| 题项 | 专家1 | 专家2 | 专家3 | 专家4 | 专家5 | 评3/4人数 | I-CVI | 判定 |
|---|---|---|---|---|---|---|---|---|
| Q1 我经常推迟开始做作业 | 4 | 4 | 4 | 4 | 4 | 5/5 | 1.000 | ✅ 通过 |
| Q2 我总是临时抱佛脚 | 4 | 4 | 4 | 4 | 3 | 5/5 | 1.000 | ✅ 通过 |
| Q3 面对难题时我会先做别的事 | 4 | 4 | 3 | 4 | 4 | 5/5 | 1.000 | ✅ 通过 |
| Q4 我习惯把学习任务拖到截止日前一晚 | 4 | 4 | 4 | 3 | 4 | 5/5 | 1.000 | ✅ 通过 |
| Q5 我会因为玩手机而推迟学习 | 3 | 4 | 4 | 4 | 3 | 5/5 | 1.000 | ✅ 通过 |
| Q6 即使知道重要我也会推迟开始 | 4 | 4 | 4 | 4 | 3 | 5/5 | 1.000 | ✅ 通过 |
| Q7 我经常无法按计划完成学习任务 | 4 | 3 | 4 | 4 | 3 | 5/5 | 1.000 | ✅ 通过 |
| Q8 我会用整理桌面等琐事逃避学习 | 3 | 4 | 4 | 3 | 4 | 5/5 | 1.000 | ✅ 通过 |
| Q9 我承认自己常因拖延而焦虑 | 3 | 4 | 4 | 2 | 4 | 4/5 | 0.800 | ⚠ 边缘 |
| Q10 我喜欢明日复明日的拖延感 | 4 | 4 | 3 | 3 | 2 | 4/5 | 0.800 | ⚠ 边缘 |
| Q11 我有时会怀疑自己的拖延是完美主义 | 4 | 2 | 3 | 2 | 3 | 3/5 | 0.600 | ❌ 修订 |
| Q12 我每天早上习惯喝一杯咖啡 | 2 | 1 | 1 | 2 | 1 | 0/5 | 0.000 | ❌ 删除 |
| N=5 时 I-CVI 严格通过线 = 1.000(5/5 全部认可);0.78 ≤ I-CVI < 1.0 为"边缘可接受"(需 9-10 位专家时才作为达标线)。 | ||||||||
关键观察:8 题(Q1-Q8)全部 5 位专家一致评 3-4,I-CVI=1.00 完美通过;Q9、Q10 仅 1 位专家给低分,处于"宽松达标"区间;Q11(I-CVI=0.60)专家共识不足,应根据专家书面意见修订表述;Q12(I-CVI=0.00)全员判定"不相关",必须删除。
| 指标 | 计算 | 值 | 判定标准 | 评价 |
|---|---|---|---|---|
| S-CVI/Ave | 12 个 I-CVI 的算术平均 | 0.850 | ≥ 0.90 | ⚠ 未达标 |
| S-CVI/UA | 全员评 3-4 的题项数 / 总题项数 = 8/12 | 0.667 | ≥ 0.80 | ⚠ 未达标 |
| 合格题项数(I-CVI=1.0) | 8 / 12 | 66.7% | — | 核心题项稳定 |
| 边缘题项数(0.78 ≤ I-CVI < 1.0) | 2 / 12 | 16.7% | — | 可保留 |
| 需修订 / 删除题项数(I-CVI < 0.78) | 2 / 12 | 16.7% | — | Q11 修订、Q12 删除 |
| 如果删除 Q11+Q12 两题(剩 10 题),S-CVI/Ave ≈ 0.960;如果仅删除 Q12、保留并彻底修订 Q11 使其 I-CVI 达到 1.00(剩 11 题),S-CVI/Ave ≈ 0.967。两条路径均可通过 0.90 标准。 | ||||
S-CVI/Ave=0.85 略低于 0.90 通过线;S-CVI/UA=0.667 也未达 0.80 —— 原因集中在 Q11、Q12 两题拖低均值。剔除 Q12、改写 Q11 后整张量表预计可顺利达标。
7. 文字分析
对大学生学业拖延量表(12 题)的内容效度评定结果综合分析:
- 题项级(I-CVI):8 题(Q1-Q8)取得 5 位专家一致认可,I-CVI=1.000 完美通过;2 题(Q9、Q10)I-CVI=0.800,仅 1 位专家给低分,属"宽松达标"区间,可保留;2 题(Q11=0.600 / Q12=0.000)未达标。
- 量表级(S-CVI):S-CVI/Ave = 0.850,略低于 0.90 通过线;S-CVI/UA = 0.667,亦低于 0.80。整体内容效度接近但未达标,主因来自 2 道题项。
- 建议处理 1(删除):Q12 "我每天早上习惯喝一杯咖啡" —— 5 位专家全部评 1 或 2,I-CVI=0.000,与"学业拖延"构念明显无关,专家共识高度一致地认为"不相关",直接删除。
- 建议处理 2(修订):Q11 "我有时会怀疑自己的拖延是完美主义" —— I-CVI=0.600,3 位专家认可、2 位不认可。问题在于该题混合了"完美主义动机"和"拖延行为"两个构念,语义模糊。建议改写为单一行为表述(如"我会因为追求完美而推迟提交作业"),或彻底删除。
- 预期改进:剔除 Q12、修订 Q11 后,按其余 10 题重新计算,S-CVI/Ave ≈ 0.960,可顺利通过 0.90 标准。
结论:本量表核心题项(Q1-Q8)测量学业拖延的构念效度良好,专家共识高度一致;外围题项 Q9、Q10 可保留但表述可优化;Q11 需修订、Q12 必须删除。修订后建议进入下一阶段:在 200+ 大学生样本上施测,做项目分析、探索性因子分析(EFA)与结构效度(CFA)检验。
8. 剖析提醒
内容效度只是问卷开发的第一道关,仅基于专家判断和理论覆盖,不能替代后续基于受测者数据的项目分析、信度(Cronbach's α)、结构效度(EFA/CFA)与效标效度检验。专家人数建议不少于 3 位、不超过 10 位;N≤5 时 I-CVI 须 = 1.00 才算严格通过,N=6-10 时放宽至 ≥ 0.78。