问卷研究

内容效度

案例数据

12 题 × 5 位专家 的"大学生学业拖延量表"评分矩阵,演示 I-CVI / S-CVI/Ave / S-CVI/UA 的完整计算与题项保留/修订/删除决策,结论为整体接近合格、需删除 2 题后重测

文件名content_validity.xlsx
样本量12 行(题项)× 5 列(专家)
变量数1 列题项文字 + 5 列专家评分(专家1 ~ 专家5)
数据用途心理测量学:在大样本施测前邀请 5 位心理学/教育学专家评估每个题项与"学业拖延"构念的相关性
变量说明题项(条目文字);专家1-5(每位专家对该题的相关性评分:1=不相关 / 2=略相关 / 3=较相关 / 4=高度相关)。

完整案例

1. 背景

某教育心理学课题组编制了一份 12 题的"大学生学业拖延量表"初稿,计划用于大样本调查前必须先做内容效度评定。研究者邀请 5 位心理学与教育学领域专家,对每个题项与"学业拖延"构念的相关性按 4 点尺度评分(1=不相关 / 2=略相关 / 3=较相关 / 4=高度相关)。本案例要回答三个问题:①每个题项是否被多数专家判定相关(I-CVI)?②整张量表的内容效度是否达标(S-CVI/Ave、S-CVI/UA)?③哪些题项需要保留、修订或删除

2. 理论与公式

内容效度索引(CVI)通过把专家评分二值化(3-4 = 相关 / 1-2 = 不相关)来量化"专家共识"。题项级(I-CVI)回答"这题该不该保留",量表级(S-CVI)回答"整张表能不能用"。

题项 I-CVI

评分 3 或 4 的专家数 / 总专家数;N=5 时严格标准要求 = 1.00,N>5 时 ≥ 0.78。

平均一致 S-CVI/Ave

所有题项 I-CVI 的算术平均,判断标准 ≥ 0.90。

全体一致 S-CVI/UA

全部专家都评 3 或 4 的题项数 / 总题项数,判断标准 ≥ 0.80。

3. 数据结构

CVI 数据形态与一般量表分析不同 —— 是 "题项 × 专家" 矩阵,而非 "样本 × 变量"。每行 1 个题项,每列 1 位专家的 1-4 评分:

列名角色说明
题项条目文字待评估的量表题目(共 12 个)
专家1 ~ 专家5专家评分(5 列)每位专家对该题相关性的 1-4 评分(1 不相关 / 2 略相关 / 3 较相关 / 4 高度相关)

专家人数建议 3-10 位,本案例使用 N=5(心理学量表常见配置)。N≤5 时 I-CVI 标准严格要求 1.00;N>5 时放宽至 0.78。

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 上传 content_validity.xlsx
  2. 左侧方法栏 → 问卷研究 → 点击 内容效度 CVI
  3. 把 5 列专家评分(专家1 ~ 专家5)拖入 专家评分列 区域
  4. 题项 列拖入 条目名称列(可选,用于结果表行标签显示)
  5. 确认评分阈值 = 3(默认;评 3 或 4 视为"专家认可")
  6. 点击 开始分析

5. 结果表格与结果阅读

结果区按"题项级 → 量表级"两层输出 2 张紧凑三线表:

表1 各题项 I-CVI 明细(N 专家=5,N 题项=12)
题项专家1专家2专家3专家4专家5评3/4人数I-CVI判定
Q1 我经常推迟开始做作业444445/51.000✅ 通过
Q2 我总是临时抱佛脚444435/51.000✅ 通过
Q3 面对难题时我会先做别的事443445/51.000✅ 通过
Q4 我习惯把学习任务拖到截止日前一晚444345/51.000✅ 通过
Q5 我会因为玩手机而推迟学习344435/51.000✅ 通过
Q6 即使知道重要我也会推迟开始444435/51.000✅ 通过
Q7 我经常无法按计划完成学习任务434435/51.000✅ 通过
Q8 我会用整理桌面等琐事逃避学习344345/51.000✅ 通过
Q9 我承认自己常因拖延而焦虑344244/50.800⚠ 边缘
Q10 我喜欢明日复明日的拖延感443324/50.800⚠ 边缘
Q11 我有时会怀疑自己的拖延是完美主义423233/50.600❌ 修订
Q12 我每天早上习惯喝一杯咖啡211210/50.000❌ 删除
N=5 时 I-CVI 严格通过线 = 1.000(5/5 全部认可);0.78 ≤ I-CVI < 1.0 为"边缘可接受"(需 9-10 位专家时才作为达标线)。

关键观察:8 题(Q1-Q8)全部 5 位专家一致评 3-4,I-CVI=1.00 完美通过;Q9、Q10 仅 1 位专家给低分,处于"宽松达标"区间;Q11(I-CVI=0.60)专家共识不足,应根据专家书面意见修订表述Q12(I-CVI=0.00)全员判定"不相关",必须删除

表2 量表整体内容效度 S-CVI 汇总
指标计算判定标准评价
S-CVI/Ave12 个 I-CVI 的算术平均0.850≥ 0.90⚠ 未达标
S-CVI/UA全员评 3-4 的题项数 / 总题项数 = 8/120.667≥ 0.80⚠ 未达标
合格题项数(I-CVI=1.0)8 / 1266.7%核心题项稳定
边缘题项数(0.78 ≤ I-CVI < 1.0)2 / 1216.7%可保留
需修订 / 删除题项数(I-CVI < 0.78)2 / 1216.7%Q11 修订、Q12 删除
如果删除 Q11+Q12 两题(剩 10 题),S-CVI/Ave ≈ 0.960;如果仅删除 Q12、保留并彻底修订 Q11 使其 I-CVI 达到 1.00(剩 11 题),S-CVI/Ave ≈ 0.967。两条路径均可通过 0.90 标准。

S-CVI/Ave=0.85 略低于 0.90 通过线;S-CVI/UA=0.667 也未达 0.80 —— 原因集中在 Q11、Q12 两题拖低均值。剔除 Q12、改写 Q11 后整张量表预计可顺利达标。

7. 文字分析

对大学生学业拖延量表(12 题)的内容效度评定结果综合分析:

  • 题项级(I-CVI):8 题(Q1-Q8)取得 5 位专家一致认可,I-CVI=1.000 完美通过;2 题(Q9、Q10)I-CVI=0.800,仅 1 位专家给低分,属"宽松达标"区间,可保留;2 题(Q11=0.600 / Q12=0.000)未达标。
  • 量表级(S-CVI):S-CVI/Ave = 0.850,略低于 0.90 通过线;S-CVI/UA = 0.667,亦低于 0.80。整体内容效度接近但未达标,主因来自 2 道题项。
  • 建议处理 1(删除)Q12 "我每天早上习惯喝一杯咖啡" —— 5 位专家全部评 1 或 2,I-CVI=0.000,与"学业拖延"构念明显无关,专家共识高度一致地认为"不相关",直接删除
  • 建议处理 2(修订)Q11 "我有时会怀疑自己的拖延是完美主义" —— I-CVI=0.600,3 位专家认可、2 位不认可。问题在于该题混合了"完美主义动机"和"拖延行为"两个构念,语义模糊。建议改写为单一行为表述(如"我会因为追求完美而推迟提交作业"),或彻底删除。
  • 预期改进:剔除 Q12、修订 Q11 后,按其余 10 题重新计算,S-CVI/Ave ≈ 0.960,可顺利通过 0.90 标准。

结论:本量表核心题项(Q1-Q8)测量学业拖延的构念效度良好,专家共识高度一致;外围题项 Q9、Q10 可保留但表述可优化;Q11 需修订、Q12 必须删除。修订后建议进入下一阶段:在 200+ 大学生样本上施测,做项目分析、探索性因子分析(EFA)与结构效度(CFA)检验。

8. 剖析提醒

内容效度只是问卷开发的第一道关,仅基于专家判断和理论覆盖,不能替代后续基于受测者数据的项目分析、信度(Cronbach's α)、结构效度(EFA/CFA)与效标效度检验。专家人数建议不少于 3 位、不超过 10 位;N≤5 时 I-CVI 须 = 1.00 才算严格通过,N=6-10 时放宽至 ≥ 0.78。