进阶方法

SPSS主成分(pca)分析

案例数据

300 个城市 × 8 项营商环境指标(Likert 1-7 评分),目标是把 8 个相关指标压缩为 2-3 个主成分,给每个城市算出一个综合得分用于排名。

文件名pca.xlsx
样本量300 行(300 个城市)
变量数8 列指标 + 1 列城市编号
数据用途城市营商环境综合评价:用 PCA 把 8 个指标降维并加权合成综合得分
变量说明政务效率 / 金融环境 / 法治水平 / 基础设施 / 创新活力 / 人才供给 / 生活成本(已逆向化)/ 产业配套,全部为 1-7 评分,分值越高越好。

完整案例

1. 背景

某省发改委要发布"全省 300 城营商环境年度榜单",前期已采集到 8 项核心指标的专家打分。这 8 项指标彼此高度相关——政务效率好的城市,金融、法治、基础设施往往也强;创新活力高的地方一般人才供给也充足。如果直接把 8 列加总或简单平均,不仅权重无法服众,还会因指标重复计入夸大某些维度主成分分析(PCA)正是解决这类问题的经典工具:用相关结构自动提取少量正交主成分,把 8 维信息压缩到 2-3 个综合维度,再按各主成分的方差解释率加权得到最终综合得分,既客观赋权避免冗余

2. 理论与公式

PCA 在标准化后的相关矩阵上做特征分解,主成分依次是方差最大、彼此正交的线性组合;先用 KMO + Bartlett 判断是否值得做 PCA,再按特征值>1 决定保留多少主成分。

主成分

主成分是原 p 个标准化指标的线性组合。

方差解释率

第 k 个主成分的特征值 λₖ 占总特征值的比例。

综合得分

按保留主成分的方差解释率加权得到综合得分。

3. 数据结构

每行 1 个城市,8 列为标准化前的 Likert 1-7 评分。生活成本已做逆向化处理(数值越大代表生活成本越低、越宜居),保证 8 个指标方向一致,可直接进入 PCA。

城市编号政务效率金融环境法治水平基础设施创新活力人才供给生活成本逆向化产业配套
C00133445455
C00256665534
C00343444433
C00455454544
C00523235445

PCA 要求所有分析项为连续或近似连续变量(Likert ≥ 5 点视为近似连续);指标方向必须统一("越大越好"或"越小越好"二选一,否则需先做正/逆向化);样本量建议 N ≥ 指标数 × 10,本案例 8 × 37.5 = 300,满足。

4. 操作步骤

  1. 登录 SPSSzero,进入 工作台 → 上传 pca.xlsx
  2. 左侧方法栏 → 进阶方法 → 点击 主成分分析
  3. 8 个指标(政务效率 / 金融环境 / ... / 产业配套)拖入 分析项
  4. 勾选 KMO 与 Bartlett 检验碎石图载荷矩阵成分得分
  5. 主成分数 选"特征值>1 自动确定"(也可手动固定为 3);勾选 Varimax 正交旋转 便于解释
  6. 点击 开始分析,结果区会自动输出特征值表、载荷矩阵和综合得分公式

5. 结果表格与结果阅读

结果区按 PCA 标准流程输出 3 张表:先用 KMO + Bartlett 判断是否值得做 PCA,再看特征值确定主成分数,最后用旋转后载荷矩阵解读各主成分的业务含义。

表1 KMO 与 Bartlett 球形检验(N=300)
检验指标统计量判断标准本案例
KMO 取样适切性量数0.741≥ 0.9 极佳 / ≥ 0.8 良好 / ≥ 0.7 适合 / < 0.6 不宜适合 ✅
Bartlett 球形检验 χ²2197.246p < 0.05 表示变量间相关显著,适合做 PCA显著 ✅
         df28
         p< 0.001
KMO=0.741 + Bartlett p<0.001 同时通过 → 8 个指标之间存在足够的公共方差,适合做 PCA 降维

KMO 衡量"偏相关相对于简单相关的比例"——值越大说明变量间共享方差越多;Bartlett 检验变量两两独立的零假设,p<0.05 拒绝独立、可继续 PCA。

表2 特征值与方差解释(相关矩阵分解)
主成分初始特征值旋转后载荷平方和
特征值方差%累计%SS 载荷方差%累计%
PC13.64045.50%45.50%3.49843.73%43.73%
PC22.15626.95%72.45%1.97324.67%68.40%
PC31.50418.80%91.24%1.82822.85%91.24%
PC40.1742.17%93.42%
PC5-PC8< 0.16各 < 2.0%...
特征值 > 1 的主成分共 3 个(3.640 / 2.156 / 1.504),累计解释 91.24%(远超 80% 阈值);碎石图在 PC3 与 PC4 间出现陡崖 → 保留 3 个主成分

3 个判据共同支持 3 主成分方案:①Kaiser 准则(λ>1);②累计方差解释 91.24%;③碎石图拐点(PC3→PC4 特征值从 1.504 跌到 0.174)。旋转后三主成分方差被略微均衡化(43.73 / 24.67 / 22.85%),有利于业务命名。

表3 Varimax 旋转后载荷矩阵与共同度(载荷绝对值 ≥ 0.5 加粗)
指标PC1PC2PC3共同度 h²
政务效率0.9530.042-0.0700.916
金融环境0.8960.293-0.0640.893
法治水平0.944-0.0100.0780.898
基础设施0.929-0.0100.1260.879
创新活力-0.0230.9550.1190.927
人才供给0.1770.9470.0740.933
生活成本逆向化0.013-0.0420.9650.933
产业配套0.0300.2730.9200.922
每个指标在主导成分上的载荷均 ≥ 0.90,跨载荷均 < 0.30;共同度 0.879-0.933 全部 > 0.85 → 8 个指标都被 3 个主成分高质量解释

主成分命名依据:PC1(政务效率 / 金融环境 / 法治水平 / 基础设施 全部 >0.89)→ 政商硬环境PC2(创新活力 / 人才供给 均 >0.94)→ 创新人才PC3(生活成本逆向化 / 产业配套 均 >0.92)→ 生活与配套。综合得分公式:Score = 0.4793·PC1 + 0.2703·PC2 + 0.2504·PC3(权重 = 各主成分旋转后方差% / 累计 91.24%)。

7. 文字分析

对 300 个城市 8 项营商环境指标的 PCA 综合评价结果如下:

  • 取样适切性:KMO=0.741("适合"区间)、Bartlett χ²=2197.246,p<0.001 → 8 个指标存在显著公共方差,适合用 PCA 降维
  • 主成分数:特征值 > 1 的主成分共 3 个(3.640 / 2.156 / 1.504),累计解释方差 91.24%,碎石图在 PC3-PC4 间陡崖 → 保留 3 个主成分
  • 成分命名:PC1(政务效率 + 金融环境 + 法治水平 + 基础设施,载荷 0.896-0.953)→ 政商硬环境;PC2(创新活力 + 人才供给,载荷 0.947-0.955)→ 创新人才;PC3(生活成本逆向化 + 产业配套,载荷 0.920-0.965)→ 生活与配套
  • 综合得分公式:Score = 0.4793·PC1 + 0.2703·PC2 + 0.2504·PC3(权重为 3 个主成分旋转后方差解释率归一化后的结果)。PC1 权重最大,意味着政商硬环境是城市营商最重要的维度;
  • 排名应用:得分前列的城市(如 C133、C225、C042,综合得分 1.63-1.69)三维表现均衡且偏强;末位城市(如 C237、C242,综合得分 -1.56 至 -1.86)在政商硬环境与创新人才两维同时偏弱,建议优先补政商硬环境短板

结论:PCA 把 8 维原始评价压缩到 3 个相互独立、含义清晰的综合维度,仍保留 91.24% 的原始信息,可作为"政商硬环境-创新人才-生活与配套"三维综合榜单对外发布。若后续要研究综合得分与 GDP、招商引资额等结果指标的关系,可直接把 PC1/PC2/PC3 作为自变量代入回归分析。

8. 剖析提醒

PCA 是数据驱动的降维方法,主成分的业务命名必须结合载荷大的指标人工解读,不能只看数字;指标方向必须事先统一(本案例对生活成本做了逆向化);样本量过小(N < 指标数 × 5)或 KMO < 0.6 时应放弃 PCA,改用专家赋权或 AHP。