进阶方法

线性判别分析

案例数据

300 行信贷客户记录，因变量为 3 类风险等级（优质 / 普通 / 高风险），5 个连续特征覆盖收入、信用、资产与稳定性，演示线性判别分析（LDA）完整流程：判别函数显著性、标准化系数、混淆矩阵与留一交叉验证，结论为资产规模与信用评分是首位判别变量。

下载案例数据查看数据文件

文件名	lda.xlsx
样本量	300 行（优质 100 / 普通 100 / 高风险 100，三类均衡）
变量数	6 列（1 个分组 Y + 5 个特征 X）
数据用途	信贷风控建模：根据客户特征判别其所属风险等级
变量说明	月收入（千元）、信用评分（300-850）、资产规模（万元）、历史逾期次数、工作稳定度（0-10）、风险等级（Y，优质 / 普通 / 高风险）。

完整案例

1. 背景

线性判别分析（Linear Discriminant Analysis, LDA）由 Fisher 于 1936 年提出，属于有监督的分类与降维方法：在已知类别标签的训练样本上，寻找使组间离差与组内离差之比最大的线性方向，从而在低维判别空间中实现最优分类。与 PCA（无监督，只关心总方差最大方向）不同，LDA 显式利用类别信息，得到的判别函数既是分类器又可作为特征解释工具。LDA 在多元正态、各组协方差相等的假设下是贝叶斯最优分类器。本案例使用 300 个信贷客户样本，演示 3 类多分类情形（2 个判别函数）下 LDA 的完整工作流。

2. 理论与公式

LDA 通过最大化 Fisher 判别准则，从原始 p 维特征构造至多 min(g−1, p) 个判别函数；其中 g 为类别数。本案例 g=3, p=5，故有 2 个判别函数。

Fisher 判别准则

B 为组间离差，W 为组内离差；最大化 J 即求 W⁻¹B 的特征向量。

判别函数

每个 w_m 是 W⁻¹B 的特征向量，对应特征值越大判别能力越强。

Wilks Λ 与 χ²

Λ 越小判别函数越显著；自由度 df=(p−m)(g−1−m)。

分类规则

对样本 x，选距离最近（或后验概率最大）的类质心 μ_k。

3. 数据结构

每行 1 位客户，1 列分组 Y + 5 列连续特征 X。Y 为 3 类文本标签，X 已按真实业务量纲（千元、分、万元、次、0-10 评分）记录：

变量名	类型	取值范围	业务含义
风险等级	分组 Y（3 分类）	优质 / 普通 / 高风险	银行内部信贷风险评级
月收入	连续	2.0-50.0 千元	税后家庭月收入
信用评分	连续	300-850	人行征信中心评分
资产规模	连续	0.5-250 万元	名下房产+存款+理财合计
历史逾期次数	计数	0-15	近 24 个月逾期还款次数
工作稳定度	连续	0-10	综合考虑行业、岗位、社保连续性的 0-10 评分

三类样本各 100 例，类别平衡；5 个特征均为连续型，符合 LDA 的多元正态假设要求，无需哑变量化即可直接进入模型。

4. 操作步骤

登录 SPSSzero，进入 工作台 → 上传 lda.xlsx
左侧方法栏 → 进阶方法 → 点击 线性判别分析
把 风险等级 拖入 分组变量 Y（3 类）
把 月收入 / 信用评分 / 资产规模 / 历史逾期次数 / 工作稳定度 共 5 个变量拖入 特征 X
（可选）勾选 Box's M 协方差同质性检验，验证 LDA 假设是否成立
（可选）勾选 留一交叉验证，避免训练集准确率虚高
点击 开始分析，查看判别函数显著性、标准化系数与分类报告

5. 结果表格与结果阅读

下面展示 3 张紧凑三线表：表 1 检验各判别函数显著性，表 2 看每个特征对判别轴的贡献，表 3 给出分类准确率。

表1 判别函数特征值、典型相关与 Wilks Λ 检验（N=300，g=3，p=5）

判别函数	特征值 λ	方差贡献率 %	累计 %	典型相关 r	Wilks Λ	χ²(df)	p
F1（含 F1-F2）	2.689	97.78	97.78	0.854	0.256	402.54 (10)	<0.001***
F2（仅 F2）	0.061	2.22	100.00	0.240	0.942	17.49 (4)	0.002**
* p<0.05 p<0.01 * p<0.001；两个判别函数均显著（p<0.01），但 F1 解释了 97.78% 的组间差异，主导整体判别。F2 虽显著但贡献极小，主要用于区分"普通"与两端类。

典型相关 r=0.854（F1）表明该判别函数与组别有强相关，组间分离度高；r=0.240（F2）较弱，仅微调"普通"类的位置。

表2 标准化判别函数系数（按类内合并标准差标准化）

特征	F1 标准化系数	F2 标准化系数	F1 解释
月收入	−0.381	+0.132	收入越高 F1 越小（偏向优质端）
信用评分	−0.453	−0.504	信用评分越高 F1 越小（偏向优质端）
资产规模	−0.611	+0.770	资产越大 F1 越小（最强负向贡献）
历史逾期次数	+0.482	+0.251	逾期越多 F1 越大（偏向高风险端）
工作稳定度	−0.319	−0.185	稳定度越高 F1 越小（偏向优质端）
三类质心（F1, F2）	优质 (−2.10, +0.15)；普通 (+0.22, −0.35)；高风险 (+1.88, +0.20)
按 \|F1 系数\| 绝对值排序：资产规模 (.611) > 历史逾期次数 (.482) > 信用评分 (.453) > 月收入 (.381) > 工作稳定度 (.319)，五个特征均有实质贡献。

表3 分类混淆矩阵与准确率（训练集 vs 留一交叉验证 LOO-CV）

实际 \ 预测	优质	普通	高风险	合计	训练 sens	LOO sens
优质（n=100）	89 / 87	11 / 13	0 / 0	100	89.0%	87.0%
普通（n=100）	9 / 11	75 / 71	16 / 18	100	75.0%	71.0%
高风险（n=100）	0 / 1	20 / 21	80 / 78	100	80.0%	78.0%
整体准确率	训练集 81.33%（244/300） · 留一 CV 78.67%（236/300）				—	—
每格内"训练 / LOO" 两个数字；CV 比训练仅降 2.66 pp，模型未严重过拟合。"普通"召回最低，常被错分至两端，因其特征分布与两端类的重叠最多。注意：优质与高风险之间几乎不会互相误判（0~1 例），说明 F1 轴成功分开两端。

7. 文字分析

对 5 个候选判别变量在 3 类风险等级上的线性判别分析结果综合分析：

显著判别函数数量：可推导出 min(g−1, p)=2 个判别函数，两个均显著（F1: Λ=0.256，χ²(10)=402.54，p<0.001；F2: Λ=0.942，χ²(4)=17.49，p=0.002）。但 F1 解释了 97.78% 的组间方差，几乎独立完成判别任务，F2 仅作微调。
主要判别变量：按 F1 上的标准化系数绝对值，资产规模（.611）、历史逾期次数（.482）、信用评分（.453） 三者位列前三，是区分风险等级的核心信号；月收入与工作稳定度仍有实质贡献，但权重略低。负向系数（资产 / 信用 / 收入 / 稳定）说明这些变量越大越倾向于"优质"端，正向系数（逾期）则相反。
判别函数业务命名：F1 可命名为"整体偿债能力轴"——从优质质心 (−2.10) 经普通 (+0.22) 到高风险 (+1.88) 单调排列，直接对应客户综合财务实力。F2 可命名为"信用-资产分歧轴"，主要在信用评分（−.504）与资产规模（+.770）之间形成对比，用于区分"高资产-低征信"与"低资产-高征信"的边缘客户。
分类准确率：训练集 81.3%，留一 CV 78.7%（下降 2.66 pp），未发生过拟合。三类 sensitivity 依次为 87.0% / 71.0% / 78.0%（LOO），优质类识别最准确，高风险其次，普通类最易被错分——因其在 F1 轴上夹在两端之间，特征分布与两端类重叠最大。
业务应用建议：①将 F1 得分（≈ 资产 + 信用 + 收入 + 稳定 − 逾期的加权和）作为统一风险评分纳入审批系统，避免传统多指标互相打架；②对 F1 落在 [−0.8, +1.0]（即"普通"质心 ±1 SD）的灰色客户启用人工复核或要求补充材料，因这部分样本误判风险最高；③资产规模虽是首位判别变量，但实际操作中"资产证明"伪造成本低，需结合信用评分二次校验，避免单点失守。

8. 剖析提醒

LDA 的两个核心假设：①各组内特征服从多元正态分布；②各组协方差矩阵相等。本案例 Box's M=128.6，χ²(30)=125.5，p<0.001，拒绝协方差同质假设——大样本下 Box's M 极易显著，需结合实际差异程度判断：若各组协方差差异主要体现在量纲而非结构，LDA 仍可使用；若结构差异显著，应改用二次判别分析（QDA），它允许每组单独估计协方差，灵活性更高但参数量大约是 LDA 的 g 倍，需要更多样本。其它注意事项：①类别极不平衡时（如 90%:5%:5%）整体准确率会被多数类拉高，必须分别报告各类 sensitivity；本案例三类均衡，无需调整；②若特征中存在强偏态（如收入），可先做对数变换再进入 LDA；③LDA 是线性分类器，若组间边界明显非线性（如同心圆），应改用核 LDA 或非线性方法（随机森林、梯度提升、神经网络）；④判别系数的符号方向受类别编码顺序影响，跨样本对比时务必确认基准类一致。