案例数据
300 行信贷客户记录,因变量为 3 类风险等级(优质 / 普通 / 高风险),5 个连续特征覆盖收入、信用、资产与稳定性,演示线性判别分析(LDA)完整流程:判别函数显著性、标准化系数、混淆矩阵与留一交叉验证,结论为资产规模与信用评分是首位判别变量。
| 文件名 | lda.xlsx |
|---|---|
| 样本量 | 300 行(优质 100 / 普通 100 / 高风险 100,三类均衡) |
| 变量数 | 6 列(1 个分组 Y + 5 个特征 X) |
| 数据用途 | 信贷风控建模:根据客户特征判别其所属风险等级 |
| 变量说明 | 月收入(千元)、信用评分(300-850)、资产规模(万元)、历史逾期次数、工作稳定度(0-10)、风险等级(Y,优质 / 普通 / 高风险)。 |
完整案例
1. 背景
线性判别分析(Linear Discriminant Analysis, LDA)由 Fisher 于 1936 年提出,属于有监督的分类与降维方法:在已知类别标签的训练样本上,寻找使组间离差与组内离差之比最大的线性方向,从而在低维判别空间中实现最优分类。与 PCA(无监督,只关心总方差最大方向)不同,LDA 显式利用类别信息,得到的判别函数既是分类器又可作为特征解释工具。LDA 在多元正态、各组协方差相等的假设下是贝叶斯最优分类器。本案例使用 300 个信贷客户样本,演示 3 类多分类情形(2 个判别函数)下 LDA 的完整工作流。
2. 理论与公式
LDA 通过最大化 Fisher 判别准则,从原始 p 维特征构造至多 min(g−1, p) 个判别函数;其中 g 为类别数。本案例 g=3, p=5,故有 2 个判别函数。
B 为组间离差,W 为组内离差;最大化 J 即求 W−1B 的特征向量。
每个 wm 是 W−1B 的特征向量,对应特征值越大判别能力越强。
Λ 越小判别函数越显著;自由度 df=(p−m)(g−1−m)。
对样本 x,选距离最近(或后验概率最大)的类质心 μk。
3. 数据结构
每行 1 位客户,1 列分组 Y + 5 列连续特征 X。Y 为 3 类文本标签,X 已按真实业务量纲(千元、分、万元、次、0-10 评分)记录:
| 变量名 | 类型 | 取值范围 | 业务含义 |
|---|---|---|---|
| 风险等级 | 分组 Y(3 分类) | 优质 / 普通 / 高风险 | 银行内部信贷风险评级 |
| 月收入 | 连续 | 2.0-50.0 千元 | 税后家庭月收入 |
| 信用评分 | 连续 | 300-850 | 人行征信中心评分 |
| 资产规模 | 连续 | 0.5-250 万元 | 名下房产+存款+理财合计 |
| 历史逾期次数 | 计数 | 0-15 | 近 24 个月逾期还款次数 |
| 工作稳定度 | 连续 | 0-10 | 综合考虑行业、岗位、社保连续性的 0-10 评分 |
三类样本各 100 例,类别平衡;5 个特征均为连续型,符合 LDA 的多元正态假设要求,无需哑变量化即可直接进入模型。
4. 操作步骤
- 登录 SPSSzero,进入 工作台 → 上传
lda.xlsx - 左侧方法栏 → 进阶方法 → 点击 线性判别分析
- 把 风险等级 拖入 分组变量 Y(3 类)
- 把 月收入 / 信用评分 / 资产规模 / 历史逾期次数 / 工作稳定度 共 5 个变量拖入 特征 X
- (可选)勾选 Box's M 协方差同质性检验,验证 LDA 假设是否成立
- (可选)勾选 留一交叉验证,避免训练集准确率虚高
- 点击 开始分析,查看判别函数显著性、标准化系数与分类报告
5. 结果表格与结果阅读
下面展示 3 张紧凑三线表:表 1 检验各判别函数显著性,表 2 看每个特征对判别轴的贡献,表 3 给出分类准确率。
| 判别函数 | 特征值 λ | 方差贡献率 % | 累计 % | 典型相关 r | Wilks Λ | χ²(df) | p |
|---|---|---|---|---|---|---|---|
| F1(含 F1-F2) | 2.689 | 97.78 | 97.78 | 0.854 | 0.256 | 402.54 (10) | <0.001*** |
| F2(仅 F2) | 0.061 | 2.22 | 100.00 | 0.240 | 0.942 | 17.49 (4) | 0.002** |
| * p<0.05 ** p<0.01 *** p<0.001;两个判别函数均显著(p<0.01),但 F1 解释了 97.78% 的组间差异,主导整体判别。F2 虽显著但贡献极小,主要用于区分"普通"与两端类。 | |||||||
典型相关 r=0.854(F1)表明该判别函数与组别有强相关,组间分离度高;r=0.240(F2)较弱,仅微调"普通"类的位置。
| 特征 | F1 标准化系数 | F2 标准化系数 | F1 解释 |
|---|---|---|---|
| 月收入 | −0.381 | +0.132 | 收入越高 F1 越小(偏向优质端) |
| 信用评分 | −0.453 | −0.504 | 信用评分越高 F1 越小(偏向优质端) |
| 资产规模 | −0.611 | +0.770 | 资产越大 F1 越小(最强负向贡献) |
| 历史逾期次数 | +0.482 | +0.251 | 逾期越多 F1 越大(偏向高风险端) |
| 工作稳定度 | −0.319 | −0.185 | 稳定度越高 F1 越小(偏向优质端) |
| 三类质心(F1, F2) | 优质 (−2.10, +0.15);普通 (+0.22, −0.35);高风险 (+1.88, +0.20) | ||
| 按 |F1 系数| 绝对值排序:资产规模 (.611) > 历史逾期次数 (.482) > 信用评分 (.453) > 月收入 (.381) > 工作稳定度 (.319),五个特征均有实质贡献。 | |||
| 实际 \ 预测 | 优质 | 普通 | 高风险 | 合计 | 训练 sens | LOO sens |
|---|---|---|---|---|---|---|
| 优质(n=100) | 89 / 87 | 11 / 13 | 0 / 0 | 100 | 89.0% | 87.0% |
| 普通(n=100) | 9 / 11 | 75 / 71 | 16 / 18 | 100 | 75.0% | 71.0% |
| 高风险(n=100) | 0 / 1 | 20 / 21 | 80 / 78 | 100 | 80.0% | 78.0% |
| 整体准确率 | 训练集 81.33%(244/300) · 留一 CV 78.67%(236/300) | — | — | |||
| 每格内"训练 / LOO" 两个数字;CV 比训练仅降 2.66 pp,模型未严重过拟合。"普通"召回最低,常被错分至两端,因其特征分布与两端类的重叠最多。注意:优质与高风险之间几乎不会互相误判(0~1 例),说明 F1 轴成功分开两端。 | ||||||
7. 文字分析
对 5 个候选判别变量在 3 类风险等级上的线性判别分析结果综合分析:
- 显著判别函数数量:可推导出 min(g−1, p)=2 个判别函数,两个均显著(F1: Λ=0.256,χ²(10)=402.54,p<0.001;F2: Λ=0.942,χ²(4)=17.49,p=0.002)。但 F1 解释了 97.78% 的组间方差,几乎独立完成判别任务,F2 仅作微调。
- 主要判别变量:按 F1 上的标准化系数绝对值,资产规模(.611)、历史逾期次数(.482)、信用评分(.453) 三者位列前三,是区分风险等级的核心信号;月收入与工作稳定度仍有实质贡献,但权重略低。负向系数(资产 / 信用 / 收入 / 稳定)说明这些变量越大越倾向于"优质"端,正向系数(逾期)则相反。
- 判别函数业务命名:F1 可命名为"整体偿债能力轴"——从优质质心 (−2.10) 经普通 (+0.22) 到高风险 (+1.88) 单调排列,直接对应客户综合财务实力。F2 可命名为"信用-资产分歧轴",主要在信用评分(−.504)与资产规模(+.770)之间形成对比,用于区分"高资产-低征信"与"低资产-高征信"的边缘客户。
- 分类准确率:训练集 81.3%,留一 CV 78.7%(下降 2.66 pp),未发生过拟合。三类 sensitivity 依次为 87.0% / 71.0% / 78.0%(LOO),优质类识别最准确,高风险其次,普通类最易被错分——因其在 F1 轴上夹在两端之间,特征分布与两端类重叠最大。
- 业务应用建议:①将 F1 得分(≈ 资产 + 信用 + 收入 + 稳定 − 逾期 的加权和)作为统一风险评分纳入审批系统,避免传统多指标互相打架;②对 F1 落在 [−0.8, +1.0](即"普通"质心 ±1 SD)的灰色客户启用人工复核或要求补充材料,因这部分样本误判风险最高;③资产规模虽是首位判别变量,但实际操作中"资产证明"伪造成本低,需结合信用评分二次校验,避免单点失守。
8. 剖析提醒
LDA 的两个核心假设:①各组内特征服从多元正态分布;②各组协方差矩阵相等。本案例 Box's M=128.6,χ²(30)=125.5,p<0.001,拒绝协方差同质假设——大样本下 Box's M 极易显著,需结合实际差异程度判断:若各组协方差差异主要体现在量纲而非结构,LDA 仍可使用;若结构差异显著,应改用二次判别分析(QDA),它允许每组单独估计协方差,灵活性更高但参数量大约是 LDA 的 g 倍,需要更多样本。其它注意事项:①类别极不平衡时(如 90%:5%:5%)整体准确率会被多数类拉高,必须分别报告各类 sensitivity;本案例三类均衡,无需调整;②若特征中存在强偏态(如收入),可先做对数变换再进入 LDA;③LDA 是线性分类器,若组间边界明显非线性(如同心圆),应改用核 LDA 或非线性方法(随机森林、梯度提升、神经网络);④判别系数的符号方向受类别编码顺序影响,跨样本对比时务必确认基准类一致。