傅一航：Python信用评分模型及模型优化实战

Python信用评分模型及模型优化实战

【课程目标】

本课程专注于金融行业的数据建模，包括客户行为预测模型、风控识别与风控预测模型、信用评分模型等，面向数据分析部等专门负责数据分析与建模的人士。

本课程的主要目的是，培养学员的大数据意识和大数据思维，掌握常用的数据分析方法和数据分析模型，并能够用于对客户行为作分析和预测，提升学员的数据分析综合能力。

通过本课程的学习，达到如下目的：

1、掌握数据分析和数据建模的基本过程和步骤

2、掌握数据分析框架的搭建，及常用分析方法

3、掌握业务的影响因素分析常用的方法

4、掌握常用客户行为预测模型，包括逻辑回归、决策树、神经网络等等

5、掌握模型优化的思路及措施，包括特征优化、超参优化、集成优化等

6、掌握金融行业信用评分卡模型，构建信用评分模型

本课程突出数据挖掘的实际应用，结合行业的典型应用特点，从实际问题入手，引出相关知识，进行大数据的收集与处理；探索数据之间的规律及关联性，帮助学员掌握系统的数据预处理方法；介绍常用的模型，训练模型，并优化模型，以达到最优分析结果。

【授课时间】

2天时间，或者根据培训需求选择组合（每天6个小时）

【授课对象】

风险控制部、金融科技部、IT系统部、数据分析部等对数据建模有较高要求的相关领域人员。

【学员要求】

要求熟悉Python语言，熟悉numpy/pandas/sklearn库的使用。

1、每个学员自备一台便携机(必须)

2、环境要求：Python3.10版本以上（建议ananconda+VsCode）

注：讲师可以提供课堂上演示使用数据源及代码

【授课方式】

理论框架 + 落地措施 + 实战训练

【课程大纲】

第一部分：数据分析基础

目的：掌握数据分析基本步骤和过程，学会如何构造数据分析框架

1、数据决策的三个关键环节

Ø 业务数据化：将业务问题转化为数据问题

Ø 数据信息化：提取数据中的业务规律信息

Ø 信息策略化：基于规律形成业务应对策略

2、数据分析的六步曲

Ø 步骤1：明确目的--理清思路

Ø 步骤2：数据收集—理清思路

Ø 步骤3：数据预处理—寻找答案

Ø 步骤4：数据分析--寻找答案

Ø 步骤5：数据展示--观点表达

Ø 步骤6：报表撰写--观点表达

第二部分：搭建业务分析框架

1、数据分析思路来源于业务模型

2、分析框架来源于业务模型

Ø 商业目标（粗粒度）

Ø 分析维度/关键步骤

Ø 业务问题（细粒度）

Ø 涉及数据/关键指标

案例：搭建精准营销的分析框架(6R)

Ø 如何寻找目标客户群

Ø 如何匹配合适的产品

Ø 如何确定推荐的最佳时机

Ø 如何判断合理的价格

Ø ……

案例：搭建用户购买行为分析框架(5W2H)

3、信用评估需要采集的数据

Ø 身份信息、认证数据、

Ø 消费数据、行为数据、

Ø 社交数据、设备数据、

Ø 金融数据、

第三部分：数据建模步骤

1、预测建模六步法

2、选择模型

Ø 基于业务选择恰当的数据模型

Ø 常见模型简介

3、特征工程

Ø 选择对目标变量有显著影响的属性来建模

Ø 降维的两种方式：特征选择、因子合并

4、训练模型

Ø 采用合适的算法对模型进行训练，寻找到最优参数

Ø 常用模型原理

5、评估模型

Ø 进行评估模型的质量，判断模型是否可用

Ø 评估指标、评估方法

6、优化模型

Ø 如果评估结果不理想，则需要对模型进行优化

7、应用模型

Ø 如果评估结果满足要求，则可应用模型于业务场景

第四部分：银行客户信用卡模型

1、信用评分卡模型简介

2、评分卡的关键问题

3、信用评分卡建立过程

Ø 筛选重要属性

Ø 数据集转化

Ø 建立分类模型

Ø 计算属性分值

Ø 确定审批阈值

4、筛选重要属性

Ø 属性分段

Ø 基本概念：WOE、IV

Ø 属性重要性评估

5、数据集转化

Ø 连续属性最优分段

Ø 计算属性取值的WOE

6、建立分类模型

Ø 训练逻辑回归模型

Ø 评估模型

Ø 得到字段系数

7、计算属性分值

Ø 计算补偿与刻度值

Ø 计算各字段得分

Ø 生成评分卡

8、确定审批阈值

Ø 画K-S曲线

Ø 计算K-S值

Ø 获取最优阈值

案例：构建银行小额贷款的用户信用模型

9、信用评分卡的优化方向

Ø 改变属性重要性评估方法

Ø 采用其他更精准的模型，如决策树、神经网络、集成模型等

第五部分：其他分类预测模型

问题：如何评估客户购买产品的可能性？如何预测客户的购买行为？如何提取某类客户的典型特征？如何向客户精准推荐产品或业务？

1、分类模型概述及其应用场景

2、常见分类预测模型

3、逻辑回归（LR）

Ø 逻辑回归的适用场景

Ø 逻辑回归的模型原理

Ø 逻辑回归分类的几何意义

Ø 逻辑回归的种类：二项、多项

Ø 如何解读逻辑回归方程

Ø 逻辑回归算法的实现及优化

² 迭代样本的随机选择

² 变化的学习率

² 逻辑回归+正则项

² 求解算法与惩罚项的互斥有关系

Ø 带分类自变量的逻辑回归分析

Ø 多项逻辑回归/多分类逻辑回归

² ovo, ovr

案例：用sklearn库实现银行贷款违约预测

案例：订阅者用户的典型特征（二元逻辑回归）

案例：通信套餐的用户画像（多元逻辑回归）

4、分类决策树（DT）

问题：如何预测客户行为？如何识别潜在客户？

风控：如何识别欠贷者的特征，以及预测欠贷概率？

客户保有：如何识别流失客户特征，以及预测客户流失概率？

Ø 决策树分类简介

演练：识别银行欠货风险，提取欠贷者的特征

Ø 决策树分类的几何意义

Ø 决策树算法（三个关键问题）

² 如何选择最佳属性来构建节点：熵/基尼系数、信息增益

² 如何分裂变量：多元/二元划分、最优切割点

² 修剪决策树：剪枝原则、预剪枝与后剪枝

Ø 决策树的解读

Ø 决策树的超参优化

案例：商场用户的典型特征提取

案例：客户流失预警与客户挽留

案例：识别拖欠银行货款者的特征，避免不良货款

Ø 多分类决策树

案例：识别不同理财客户的典型特征，实现精准推荐

5、人工神经网络（ANN）

Ø 神经网络的结构

Ø 神经网络基本原理

² 加法器，激活函数

Ø 神经网络分类的几何意义

Ø 神经网络的结构

² 隐藏层数量

² 神经元个数

Ø 神经网络实现算法

案例：评估银行用户拖欠货款的概率

第六部分：模型超参优化

1、模型优化的三大方向

Ø 超参优化

Ø 特征工程

Ø 集成优化

2、超参优化的方法比较

Ø 交叉验证类（RidgeCV/LassoCV/LogisticRegressionCV/…）

Ø 网格搜索GridSearchCV

Ø 随机搜索RandomizedSearchCV

Ø 贝叶斯搜索BayesSearchCV

3、超参调优策略

第七部分：特征工程优化

1、数据清洗技巧

Ø 异常数据的处理方式

Ø 缺失值的填充方式

Ø 不同填充方式对模型效果的影响

2、降维的两大方式：特征选择和因子合并

3、特征选择的模式

Ø 基于变量本身的重要性筛选

Ø Filter式（特征选择与模型分离）

Ø Wrapper式（利用模型结果进行特征选择）

Ø Embedded式（模型自带特征重要性评估）

Ø 确定特征选择的变量个数

案例：客户流失预测的特征选择

4、因子合并（将多数变量合并成少数几个因子）

Ø 因子分析（FactorAnalysis）：原理、适用场景、载荷矩阵

Ø 主成份分析PCA：原理、几何含义、扩展KernelCA/ICA/…

案例：汽车油效预测

5、变量变换

Ø 为何需要变量变换

Ø 因变量变换对模型质量的影响

Ø 特征标准化：作用、不同模型对标准化的要求、不同标准化对模型的影响

Ø 其它变换：正态化、正则化等

6、变量派生：基于业务经验的派生、多项式派生

7、特征工程的管道实现

Ø 管道类Pipeline

Ø 列转换类ColumnTransformer

Ø 特征合并类FeatureUnion

第八部分：集成算法优化

1、模型的优化思路

2、集成算法基本原理

Ø 单独构建多个弱分类器

Ø 多个弱分类器组合投票，决定预测结果

3、集成方法的种类：Bagging、Boosting、Stacking

4、Bagging集成：随机森林RF

Ø 数据/属性重抽样

Ø 决策依据：少数服从多数

5、Boosting集成：AdaBoost模型

Ø 基于误分数据建模

Ø 样本选择权重更新公式

Ø 决策依据：加权投票

6、高级模型介绍与实现

Ø GBDT梯度提升决策树

Ø XGBoost

Ø LightGBM

结束：课程总结与问题答疑。

傅一航：Python信用评分模型及模型优化实战

傅一航老师主页

傅一航老师相关课程

培训照片

公开课

视频

线上课