让天下没有难找的讲师,职业讲师,商业讲师,培训师,讲师库-北京昭智教育

傅一航:Python数据建模(分类模型篇)

[复制链接]
Python数据建模(分类模型篇)
【课程目标】
本课程为高级课程《Python数据建模》的第三篇:分类篇
本课程主要讲解如何利用Python进行分类数据建模。

通过本课程的学习,达到如下目的:
1、掌握数据建模的标准流程。
2、掌握各种分类预测模型的原理,以及算法实现。
3、掌握各种分类模型类的重要参数,以及应用。
4、掌握模型的评估指标、评估方法,以及过拟合评估。
5、掌握模型优化的基本方法,学会超参优化。
6、掌握集成优化思想,掌握高级的分类模型。
【授课时间】
2-5天时间
(要根据学员的实际情况调整重点内容及时间)
【授课对象】
业务支持部、IT系统部、大数据系统开发部、大数据分析中心、网络运维部等相关技术人员。
【学员要求】
1、每个学员自备一台便携机(必须)。
2、便携机中事先安装好Python 3.9版本及以上。
3、安装好Numpy,Pandas,statsmodels,sklearn,scipy等常用库。
注:讲师现场提供分析的数据源。
【授课方式】
建模流程+ 案例演练 + 开发实践 + 可视化呈现
采用互动式教学,围绕业务问题,展开数据分析过程,全过程演练操作,让学员在分析、分享、讲授、总结、自我实践过程中获得能力提升。
【课程大纲】
第一部分:  预测建模基础
1、 数据建模六步法
Ø  选择模型:基于业务选择恰当的数据模型
Ø  属性筛选:选择对目标变量有显著影响的属性来建模
Ø  训练模型:采用合适的算法,寻找到最合适的模型参数
Ø  评估模型:进行评估模型的质量,判断模型是否可用
Ø  优化模型:如果评估结果不理想,则需要对模型进行优化
Ø  应用模型:如果评估结果满足要求,则可应用模型于业务场景
2、 数据挖掘常用的模型
Ø  数值预测模型:回归预测、时序预测等
Ø  分类预测模型:逻辑回归、决策树、神经网络、支持向量机等
Ø  市场细分:聚类、RFM、PCA等
Ø  产品推荐:关联分析、协同过滤等
Ø  产品优化:回归、随机效用等
Ø  产品定价:定价策略/最优定价等
3、 属性筛选/特征选择/变量降维
Ø  基于变量本身特征
Ø  基于相关性判断
Ø  因子合并(PCA等)
Ø  IV值筛选(评分卡使用)
Ø  基于信息增益判断(决策树使用)
4、 训练模型及实现算法
Ø  模型原理
Ø  算法实现
5、 模型评估
Ø  评估指标
Ø  评估方法
Ø  过拟合评估
6、 模型优化
Ø  优化模型:选择新模型/修改模型
Ø  优化数据:新增显著自变量
Ø  优化公式:采用新的计算公式
7、 模型应用
Ø  模型解读
Ø  模型部署
Ø  模型应用
8、 好模型是优化出来的
第二部分:  分类模型评估
1、 三个方面评估:指标、方法、过拟合
2、 两大矩阵
Ø  混淆矩阵
Ø  代价矩阵
3、 六大指标
Ø  正确率Accuracy
Ø  查准率Precision
Ø  查全率Recall
Ø  特异度Specify
Ø     F度量值(file:///C:/Users/yzl05/AppData/Local/Temp/msohtmlclip1/01/clip_image004.png/file:///C:/Users/yzl05/AppData/Local/Temp/msohtmlclip1/01/clip_image006.png)
Ø  提升指标lift
4、 三条曲线
Ø  ROC曲线和AUC
Ø  PR曲线和BEP
Ø  KS曲线和KS值
5、 多分类模型评估指标
Ø  宏指标:macro_P, macro_R
Ø  宏指标:micro_P, micro_R
6、 模型评估方法
Ø  原始评估法
Ø  留出法(Hold-Out)
Ø  交叉验证法(k-fold cross validation)
Ø  自助采样法(Bootstrapping)
7、 其它评估
Ø  过拟合评估:学习曲线
Ø  残差评估:白噪声评估
第三部分:  逻辑回归
问题:如何评估客户购买产品的可能性?如何预测客户行为?
如何预测客户流失?银行如何实现欠贷风险控制?
1、逻辑回归模型简介
2、逻辑回归的种类
Ø  二项逻辑回归
Ø  多项逻辑回归
3、逻辑回归方程解读
4、带分类自变量的逻辑回归
5、逻辑回归的算法实现及优化
Ø  迭代样本的随机选择
Ø  变化的学习率
6、逻辑回归+正则项
7、求解算法与惩罚项的互斥关系
8、多元逻辑回归处理
Ø  ovo
Ø  ovr
9、逻辑回归建模过程
案例:用sklearn库实现银行贷款违约预测
案例:订阅者用户的典型特征(二元逻辑回归)
案例:通信套餐的用户画像(多元逻辑回归)
第四部分:  决策树
1、分类决策树简介
演练:识别银行欠货风险,提取欠贷者的特征
2、决策树的三个关键问题
Ø  最优属性选择
²  熵、基尼系数
²  信息增益、信息增益率
Ø  属性最佳划分
²  多元划分与二元划分
²  连续变量最优划分
Ø  决策树修剪
²  剪枝原则
²  预剪枝与后剪枝
3、构建决策树的算法
Ø  C5.0、CHAID、CART、QUEST
Ø  各种算法的比较
4、决策树的超参优化
5、决策树的解读
6、决策树建模过程
案例:商场酸奶购买用户特征提取
案例:客户流失预警与客户挽留
案例:识别拖欠银行货款者的特征,避免不良货款
案例:识别电信诈骗者嘴脸,让通信更安全
案例:电力窃漏用户自动识别
第五部分:  人工神经网络
1、神经网络简介(ANN)
2、神经元基本原理
Ø  加法器
Ø  激活函数
3、神经网络的结构
Ø  隐藏层数量
Ø  神经元个数
4、神经网络的建立步骤
5、神经网络的关键问题
6、BP算法实现
7、MLP多层神经网络
案例:评估银行用户拖欠货款的概率
案例:神经网络预测产品销量
第六部分:  支持向量机(SVM
1、支持向量机简介
Ø  适用场景
2、支持向量机原理
Ø  支持向量
Ø  最大边界超平面
3、线性不可分处理
Ø  松弛系数
4、非线性SVM分类
5、常用核函数
Ø  线性核函数
Ø  多项式核
Ø  高斯RBF核
Ø  核函数的选择原则
第七部分:  模型集成优化篇
1、模型的优化思想
2、集成模型的框架
Ø  Bagging
Ø  Boosting
Ø  Stacking
3、集成算法的关键过程
Ø  弱分类器如何构建
Ø  组合策略:多个弱学习器如何形成强学习器
4、Bagging集成算法
Ø  数据/属性重抽样
Ø  决策依据:少数服从多数
Ø  随机森林RandomForest
5、Boosting集成算法
Ø  基于误分数据建模
Ø  样本选择权重更新
Ø  决策依据:加权投票
Ø  AdaBoost模型
6、GBDT模型
7、XGBoost模型
8、LightGBM模型
第八部分:  案例实战
1、客户流失预测和客户挽留模型
2、银行欠贷风险预测模型
结束:课程总结与问题答疑。

傅一航老师的相关内容

使用道具

管理技能讲师|企业战略讲师|网络媒体讲师|营销服务讲师|职场技能讲师|人力资源讲师|党政爱国讲师|财税金融讲师|生产管理讲师|其他类讲师|内训课程|讲师列表|手机版|

讲师库 | 讲师列表 | 账号登录 | 立即注册 | 网站地图 | 京公网安备11010702002698 | 京ICP备2024062795号-1

返回顶部 返回列表