尹传亮：Python课程

Python课程

一、数据挖掘导论

数据挖掘的基本任务与步骤：目标、数据探索、数据预处理、建模、模型评价

有监督学习

无监督学习和半监督学习算法模型

Sklean 数据挖掘和机器学习算法库介绍

大数据建模常见问题

问题引出：客户行为分析-用户用电异常的识别

二、Python 编程快速入门

Python 编程环境与语法快速入门

基础数据结构：字符串处理及应用

数据结构：列表、元组、集合、字典

Python 控制流：IF 与 while、for 循环

函数与模块定义

Python 文件读写

Python 面向对象编程思想

Python 异常处理

实验：

—— 读写 CSV 文件

—— 处理 Excel 文件

三、Python 数据分析进阶

Python 并行编程：多线程与多进程实现

—— 进程与线程概念

—— 进程同步机制

—— 多进程实现

—— 多线程实现

轻松访问数据库

—— 连接访问 Sqlite

—— 操纵 MySQL

——Python 的对象关系映射模型

实验：

—— 多进程读取超大文件

——SQLite 读写练习南京•杭州•上海

五、Scikit-learn 数据预处理实践

数据统计量:期望/方差/偏度/峰度

协方差和相关系数、方差与标准差

数据描述：集中趋势、离散程度、分位数

数据可视化：直方图、盒图、散点图

数据预处理基本方法

数据归一化方法

对数据进行降维，主成分分析 PCA

实验：

—— 利用随机森林做特征筛选

—— 数据预处理：归一化、缺失值处理

—— 降维 PCA 实现

—— 找出较好的特征组合：PCA 与 LDA 效果对比

—— 随机森林评估特征重要性

四、Python 数据分析进阶

l 高性能矩阵计算工具 Numpy：

——Numpy 数组与元素索引、

—— 矩阵计算、

—— 通用函数、计算统计量

l 以表格处理数据——高级数据分析包

——Pandas：数据框架 Dataframe

—— 快速索引数据

—— 常用函数

—— 快速可视化分析

—— 汇总与统计

实验：基于Pandas 的数据预处理

五、数据可视化分析

l

Matplotlib 绘图库介绍

快速绘图

常见绘图函数：散点图、柱状图、盒图

图片处理

三维绘图演示

Pandas 快速绘图南京•杭州•上海

实验：

—— 绘制常见统计图

—— 利用 Pandas 获取数据并绘图

七、Scikit-Learn 数据挖掘实践 1

数值预测：Logistic/Softmax 回归/随机森林

梯度下降算法：BGD 与 SGD 介绍

Sklean 决策树算法实现： ID3、C4.5、CART 决策树算法

用Bagging 改善分类性能

随机森林方法

决策树用于分析挖掘的建模实现和决策树的评估

Sklean 决策树算法应用编程

实验：

—— 用随机森林预测数值

—— 决策树编程演示

—— 决策树分析客户数据

八、 Scikit-Learn 数据挖掘实践 2：支持向量机 SVM

线性可分软间隔 SVM

损失函数的理解

支持向量回归 SVR

不平衡数据集的处理

分类器性能评价

支持向量机的参数调优

分类器性能评价

实验：

—— 银行信贷客户分类

——Grid 法调参

—— 不平衡分布对性能的影响

—— 交叉验证

—— 多分类器性能比较：ROC 曲线

—— 问题讨论：用电异常行为识别

六、无监督学习：Scikit-Learn 聚类分析

Jaccard 相似度

Pearson 相关系数与余弦相似度南京•杭州•上海

层次聚类

K-means 聚类

半监督 AP 聚类算法及其应用

密度聚类 DBSCAN

聚类评价和结果指标

实验：

——K-Means 算法原理和实现

—— 密度聚类

—— 比较不同的聚类算法

—— 问题讨论：客户分级

九、神经网络实践

神经网络基本原理

浅层神经网络与深层网络分析

神经网络用于数值预测

神经网络用于分类

Scikit-Learn 神经网络实现

案例分享：阿里云天池赛电力 AI：预测用电量

十七、Python 数据挖掘项目实践

根据客户数据集特点，完成数据的预处理、特征筛选

客户流失问题建模与分类

客户分级建模

解决方案讨论

大数据挖掘技术的发展

案例分享：用户画像

需新增重点内容：

1. 基于阿里MAXCOMPUTE的相关PYTHON函数学习

2. 多增加PYTHON机器学习的实验课

3. 大数据应用解决实践方法及案例

尹传亮：Python课程

尹传亮老师主页

尹传亮老师相关课程

培训照片

公开课

视频

线上课