|
Python课程 一、数据挖掘导论 数据挖掘的基本任务与步骤:目标、数据探索、数据预处理、建模、模型评价 有监督学习 无监督学习和半监督学习算法模型 Sklean 数据挖掘和机器学习算法库介绍 大数据建模常见问题 问题引出:客户行为分析-用户用电异常的识别 二、Python 编程快速入门 Python 编程环境与语法快速入门 基础数据结构:字符串处理及应用 数据结构:列表、元组、集合、字典 Python 控制流:IF 与 while、for 循环 函数与模块定义 Python 文件读写 Python 面向对象编程思想 Python 异常处理 实验: —— 读写 CSV 文件 —— 处理 Excel 文件 三、Python 数据分析进阶 Python 并行编程:多线程与多进程实现 —— 进程与线程概念 —— 进程同步机制 —— 多进程实现 —— 多线程实现 轻松访问数据库 —— 连接访问 Sqlite —— 操纵 MySQL ——Python 的对象关系映射模型 实验: —— 多进程读取超大文件 ——SQLite 读写练习南京•杭州•上海 五、Scikit-learn 数据预处理实践 数据统计量:期望/方差/偏度/峰度 协方差和相关系数、方差与标准差 数据描述:集中趋势、离散程度、分位数 数据可视化:直方图、盒图、散点图 数据预处理基本方法 数据归一化方法 对数据进行降维,主成分分析 PCA 实验: —— 利用随机森林做特征筛选 —— 数据预处理:归一化、缺失值处理 —— 降维 PCA 实现 —— 找出较好的特征组合:PCA 与 LDA 效果对比 —— 随机森林评估特征重要性 四、Python 数据分析进阶 l 高性能矩阵计算工具 Numpy: ——Numpy 数组与元素索引、 —— 矩阵计算、 —— 通用函数、计算统计量 l 以表格处理数据——高级数据分析包 ——Pandas:数据框架 Dataframe —— 快速索引数据 —— 常用函数 —— 快速可视化分析 —— 汇总与统计 实验:基于Pandas 的数据预处理 五、数据可视化分析 l Matplotlib 绘图库介绍 快速绘图 常见绘图函数:散点图、柱状图、盒图 图片处理 三维绘图演示 Pandas 快速绘图南京•杭州•上海 实验: —— 绘制常见统计图 —— 利用 Pandas 获取数据并绘图 七、Scikit-Learn 数据挖掘实践 1 数值预测:Logistic/Softmax 回归/随机森林 梯度下降算法:BGD 与 SGD 介绍 Sklean 决策树算法实现: ID3、C4.5、CART 决策树算法 用Bagging 改善分类性能 随机森林方法 决策树用于分析挖掘的建模实现和决策树的评估 Sklean 决策树算法应用编程 实验: —— 用随机森林预测数值 —— 决策树编程演示 —— 决策树分析客户数据 八、 Scikit-Learn 数据挖掘实践 2:支持向量机 SVM 线性可分软间隔 SVM 损失函数的理解 支持向量回归 SVR 不平衡数据集的处理 分类器性能评价 支持向量机的参数调优 分类器性能评价 实验: —— 银行信贷客户分类 ——Grid 法调参 —— 不平衡分布对性能的影响 —— 交叉验证 —— 多分类器性能比较:ROC 曲线 —— 问题讨论:用电异常行为识别 六、无监督学习:Scikit-Learn 聚类分析 Jaccard 相似度 Pearson 相关系数与余弦相似度南京•杭州•上海 层次聚类 K-means 聚类 半监督 AP 聚类算法及其应用 密度聚类 DBSCAN 聚类评价和结果指标 实验: ——K-Means 算法原理和实现 —— 密度聚类 —— 比较不同的聚类算法 —— 问题讨论:客户分级 九、神经网络实践 神经网络基本原理 浅层神经网络与深层网络分析 神经网络用于数值预测 神经网络用于分类 Scikit-Learn 神经网络实现 案例分享:阿里云天池赛电力 AI:预测用电量 十七、Python 数据挖掘项目实践 根据客户数据集特点,完成数据的预处理、特征筛选 客户流失问题建模与分类 客户分级建模 解决方案讨论 大数据挖掘技术的发展 案例分享:用户画像 需新增重点内容: 1. 基于阿里MAXCOMPUTE的相关PYTHON函数学习 2. 多增加PYTHON机器学习的实验课 3. 大数据应用解决实践方法及案例
|