Python数据分析和挖掘 第一天 Python基础入门
1 初识Python 1.1 Python简介 1.2 搭建Python环境 1.3 第一个Python程序 2 Python语法 2.1 Python数据类型 2.2 声明变量 2.3 运算符 2.3.1 算术运算符 2.3.2 赋值运算符 2.3.3 逻辑运算符 2.3.4 运算符优先级 2.4 条件控制 2.5 案例演练 3 Python字符串 3.1 声明字符串 3.2 字符串基本操作 3.3 字符串的切片操作 3.4 字符串成员运算 3.5 转义字符 3.6 字符串格式化输出 3.7 字符串内建函数 4 Python容器 4.1 列表 4.1.1 创建列表 4.1.2 添加元素 4.1.3 获取列表中的元素 4.1.4 删除列表中的元素 4.1.5 列表分片 4.2 元组 4.2.1 元组的特点 4.2.2 创建元组 4.2.3 访问元组 4.2.4 更新元组 4.2.5 删除元组 4.3 字典 4.3.1 字典的特点 4.3.2 创建字典 4.3.3 更新字典 4.3.4 访问字典 4.3.5 删除字典 4.4 集合 4.4.1 集合的特点 4.4.2 创建集合 4.4.3 访问集合 4.5 综合演练 5 Python语句 4.1 注释 4.2 作用域 4.3 条件语句 4.4 循环语句 4.4.1 while循环语句 4.4.2 for循环语句 4.4.3 break语句 4.4.4 continue语句 6 Python项目的组织结构 6.1 工程结构 6.2 编码规范 6.3 特殊模块 6.4 导包路径 单元测试 第二天 Python基础(二)
1 函数 1.1 为什么要用函数 1.2 函数的创建和调用 1.3 函数的参数(形参,实参) 1.4 函数的返回值 1.5 匿名函数:lambda表达式 1.6 特殊函数 1.7 递归 1.8 变量作用域 1.9 案例演练 1.10 异常 1.10.1 异常的概念 1.10.2 try…except语句 1.10.3 try…except…finally语句 1.10.4 raise语句 1.10.5 with语句 2 综合训练:编写一个完整的Python程序 3 正则表达式 3.1 什么是正则表达式 3.2 元字符 3.3 反义代码 3.4 限定符 3.5 组匹配 3.6 正则表达式案例练习 4 NumPy 4.1 Ndarray对象 4.2 NumPy数据类型 4.3 NumPy 数组 4.3.1 创建数组 4.3.2 数组属性 4.4 数组操作 4.4.1 切片和索引 4.4.2 遍历 4.4.3 修改形状 4.4.4 翻转 4.4.5 分割 4.4.6 数组元素的添加和删除 4.5 NumPy函数 4.5.1 字符串函数 4.5.2 数学函数 4.5.3 算术函数 4.5.4 统计函数 4.5.5 排序、筛选函数 5 pandas 5.1 pandas简介 5.2 pandas的数据类型 5.2.1 Series数据类型 5.2.2 DataFrame数据类型 5.3 pandas对数据的常见操作 5.3.1 数据统计 5.3.2 索引数据 5.3.3 数据排序 5.4 演练 单元测试 第三天 数据处理
1 数据导入和导出 1.1 csv格式 1.2 excel格式 1.3 从数据库导出数据 1.4 中文格式兼容 2 数据预处理 2.1 去除极端值 2.2 去除重复值 2.3 归一化 2.4 缺失值处理 2.5 数据转换 2.6 数据抽取 2.7 数据分列 2.8 演练 3 数据合并 3.1 数据横向合并 3.2 数据纵向合并 4 数据统计 4.1 汇总指标 4.1.1 集中指标 4.1.2 离散指标 4.1.3 相关系数 4.2 数据聚合 4.3 数据分组 4.4 透视表和交叉表 4.5 演练 单元测试 第四天 数据可视化
1 Matplotlib入门 1.1 图形中文显示 1.2 格式化字符 1.3 绘图函数入门 1.3.1 Bar 1.3.2 histogram 1.3.3 plt 1.4 绘图演练 2 常规图表 2.1 折线图 2.2 柱形图 2.3 条形图 2.4 散点图 2.5 气泡图 2.6 饼图 2.7 圆环图 2.8 热力图 3 使用pyechart生成图表 3.1 漏斗图 3.2 仪表盘 3.3 地图 3.4 水滴图 第五天 数据分析报告
1 数据分析思维概述 1.1 分析报告的目标? 1.2 领导眼中什么样的分析报告才是合格的? 1.3 数据分析有哪几种类型? 1.4 数据分析思维包含哪些 1.4.1 业务思维 1.4.2 建模思维 1.4.3 解析思维 2 数据分析思维 2.1 业务思维 2.1.1 如何定义业务问题 2.1.2 建立业务模型 2.2 建模思维 2.2.1 如何将业务问题转换成数据问题 2.2.2 如何将业务数据转化为结构化模型 2.2.3 如何应用结构化模型解决业务问题 2.3 解析思维 2.3.1 业务问题如何分解到可操作单元 2.3.2 问题解构方法之公式法 2.3.3 问题结构方法之决策树 3 生成数据分析模板 3.1 利用Python实现报表自动化 3.2 什么样的报表适合自动化 3.3 如何实现报表自动化 3.4 操作Excel自动生成图表 单元测试 第六天 数据挖掘入门
1 数据挖掘算法及其在Python中的应用 1.1 数据挖掘的流程 1.2 描述性数据挖掘 1.3 预测性数据挖掘 2 分类 2.1 分类分析的定义与目标 2.2 分类分析的评价标准 2.3 分类分析的经典算法举例:支持向量机(SVM),人工神经网络,决策树分类,最近邻分类,朴素贝叶斯分类器。 3 聚类 3.1 聚类分析的定义与目标 3.2 聚类分析的评价标准 3.3 K-means算法的原理 3.4 K-means在Python中的综合应用案例 3.5 其他聚类算法 4 决策树 4.1 决策树的原理 4.2 决策树应用 4.3 CRT决策树算法理论 4.4 决策树算法在Python中的实操 5 kNN 5.1 kNN算法的原理 5.2 kNN算法的复杂度分析 5.3 kNN算法在Python中的实操 第七天 数据挖掘进阶
1 关联 1.1 关联分析的定义与目标 1.2 关联分析的评价标准 1.3 关联分析的经典算法 2 回归 2.1 回归分析的定义与目标 2.2 回归分析的评价标准 2.3 回归分析的经典算法举例:线性回归,逻辑回归,多项式回归,逐步回归,岭回归。 3 数据不平衡处理 3.1 什么是不平衡问题 3.2 欠采样方法 3.3 过采样方法 4 数据挖掘算法的评价标准 4.1 ROC曲线 4.1.1 ROC曲线的原理 4.1.2 ROC曲线的构建方法 4.1.3 ROC曲线在Python中的实现 4.2 AUC 4.2.1 AUC值的原理及意义 4.2.2 AUC值在Python中的实现 4.2.3 使用AUC评价并比较多种分类算法 单元测试 第八天 总结提升篇
1 数据预处理总结 1.1 数据清洗 1.2 归一化处理 1.3 虚拟化变量 1.4 不平衡样本处理 2 算法总结 2.1 卡方检验 2.2 回归分析 2.3 K-Means聚类 2.4 CART 2.5 SVM 2.6 神经网络 3 协同推荐 3.1 协同过滤的原理 3.2 用户评分向量 3.3 商品评分向量 3.4 距离和相似度计算 3.5 模型构建 4 综合演练:使用Stacking方法提升模型稳定性 第九天 模型优化篇
1 降维技术 1.1 降维的概念 1.2 主成分分析原理 1.3 主成分分析的python实现 2 参数优化,GridSearch 2.1 GridSearch参数说明 2.2 决策树调参说明 2.3 参数优化实战案例 3 使用集成算法提升模型的准确度和稳定性 3.1 Bagging 3.2 Boosting 3.3 Stacking 4 Bagging 4.1 Bagging原理 4.2 随机森林介绍 4.3 随机森林的python实现 5 Boosting 5.1 Boosting原理 5.2 Xgboost介绍 5.3 Xgboost参数说明 单元测试 第十天 文本信息分析
1 文本挖掘技术概述 1.1 从文本数据当中我们可以获得哪些信息? 1.2 文本分析的实战演示 1.3 文本挖掘的相关技术 2 词频统计和分析 2.1 文集的概念,如何生成文集 2.2 分词技术的原理 2.3 搜狗词汇库库 2.4 停用词Stopwords的概念 2.5 实现分词的过程 2.6 词频统计和排序 2.7 词频的可视化:词云 2.8 如何制作自定义图形的词云 2.9 代码实现 3 关键字提取 1. 提取文章关键字可以让读者快速判断是否有阅读的必要 2. IDF的概念 3. TF-IDF算法 4. 计算词汇的TF-IDF值并排序 5. 获取关键字列表 4 相似文章推荐和自动摘要 1. 相似推荐的概念 2. 文章的余弦相似度 3. 推荐最接近的文章 4. 计算分句和文章的余弦相似度 5. 分句的相似度排序 6. 自动获取文章摘要 单元测试
|