让天下没有难找的讲师,职业讲师,商业讲师,培训师,讲师库-北京昭智教育

孙增辉:使用python做数据分析

[复制链接]
1)      使用python做数据分析
课程介绍
1、 本课程是使用python做数据分析的课程
课程目标
l  理解python的特征
l  知晓python的结构
l  会使用相应方法,完成部分数据分析工作
培训对象
有数据库基础知识
有编程基础知识
有统计学基本知识
有数据分析、数据挖掘、统计分析的基本概念
对数据分析感兴趣
课程长度
5天
课程内容
  
第1天
  
主题
Python的优点和不足
大纲
优点
  
1python语言更接近自然语言
  
2python是开放源码的自由软件
  
3python可移植在各种平台上
  
4python支持面向过程的函数编程,也支持面向对象的抽象编程
  
5、可扩展和可嵌入
  
6、各种功能丰富的库
  
7、编码规范。各种强制缩进方式提供了可读性。
  
不足
  
8、运行速度可能不理想。
  
9python是开源软件,通过封装加密进行商业化,就是一个问题。
  
10,、繁多的标准库和第三方库
主题
重要的python
大纲
1NumPy numerical python
  
2Pandas 处理结构化数据的大量数据结构和函数
  
3Matplotlib 绘制数据图表
  
4IPython  交互式窗口,科学计算工具集的一部分
  
5SciPy   专门解决科学计算中,标准问题域的包的集合。
  
6Scikit-learn 机器学习库
主题
Python的安装和配置
大纲
1anaconda
  
2Windows系统下的安装
  
3Linux系统下的安装
主题
Ipython基础
大纲
1IPython交互式计算和开发环境
  
2Ipython启动、简单命令
  
3、内省
  
4、使用历史命令
  
5、与操作系统交互
  
6、软件开发工具
  
7ipython html notebook
  
8、用ipython提高代码开发效率
  
9ipython高级功能
主题
Ipython编码效率与高级功能
大纲
1、利用python提高代码效率的几点提示
  
2、高级Ipython功能
2
主题
numpy数组和矢量计算
大纲
1NumPyndarray:多维数组
  
2、通用函数 数组函数
  
3、利用数组进行数据处理
  
4、用于数组文件的输入输出
  
5、线性代数
  
6、随机数生产
  
7、随机漫步
主题
pandas 数据处理分析工具
大纲
1pandas的数据结构介绍
  
2、基本功能
  
3、汇总和计算描述统计
  
4、处理缺失数据
  
5、层次化索引
  
6、其他有关pandas的话题
主题
数据加载 转储
大纲
1、读写文本格式的数据
  
2、二进制数据格式
  
3、使用HTMLWeb  API
  
4、使用数据库
  
5、使用excel文件
  
6、使用hadoop大数据
主题
简单数据清洗
大纲
1、合并数据集
  
2、重塑和轴向旋转
  
3、数据转换
  
4、字符串操作
主题
python的绘图和可视化
大纲
1python的图形化工具生态系统
  
2matplotlib  API入门
  
3pandas中的绘图函数
  
4、绘制地图
3
主题
数据的分组计算--分层样本
大纲
1GroupBy技术
  
2、数据聚合
  
3、分组运算和转换
  
4、透视表和交叉表
主题
时间序列
大纲
1、日期和时间数据类型及工具
  
2、时间序列基础
  
3、日期的范围、频率以及移动
  
4、时区处理
  
5、时期及其算数运算
  
6、重采样及频率转换
  
7、时间序列绘图
  
8、移动窗口函数
  
9、性能和内存使用方面的注意事项
主题
numpy高级应用
大纲
1ndarray对象的内部机制
  
2、高级数组操作
  
3、广播
  
4ufunc高级应用
  
5、结构化和记录式数组
  
6、关于排序
  
7numpymatrix
  
8、高级数组输入输出
  
9、性能建议
主题
蒙特卡洛模拟
大纲
1、纯python
  
2、用numpy向量化
  
3、用对数欧拉方法实现全向量化
  
4、图形化分析
  
5、技术分析
主题
统计学  正态检验
大纲
1、正态性检验
  
2、基准案例
  
3、现实世界的数据
4
主题
金融应用 投资优化组合
大纲
1、基本理论
  
2、数据
  
3、投资组合优化
  
4、有效边界
  
5、资本市场线
主题
k 近邻算法
大纲
1k近邻算法概述
  
2、准备数据:从文本文件中解析数据
  
3、分析数据:使用matplotlib创建散点图
  
4、准备数据:归一化数值
  
5、测试算法:作为完整程序验证分类器
  
6、使用算法:构建完整可用的系统
主题
决策树
大纲
1、决策树的构造
  
     信息增益
  
     划分数据集
  
     递归构建决策树
  
2、使用matplotlib注解绘制树形图
  
     matplotlib注解
  
     构造注解树
  
3、测试和存储分类器
  
     测试算法:使用决策树执行分类
  
     使用算法:决策树的存储
主题
概率论  朴素贝叶斯
大纲
1、基于贝叶斯决策理论的分类方法
  
2、条件概率
  
3、使用条件概率来分类
  
4、使用朴素贝叶斯进行文档分类
  
5、使用python进行文本分类
主题
Logistic 回归分析
大纲
1、基于Logistic回归和sigmoid函数的分类
  
2、基于最优化方法的 最佳回归系数确定
  
     梯度上升法
  
     训练算法:使用梯度上升找到最佳参数
  
     分析数据:画出决策边界
  
     训练算法:随机梯度上升
                                 5
主题
支持向量机
大纲
1SVM应用的一般框架
  
2、基于最大间隔分隔数据
  
3、寻找最大间隔
  
4SMO高效优化算法
  
5、利用完整plattSMO算法加速优化
  
6、在复杂数据上应用核函数
主题
回归 -----  预测数值型数据
大纲
1、用线性回归找到最佳拟合直线
  
2、局部加权线性回归
  
3、缩减系数来“理解”数据
  
     岭回归
  
     lasso
  
     向前逐步回归
  
4、权衡偏差与方差
主题
树回归
大纲
1、复杂数据的局部性建模
  
2、连续和离散型特征的树的构建
  
3、将CART算法用于回归
  
      构建树     运行代码
  
4、树剪枝
  
     预剪枝   后剪枝
  
5、模型树
  
6、树回归与标准回归的比较
主题
大数据与mapreduce
大纲
1mapreduce:分布式计算框架
  
2hadoop
  
3mapreduce上的机器学习
  
4、在python中使用mrjob来自动化MapReduce
  
5、真的需要MapReduce吗?
  


使用道具

管理技能讲师|企业战略讲师|网络媒体讲师|营销服务讲师|职场技能讲师|人力资源讲师|党政爱国讲师|财税金融讲师|生产管理讲师|其他类讲师|内训课程|讲师列表|手机版|

讲师库 | 讲师列表 | 账号登录 | 立即注册 | 网站地图 | 京公网安备11010702002698 | 京ICP备2024062795号-1

返回顶部 返回列表