1) 大数据处理技术培训 课程介绍 Hadoop实现了一个 分布式文件系统(HadoopDistributed File System),简称HDFS。HDFS有高 容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问 应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。 课程目标 l 掌握大数据方法体系 l 掌握Hadoop原理技术 l 熟悉各项大数据处理手段和工具的使用。 培训对象 全省互联网分析人员 课程长度 5天 课程内容 第1天 | | | | 1、Hadoop产生背景 2、Hadoop在大数据、云计算中的位置和关系 3、国内外Hadoop应用案例介绍 4、国内Hadoop的课程大纲介绍 5、Hadoop生态圈以及各组成部分的简介 6、Hadoop核心MapReduce 例子说明 | | | | 1、分布式文件系统DFS简介 2、HDFS的系统组成介绍 3、HDFS的组成部分详解 4、副本存放策略及路由规则 5、命令行接口 6、Java接口 7、客户端与HDFS的数据流讲解 8、HDFS的可用性(HA) | | | | | 1、如何理解map、reduce计算模型 2、剖析伪分布式下MapReduce作业的执行过程 3、序列化 4、MapReduce的类型与格式 5、MapReduce开发环境搭建 6、MapReduce应用开发 7、更多示例讲解,熟悉MapReduce算法原理 | | | | 1、使用压缩分隔减少输入规模 2、利用Combiner减少中间数据 3、编写Partitioner优化负载均衡 4、MapReduce优化 5、编程实战 | | | | | 1、Hadoop集群的搭建 2、Hadoop集群的监控 3、Hadoop集群的管理 4、集群下运行MapReduce程序 | | | | 1、HBase定义 2、HBase与RDBMS的对比 3、数据模型 4、系统架构 5、HBase上的MapReduce 6、表的设计 | | | | | 1、集群的搭建过程讲解 2、集群的监控 3、集群的管理 | | | | 1、zookeeper的功能 2、zookeeper集群搭建 3、查看zookeeper中数据的存储 | | | | | 1、数据仓库基础知识 2、Hive定义 3、Hive体系结构简介 4、Hive集群 5、客户端简介 | | | | 1、HiveQL定义 2、HiveQL与SQL的比较 3、数据类型 4、表与表分区概念 5、表的操作与CLI客户端演示 6、数据导入与CLI客户端演示 7、查询数据与CLI客户端演示 8、数据的连接与CLI客户端演示 9、用户自定义函数(UDF)的开发与演示 |
|