让天下没有难找的讲师,职业讲师,商业讲师,培训师,讲师库-北京昭智教育

尹立庆:分布式文件操作和存储、分布式数据库、批处理计算模型、并行计算引擎、流计算模型

[复制链接]
分布式文件操作和存储、分布式数据库、批处理计算模型、并行计算引擎、流计算模型

  
        
课程特色
   
   
  
Hadoop生态系统是大数据技术事实标准,是大数据思想、理念、机制的具体实现,是整个大数据技术中公认的核心框架和具有极强的使用价值与研究价值。Hadoop 系统是一款开源软件,能够处理海量的各种结构(包括结构化、非结构化、半结构化)的数据。file:///C:/Users/ADMINI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image002.gif
Yarn是基于Hadoop的分布式集群资源管理框架;随着Hadoop集群应用的广泛,以及集群的规模越来越大,人们发现Hadoop MRv1存在诸多问题,因此Hadoop MRv2诞生,即现在的YARN,解决了4000节点的上限问题。
基于 Hadoop 的解决方案能够帮助企业应对多个大数据挑战,包括:
       1、    分析海量(PB 级或者更多)的数据
Hadoop 能够分析所有数据,使得分析更准确,预测更精确;
       2、    从多个数据类型的组合中获得新的洞察力
将来自多个数据源的不同类型的数据进行结合分析,发现新的数据关系和洞察力;
       3、    存储大量的数据
由于它不依赖于高端硬件,且是可扩展的,所以使存储大量数据变得经济有效;
       4、    数据发现(data discovery)和研究的沙箱
Hadoop 提供了一个地方,数据科学家可在此发现新的数据关系和相互依赖性。
工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出:
“2012 年美国联邦政府就在全球率先推出“大数据行动计划(Bigdata initiative)”,重点在基础技术研究和公共部门应用上加大投入。在该计划支持下,加州大学伯克利分校开发了完整的大数据开源软件平台“伯克利数据分析软件栈(Berkeley Data Analytics Stack),其中的内存计算软件Spark的性能比Hadoop 提高近百倍,对产业界大数据技术走向产生巨大影响”
                     ----来源:工业和信息化部电信研究院

Spark是成为替代MapReduce架构的大数据分析技术,Spark的大数据生态体系包括流处理、图技术、机器学习等各个方面,并且已经成为Apache顶级项目,可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。

国内外一些大型互联网公司已经部署了Spark,并且它的高性能已经得到实践的证明。国外Yahoo已在多个项目中部署Spark,尤其在信息推荐的项目中得到深入的应用;国内的淘宝、爱奇异、优酷土豆、网易、baidu、腾讯等大型互联网企业已经将Spark应用于自己的生产系统中。国内外的应用开始越来越广泛。Spark正在逐渐走向成熟,并在这个领域扮演更加重要的角色。
在2014 Spark Summit上,世界20家顶级公司声明支持Spark,这些公司包括了最大的四个Hadoop发行商Cloudera, Pivotal, MapR, Hortonworks,都提供了对非常强有力的支持Spark的支持:
   1、    Hadoop的头号发行商Cloudera,在2014年7月份宣布“Impala’s it for interactive SQL on Hadoop; everything else will move toSpark”;
   2、    2014年5月24日Pivotal宣布了会把整个Spark stack包装在Pivotal HD Hadoop发行版里面;这标志着四个Hadoop发行商Cloudera、Pivotal、MapR、Hortonworks都提供了对Spark的支持;
   3、    2014年4月,Mahout表示将不再接受任何形式的以MapReduce形式实现的算法,机器学习宣布新的算法基于Spark;
   4、    Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark;
SparkML是Hadoop家族中与众不同的一个成员,是一个基于Hadoop的机器学习和数据挖掘的分布式计算框架。SparkML是一个跨学科产品,同时也是Hadoop家族中最有竞争力、最难掌握、最值得学习的一个项目。SparkML为数据分析人员,降低了大数据的门槛;为算法工程师,提供基础的算法库;为Hadoop开发人员,提供了数据建模的标准;为运维人员,打通了和Hadoop连接。
file:///C:/Users/ADMINI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image007.gif讲师简介
尹老师简介:
多年从事大数据、云计算、人工智能研发工作经验,资深软件架构师,数学博士,北航移动云计算硕士,Cloudera大数据认证(图1),项目管理师(PMP)认证(图2),移动云计算专家,职称高级工程师,主要研究方向包括云计算、大数据、人工智能、移动开发、互联网营销、电子商务、项目管理等;曾就职于阿里等互联网企业,IBM、华为等知名大型企业,现任某大型知名互联网企业首席架构,负责PaaS平台、大数据、人工智能研发。
IT从业近二十年,秉承理论与实践相结合,在学习中实践,在实践中学习,积累了丰富的理论与实践经验,并且乐于将自己的经验分享。尹老师具有敏锐的目光与头脑,发现并集成整合社会资源,为企业节省资源并创造价值,达到为合作伙伴创收的目的。曾为多家国内知名企业提供培训与咨询,包含阿里集团、华为、中国移动、中国电信、中国联通、当当网、中石油、中石化、中国电网、中国银行、中国工商银行、浦发银行、阿尔卡特朗讯、中航国际等。拥有大数据、大流量、高并发、分布式的大型网站架构和设计经验。曾主导过多个私有云、公有云建设项目,早些年也主导过ERP、CMS等软件项目,积累了丰富的实践经验,这些项目中包含多个数百万、上千万的大型项目。项目经历:贵州省政府云呼叫中心建设项目、广东发展银行电营、运维大数据分析项目、中石油工程设计西南分公司云计算项目评审委员、中石油大数据挖掘项目,电商库存预测大数据分析项目、大型ERP、电子商务、CRM、电子政务等多个项目。
尹老师在工作中研究新技术、新框架、及时更新知识体系,并长期坚持编写架构核心代码。在技术平台方面,善于Hadoop、Spark、Docker、Kubernetes、OpenStack、Storm等技术平台的应用与运维。深入理解Hadoop、HDFS、HBase、MapReduce、Zookeeper、Hive、Sqoop、BigTable 等大数据技术和开源框架理论。对于云计算体系有深刻认识,及独到的见解,如OpenStack的技术架构、安装部署、运维等。在移动云计算方面,善于设计与建设云计算体系;也善于移动云计算相关的咨询与培训。在项目管理方面,善于使用敏捷项目管理方法,把客户的需求变更作为常态,作为软件架构设计的一部分,减少需求变更带来的返工;善于捕捉、挖掘、分析客户需求,为用户提供满意的产品。

图1. 大数据行业公认的Cloudera认证

图2. 含金量较高的PMP认证
讲师经验
      1、 阿里巴巴集团云计算、大数据咨询师
      2、 华为云计算、大数据咨询师
      3、 百度云计算、大数据咨询师及讲师
      4、 中国移动多省大数据、云计算特聘讲师
      5、 中国移动多省Docker特聘讲师
      6、 中国移动研究院微特聘讲师
      7、 中国联通总部大数据、云计算特聘讲师
      8、 中国电信多省大数据、云计算、虚拟化特约讲师
      9、 中国人民银行大数据特聘讲师
     10、 中国工商银行大数据讲师
     11、 花旗银行大数据讲师
     12、 招商银行大数据调优讲师
     13、 中信银行分布式数据库讲师
     14、 中国航天三院大数据咨询师
     15、 中国石油大数据、云计算特聘讲师
     16、 中国石化大数据、云计算特聘讲师
     17、 中国电力科学研究院流计算特聘讲师
     18、 西安电信十所大数据架构设计讲师
     19、 RedHat(中国)大数据咨询师
     20、 中电28所大数据特聘讲师
     21、 北京中电普华大数据特聘讲师
     22、 中国石油东方地球物理公司大数据咨询师
     23、 当当网云计算、大数据咨询师
     24、 北航特聘企业讲师
     25、 阿尔卡特-朗讯(Alcatel-Lucent)虚拟化与OpenStack培训特约讲师
     26、 中石油工程设计西南分公司云计算数据中心建设项目
     27、 广东发展信用卡精准营销项目
     28、 广东发展银行电营、运维大数据分析项目
     29、 电商库存预测大数据分析项目
     30、 中航国际大综贸易云计算规划项目咨询、培训讲师
     31、 北京民生软件SaaS平台研发咨询师
     32、 北京立达资本项目管理信息系统解决方案咨询师
     33、 曾任大型ERP、电子商务、CRM、电子政务等项目经理
项目经验
      1、 曾任大型ERP、电子商务、CRM、电子政务等项目经理
      2、 PaaS平台首席架构师
      3、 阿里阿铃云呼叫中心建设项目
      4、 贵州省政府云呼叫中心建设项目
      5、 广东发展银行电营、运维大数据分析项目
      6、 中石油工程设计西南分公司云计算项目评审委员、培训讲师
      7、 中石油大数据挖掘项目,项目经理
      8、 京东存储选址及库存精准预测项目
      9、 电商库存预测大数据分析项目
     10、 曾任大型ERP、电子商务、CRM、电子政务等多个项目的项目经理
  
        
培训目标
   
   
  


1、 深入理解分布式原理与实现技术;
  2、 分布式文件系统操作能力,以HDFS为例讲解;
  3、 从代码的角度深入剖析MapReduce执行的具体过程;
  4、 培养学员具有分布式批处理计算框架的开发MapReduce代码的能力;
  5、 使学员掌握MapReduce内部运行和实现细节并改造MapReduce的能力;
  6、 使学员掌握分布式并行计算引擎的使用能力,如Spark、Impala等;
  7、 使学员掌握分布式数据库的使用能力,如HBase、MySQL Cluster、Redis等;
  8、 具备分布式流计算的开发能力,如SparkStreaming、Storm等;
  
        
培训对象
   
   
  


  1、 对大数据、分布式存储、分布式计算等感兴趣的朋友;
  2、 Java、PHP、C等任意一门编程语言的开发者;
  3、 大型网站、电商网站等运维人员;
  4、 云计算、大数据从业者;
  5、 熟悉Hadoop生态体系,想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友;
  6、 系统架构师、系统分析师、高级程序员、资深开发人员;
  7、 牵涉到大数据处理的数据中心运行、规划、设计负责人;
  8、 政府机关,金融保险、移动互联网等大数据单位的负责人;
  9、 高校、科研院所大数据研究人员,涉及到大数据与分布式数据处理的人员;
10、 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;
  
        
培训方式
   
   
  


以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
  
        
课程安排
   
   
  


课程时间:3天
课程内容:
时间
内容
  
备注
  
第一天
  
第1个主题: 分布式基础理论知识(深入剖析分布式原理与理论,并为分布式学习奠定基础)(60分钟)
  
1、 大数据技术
  
2、 分布式技术
  
3、 CAP理
  
4、 BASE思想
  
5、 消息机制
  
6、 分布式协调器
  
7、 心跳机制
  
8、 日志结构文件系统
  
9、 RWN理论
  
10、 跨操作系统调度资源
  
  
第2个主题: Hadoop大数据分布式平台概述(系统性介绍Hadoop大数据分布式平台)(30分钟)
  
1、 Hadoop是大数据架构的事实标准
  
2、 Hadoop工作原理及架构
  
3、 Hadoop生态体系介绍
  
4、 Hadoop应用现状
  
5、 Hadoop发展趋势
  
6、 Hadoop优势
  
7、 实例分享:双十一亿背后的开源技术
  
  
第3个主题: Hadoop分布式集群部署与运维(动手搭建Hadoop集群及运维)(30分钟)
  
1、 SaltStack
  
2、 Maven
  
3、 禁用IPV6
  
4、 SSH无密码登录
  
5、 Hadoop HA部署介绍
  
6、 Hadoop集群部署
  
7、 Hadoop集群的监控
  
8、 Hadoop集群的运维
  
  
第4个主题: 分布式文件操作和存储(深入理解大数据分布式文件系统的原理与机制)(120分钟)
  
1、 HDFS架构剖析  
  
2、 NameNode、DataNode、SecondaryNameNode介绍
  
3、 NodeName高可靠性最佳实践
  
4、 DataNode中Block划分的原理和具体存储方式
  
5、 修改Namenode、DataNode数据存储位置
  
6、 CLI操作HDFS
  
7、 Java操作HDFS
  
8、 RESTful操作HDFS
  
9、 动态修改Hadoop的Replication数目
  
10、 Hadoop序列化
  
11、 Hadoop流压缩
  
12、 Hadoop RPC
  
13、 SequenceFile与MapFile
  
14、 Hadoop Avro
  
  
第5个主题: 分布式资源调度框架剖析(深入剖析和使用分布式资源调度框架的能力)(30分钟)
  
1、 YARN介绍
  
2、 YARN的设计思想
  
3、 YARN的核心组件
  
4、 YARN为核心的生态系统
  
5、 Yarn的 HA机制
  
6、 YARN应用程序编写
  
7、 ResourceManager深入剖析
  
8、 ClientRMService与AdminService
  
9、 NodeManager深入剖析
  
10、 Container
  
  
第6个主题: 分布式批处理计算模型MapReduce(深入剖析MapReduce原理及开发MapReduce程序能力思维方法论)(120分钟)
  
1、 MapReduce算法剖析
  
2、 MapReduce编程思想
  
3、 MapReduce常用算法
  
4、 MapReduce命令操作
  
5、 wordcount运行过程解析
  
6、 MapReduce如何将HDFS文件转化为Key-Value供Map解析与处理
  
7、 Hadoop的调度器介绍
  
8、 Combiner的使用原则
  
9、 Partitioner的使用最佳实践
  
10、 MapReduce排序算法剖析
  
11、 自定义排序算法
  
12、 Hadoop内置的分组算法
  
13、 自定义分组算法
  
14、 MapReduce常见场景和算法实现
  
15、 MapReduce新旧API的区别以及如何使用API
  
16、 MapReduce程序打包并在命令行运行
  
17、 Hadoop Streaming
  
18、 动态增加Hadoop的Slave节点
  
19、 学员动手编写MapReduce程序
  
  
第7个主题: 分布式内存数据库(介绍当前主流的分布式内存数据库,深入剖析分布式内存库系统的原理与机制)(30分钟)
  
1、 业界主要应用的分布式内存库有哪些
  
2、 分布式内存库的应用情况
  
a)    大数据非结构化数据的应用场景(TFS)
  
b)    大数据历史明细查询的应用场景
  
c)    秒杀高并发的应用场景
  
d)    实时高并发业务的应用场景
  
e)    在线实时统计分析的应用场景
  
3、 应用的具体案例
  
a)    分布式内存库在运营商话单详单查询系统中的应用
  
b)    分布式内存库在金融行业流水业务查询系统中的应用
  
c)    分布式内存库在微博自媒体业务中应用
  
4、 分布式内存库的特性
  
5、 CAP理论
  
6、 BASE思想
  
7、 RWN理论
  
8、 分布式关系型内存库
  
a)    MySQL  Cluster
  
9、 分布式NoSQL列式内存库
  
a)    HBase
  
b)    Cassandra
  
c)    GemFire
  
10、 分布式文档内存库
  
a)    MongoDB
  
11、 案例:GemFire在实时交易系统12306的使用案例分享
  
  
第8个主题: 分布式协调器(深入剖析分布式协调器技术原理和实现技术)(30分钟)
  
1、 Zookeeper介绍
  
2、 Paxos算法
  
3、 Paxos 算法应用场景
  
4、 Zookeeper的数据模型
  
5、 Zookeeper的节点
  
6、 Zookeeper的角色
  
7、 Zookeeper工作原理
  
8、 Leader选举
  
9、 部署ZooKeeper
  
10、 Shell操作Zookeeper
  
11、 Java程序操作Zookeeper
  
12、 Zookeeper典型使用场景
  
时间
内容
备注
  
  
  
  
  
  
  
  
  
  
  
  
  
  
第二天
  
第9个主题: 分布式数据库NoSQL技术(深入剖析分布式NoSQL技术及原理并实操)(30分钟)
  
1、 分布式数据库概述
  
2、 HBase介绍
  
3、 HBase的特点
  
4、 HBase逻辑模型
  
5、 HBase列族与列
  
6、 HBase时间戳
  
7、 行式数据库 vs 列式数据库
  
8、 HBase物理模型
  
9、 数据存储结构:LSM
  
10、 HBase的REST接口
  
11、 HBase安装部署
  
12、 HBase Shell
  
13、 倒排索引
  
14、 开发实践分享:微博
  
15、 HBase应用
  
16、 HBase Filter
  
17、 HBase Coprocessor
  
  
第10个主题: 分布式NoSQL数据库编程思维训练(老师带领学员用HBase在课上亲自动手完成微博项目的开发过程,使学员掌握分布式NoSQL编程思维方法)(90分钟)
  
1、 HBase开发环境搭建过程介绍
  
2、 倒排索引
  
3、 案例实战:微博项目
  
4、 微博业务概述
  
5、 微博业务功能说明
  
6、 微博逻辑架构设计
  
7、 微博开发使用的组件
  
8、 HBase表结构设计
  
9、 基于HBase的微博表结构设计
  
10、 基于HBase的微博项目代码开发
  
11、 基于HBase的微博项目的总结
  
12、 HBase API剖析
  
13、 HBase研发案例分享
  
14、 HBase应用
  
15、 基于HTable的MapReduce分析
  
16、 HBase Filter
  
17、 HBase Filters
  
18、 SingleColumnValueFilter示例
  
  
第11个主题: 分布式内存数据库库Redis(深入剖析Redis的技术原理)(60分钟)
  
1、 Redis数据库原理
  
2、 Redis数据库应用
  
3、 Redis开发实践(倒排索引)
  
4、 Redis开发调试
  
5、 Redis优化
  
6、 Redis发布订阅机制剖析
  
7、 Redis集群搭建
  
8、 Codis介绍
  
9、 Codis整体设计
  
10、 Codis架构
  
11、 Codis组件介绍
  
  
第12个主题: 分布式文档内存库MongoDB(深入剖析分布式内存库MongoDB文档数据库功能与项目应用案例)(60分钟)
  
1、 什么是MongoDB
  
2、 MongoDB发展现状与趋势
  
3、 介绍MongoDB基础概念
  
4、 MongoDB架构剖析
  
5、 MongoDB文档与集合
  
6、 MongoDB集群搭建
  
7、 MongoDB状态监控
  
8、 MongoDB安全认证
  
9、 MongoDB备份和恢复
  
10、 MongoDB Shell操作
  
11、 MongoDB数据类型
  
12、 文档的增加、修改与删除
  
13、 Java访问MongoDB文档的调试
  
14、 MongoDB查询介绍
  
15、 MongoDB MapReduce统计分析
  
16、 MongoDB索引
  
17、 MongoDB性能优化
  
18、 MongoDB主从复制
  
19、 MongoDB Sharding分片
  
20、 MongoDB项目案例:运营商话务数据分析案例剖析
  
  
  
第13个主题: 关系型分布式内存库MySQL Cluster(深入剖析关系型分布式内存库MySQL  Cluster数据库功能与实现原理)(60分钟)
  
1、 什么是MySQL  Cluster
  
2、 MySQL Cluster发展现状与趋势
  
3、 介绍MySQL  Cluster基础概念
  
4、 MySQL Cluster架构剖析
  
5、 NDB Cluster存储引擎
  
6、 无共享体系结构
  
7、 管理(MGM)节点
  
8、 数据节点
  
9、 SQL节点
  
10、 标准MySQL客户端
  
11、 MySQL Cluster应用场景
  
12、 案例分享:MySQL Cluster在电商平台中的应用
  
  
第14个主题: 分布式并行计算引擎(深入剖析分布式并行计算引擎实现原理)(60分钟)
  
1、 分布式并行计算引擎概述
  
2、 分布式并行计算引擎原理
  
3、 Spark介绍
  
4、 Spark架构剖析
  
5、 Spark RDD计算模型解析
  
6、 Spark开发分析
  
7、 Spark的执行机制解析
  
8、 Spark的调试与任务分配
  
9、 Spark与MapReduce对比分析
  
10、 Spark的容错机制剖析
  
11、 Spark集群部署
  
12、 Spark Shell
  
13、 构建与运行Spark应用
  
14、 Spark RDD操作剖析
  
15、 Shark基于Spark的综合应用
  
16、 Spark作业测试解析
  
17、 Spark的性能调优
  
18、 Spark生态体系剖析
  
19、 Spark应用现状
  
20、 Spark应用优势
  
21、 Spark应用案例
  
22、 Spark案例解析
  
  
第15个主题: 分布式流计算模型(深入剖析分布式流计算模型的实现原理及开发实战)(120分钟)
  
1、 Spark Streaming概述
  
2、 Spark Streaming原理剖析
  
3、 Spark Streaming流数据处理框架介绍
  
4、 Spark Streaming编程剖析
  
5、 初始化StreamingContext
  
6、 Discretized Streams (DStreams)
  
7、 输入DStreams与Receivers
  
8、 基于DStreams的Transformations
  
9、 基于DStreams的输出操作
  
10、 Accumulators和Broadcast  Variables
  
11、 DataFrame和SQL操作
  
12、 MLlib操作
  
13、 Caching与Persistence
  
14、 Checkpointing
  
15、 运行Spark Streaming程序
  
16、 性能调优:减少批处理时间
  
17、 性能调优:设置正确的批处理间隔时间
  
18、 内存调优
  
19、 容错元语
  
20、 实战案例:Spark Streaming与Kafka整合实现数据实时数据分析处理设计与分析
  
时间
内容
备注
  
  
  
  
  
  
  
  
  
第三天
  
  
  
  
  
  
  
  
  
  
  
第16个主题: 分布式流计算模型(深入剖析分布式流计算模型的实现原理)(30分钟)
  
1、 Storm基础知识
  
2、 Storm集群安装
  
3、 Storm打包运行测试
  
4、 Storm基本api介绍
  
5、 Storm Topology的并发度
  
6、 Storm消息机制原理讲解
  
7、 Storm DRPC实战讲解
  
8、 Storm Transaction原理
  
9、 Strom Trident编程
  
10、 Storm案例实战
  
  
第17个主题: Storm架构原理剖析与开发实战(深入剖析Storm架构原理与实现技术)(60分钟)
  
1、 Storm基本概念
  
2、 Storm逻辑架构
  
3、 Storm  Topology的并发度
  
4、 进程拓扑关系
  
5、 Storm序列化
  
6、 Storm  Topology并发度配置
  
7、 Storm核心API介绍
  
8、 Storm核心API编程
  
9、 Storm的Ack框架
  
10、 Storm消息机制原理讲解
  
11、 Spout的Tail特性
  
12、 Stream  Groupings策略
  
13、 实例讲解Grouping策略及并发
  
14、 Storm在高压力场景下高可靠性实现
  
15、 Storm记录级容错的基本原理
  
16、 Storm  DRPC整体工作流程
  
17、 DRPC实现框架
  
18、 Storm  DRPC实战讲解
  
19、 Storm  Windowing原理与实现
  
20、 滑动Windowing
  
21、 滚动Windowing
  
22、 Join  Streams
  
23、 Storm  RESTful API
  
24、 Storm多语言支持
  
25、 Storm  Transaction原理
  
26、 Transactional  Topology框架功能
  
27、 Storm事务API及案例分析
  
28、 Storm事务案例实战
  
  
第18个主题: Strom Trident剖析与开发实战(深入剖析Storm Trident实现原理及开发方法)(60分钟)
  
1、 Strom  Trident介绍
  
2、 Trident  API介绍
  
3、 Strom  Trident消息
  
4、 Strom  TridentTopology的构建器
  
5、 Strom  Trident的SpoutNode
  
6、 Trident  Spout类型
  
7、 Strom  Trident的容错Spout
  
8、 Strom  Trident操作与处理节点
  
9、 Strom  Trident中的Bolt
  
10、 Strom  Trident的存储
  
11、 Strom  Trident流的基本操作
  
12、 Strom  Trident中流的交互操作
  
13、 Strom  Trident的执行优化
  
14、 Strom  Trident与DRPC
  
15、 Strom  Trident编程实战
  
  
  
第19个主题: 分布式并行计算引擎Impala(分布式计算引擎Impala的工作原理)(120分钟)
  
1、 分布式并行计算引擎概述
  
2、 Impala介绍
  
3、 Impala是什么
  
4、 Impala与Hive、Pig有何不同
  
5、 Impala与关系数据库有何不同
  
6、 Impala的限制和未来发展方向
  
7、 运用 Impala  Shell
  
8、 Impala分布式集群部署
  
9、 Impala分布式架构原理
  
10、 Impala数据模型
  
11、 Impala作业基本运行原理
  
12、 Impala使用注意事项
  
13、 Impala DDL、DML、SQL、函数
  
14、 Impala作业资源占用
  
15、 案例:银行在线支付统计的案例
  
16、 Impala调优可概述
  
17、 Impala参数调优
  
18、 Impala SQL调优
  
19、 Impala分区调优
  
20、 其他常用调优方法
  
21、 数据倾斜处理方法
  
22、 Impala与Shark、Hive、Pig区别剖析
  
23、 案例:Impala调优案例
  
  
第20个主题: 如何研发分布式系统?(本主题强调一个好的分布式系统离不开真实的业务需求)(60分钟)
  
1、 深入分析企业业务数据特点
  
2、 TFS思想的应用
  
3、 事务剖析
  
4、 分布式事务剖析
  
5、 分布式系统的职责分离思想
  
6、 大数据+简单算法
  
7、 精准小数据+复杂算法
  
  
第21个主题: 分布式系统架构设计(介绍分布式系统架构设计需要遵循原则与设计技巧)(60分钟)
  
1、 CAP理论
  
2、 BASE思想
  
3、 日志结构文件系统
  
4、 RWN理论
  
5、 分布式系统迁移策略
  
a)   数据迁移
  
b)   计算迁移
  
6、 冷热分离原则
  
7、 算法优化策略
  
a)   读取+计算+显示
  
b)   读取+显示
  
8、 数据序列化
  
9、 RESTful架构剖析
  

使用道具

管理技能讲师|企业战略讲师|网络媒体讲师|营销服务讲师|职场技能讲师|人力资源讲师|党政爱国讲师|财税金融讲师|生产管理讲师|其他类讲师|内训课程|讲师列表|手机版|

讲师库 | 讲师列表 | 账号登录 | 立即注册 | 网站地图 | 京公网安备11010702002698 | 京ICP备2024062795号-1

返回顶部 返回列表