大数据Hadoop研修班
拥抱“大数据时代”,做 IT“牛人”
  全球所有信息数据中90%产生于过去两年,大数据时代已经到来!随着云计算和大数据的发展,产业界正在经历一次重大变革,特别是基于云计算的海量数据处理,改变着工程师思考的方式和习惯,开发者们越来越有必要去了解Hadoop的架构与设计原理。
  Hadoop 是一个可以更容易开发和并行处理大规模数据的分布式计算平台,它的主要特点是:扩展能力强、成本低、高效率、可靠。目前,Hadoop 的用户已经从传统的互联网公司,扩展到科学计算、电信行业、电力行业、生物行业以及金融公司,并得到越来越广泛的应用。
  招生对象:
  1. 有工作经验的 Java 软件开发工程师
  2. Hadoop 的二次开发人员、应用开发工程师、运维工程师
业界最实用、深入、系统的Hadoop课程
  课程涵盖Hadoop基础、Hadoop底层核心分布式文件系统HDFS、Map/Reduce入门,Hadoop开发的基础、Map/Reduce高级进阶、Hadoop集群管理与监控、HBase实时分布式NoSql数据库、Hive数据仓库工具,同时还将引入实时流计算Storm 、分布式消息系统Kafka和分布式协调系统ZooKeeper的核心内容。
一网打尽Hadoop、Storm、Kafka、Zookeeper等前沿技术
本课程将从源代码的角度对"common+hdfs"架构设计与实现原理进行了极为详细的分析,旨在为hadoop的优化、定制和扩展提供原理性的指导。除此之外,还将从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和分析,以提高学员的分布式技术能力。

有使用过Hadoop经验的人都知道,Hadoop适合处理离线批处理计算,而在实时分析/计算方面Hadoop并不擅长处理,因此很多企业都采用了Storm 来处理实时数据。 (如:今年双十一,天猫数据直播监控屏、优酷实时推荐系统等)
在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题:1.我想对用户的搜索关键词进行统计,分析出当前的流行趋势;2.有些数据,我觉得存数据库浪费,直接存硬盘又怕到时候操作效率低
这时候,就可以用到分布式消息系统了,虽然上面的描述更偏向于一个日志系统,但确实kafka在实际应用中被大量的用于日志系统
ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。目前很多分布式应用程序都使用zookeeper来协调集群中的各个节点的工作(如:hbase、kafka)。
大数据 Hadoop 课程
课程特点

1. 所有教学案例全部来源于对大数据处理的真实互联网企业
2. 全面系统讲授 Hadoop 的技术架构以及运行原理
3. 全面讲解Zookeeper在各分布式系统中的应用
4. 深入讲解Storm实时计算与分布式消息系统Kafka架构及原理

预期目标

1.了解Hadoop的体系结构,与分布式计算的关系,掌握hadoop集群的安装配置,及常用日志分析技巧。
2.通过应用案例,掌握 MapReduce 计算模型、工作机制和开发方法,能熟练使用 Hadoop 进行 MapReduce 开发
3.掌握对 Hadoop 集群的管理、维护和优化,以及 Hadoop 的架构原理和使用场景
4.掌握Kafka分布式消息系统的原理,能根据使用场景简单的封装Kafka API接口
5.掌握Storm流计算的架构原理,能使用Storm开发出实时应用场景
6.综合使用各分布式系统(如:Kafka、Storm、hadoop、zookeeper)搭建企业的私有云平台


数据结构 Hadoop 大量使用数据结构,掌握各排序算法(包括:选择、插入、快速、堆)在hadoop中的应用场景、栈和队列(你将了解到hadoop任务调度的基础:FIFO队列和优先级队列)、理解链表与数组的区别、树(最通用的数据结构,结合了有序数组和链表的优点),二叉树与树的遍历
Hadoop 基础 Hadoop产生背景以及简介、Hadoop在大数据中的应用和发展趋势、掌握Hadoop需要的技能(基本的linux命令、了解linux集群原理:如:ssh的配置、防火墙等知识、基本的shell语法)、Hadoop各组成部分介绍、Hadoop运算核心Map/Reduce例子说明
Hadoop底层核心分布式文件系统HDFS

分布式文件系统HDFS简介、HDFS各组件的介绍与详解(您将了解到Hadoop的设计思想与运行原理)、HDFS副本处理规则(Hadoop容错处理的核心原理)、HDFS命令行接口与java接口、HDFS的高可用性

Map/Reduce 基础

理解map/reduce计算模型、Map/Reduce开发环境搭建(你将了解到系统参数的各种配置)、Map/Reduce应用开发、Map/Reduce经典应用案例

Map/Reduce高级进阶

Map阶段的优化、Reduce阶段的优化、编程实战以及使用其他脚本语言编写M/R程序

Hadoop集群管理与监控

Hadoop集群的搭建、Hadoop集群的监控(理解各个监控参数的意义)、Hadoop集群的管理(根据监控的情况,调整集群的运行状态)、集群下运行MapReduce程序

Hive数据仓库工具 Hive定义以及数据存储、Hive的基本操作、在集群上安装Hive、Hive ql详解及操作(DDL、DML)、Hive的网络接口与 JDBC 接口、Hive的优化、Hive自定义函数
HBase实时分布式NoSql数据库

HBase详细介绍、HBase与RDBMS的对比(为什么)、HBase的表结构,RowKey,列族和时间戳、集群的搭建与监控、HBase中的Master,Region以及Region Server、HBase客户端(shell以及java客户端代码演示)

Zookeeper Zookeeper基础: Zookeeper集群的搭建、理解zookeeper的体系结构、选举算法与读写机制介绍、Zookeeper API接口编程
Zookeeper应用: 1.配置管理 2. 统一命名管理 3. 分布式锁 4. 分布式队列
Kafka Kafka原理:Kafka集群的搭建、kafka原理与体系结构介绍、kafka各组件介绍(Broker、Produce、Consumer节点)
Kafka实战:消费者与生产者API接口编程、使用kafka来模拟日志采集系统中的收发
Storm 实时计算

Storm产生背景与应用场景、Strom与Hadoo的比较、Storm体系结构与基本原理、Storm各组件的介绍、Storm可靠性原理(消息失败的重发)、Storm集群搭建、编程实战

Hadoop 项目

名称:某大型互联网企业私有云平台
该系统来源于北京某大型互联网公司, 应用于集团内部,为集团内各部门提供存储服务,计算服务,扩展服务
架构:Hadoop+Hive+Hbase+SSH2(使用SSH架构来管理各部门的hadoop资源的申请、监控等)
项目目标:通过此项目掌握私有云平台的开发和维护模式

关于我们
名师团队
新闻动态
合作企业
资源下载
视频下载
资料下载
工具下载
加入我们
招聘岗位
岗位介绍
招贤纳师
联系我们
电话:010-56253825
邮箱:info@atguigu.com
地址:北京市昌平区宏福科技园综合楼6层(北京校区)

 深圳市宝安区西部硅谷大厦B座C区一层(深圳校区)

上海市松江区谷阳北路166号大江商厦6层(上海校区)