大势所趋

大数据已经深入生活的方方面面

旅 游

搜索推荐

体 育

餐 饮

保 险

交通运输

电 商

阅 读

汽车制造

医疗服务

影 视

教 育

大有可为

学什么,很重要。大数据岗位,技术就是硬实力!

尚硅谷讲授技术涵盖
  • · Flink· Kylin
  • · Presto· Impala
  • · Druid· Kudu
  • · ClickHouse· Ambari
  • · Airflow· Hue
  • · DataX· Griffin
  • · Kettle· Zabbix
  • · MaxWell· NiFi
  • · Tableau· Structured Steaming
  • · Tidb· Phoenix
  • · Druid· Filebeat
  • · InfluxDB· Saiku
  • · Sentry· Superset
  • · Ranger· Atlas
  • · JavaSE· MySQL
  • · JDBC· Maven
  • · IDEA· Redis
  • · Git· Shell
  • · Linux· Hadoop
  • · Hive· Zookeeper
  • · HBase· Sqoop
  • · Azkaban· Oozie
  • · JVM· JUC
  • · Flume· Kafka
  • · SpringBoot· Logstash
  • · Kibanna· Spark Core
  • · Spark SQL· Spark Streaming
  • · Hudi· ElasticSearch
  • · StreamX· Docker
  • · StreamSets· Iceberg
  • · FlinkCDC· Doris
  • · StarRocks· SeaTunnel
  • · Zabbix· Prometheus
  • · Grafana· DolphinScheduler
  • · Debezium· MaxCompute
  • · nmon· DataHub
  • · suga· DataV
  • · QuickBI· DataWorks
  • · Impala· HDFS
  • · Yarn· MapReduce
  • · FlinkSQL· EMR
  • · K8S· Kubernetes
  • · OGG· Hive-on-Spark
  • · GitEE· Spark-on-K8S
  • · JUC· Flink-on-K8S
  • · Oracle· AWS
  • · CDH· HDP
  • · SqlServer· PostgreSQL
  • · PrestoDB· PrestoSQL
  • · Flink· Kylin
  • · Presto· Impala
  • · Druid· Kudu
  • · ClickHouse· Ambari
  • · Airflow· Hue
  • · DataX· Griffin
  • · Kettle· Zabbix
  • · MaxWell· NiFi
  • · Tableau· Structured Steaming
  • · Tidb· Phoenix
企业招聘技术需求

大有来头

硅谷大数据,课程内容无缝对接企业需求,对标BAT等大厂

70+ 技术解决方案,培养解决实际问题的硬核人才
解决方案涉及技术
  • 集群监控解决方案 <> Zabbix 、Prometheus、Grafana
  • Flink背压解决方案 <> Flink
  • Spark Streaming精准一次消费 <> Spark Streaming、Kafka
  • 海量数据存储解决方案 <> Hadoop
  • 链路延迟检测方案 <> Flink
  • Sqoop Null值存储一致性问题解决方案 <> Sqoop
  • 海量宽表数据查询解决方案 <> ClickHouse、Doris、Elasticsearch
  • Flume提高吞吐量 <> Flume
  • HBase数据热点问题解决方案 <> Hbase
  • Spark OOM解决方案 <> Spark
  • 冷热数据分离解决方案 <> Hadoop
  • 数据质量监控解决方案 <> Shell + DolphinScheduler + Superset
  • Kafka内存溢出解决方案 <> Kafka
  • Hive数据倾斜解决方案 <> Hive
  • 权限管理解决方案 <> Ranger、Sentry
  • Hadoop数据倾斜解决方案 <> Hadoop
  • 数据脱敏解决方案 <> Hql、SparkSQL 、Kettle
  • Kafka过期数据清理解决方案 <> Kafka
  • 流批一体解决方案 <> StreamX + Flink
  • Hadoop集群压测解决方案 <> Hadoop
  • Kafka丢数据解决方案 <> Kafka
  • Hive大表大表Join解决方案 <> Hive
  • 动态分流解决方案 <> Flink CDC
  • DataX性能优化解决方案 <> DataX
  • Spark数据倾斜解决方案 <> Spark
  • Hadoop内存溢出解决方案 <> Hadoop
  • 旁路缓存解决方案 <> Redis
  • Kafka提高吞吐量解决方案 <> Kafka
  • Hadoop集群动态扩容解决方案 <> Hadoop
  • 零点漂移问题解决方案 <> Flume
  • 小文件解决方案 <> Hadoop
  • Flume集群动态扩容解决方案 <> Flume
  • Kafka数据积压解决方案 <> Kafka
  • 实时同步MySQL解决方案 <> Maxwell、Canal、Debezium
  • Kafka数据有序解决方案 <> Kafka
  • 断点续传解决方案 <> Flume
  • Kafka单条日志传输大于1m解决方案 <> Kafka
  • 湖仓一体解决方案 <> Hudi + Iceberg + Flink
  • Kafka集群压测解决方案 <> Kafka
  • HDFS Sink小文件解决方案 <> Flume
  • Kafka集群动态服役退役解决方案 <> Kafka
  • Hive大小表Join解决方案 <> Hive
  • Kafka重复数据解决方案 <> Kafka
  • Hive查询慢解决方案 <> Hive
  • 多流Join 解决方案 <> Flink
  • Hive内存溢出解决方案 <> Hive
  • Kafka数据乱序解决方案 <> Kafka
  • Hive小文件解决方案 <> Hive
  • MySQL与Hive空值不一致解决方案 <> DataX
  • Kafka挂掉解决方案 <> Kafka
  • 全量同步MySQL解决方案 <> Sqoop、DataX
  • Flink Exactly-Once解决方案 <> Flink
  • Spark Streaming丢失数据解决方案 <> Spark Streaming
  • Spark性能优化解决方案 <> Spark
  • Flink数据倾斜解决方案 <> Flink
  • Flink复杂事件解决方案 <> Flink
  • Hbase RowKey查询慢解决方案 <> Hbase
  • Kafka指定任意时间消费解决方案 <> Kafka
  • Sqoop数据倾斜解决方案 <> Sqoop
  • 数据清洗解决方案 <> Hql、SparkSQL 、Kettle
  • Kafka指定任意Offset消费解决方案 <> Kafka
  • 元数据管理解决方案 <> Atlas
  • Flink内存溢出解决方案 <> Flink
  • 数据治理解决方案 <> SpringBoot + Vue
  • Sqoop数据导出一致性问题解决方案 <> Sqoop
  • Flink SQL时区问题解决方案 <> Flink
  • 异步IO解放方案 <> Flink + Hbase
  • 大屏可视化报表解决方案 <> DataV、Suga
  • Flink RocksDB状态后端调优解决方案 <> Flink
  • 离线报表可视化解决方案 <> Superset、Echart、QuickBI
  • 集群监控解决方案 <> Zabbix 、Prometheus、Grafana
  • Flink背压解决方案 <> Flink
  • Spark Streaming精准一次消费 <> Spark Streaming、Kafka
  • 海量数据存储解决方案 <> Hadoop
  • 链路延迟检测方案 <> Flink
  • Sqoop Null值存储一致性问题解决方案 <> Sqoop
  • 海量宽表数据查询解决方案 <> ClickHouse、Doris、Elasticsearch
  • Flume提高吞吐量 <> Flume
  • HBase数据热点问题解决方案 <> Hbase
  • Spark OOM解决方案 <> Spark
  • 冷热数据分离解决方案 <> Hadoop
  • 数据质量监控解决方案 <> Shell + DolphinScheduler + Superset
  • Kafka内存溢出解决方案 <> Kafka
  • Hive数据倾斜解决方案 <> Hive
  • 权限管理解决方案 <> Ranger、Sentry
  • Hadoop数据倾斜解决方案 <> Hadoop
  • 数据脱敏解决方案 <> Hql、SparkSQL 、Kettle
  • Kafka过期数据清理解决方案 <> Kafka
  • 流批一体解决方案 <> StreamX + Flink
  • Hadoop集群压测解决方案 <> Hadoop
  • Kafka丢数据解决方案 <> Kafka
  • Hive大表大表Join解决方案 <> Hive
  • 动态分流解决方案 <> Flink CDC
  • DataX性能优化解决方案 <> DataX
  • Spark数据倾斜解决方案 <> Spark
  • Hadoop内存溢出解决方案 <> Hadoop
  • 旁路缓存解决方案 <> Redis
  • Kafka提高吞吐量解决方案 <> Kafka
  • Hadoop集群动态扩容解决方案 <> Hadoop
  • 零点漂移问题解决方案 <> Flume
  • 小文件解决方案 <> Hadoop
  • Flume集群动态扩容解决方案 <> Flume
  • Kafka数据积压解决方案 <> Kafka
  • 实时同步MySQL解决方案 <> Maxwell、Canal、Debezium
  • Kafka数据有序解决方案 <> Kafka
  • 断点续传解决方案 <> Flume
  • Kafka单条日志传输大于1m解决方案 <> Kafka
  • 湖仓一体解决方案 <> Hudi + Iceberg + Flink
  • Kafka集群压测解决方案 <> Kafka
  • HDFS Sink小文件解决方案 <> Flume
  • Kafka集群动态服役退役解决方案 <> Kafka
  • Hive大小表Join解决方案 <> Hive
  • Kafka重复数据解决方案 <> Kafka
  • Hive查询慢解决方案 <> Hive
  • 多流Join 解决方案 <> Flink
  • Hive内存溢出解决方案 <> Hive
  • Kafka数据乱序解决方案 <> Kafka
  • Hive小文件解决方案 <> Hive
  • MySQL与Hive空值不一致解决方案 <> DataX
  • Kafka挂掉解决方案 <> Kafka
  • 全量同步MySQL解决方案 <> Sqoop、DataX
  • Flink Exactly-Once解决方案 <> Flink
  • Spark Streaming丢失数据解决方案 <> Spark Streaming
  • Spark性能优化解决方案 <> Spark
  • Flink数据倾斜解决方案 <> Flink
  • Flink复杂事件解决方案 <> Flink
  • Hbase RowKey查询慢解决方案 <> Hbase
  • Kafka指定任意时间消费解决方案 <> Kafka
  • Sqoop数据倾斜解决方案 <> Sqoop
  • 数据清洗解决方案 <> Hql、SparkSQL 、Kettle
  • Kafka指定任意Offset消费解决方案 <> Kafka
  • 元数据管理解决方案 <> Atlas
  • Flink内存溢出解决方案 <> Flink
  • 数据治理解决方案 <> SpringBoot + Vue
  • Sqoop数据导出一致性问题解决方案 <> Sqoop
  • Flink SQL时区问题解决方案 <> Flink
  • 异步IO解放方案 <> Flink + Hbase
  • 大屏可视化报表解决方案 <> DataV、Suga
  • Flink RocksDB状态后端调优解决方案 <> Flink
  • 离线报表可视化解决方案 <> Superset、Echart、QuickBI
9大 硅谷实战项目,大数据企业项目直接为学员所用
  • 离线数仓项目
  • Flink实时数仓项目
  • Spark实时数仓项目
  • 用户画像
  • 在线教育
  • 阿里云MaxCompute
  • 物流数据分析项目(腾讯云EMR)
  • 技术中台
  • 推荐系统

离线数仓项目

项目特色:

依托国内电商巨头的实际业务场景,引入海量的真实点击数据和业务数据,紧跟大数据主流技术需求,拥有丰富的数据仓库功能模块。

主要技术栈:
Hadoop Flume DataX Maxwell Kafka Spark DolphinScheduler SpringBoot SuperSet Kylin Presto Ranger
学习目标:
  1. 广泛了解数据仓库建模理论
  2. 充分熟悉电商行业数据分析指标体系
  3. 快速掌握多种大数据技术框架
  4. 了解认识多种数据仓库技术模块
点击查看项目详情>>

Flink实时数仓项目

项目特色:

参考众多大厂的实时数仓项目的经典架构研发推出,采用当前主流的实时数据流处理框架Flink作为主要计算引擎,涉及多种实时计算关键技术,满足企业对实时开发的要求。

主要技术栈:
Flume Maxwell Kafka Flink HBase Phoenix Redis ClickHouse SpringBoot Sugar
学习目标:
  1. 了解实时数据仓库的建模理论
  2. 灵活应用Flink的的流式计算技术
  3. 多种技术框架协调配合、灵活应用,融会贯通整个大数据开发的关键技术
点击查看项目详情>>

Spark实时数仓项目

项目特色:

依托企业级真实的实时数据分析环境,对目前互联网大厂中常见的实时分析场景提出了一套基于SparkStreaming的实用的技术解决方案,丰富实时技术栈。

主要技术栈:
Flume Canal Maxwell Kafka SparkStreaming HBase Phoenix Redis ElasticSearch Kibana SpringBoot Sugar
学习目标:
  1. 掌握Scala语言开发Spark的实时计算任务的开发技巧
  2. 了解使用不同的CDC框架,提升实时方向的项目开发经验
点击查看项目详情>>

用户画像

项目特色:

着眼于用数字化的标签描述用户个性特征、勾画目标用户,实现了标签定义、标签任务处理、任务调度、任务监控、用户分区、用户洞察的全功能平台化管理。

主要技术栈:
Spark MLib ClickHouse Redis Vue SpringBoot Mybatis
学习目标:
  1. 充分理解用户画像管理平台的搭建及使用、用户画像系统的设计思路,以及标签的设计流程及应用
  2. 初步了解机器学习算法
点击查看项目详情>>

在线教育

项目特色:

基于某教育的实际业务场景,引入海量的真实点击数据和业务数据,紧跟大数据的主流技术需求,搭建一整套完整的离线数据仓库、实时数据仓库和用户画像系统。

主要技术栈:
Hadoop Flume DataX Maxwell Kafka Spark Presto DolphinScheduler SpringBoot Echart SuperSet Kylin Ranger Flink HBase Phoenix Redis ClickHouse Sugar
学习目标:
  1. 充分了解在线教育行业的业务数据体系
  2. 熟悉在线教育行业的离线指标体系
  3. 熟悉在线教育行业的实时指标体系
  4. 充分掌握多种大数据技术框架的协调应用
点击查看项目详情>>

阿里云MaxCompute

项目特色:

依托国内电商巨头的真实业务场景,基于目前各大互联网企业对于阿里云架构体系的需求,将整个电商的数据仓库体系搭建在阿里云架构上,做到全项目全流程上云。

主要技术栈:
Flume RDS DataHub DataWorks DataV QuickBI Flink MaxCompute
学习目标:
  1. 掌握阿里云常用大数据技术框架
  2. 掌握基于阿里云服务器进行离线数据仓库和实时数据仓库的搭建
点击查看项目详情>>

物流数据分析项目(腾讯云EMR)

项目特色:

依托物流行业的的真实业务场景,基于目前各大互联网企业对于腾讯云EMR架构体系的需求,将整个电商的数据仓库体系搭建在腾讯云架构上。

主要技术栈:
腾讯云EMR中的Hive、Spark、Hadoop、Flink、Flume、Kafka
学习目标:
  1. 掌握腾讯云常用大数据技术框架的使用、选型和购买
  2. 掌握基于腾讯云EMR进行离线数据仓库和利用进行实时数据仓库的搭建
点击查看项目详情>>

技术中台

项目特色:

一站式搞定数据治理、血缘管理、元数据管理、数据质量监控、批处理和实时处理的可视化调度、可视化即席查询、可视化数据采集配置。

主要技术栈:
SpringBoot Vue ClickHouse Presto Spark Hive Flink DolphinSchedule
学习目标:
  1. 掌握技术中台中的核心功能开发原理
  2. 掌握大数据、JavaEE和前端技术的融合
点击查看项目详情>>

推荐系统

项目特色:

依托于真实的中文亚马逊电商数据集,以及真实的电商企业业务数据体系,构建了符合教学体系的一体化电商推荐系统,充分理解推荐系统的运作流程,拓宽技术视野。

主要技术栈:
Flume Kafka MongoDB Spark Streaming ElasticSearch Git Redis
学习目标:
  1. 系统性梳理整合大数据技术知识与机器学习相关知识
  2. 深入了解推荐系统在电商企业中的实际应用
  3. 深入学习并掌握多种推荐算法
点击查看项目详情>>

大浪淘沙

课程大纲不断吐故纳新,保持先进性与实用性结合

200+ 新技术点广泛覆盖企业需求

强强联合!尚硅谷已与Apache多个开源项目形成合作:

DolphinScheduler、Hudi、Doris、Kylin、SeaTunnel、StreamX
  • Flink
  • Kylin
  • Presto
  • Impala
  • Druid
  • Kudu
  • ClickHouse
  • Ambari
  • Airflow
  • Hue
  • Tableau
  • Tidb
  • DataX
  • Griffin
  • Zabbix
  • Kettle
  • MaxWell
  • NiFi
  • Structured Steaming
  • Tableau
  • Tidb
  • JDBC
  • HDP
  • Phoenix
  • Druid
  • Filebeat
  • InfluxDB
  • Saiku
  • Sentry
  • Superset
  • Structured Steaming
  • Hive
  • Atlas
  • Ranger
  • Atlas
  • JavaSE
  • MySQL
  • JDBC
  • Maven
  • IDEA
  • Redis
  • Git
  • QuickBI
  • DataWorks
  • PrestoSQL
  • Shell
  • Linux
  • Hadoop
  • Hive
  • Zookeeper
  • HBase
  • Sqoop
  • Azkaban
  • Oozie
  • JVM
  • Git
  • Grafana
  • JUC
  • Flume
  • Kafka
  • SpringBoot
  • Logstash
  • Kibanna
  • Spark Core
  • Spark SQL
  • Spark Streaming
  • Impala
  • ElasticSearch
  • Hudi
  • StreamX
  • Docker
  • StreamSets
  • Iceberg
  • FlinkCDC
  • Doris
  • StarRocks
  • SeaTunnel
  • Zabbix
  • Grafana
  • ClickHouse
  • Prometheus
  • DolphinScheduler
  • Debezium
  • nmon
  • MaxCompute
  • DataHub
  • Impala
  • HDFS
  • Yarn
  • MapReduce
  • FlinkSQL
  • EMR
  • Hive-on-Spark
  • Kubernetes
  • CDH
  • HDP
  • SqlServer
  • HDP
  • K8S
  • Spark-on-K8S
  • Flink-on-K8S
  • OGG
  • GitEE
  • JUC
  • Oracle
  • AWS
  • ClickHouse
  • Prometheus
  • Flink
  • CDH
  • HDP
  • SqlServer
  • PostgreSQL
  • PrestoDB
  • PrestoSQL
  • IDEA
  • Redis
  • Git
  • QuickBI
  • DataWorks
  • OGG
  • Flink
  • Kylin
  • Presto
  • Impala
  • Druid
  • Kudu
  • ClickHouse
  • Ambari
  • Airflow
  • Hue
  • Tableau
  • Tidb
  • DataX
  • Griffin
  • Zabbix
  • Kettle
  • MaxWell
  • NiFi
  • Structured Steaming
  • Tableau
  • Tidb
  • JDBC
  • HDP
  • Phoenix
  • Druid
  • Filebeat
  • InfluxDB
  • Saiku
  • Sentry
  • Superset
  • Structured Steaming
  • Hive
  • Atlas
  • Ranger
  • Atlas
  • JavaSE
  • MySQL
  • JDBC
  • Maven
  • IDEA
  • Redis
  • Git
  • QuickBI
  • DataWorks
  • PrestoSQL
  • Shell
  • Linux
  • Hadoop
  • Hive
  • Zookeeper
  • HBase
  • Sqoop
  • Azkaban
  • Oozie
  • JVM
  • Git
  • Grafana
  • JUC
  • Flume
  • Kafka
  • SpringBoot
  • Logstash
  • Kibanna
  • Spark Core
  • Spark SQL
  • Spark Streaming
  • Impala
  • ElasticSearch
  • Hudi
  • StreamX
  • Docker
  • StreamSets
  • Iceberg
  • FlinkCDC
  • Doris
  • StarRocks
  • SeaTunnel
  • Zabbix
  • Grafana
  • ClickHouse
  • Prometheus
  • DolphinScheduler
  • Debezium
  • nmon
  • MaxCompute
  • DataHub
  • Impala
  • HDFS
  • Yarn
  • MapReduce
  • FlinkSQL
  • EMR
  • Hive-on-Spark
  • Kubernetes
  • CDH
  • HDP
  • SqlServer
  • HDP
  • K8S
  • Spark-on-K8S
  • Flink-on-K8S
  • OGG
  • GitEE
  • JUC
  • Oracle
  • AWS
  • ClickHouse
  • Prometheus
  • Flink
  • CDH
  • HDP
  • SqlServer
  • PostgreSQL
  • PrestoDB
  • PrestoSQL
  • IDEA
  • Redis
  • Git
  • QuickBI
  • DataWorks
  • OGG
课程大纲大牛引路,实战贯穿

阶段一:JavaSE基础核心

核心技能

1深入理解Java面向对象思想

2掌握开发中常用基础API

3熟练使用集合框架、IO流、异常

4能够基于JDK8开发

5熟练使用MySQL,掌握SQL语法

课程设计特色
本阶段除了JavaSE中要求大家必会的常见知识外,重点加强了数据结构思想、集合源码分析,逐步培养大家深入学习的能力,此外为大数据框架学习打好基础,加强对SQL的讲解,重点培养学生数据处理思想。
Java基础语法
  • ·分支结构if/switch
  • ·方法重载
  • ·方法声明和调用
  • ·循环结构for/while/do while
  • ·命令行参数、可变参数
  • ·数组的使用
  • ·参数传递
IDEA
  • ·IDEA常用设置、常用快捷键
  • ·Web项目案例实操
  • ·关联Tomcat
  • ·自定义模板
面向对象编程
  • ·封装、继承、多态、构造器、包
  • ·异常处理机制、IO流体系
  • ·super、this、Object类
  • ·枚举、注解
  • ·线程的安全、同步和通信
  • ·反射、类的加载机制、网络编程
  • ·面向对象高级应用
  • ·代理设计模式
  • ·抽象类、接口、内部类
  • ·常有基础API
  • ·集合List/Set/Map
  • ·工厂设计模式
  • ·泛型、线程的创建和启动
  • ·深入集合源码分析
  • ·常见数据结构解析
  • ·模板设计模式
Java8-17新特性
  • ·Lambda表达式、方法引用
  • ·构造器引用、StreamAPI
  • ·jShell(JShell)命令
  • ·局部变量的类型推断
  • ·更简化的编译运行程序等
  • ·Optional加强
  • ·接口的私有方法
MySQL
  • ·分组查询、Join查询、子查询
  • ·Union查询、函数
  • ·DML语言、DDL语言、DCL语言
  • ·流程控制语句、事务的特点
  • ·事务的隔离级别等
  • ·锁机制、高可用设计、集群
  • ·存储过程、触发器、自定义函数等
  • ·分库分表、主从复制、视图
  • ·索引和优化、存储引擎
JDBC
  • ·使用JDBC完成数据库增删改查操作
  • ·批处理的操作
  • ·常见数据库连接池C3P0、DBCP、Druid等
  • ·数据库连接池的原理及应用

阶段二:Hadoop生态体系架构

核心技能

1Linux系统的安装和操作

2熟练掌握Shell脚本语法

3Idea、Maven等开发工具的使用

4Hadoop组成、安装、架构和源码深度解析,以及API的熟练使用

5Hive的安装部署、内部架构、熟练使用其开发需求以及企业级调优

6Zookeeper的内部原理、选举机制以及大数据生态体系下的应用

7Flume的架构原理、组件自定义、监控搭建,熟练使用Flume开发实战需求

8Kafka的安装部署以及框架原理,重点掌握Kafka的分区分配策略、数据可靠性、数据一致性、数据乱序处理、零拷贝原理、高效读写原理、消费策略、再平衡等内容

9统筹Hadoop生态下的Hadoop、Flume 、Zookeeper、Kafka、DataX、MaxWell等诸多框架,搭建数据采集系统,熟练掌握框架结构和企业级调优手段

课程设计特色
本阶段以Hadoop生态系统为主,是大数据主要框架的入门阶段。根据课程的前后关联性,先后为Linux、Hadoop、Hive、Zookeeper、Flume、Kafka、电商数据采集项目。课程顺序经过精心调研安排,符合学习的基本认知规律。每个框架的讲解都是从基础的安装部署和架构讲解入手,穿插经典实操案例,配以关键源码解读。阶段最后安排讲解数据仓库采集系统,对各种框架融会贯通,带领学员回顾所学框架的同时,迅速增长实际开发经验。
Maven
  • ·Maven环境搭建
  • ·本地仓库&中央仓库
  • ·自动部署&持续继承&持续部署
  • ·创建Web工程
Linux
  • ·VI/VIM编辑器
  • ·系统管理操作&远程登录
  • ·软件包管理&企业真题
  • ·常用命令
Shell编程
  • ·自定义变量与特殊变量
  • ·运算符
  • ·条件判断
  • ·流程控制
  • ·系统函数&自定义函数
  • ·常用工具命令
  • ·常用正则表达式
  • ·面试真题
Hadoop
  • ·Hadoop生态介绍
  • ·Hadoop运行模式
  • ·源码编译
  • ·HDFS文件系统底层详解
  • ·DN&NN工作机制
  • ·HDFS的API操作
  • ·MapReduce框架原理
  • ·数据压缩
  • ·Yarn工作机制
  • ·MapReduce案例详解
  • ·Hadoop参数调优
Zookeeper
  • ·Zookeeper数据结果
  • ·内部原理
  • ·选举机制
  • ·Stat结构体
  • ·监听器
  • ·分布式安装部署
  • ·实战案例、面试真题
  • ·API操作
HA+新特性
  • ·HDFS-HA集群配置
Hive
  • ·Hive架构原理
  • ·安装部署
  • ·远程连接
  • ·常见命令及基本数据类型
  • ·DML数据操作
  • ·查询语句
  • ·Join&排序
  • ·分桶&函数
  • ·压缩&存储
  • ·企业级调优
  • ·实战案例
  • ·面试真题
Flume
  • ·Flume架构
  • ·Agent内部原理
  • ·事务
  • ·安装部署
  • ·实战案例
  • ·自定义Source
  • ·自定义Sink
  • ·Ganglia监控
Kafka
  • ·基础架构
  • ·安装部署
  • ·命令行操作
  • ·生产者消息发送流程
  • ·异步发送API
  • ·同步发送API
  • ·生产者分区策略
  • ·生产者如何提高吞吐量
  • ·数据可靠性
  • ·数据去重
  • ·数据有序
  • ·数据乱序
  • ·节点服役和退役
  • ·Leader选举流程
  • ·文件存储机制
  • ·高效读写原理
  • ·消费策略
  • ·数据积压
  • ·Kafka-Eagle监控
  • ·Kafka-Kraft模式

阶段三:Spark生态体系架构

核心技能

1Spark的入门安装部署、Spark Core部分的基本API使用熟练、RDD编程进阶、累加器和广播变量的使用和原理掌握、Spark SQL的编程掌握和如何自定义函数、Spark的内核源码详解(包括部署、启动、任务划分调度、内存管理等)、Spark的企业级调优策略

2DophineScheduler的安装部署,熟练使用进行工作流的调度执行

3了解数据仓库建模理论,充分熟悉电商行业数据分析指标体系,快速掌握多种大数据技术框架,了解认识多种数据仓库技术模块

4HBase和Phoenix的部署使用、原理架构讲解与企业级优化

5开发工具Git&Git Hub的熟练使用

6Redis的入门、基本配置讲解、jedis的熟练掌握

7ElasticSearch的入门安装部署及调优

8充分理解用户画像管理平台的搭建及使用、用户画像系统的设计思路,以及标签的设计流程及应用,初步了解机器学习算法

9项目实战。贴近大数据的实际处理场景,多维度设计实战项目,能够更加广泛的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验

课程设计特色
本阶段课程进入进阶阶段,主要讲解核心大数据框架Spark和HBase,对两大框架进行了深入讲解,包括两大框架的基本安装部署以及深入源码解读。

此外,本阶段还包含三大项目——离线数据仓库项目、用户画像项目和项目实战。前两大项目均采用新架构体系、稳定的框架选型、经典的理论解读,手把手教你如何从0到1搭建一个功能完善的大数据系统。内容涵盖绝大部分大数据经典流行框架、绝大部分经典需求实现,并配合企业级部署调优讲解,助力学员迅速增长开发经验,适配大部分企业的大数据开发需求。项目实战项目主要锻炼学生动手实战能力,根据前两个项目所学,自己独立按照企业需求完成开发任务。
Spark
  • ·安装部署
  • ·RDD概述
  • ·编程模型
  • ·持久化&检查点机制
  • ·DAG
  • ·算子详解
  • ·DRDD编程进阶
  • ·累加器&广播变量
  • ·SparkSQL
  • ·DataFrame
  • ·DataSet
  • ·自定义UDF&UDAF函数
  • ·SparkSQL企业级调优
  • ·数据倾斜处理
  • ·小文件处理
  • ·大表join大表
  • ·大小表MapJoin
  • ·谓词下推
  • ·CPU配置
  • ·内存配置等
Presto
  • ·Presto的安装部署
  • ·使用Presto执行数仓项目的即席查询模块
Superset
  • ·使用SuperSet对数仓项目的计算结果进行可视化展示
DolphinScheduler
  • ·任务调度工具DolphinScheduler的安装部署
  • ·实现数仓项目任务的自动化调度、配置邮件报警
DataX
  • ·DataX架构原理
  • ·DataX部署
  • ·DataX使用
  • ·DataX优化
Atlas2.0
  • ·元数据管理工具Atlas的安装部署
MaxWell
  • ·使用MaxWell实时监控MySQL数据变化采集至实时项目
Zabbix
  • ·集群监控工具Zabbix的安装部署
HBase
  • ·HBase原理及架构
  • ·数据读写流程
  • ·API使用
  • ·企业级调优
Redis
  • ·安装配置
  • ·Redis的五大数据类型
  • ·Jedis
  • ·持久化
  • ·RDB
  • ·AOF

阶段五:就业指导

核心技能

1从技术和项目两个角度按照企业面试要求带领同学们复习

2熟悉CDH在生产环境中的使用

3手把手简历指导,助力学员顺利通过简历筛选

课程设计特色
本阶段课程主要围绕学员的就业需求,在真正就业前,帮助学员多维度复习巩固所学知识和项目,串讲经典高频面试题,传授面试答题技巧,总结项目开发经验,手把手简历指导,解决学员在就业过程中遇到的各种难题。
面试题+考试
  • ·串讲所学的各种技术点,如Hadoop、Hive、Kafka、Spark、Flink等技术框架高频面试题
  • ·串讲各种学过的项目
  • ·对串讲过的面试题和项目进行考试
CDH
  • ·在阿里云服务器上,基于CDH安装部署各种离线数据仓库项目
就业指导
  • ·简历指导、职业规划
  • ·简历书写(Word、网上)
  • ·模拟面试

阶段四:Flink生态体系架构

核心技能

1熟练掌握Flink的基本架构以及流式数据处理思想,熟练使用Flink多种Soure、Sink处理数据,熟练使用基本API、Window API 、状态函数、Flink SQL、Flink CEP复杂事件处理等

2使用Flink搭建实时数仓项目,熟练使用Flink框架分析计算各种指标

3ClickHouse安装、使用及调优

4项目实战。贴近大数据的实际处理场景,多维度设计实战项目,能够更广泛的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验

5可选掌握推荐和机器学习项目,熟悉并使用系统过滤算法以及基于内容的推荐算法等

6采用阿里云平台全套大数据产品重构电商项目,熟悉离线数仓、实时指标的阿里云解决方案

课程设计特色
本阶段课程以时下流行的大数据处理框架Flink为中心,从架构讲起,详细讲解了各种层面API的使用,并对Flink的高级应用场景进行了案例化讲解,还配备了详细的源码解读和优化技巧。本阶段还围绕Flink讲解了大数据领域另一个十分重要的项目——Flink实时数据仓库项目。本项目与离线数仓项目可以无缝对接,两大项目共同组成一个完整的企业级大数据架构。课程中包含深入数仓理论讲解、实用高效的实时问题解决方案。通过学习本项目,可以迅速掌握实时开发的重点难点,掌握多种实时难点问题解决方案,对实时领域框架的搭配应用融会贯通,提升开发和调优经验。本阶段还配备项目实战阶段,主要锻炼学生动手实战能力,根据已学内容,在讲师指导下独立完成开发任务。

此外,本阶段课程还将讲解时下流行的热点问题项目,数据湖 or K8S or 技术中台,成熟的技术课程可以使学员更广泛了解大数据的发展趋势,掌握更多更热门的大数据技术,例如Hudi、K8S、数据治理等。

在本阶段课程的最后是企业级的项目调优课程,通过搭建一个企业级的大数据集群,对项目中可能发生的高频热点问题、面试常见问题给出多角度解答,问题多、范围广、覆盖全,有助学员提升开发经验,熟悉开发环境。
Flink
  • ·运行时架构
  • ·数据源Source
  • ·Window API
  • ·Water Mark
  • ·状态编程
  • ·Flink SQL
  • ·Table API
  • ·CEP复杂事件处理
  • ·Flink源码
  • ·Flink优化
ClickHouse
  • ·ClickHouse安装
  • ·使用及调优
Sugar
  • ·结合Springboot对接百度sugar实现数据可视化大屏展示
Doris
  • ·Doris编译域安装
  • ·集群扩容和缩容
  • ·数据划分
  • ·数据模型
  • ·动态分区
  • ·Rollup
  • ·物化视图
  • ·表的创建修改和删除
  • ·数据导入导出
  • ·查询设置
  • ·Join查询
  • ·集成Spark
  • ·集成Flink
  • ·企业级优化
  • ·数据备份和恢复
Hudi
  • ·Hudi快速构建
  • ·集成Spark
  • ·集成Flink
  • ·生产调优
Iceberg
  • ·Iceberg构建
  • ·集成Spark
  • ·集成Flink
  • ·生产调优
K8S
  • ·集群搭建
  • ·YAML文件详解
  • ·命令行工具Kubectl
  • ·Pod、Label
  • ·Controller
  • ·Volume
  • ·PVC和PV
  • ·Secret
  • ·configMap
  • ·Namespace
  • ·Service
  • ·探针
  • ·调度器
  • ·集群安全机制RBAC
  • ·性能监控平台
  • ·Helm
Git&GitHub
  • ·安装配置
  • ·本地库搭建
  • ·基本操作
  • ·工作流、集中式
Springboot
  • ·利用Springboot开发可视化接口程序

大器早成

职业发展选择广泛路径长久

中级开发

高级开发

项目经理

技术总监
资深架构

CTO
CEO

持续赋能,为学员成长保驾护航

从入学到就业后,尚硅谷始终在你身边,助力学员整个职业生涯持续提升
一站式服务模式,3大阶段6个步骤,用更高的效率,更科学化的方法,提供长期就业辅导、推荐和技术支持

厉害了,我的硅谷

影响力与日俱增,巨头合作、重磅荣誉纷至沓来

  • 尚硅谷喜获央广网
    2021年度公信力教育品牌

  • 尚硅谷与钉钉共同打造前端新版课程

  • 尚硅谷与百度深度合作
    助力学员职业生涯稳步上升

  • 尚硅谷荣获新浪
    综合实力培训机构大奖

  • 尚硅谷荣获腾讯
    “2018年度综合实力教育集团”

  • 尚硅谷荣获凤凰网
    2019-2020年度华人影响力职业教育品牌

  • 尚硅谷与北京市计算中心战略合作发布
    “羽林计划”

  • 尚硅谷与华为云达成合作

  • 尚硅谷与多所院校合作共建实训基地

获颁数十项国家计算机软件著作权证书,尽显技术研发硬实力

广泛涵盖大数据、教育、教务管理、阅读、社区等领域

校区环境整洁有序,竭尽全力为学员提供高效学习氛围

北京java培训 北京java培训班
尚硅谷@北京

上海java课程培训 上海java培训机构
尚硅谷@上海
深圳java工程师培训 深圳java软件培训
尚硅谷@深圳
武汉java开发培训

武汉java程序员培训
尚硅谷@武汉
西安java开发培训
西安java程序员培训
尚硅谷@西安