重塑大数据课程新范式

尚硅谷与腾讯云、Apache等技术企业深度合作
打造AI时代的新型大数据课程

“尚硅谷一直以高质量的教学内容在技术圈广为传播, 并且积极拥抱当前火热的技术, 对开源保持密切关注和支持,深受广大开发者喜爱! 腾讯云弹性MapReduce(EMR)是云上开源、开放的、云原生的大数据基础分析产品,旨在助力企业客户在云上方便、快捷以低成本的方式构建云上大数据分析基础平台、EMR在开源的基础上解决了安全、组件稳定、兼容问题的同时提供了开源软件驾驶舱的能力,以便企业客户更好地在云上使用开源大数据组件并协助开源社区健康发展。”

——腾讯云大数据EMR研发负责人 陈龙

“作为全球数据库和大数据领域最为活跃的开源项目之一,Apache Doris 已受到了越来越多用户和开发者的关注。尚硅谷出品的 Doris 系列课程对于想深度了解 Apache Doris 的大数据工程师而言无疑是个福音,由浅入深,详尽剖析了系统原理,并且理论结合实践、从实际项目的角度帮助大家可以更好掌握 Apache Doris 使用技巧。期待未来有更多工程师在尚硅谷课程的帮助下,帮助国人打造的优秀开源项目在全球舞台继续发光发热!”

——Apache Doris PMC 张家锋

“尚硅谷的教学视频让许多学习者能够快速地了解和掌握开源项目的整体框架。你们的努力为开源社区的发展和壮大奠定了基础,让更多的人能够在开源世界中成长和进步。”

——Apache Seatunnel PMC 、Apache DolphinScheduler PMC、白鲸开源COO 聂励峰

“尚硅谷一直以高质量的教学内容在技术圈广为传播, 并且积极拥抱当前火热的技术, 对开源保持密切关注和支持,深受广大开发者喜爱!Apache StreamPark 是一个流计算开发管理平台, 旨在让流处理更简单, 社区发展日渐壮大,有着广泛的用户群体, 非常期待和尚硅谷再次合作, 共同打造高质量的课程, 让企业和开发者们受益。”

——Founder of Apache StreamPark 王华杰

“尚硅谷的课程不仅帮助各行业的开发人员快速学习并掌握核心技术,也同时为各开源项目提供手把手教学视频,使用户可以快速上手并在生产环境应用,推动了开源社区的发展,并让天下再无难学的技术。”

——Dinky PMC 亓文凯

课程优势

  • 引入AI

    本课程全面引入AI辅助开发技巧详解,贯穿项目实战到技术学习各阶段。探索教育黑科技,永远追求行业更高标准。大数据乘上AI的翅膀,飞往更辽阔的远方!

  • 雄厚师资

    专职讲师全程面授,多家企业领域技术大牛不定期分享自己的实操经验,让你成为一个技术基础扎实,且与市场需求实时匹配的实力派。

  • 全程实战

    行业模板拿来即用,涉及医疗卫生、公共服务、金融等十数个产业,70+技术解决方案,100+关键技术指标,助你成为能解决企业实际问题的硬核人才。

  • 就业服务

    求职期手把手简历指导,传授面试答题技巧,总结项目开发经验;入职后随时技术支援,做好传、帮、带,为学员发展持续提供源动力。

项目实战

学企业真实项目真流程
掌握让AI落地的真本领

租房 医药 银行 服务 健康 智慧
交通
物流 广告 直播 电商 保险 政务 供应链 音视频 区块链 在线
教育
地产 能源 餐饮 军工 游戏 人工
智能
车联网 金融

18个硅谷实战项目,大数据企业项目直接为学员所用

  • 电商离线数仓
  • 电商Flink实时数仓
  • 在线教育
  • 在线听书
  • 新能源汽车
  • 广告营销
  • 金融审批
  • 医疗问诊
  • 腾讯云EMR物流
  • 阿里云MaxCompute
  • 湖仓一体
  • 技术中台
  • 用户画像
  • 推荐系统
  • Spark实时
  • 彩票项目
  • 保险项目
  • 统一数仓项目
项目特色

依托国内电商巨头的实际业务场景,引入海量的真实点击数据和业务数据,紧跟大数据主流技术需求,配备AI辅助开发技巧详解,拥有丰富的数据仓库功能模块。

学习目标
  • 全面了解数据仓库建模理论
  • 充分熟悉电商行业数据分析指标体系
  • 快速掌握多种大数据技术框架
  • 了解认识多种数据仓库技术模块、掌握AI辅助开发技巧
主要技术栈
Hadoop Flume DataX Maxwell Kafka Spark DolphinScheduler SpringBoot Echart SuperSet Kylin Presto Ranger
项目特色

参考众多大厂的实时数仓项目的经典架构研发推出,采用当前主流的实时数据流处理框架Flink作为主要计算引擎,涉及多种实时计算关键技术,新增AI辅助开发技巧的讲解,全面满足企业对实时开发的要求。

学习目标
  • 了解实时数据仓库的建模理论
  • 灵活应用Flink的流式计算技术,多种技术框架协调配合
  • 灵活应用AI,提升开发效率
  • 优化项目代码,融汇贯通整个大数据开发的关键技术
主要技术栈
Flume Maxwell Kafka Flink HBase Phoenix Redis ClickHouse SpringBoot SugarBI
项目特色

基于在线教育行业的实际业务场景,引入海量的真实点击数据和业务数据,紧跟大数据的主流技术需求,穿插AI辅助开发技巧讲解,搭建了一整套完整的离线数据仓库和实时数据仓库。

学习目标
  • 充分了解在线教育行业的业务数据体系,熟悉在线教育行业的离线指标体系
  • 熟悉在线教育行业的实时指标体系,充分掌握多种大数据技术框架的协调应用,充分掌握AI辅助开发技巧
主要技术栈
Hadoop Flume DataX Maxwell Kafka Spark DolphinScheduler SpringBoot Echarts SuperSet Kylin Presto Ranger Flink HBase Phoenix Redis Doris SugarBI
项目特色

涵盖了大数据的数仓建模理论、数据处理技术手段和大数据平台搭建方法,依托真实在线听书行业的实际业务场景,展示全面的离线与实时的指标体系,配备AI辅助开发技巧详解。

学习目标
  • 充分了解在线听书行业的业务数据体系,熟悉在线听书行业的离线指标体系
  • 熟悉在线听书行业的实时指标体系,充分掌握多种大数据技术框架的协调应用,充分掌握AI辅助开发技巧
主要技术栈
Hadoop Flume Kafka Maxwell DataX Hive Spark Flink SugarBI ClickHouse Redis HBase Phoenix DolphinScheduler
项目特色

站在汽车物联网数据仓库的技术前列,依托真实汽车传感器数据,展示完整的离线指标体系,搭建功能完善的离线数据仓库,熟练应用大数据技术框架。

学习目标
  • 充分了解汽车物联网行业的业务数据体系
  • 熟悉汽车物联网行业的离线指标体系
  • 充分掌握多种大数据技术框架的协调应用
  • 掌握AI辅助开发技巧
主要技术栈
Hadoop Flume Kafka Maxwell DataX Hive Spark DolphinScheduler
项目特色

依托真实广告行业的实际业务场景,透彻讲解互联网广告发展历程和广告完整运营流程,展示全面的广告指标体系,学习数据分析工具,配备AI辅助开发技巧详解。

学习目标
  • 全面了解数据仓库建模理论
  • 充分熟悉广告行业运营流程、专业术语和数据分析指标体系
  • 彻底掌握多种大数据技术框架
  • 掌握AI辅助开发技巧
主要技术栈
Hadoop Flume DataX Kafka Hive Spark DolphinScheduler ClickHouse FineBI
项目特色

依托真实的金融审批行业的海量业务数据,构建离线数据仓库,依据数仓建模理论完成数据的存储、分析与调取,分析实现整套金融审批指标体系,构建指标分析仪表盘。

学习目标
  • 充分了解金融审批行业的业务数据体系
  • 熟悉金融审批行业的离线指标体系
  • 充分掌握多种大数据技术框架的协调应用
  • 掌握AI辅助开发技巧
主要技术栈
Hadoop Flume Kafka Maxwell DataX Hive Spark DolphinScheduler SuperSet
项目特色

依托真实的医疗问诊行业的海量业务数据,构建离线数据仓库,依据数仓建模理论完成数据的存储、分析与调取,分析实现整套医疗问诊指标体系,构建指标分析仪表盘。

学习目标
  • 充分了解医疗问诊行业的业务数据体系
  • 熟悉医疗问诊行业的离线指标体系
  • 充分掌握多种大数据技术框架的协调应用
  • 掌握AI辅助开发技巧
主要技术栈
Hadoop Flume Kafka Maxwell DataX Hive Spark DolphinScheduler SuperSet
项目特色

依托物流行业的真实业务场景,基于目前各大互联网企业对于腾讯云EMR架构体系的需求,将整个电商的数据仓库体系搭建在腾讯云架构上。课程中穿插对AI辅助开发技巧详细讲解,令AI真正赋能大数据开发。

学习目标
  • 掌握腾讯云常用大数据技术框架的使用、选型和购买
  • 掌握基于腾讯云EMR进行离线数据仓库和利用EMR进行实时数据仓库的搭建
  • 充分掌握AI辅助开发技巧
主要技术栈
腾讯云EMR中的Hive Spark Hadoop Flink Flume Kafka
项目特色

依托国内电商巨头的真实业务场景,基于目前各大互联网企业对于阿里云架构体系的需求,将整个电商的数据仓库体系搭建在阿里云架构上,做到全项目全流程上云。

学习目标
  • 掌握阿里云常用大数据技术框架
  • 掌握基于阿里云服务器进行离线数据仓库和实时数据仓库的搭建
主要技术栈
Flume RDS DataHub DataWorks DataV QuickBI Flink MaxCompute
项目特色

该项目是一个完整可落地的湖仓一体项目,依托真实电商行业的海量数据集,充分利用Hudi,将数据湖概念与数仓建模理论融汇贯通,将Hudi与其他主要大数据框架充分集成。

学习目标
  • 充分了解数据湖与数据仓库的概念区别
  • 熟悉数据湖的构建开发流程
  • 充分掌握Hudi与多种大数据框架的协调应用
主要技术栈
Flink Hudi Hadoop Flume Kafka FlinkCDC Hive Superset
项目特色

一站式搞定数据治理、血缘管理、元数据管理、数据质量监控、批处理和实时处理的可视化调度、可视化即席查询、可视化数据采集配置。

学习目标
  • 掌握技术中台中的核心功能开发原理
  • 掌握大数据、JavaEE和前端技术的融合
主要技术栈
SpringBoot Vue ClickHouse Presto Spark Hive Flink DolphinScheduler
项目特色

着眼于用数字化的标签描述用户个性特征、勾画目标用户,实现了从标签定义、标签任务处理、任务调度、任务监控、用户分区、用户洞察的全功能平台化管理。

学习目标
  • 充分理解用户画像管理平台的搭建及使用
  • 了解用户画像系统的设计思路
  • 掌握标签的设计流程及应用
  • 初步了解机器学习算法
主要技术栈
Spark MLib ClickHouse Redis Vue SpringBoot MyBatis
项目特色

依托于真实的中文亚马逊电商数据集,以及真实的电商企业业务数据体系,构建了符合教学体系的一体化电商推荐系统,充分理解推荐系统的运作流程,拓宽技术视野。

学习目标
  • 系统性梳理整合大数据技术知识与机器学习相关知识
  • 深入了解推荐系统在电商企业中的实际应用
  • 深入学习并掌握多种推荐算法
主要技术栈
Flume Kafka MongoDB Spark Streaming ElasticSearch Git Redis
项目特色

依托企业级真实的实时数据分析环境,对目前互联网大厂中常见的实时分析场景提出了一套基于SparkStreaming的全面实用的技术解决方案,丰富实时技术栈。

学习目标
  • 全面掌握Scala语言开发Spark的实时计算任务的开发技巧
  • 了解使用不同的CDC框架,提升实时方向的项目开发经验
主要技术栈
Flume Canal Maxwell Kafka SparkStreaming HBase Phoenix Redis ElasticSearch Kibana SpringBoot SugarBI
项目特色

依托真实的彩票行业的海量业务数据,构建离线数据仓库,依据数仓建模理论完成数据的存储、分析与调取,分析实现整套彩票指标体系,构建指标分析仪表盘。

学习目标
  • 充分了解彩票行业的业务数据体系
  • 熟悉彩票行业的离线指标体系
  • 充分掌握多种大数据技术框架的协调应用
  • 掌握AI辅助开发技巧
主要技术栈
Hadoop Flume Kafka Maxwell DataX Hive Spark DolphinScheduler SuperSet
项目特色

依托真实的保险行业的海量业务数据,构建离线数据仓库,依据数仓建模理论完成数据的存储、分析与调取,分析实现整套保险指标体系,构建指标分析仪表盘。

学习目标
  • 充分了解保险行业的业务数据体系
  • 熟悉保险行业的离线指标体系
  • 充分掌握多种大数据技术框架的协调应用
  • 掌握AI辅助开发技巧
主要技术栈
Hadoop Flume Kafka Maxwell DataX Hive Spark DolphinScheduler SuperSet
项目特色

该项目是一个完整可落地的统一数仓项目,依托真实电商行业的海量数据集,充分利用Doris,将Doris概念与数仓建模理论融汇贯通,将Doris与其他主要大数据框架充分集成。

学习目标
  • 充分了解统一数仓与数据仓库的区别
  • 熟悉统一数仓的构建开发流程
  • 充分掌握Doris与多种大数据框架的协调应用
主要技术栈
Flink Doris SeaTunnel DolphinScheduler FineBI

课程大纲

200+ 新技术点广泛覆盖企业需求

强强联合!尚硅谷已与Apache多个开源项目形成合作:

DolphinScheduler、Hudi、Iceberg、Doris、Kylin、SeaTunnel、StreamPark

  • Flink
  • Kylin
  • Presto
  • Impala
  • Druid
  • Kudu
  • ClickHouse
  • Ambari
  • Airflow
  • Hue
  • DataX
  • Griffin
  • Kettle
  • Zabbix
  • MaxWell
  • NiFi
  • Structured Steaming
  • Tableau
  • Tidb
  • Phoenix
  • Druid
  • Filebeat
  • InfluxDB
  • Saiku
  • Sentry
  • Superset
  • Ranger
  • Atlas
  • JavaSE
  • MySQL
  • JDBC
  • Maven
  • IDEA
  • Redis
  • Git
  • Shell
  • Linux
  • Hadoop
  • Hive
  • Zookeeper
  • HBase
  • Sqoop
  • Azkaban
  • Oozie
  • JVM
  • JUC
  • Flume
  • Kafka
  • SpringBoot
  • Logstash
  • Kibanna
  • Spark Core
  • Spark SQL
  • Spark Streaming
  • ElasticSearch
  • Hudi
  • StreamPark
  • Docker
  • StreamSets
  • Iceberg
  • FlinkCDC
  • Doris
  • StarRocks
  • SeaTunnel
  • Zabbix
  • Grafana
  • ClickHouse
  • Prometheus
  • DolphinScheduler
  • Debezium
  • nmon
  • MaxCompute
  • DataHub
  • suga
  • DataV
  • QuickBI
  • DataWorks
  • Impala
  • HDFS
  • Yarn
  • MapReduce
  • FlinkSQL
  • EMR
  • Hive-on-Spark
  • Kubernetes
  • K8S
  • Spark-on-K8S
  • Flink-on-K8S
  • OGG
  • GitEE
  • JUC
  • Oracle
  • AWS
  • CDH
  • HDP
  • SqlServer
  • PostgreSQL
  • PrestoDB
  • PrestoSQL
  • Flink
  • Kylin
  • Presto
  • Impala
  • Druid
  • Kudu
  • ClickHouse
  • Ambari
  • Airflow
  • Hue
  • DataX
  • Griffin
  • Kettle
  • Zabbix
  • MaxWell
  • NiFi
  • Structured Steaming
  • Tableau
  • Tidb
  • Phoenix
  • Druid
  • Filebeat
  • InfluxDB
  • Saiku
  • Sentry
  • Superset
  • Ranger
  • Atlas
  • JavaSE
  • MySQL
  • JDBC
  • Maven
  • IDEA
  • Redis
  • Git
  • Shell
  • Linux
  • Hadoop
  • Hive
  • Zookeeper
  • HBase
  • Sqoop
  • Azkaban
  • Oozie
  • JVM
  • JUC
  • Flume
  • Kafka
  • SpringBoot
  • Logstash
  • Kibanna
  • Spark Core
  • Spark SQL
  • Spark Streaming
  • ElasticSearch
  • Hudi
  • StreamPark
  • Docker
  • StreamSets
  • Iceberg
  • FlinkCDC
  • Doris
  • StarRocks
  • SeaTunnel
  • Zabbix
  • Grafana
  • ClickHouse
  • Prometheus
  • DolphinScheduler
  • Debezium
  • nmon
  • MaxCompute
  • DataHub
  • suga
  • DataV
  • QuickBI
  • DataWorks
  • Impala
  • HDFS
  • Yarn
  • MapReduce
  • FlinkSQL
  • EMR
  • Hive-on-Spark
  • Kubernetes
  • K8S
  • Spark-on-K8S
  • Flink-on-K8S
  • OGG
  • GitEE
  • JUC
  • Oracle
  • AWS
  • CDH
  • HDP
  • SqlServer
  • PostgreSQL
  • PrestoDB
  • PrestoSQL
  • Flink
  • Kylin
  • Presto
  • Impala
  • Druid
  • Kudu
  • ClickHouse
  • Ambari
  • Airflow
  • Hue
  • DataX
  • Griffin
  • Kettle
  • Zabbix
  • MaxWell
  • NiFi
  • Structured Steaming
  • Tableau
  • Tidb
  • Phoenix
  • Druid
  • Filebeat
  • InfluxDB
  • Saiku
  • Sentry
  • Superset
  • Ranger
  • Atlas
  • JavaSE
  • MySQL
  • JDBC
  • Maven
  • IDEA
  • Redis
  • Git
  • Shell
  • Linux
  • Hadoop
  • Hive
  • Zookeeper
  • HBase
  • Sqoop
  • Azkaban
  • Oozie
  • JVM
  • JUC
  • Flume
  • Kafka
  • SpringBoot
  • Logstash
  • Kibanna
  • Spark Core
  • Spark SQL
  • Spark Streaming
  • ElasticSearch
  • Hudi
  • StreamPark
  • Docker
  • StreamSets
  • Iceberg
  • FlinkCDC
  • Doris
  • StarRocks
  • SeaTunnel
  • Zabbix
  • Grafana
  • ClickHouse
  • Prometheus
  • DolphinScheduler
  • Debezium
  • nmon
  • MaxCompute
  • DataHub
  • suga
  • DataV
  • QuickBI
  • DataWorks
  • Impala
  • HDFS
  • Yarn
  • MapReduce
  • FlinkSQL
  • EMR
  • Hive-on-Spark
  • Kubernetes
  • K8S
  • Spark-on-K8S
  • Flink-on-K8S
  • OGG
  • GitEE
  • JUC
  • Oracle
  • AWS
  • CDH
  • HDP
  • SqlServer
  • PostgreSQL
  • PrestoDB
  • PrestoSQL
  • Flink
  • Kylin
  • Presto
  • Impala
  • Druid
  • Kudu
  • ClickHouse
  • Ambari
  • Airflow
  • Hue
  • DataX
  • Griffin
  • Kettle
  • Zabbix
  • MaxWell
  • NiFi
  • Structured Steaming
  • Tableau
  • Tidb
  • Phoenix
  • Druid
  • Filebeat
  • InfluxDB
  • Saiku
  • Sentry
  • Superset
  • Ranger
  • Atlas
  • JavaSE
  • MySQL
  • JDBC
  • Maven
  • IDEA
  • Redis
  • Git
  • Shell
  • Linux
  • Hadoop
  • Hive
  • Zookeeper
  • HBase
  • Sqoop
  • Azkaban
  • Oozie
  • JVM
  • JUC
  • Flume
  • Kafka
  • SpringBoot
  • Logstash
  • Kibanna
  • Spark Core
  • Spark SQL
  • Spark Streaming
  • ElasticSearch
  • Hudi
  • StreamPark
  • Docker
  • StreamSets
  • Iceberg
  • FlinkCDC
  • Doris
  • StarRocks
  • SeaTunnel
  • Zabbix
  • Grafana
  • ClickHouse
  • Prometheus
  • DolphinScheduler
  • Debezium
  • nmon
  • MaxCompute
  • DataHub
  • suga
  • DataV
  • QuickBI
  • DataWorks
  • Impala
  • HDFS
  • Yarn
  • MapReduce
  • FlinkSQL
  • EMR
  • Hive-on-Spark
  • Kubernetes
  • K8S
  • Spark-on-K8S
  • Flink-on-K8S
  • OGG
  • GitEE
  • JUC
  • Oracle
  • AWS
  • CDH
  • HDP
  • SqlServer
  • PostgreSQL
  • PrestoDB
  • PrestoSQL
  • Flink
  • Kylin
  • Presto
  • Impala
  • Druid
  • Kudu
  • ClickHouse
  • Ambari
  • Airflow
  • Hue
  • DataX
  • Griffin
  • Kettle
  • Zabbix
  • MaxWell
  • NiFi
  • Structured Steaming
  • Tableau
  • Tidb
  • Phoenix
  • Druid
  • Filebeat
  • InfluxDB
  • Saiku
  • Sentry
  • Superset
  • Ranger
  • Atlas
  • JavaSE
  • MySQL
  • JDBC
  • Maven
  • IDEA
  • Redis
  • Git
  • Shell
  • Linux
  • Hadoop
  • Hive
  • Zookeeper
  • HBase
  • Sqoop
  • Azkaban
  • Oozie
  • JVM
  • JUC
  • Flume
  • Kafka
  • SpringBoot
  • Logstash
  • Kibanna
  • Spark Core
  • Spark SQL
  • Spark Streaming
  • ElasticSearch
  • Hudi
  • StreamPark
  • Docker
  • StreamSets
  • Iceberg
  • FlinkCDC
  • Doris
  • StarRocks
  • SeaTunnel
  • Zabbix
  • Grafana
  • ClickHouse
  • Prometheus
  • DolphinScheduler
  • Debezium
  • nmon
  • MaxCompute
  • DataHub
  • suga
  • DataV
  • QuickBI
  • DataWorks
  • Impala
  • HDFS
  • Yarn
  • MapReduce
  • FlinkSQL
  • EMR
  • Hive-on-Spark
  • Kubernetes
  • K8S
  • Spark-on-K8S
  • Flink-on-K8S
  • OGG
  • GitEE
  • JUC
  • Oracle
  • AWS
  • CDH
  • HDP
  • SqlServer
  • PostgreSQL
  • PrestoDB
  • PrestoSQL
  • Flink
  • Kylin
  • Presto
  • Impala
  • Druid
  • Kudu
  • ClickHouse
  • Ambari
  • Airflow
  • Hue
  • DataX
  • Griffin
  • Kettle
  • Zabbix
  • MaxWell
  • NiFi
  • Structured Steaming
  • Tableau
  • Tidb
  • Phoenix
  • Druid
  • Filebeat
  • InfluxDB
  • Saiku
  • Sentry
  • Superset
  • Ranger
  • Atlas
  • JavaSE
  • MySQL
  • JDBC
  • Maven
  • IDEA
  • Redis
  • Git
  • Shell
  • Linux
  • Hadoop
  • Hive
  • Zookeeper
  • HBase
  • Sqoop
  • Azkaban
  • Oozie
  • JVM
  • JUC
  • Flume
  • Kafka
  • SpringBoot
  • Logstash
  • Kibanna
  • Spark Core
  • Spark SQL
  • Spark Streaming
  • ElasticSearch
  • Hudi
  • StreamPark
  • Docker
  • StreamSets
  • Iceberg
  • FlinkCDC
  • Doris
  • StarRocks
  • SeaTunnel
  • Zabbix
  • Grafana
  • ClickHouse
  • Prometheus
  • DolphinScheduler
  • Debezium
  • nmon
  • MaxCompute
  • DataHub
  • suga
  • DataV
  • QuickBI
  • DataWorks
  • Impala
  • HDFS
  • Yarn
  • MapReduce
  • FlinkSQL
  • EMR
  • Hive-on-Spark
  • Kubernetes
  • K8S
  • Spark-on-K8S
  • Flink-on-K8S
  • OGG
  • GitEE
  • JUC
  • Oracle
  • AWS
  • CDH
  • HDP
  • SqlServer
  • PostgreSQL
  • PrestoDB
  • PrestoSQL

6大阶段塑造高效成才路线

阶段一 Java基础核心 收起
核心技能
  • 1深入理解Java面向对象思想
  • 2掌握开发中常用基础API
  • 3熟练使用集合框架、IO流、异常
  • 4能够基于JDK8开发
  • 5熟练使用MySQL,掌握SQL语法
课程设计特色

本阶段除了JavaSE中要求大家必会的常见知识外,重点加强了数据结构思想、集合源码分析,逐步培养大家深入学习的能力,此外为大数据框架学习打好基础,加

强对SQL的讲解,重点培养学生数据处理思想。

关键技术清单
  • Java基础语法
    • 分支结构if/switch、循环结构for/while/do while
    • 方法声明和调用、参数传递
    • 方法重载、数组的使用、命令行参数、可变参数
  • IDEA
    • IDEA常用设置、常用快捷键、自定义模板、关联Tomcat、Web项目案例实操
  • 面向对象编程
    • 封装、继承、多态
    • 构造器、包
    • super、this、Object类
    • 异常处理机制
    • 抽象类、接口、内部类
    • 枚举、注解、代理设计模式
    • 工厂设计模式、模板设计模式
    • 面向对象高级应用
    • 常用基础API、集合List/Set/Map、泛型、线程的创建和启动
    • 深入集合源码分析、常见数据结构解析
    • 线程的安全、同步和通信、IO流体系、反射、类的加载机制、网络编程
  • Java8-17新特性
    • Lambda表达式、方法引用、构造器引用、StreamAPI
    • jShell(JShell)命令、接口的私有方法、Optional加强
    • 局部变量的类型推断、更简化的编译运行程序等
  • MySQL
    • DML语言、DDL语言、DCL语言
    • 分组查询、Join查询、子查询、Union查询、函数
    • 流程控制语句、事务的特点、事务的隔离级别等
    • 索引和优化、存储引擎、锁机制、高可用设计、集群
    • 分库分表、主从复制、视图
    • 存储过程、触发器、自定义函数等
  • JDBC
    • 使用JDBC完成数据库增删改查操作、批处理的操作
    • 数据库连接池的原理及应用
    • 常见数据库连接池C3P0、DBCP、Druid等
阶段二 Hadoop生态体系架构 点击展开
核心技能
  • 1Linux系统的安装和操作
  • 2熟练掌握Shell脚本语法
  • 3IDEA、Maven等开发工具的使用
  • 4Hadoop组成、安装、架构和源码深度解析,以及API的熟练使用
  • 5Hive的安装部署、内部架构、熟练使用其开发需求以及企业级调优
  • 6Zookeeper的内部原理、选举机制以及大数据生态体系下的应用
  • 7Flume的架构原理、组件自定义、监控搭建,熟练使用Flume开发实战需求
  • 8Kafka的安装部署以及框架原理,重点掌握Kafka的分区分配策略、数据可靠性、数据一致性、数据乱序处理、零拷贝原理、高效读写原理、消费策略、再平衡等内容
  • 9统筹Hadoop生态下的Hadoop、Flume 、Zookeeper、Kafka、DataX、MaxWell等诸多框架,搭建数据采集系统,熟练掌握框架结构和企业级调优手段
课程设计特色

本阶段以Hadoop生态系统为主,是大数据主要框架的入门阶段。根据课程的前后关联性,先后为Linux、Hadoop、Hive、Zookeeper、Flume、Kafka、电商数据采集项目。课程顺序经过精心调研安排,符合学习的基本认知规律。每个框架的

讲解都是从基础的安装部署和架构讲解入手,穿插经典实操案例,配以关键源码解读。阶段最后安排讲解数据仓库采集系统,对各种框架融会贯通,带领学员回顾所学框架的同时,迅速增长实际开发经验。

关键技术清单
  • Maven
    • Maven环境搭建、本地仓库&中央仓库、创建Web工程、自动部署&持续继承&持续部署
  • Linux
    • VI/VIM编辑器、系统管理操作&远程登录、常用命令、软件包管理&企业真题
  • Shell编程
    • 自定义变量与特殊变量、运算符、条件判断、流程控制、系统函数&自定义函数
    • 常用工具命令、常用正则表达式、面试真题
  • Hadoop
    • Hadoop生态介绍、Hadoop运行模式、源码编译、HDFS文件系统底层详解
    • DN&NN工作机制、HDFS的API操作、MapReduce框架原理
    • 数据压缩、Yarn工作机制、MapReduce案例详解、Hadoop参数调优
  • Zookeeper
    • Zookeeper数据结果、内部原理、选举机制、Stat结构体、监听器、分布式安装部署
    • API操作、实战案例、面试真题
  • HA+新特性
    • HDFS-HA集群配置
  • Hive
    • Hive架构原理、安装部署、远程连接、常见命令及基本数据类型、DML数据操作
    • 查询语句、Join&排序、分桶&函数、压缩&存储、企业级调优、实战案例、面试真题
  • Flume
    • Flume架构、Agent内部原理、事务、安装部署、实战案例、自定义Source
    • 自定义Sink、Ganglia监控
  • Kafka
    • 基础架构、安装部署、命令行操作、生产者消息发送流程、异步发送API、同步发送API
    • 生产者分区策略、生产者如何提高吞吐量、数据可靠性、数据去重、数据有序、数据乱序
    • 节点服役和退役、Leader选举流程、文件存储机制、高效读写原理、消费策略、数据积压
    • Kafka-Eagle监控、Kafka-Kraft模式
阶段三 Spark生态体系架构 点击展开
核心技能
  • 1Spark的入门安装部署、Spark Core部分的基本API使用熟练、RDD编程进阶、累加器和广播变量的使用和原理掌握、Spark SQL的编程掌握和如何自定义函数、Spark的内核源码详解(包括部署、启动、任务划分调度、内存管理等)、Spark的企业级调优策略
  • 2DophineScheduler的安装部署,熟练使用进行工作流的调度执行
  • 3全面了解数据仓库建模理论,充分熟悉电商行业数据分析指标体系,快速掌握多种大数据技术框架,了解认识多种数据仓库技术模块
  • 4HBase和Phoenix的部署使用、原理架构讲解与企业级优化
  • 5开发工具Git&Git Hub的熟练使用
  • 6Redis的入门、基本配置讲解、jedis的熟练掌握
  • 7ElasticSearch的入门安装部署及调优
  • 8充分理解用户画像管理平台的搭建及使用、用户画像系统的设计思路,以及标签的设计流程及应用,初步了解机器学习算法
  • 9项目实战。贴近大数据的实际处理场景,全方面设计实战项目,能够更加全面的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验
课程设计特色

本阶段课程进入进阶阶段,主要讲解核心大数据框架Spark和HBase,对两大框架进行了深入讲解,包括两大框架的基本安装部署以及深入源码解读。此外,本阶段还包含三大项目——离线数据仓库项目、用户画像项目和项目实战。前两大项目均采用新架构体系,稳定的框架选型、经典的理论解读,手把手教你如何从0到1

搭建一个功能完善的大数据系统。内容涵盖大部分大数据经典流行框架、大部分经典需求实现,并配合企业级部署调优讲解,助力学员迅速增长开发经验,适配大部分企业的大数据开发需求。项目实战主要锻炼学生动手实战能力,根据前两个项目所学,自己独立按照企业需求完成开发任务。

关键技术清单
  • Spark
    • 安装部署、RDD概述、编程模型、持久化&检查点机制、DAG、算子详解
    • RDD编程进阶、累加器&广播变量、SparkSQL、DataFrame 、DataSet
    • 自定义UDF&UDAF函数、SparkSQL企业级调优、数据倾斜处理、小文件处理、大表join大表
    • 大小表MapJoin、谓词下推、CPU配置、内存配置等
  • Presto
    • Presto的安装部署
    • 使用Presto执行数仓项目的即席查询模块
  • Superset
    • 使用SuperSet对数仓项目的计算结果进行可视化展示
  • DolphinScheduler
    • 任务调度工具DolphinScheduler的安装部署
    • 实现数仓项目任务的自动化调度、配置邮件报警
  • DataX
    • DataX架构原理、DataX部署、DataX使用、DataX优化
  • Atlas2.0
    • 元数据管理工具Atlas的安装部署
  • MaxWell
    • 使用MaxWell实时监控MySQL数据变化采集至实时项目
  • Zabbix
    • 集群监控工具Zabbix的安装部署
  • HBase
    • HBase原理及架构、数据读写流程、API使用、企业级调优
  • Redis
    • 安装配置、Redis的五大数据类型、Jedis、持久化、RDB、AOF
阶段四 Flink生态体系架构 点击展开
核心技能
  • 1熟练掌握Flink的基本架构以及流式数据处理思想,熟练使用Flink多种Soure、Sink处理数据,熟练使用基本API、Window API 、状态函数、Flink SQL、Flink CEP复杂事件处理等
  • 2使用Flink搭建实时数仓项目,熟练使用Flink框架分析计算各种指标
  • 3ClickHouse安装、使用及调优
  • 4项目实战。贴近大数据的实际处理场景,多维度设计实战项目,能够更广泛的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验
  • 5可选掌握推荐和机器学习项目,熟悉并使用系统过滤算法以及基于内容的推荐算法等
  • 6采用阿里云平台全套大数据产品重构电商项目,熟悉离线数仓、实时指标的阿里云解决方案
课程设计特色

本阶段课程以大数据处理框架Flink为中心,从架构讲起,详细讲解了各种层面API的使用,并对Flink的高级应用场景进行了案例化讲解,还配备了详细的源码解读和优化技巧。 本阶段还围绕Flink讲解了大数据领域另一个十分重要的项目——Flink实时数据仓库项目。本项目与离线数仓项目可以无缝对接,两大项目共同组成一个完整的企业级大数据架构。课程中包含深入全面的数仓理论讲解、实用高效的实时问题解决方案。通过学习本项目,可以迅速掌握实时开发的重点难点,掌握多种实时难点问题解决方案,对实时领域框架的搭配应用融会贯通,提升开发和调

优经验。本阶段还配备项目实战阶段,主要锻炼学生动手实战能力,根据已学内容,在讲师指导下独立完成开发任务。 此外,本阶段课程还将讲解时下流行的热点问题项目,数据湖 or K8S or 技术中台,成熟的技术课程可以使学员更全面了解大数据的发展趋势,掌握更多更热门的大数据技术,例如Hudi、K8S、数据治理等。 本阶段包含企业级的项目调优课程,通过搭建一个企业级的大数据集群,对项目中可能发生的高频热点问题、面试常见问题给出多角度解答,问题多、范围广、覆盖全,有助学员提升开发经验,熟悉开发环境。

关键技术清单
  • Flink
    • 运行时架构、数据源Source、Window API、Water Mark、状态编程、Flink SQL
    • Table API、CEP复杂事件处理、Flink源码、Flink优化
  • ClickHouse
    • ClickHouse安装、使用及调优
  • SugarBI
    • 结合Springboot对接百度SugarBI实现数据可视化大屏展示
  • Doris
    • Doris编译域安装、集群扩容和缩容、数据划分、数据模型
    • 动态分区、Rollup、物化视图、表的创建修改和删除、数据导入导出
    • 查询设置、Join查询、集成Spark、集成Flink、企业级优化、数据备份和恢复
  • Hudi
    • Hudi快速构建、集成Spark、集成Flink、生产调优
  • Iceberg
    • Iceberg构建、集成Spark、集成Flink、生产调优
  • K8S
    • 集群搭建、YAML文件详解、命令行工具Kubectl、Pod、Label
    • Controller、Volume、PVC和PV、Secret、configMap、Namespace
    • Service、探针、调度器、集群安全机制RBAC、性能监控平台、Helm
  • Git&GitHub
    • 安装配置、本地库搭建、基本操作、工作流、集中式
  • Springboot
    • 利用Springboot开发可视化接口程序
阶段五 AI辅助编程阶段 点击展开
核心技能
  • 1了解AI智能问答系统的基本使用
  • 2掌握AI辅助代码编写的提问技巧
  • 3掌握AI辅助解决bug的基本技能
  • 4充分利用AI辅助提升开发效率
课程设计特色

本阶段的课程主要对AI智能问答系统进行重点讲解,从AI的使用常识开始,逐步了解AI的使用技巧和提问艺术,帮助学员熟练掌握当前先进的人工智能辅助开发技术。针对不同的框架技术,例如Hadoop、Hive、Spark、Flink等大数据热门框

架技术,对如何利用AI辅助编写代码都有针对性讲解。在实战项目方面,对于不同的大数据项目,也细致讲解如何利用AI辅助项目开发、性能调优等。通过本阶段的学习,可以让学员充分掌握AI的使用,大大提高开发效率、提升经验、减少错误。

关键技术清单
  • Shell编程
    • A辅助编写Shell脚本
  • Hadoop
    • AI辅助编写MapReduce程序、解决Bug
  • Hive
    • AI辅助编写Hive SQL,辅助进行SQL性能调优
  • Flume
    • AI辅助组件选择和工作流脚本编写
  • Kafka
    • AI辅助解决Bug和性能调优
  • Spark
    • AI辅助编写Spark开发代码、编写Spark SQL、解决Bug、性能调优
  • DataX
    • AI辅助编写工作流脚本
  • Flink
    • AI辅助编写需求代码、解决代码Bug
  • ClickHouse
    • AI辅助性能调优
  • 数据仓库采集系统实战
    • AI辅助项目集群搭建、分析数据结构、Flume组件选型、Kafka配置调优等
  • 离线数据仓库项目实战
    • AI辅助数据仓库建模、Hive SQL调优、调度脚本编写、指标体系构建、可视化接口编写
  • 实时数据仓库项目实战
    • AI辅助编写需求代码、辅助解决Bug、性能调优、需求解决方案优化等
阶段六 就业指导 点击展开
核心技能
  • 1从技术和项目两个角度按照企业面试要求带领同学们复习
  • 2熟悉CDH在生产环境中的使用
  • 3手把手简历指导,让同学们顺利通过简历筛选
课程设计特色

本阶段课程主要围绕学员的就业需求,在真正就业前,帮助学员多维度复习巩固所学知识和项目,串讲经典高频面试题,传授面试答题技巧,总结项目开发经验,手

把手简历指导,解决学员在就业过程中遇到的各种难题。通过AI辅助,重构优化简历,优化面试技巧,以及利用AI辅助学员自助面试,全面提升学员的综合能力。

关键技术清单
  • 面试题+考试
    • 串讲所学的所有技术点,如Hadoop、Hive、Kafka、Spark、Flink等技术框架高频面试题
    • 串讲所有学过的项目
    • 对所有串讲的过的面试题和项目进行考试
  • CDH
    • 在阿里云服务器上,基于CDH安装部署全部离线数据仓库项目
  • 就业指导
    • 简历指导、职业规划、AI辅助优化简历
    • 简历书写(Word、网上)
    • 模拟面试、AI辅助模拟面试、AI辅助笔试

职业选择口径宽

大数据测试
工程师
实时数仓
工程师
资深架构师 高级架构师 数据开发
工程师
Hadoop
工程师
平台开发
工程师
AI提示
工程师
数据架构师 CTO 建模工程师 用户画像
工程师
ETL工程师 Spark
工程师
Flink
工程师
大数据运维
工程师
数据治理
工程师
离线数仓
工程师
数据分析
工程师

全程护航,你们只管乘风破浪

从入学到就业后,尚硅谷始终在你身边,助力学员整个职业生涯持续提升!一站式服务模式,用更高的效率,
更科学化的方法,提供长期就业辅导、推荐和技术支持

  • 大数据培训

    不同于目前培训机构普遍采用的测试方式,我们对基础没有硬性要求,我们不会用提高技术门槛的方法来降低自己培训压力与风险,只要你是有志青年、 有学习潜力、热爱编程,尚硅谷就愿意为你提供学习平台,助你成才。

  • 根据每个学员具体情况制定预习方案,帮你提前进入状态。

  • 大数据培训课程

    技术老师、辅导老师、班主任全程贯穿
    技术学习+项目实战+学习效果测评+辅导答疑+生活帮助

  • 就业老师1v1面试指导
    职业素养课+简历指导+模拟面试+面试

  • 大数据培训班

    毕业后仍可按需学习,免费充电,持续提升

  • 扶上马,再送一程,帮助学员解决工作中的问题。

全国中心

北京基地
北京大数据培训
上海基地

上海大数据培训
深圳基地
深圳大数据培训
武汉基地
武汉java培训

西安基地
西安java培训
成都基地
成都java培训