课程设计特色
广度延伸,依托企业级真实的尚品速运场景,对目前互联网大厂中常见的尚品速运提供了一套基于Hadoop、Hive、DataX、Maxwell的实用技术解决方案,充分探查大数据开发技术现状,轻松掌握多门开发技能
本阶段关键技术点
-
大数据生态系统蓝图
Hadoop生态介绍、Hadoop运行模式、HDFS文件系统底层详解
-
Hadoop的数据压缩、Yarn完整工作机制
查询语句、Join&排序、分桶&函数、压缩&存储、企业级调优、实战案例
-
实战式项目开发场景,需求分析、架构设计、模块搭建全流程讲解
基于五大主题指标,分析统计完整项目指标,构建ADS层
-
采用DataX采集业务数据
采用Maxwell监控业务数据变动情况
-
基于业务总线矩阵构建数据仓库DIM层基于指标体系分析构建DWS层
-
应用建模理论,完整的数仓搭建过程,数据调研→明确数据域→构建业务总线矩阵→维度模型设计→明确统计指标→汇总模型设计→分层构建数仓
-
使用最流行的工作流调度系统DolphinScheduler,实现全流程定时自动化调度以及故障自动邮件告警
-
Hive架构原理、安装部署、远程连接、常见命令及基本数据类型、DML数据操作
- 真实数据ETL实操,掌握如何对原始数据进行清洗、脱敏、数据分类、整合
-
采用SuperSet对采集至RDBMS数据库中的结果数据进行多图表、仪表盘可视化展示
- 基于业务总线矩阵构建数据仓库DWD层
- DataNode&NameNode工作机制、HDFS的API操作、MapReduce框架原理
-
对CPU配置、内存分配、任务提交、任务执行计划等方面进行全面的性能调优