IT小白向大数据领域迈进
掌握实用技能
增长经验
搭建完善的项目
接触广泛技术面
学习前沿技术
突破职业瓶颈
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基础框架
全面了解在线听书行业运营流程
充分熟悉在线听书行业离线指标体系
充分熟悉在线听书行业实时指标体系
熟悉掌握数据仓库技术框架的协调应用
熟练应用数仓建模理论
数据建模理论数据采集策略数据清洗思路
离线数据分析经验实时数据分析经验定时调度任务部署集群运维性能优化数据可视化接口编写
调研各大厂数仓建模体系,以阿里巴巴的数据仓库建模理论为蓝本,搭建实用有效的数仓建模体系;
应用建模理论,提出可实践性强的数仓建模流程,数据调研→明确数据域→构建业务总线矩阵→维度模型设计→明确统计指标→汇总模型设计→分层构建数仓;
合理数仓分层,降低数据耦合度,提高数据分析效率,降低数据计算成本。
实战式数据模拟策略,模拟生成全面的原始数据,针对真实数据执行数据采集工作;
采用Flume采集用户行为日志数据,调研组件选型,给出详细贴近实战的配置文件,自定义采集组件,解决时间戳零点漂移,优化小文件存储带来问题,提供更多实战经验;
采用流行数据采集框架DataX采集业务数据,提供详细配置文件及脚本解读,掌握更多脚本编写技巧;
采用Maxwell监控业务数据变动情况,做到更实时更准确的变动数据采集;
真实数据ETL实操,掌握如何对原始数据进行清洗、脱敏、数据分类、整合;
基于业务总线矩阵构建数据仓库DWD层,完成事务型事实表、周期型事实表、累积快照事实表搭建和数据装载;
基于业务总线矩阵构建数据仓库DIM层,针对缓慢变化维度,构建拉链表;
基于指标体系分析构建DWS层,将相同粒度、统计周期的派生指标整合统计为宽表,提高计算结果复用性;
安装部署受各大厂欢迎的DolphinScheduler工作流调度系统,实现数据仓库搭建全流程定时自动化调度以及故障自动邮件告警;
采用SuperSet对调度采集至RDBMS数据库中的结果数据进行多图表、仪表盘可视化展示;
采用Echarts,结合SpringBoot对结果数据进行可视化展示,充分掌握数据展示接口编写流程;
基于企业级数据仓库的海量数据计算业务,对整体项目进行性能调优,掌握全面可实践的性能调优技巧。
项目包含数十个 Flink 实时计算任务、几十个实时计算指标和数万行实时开发代码。
遵循行内大厂的数据仓库建模理论,实时数据仓库分为 ODS 层、DIM 层、DWD 层、DWS 层和 ADS 层,实现分层计算和数据分流,从而提高效率并降低耦合度。
利用 HBase 和 Phoenix 组合存储 DIM 层的维度数据,显著提升响应速度。
通过 Flink CDC 和 MySQL 动态配置表,实现维度表配置的动态获取和数据自动分流。
采用 Redis 实现旁路缓存,提高响应速度,同时使用 Flink 提供的异步 IO 进行优化。
提供适用于多种场景的双流 Join 解决方案,深入分析各种解决方案的优缺点,培养解决问题的能力。
灵活运用状态编程、FlinkCEP、窗口函数、自定义处理函数等Flink技术点解决复杂需求。
为所有需求提供 Flink 的 Table API 和 Flink SQL 两种解决方案,满足不同企业的开发需求,培养多角度开发能力。
使用 FlinkCEP 技术识别不同用户行为模式,分析用户跳出行为。
采用 ClickHouse 存储最终宽表数据,显著提高数据查询效率,并为用户提供即席查询和可视化报表展示的多种可能性。
利用 SpringBoot 编写数据展示接口与 Sugar 对接,实现数据可视化大屏展示,并熟练掌握数据展示接口编写流程。
针对企业级海量数据分析任务,详细讲解分析生产环境中可能遇到的反压问题、数据倾斜问题、检查点配置关键点、状态调优、链路延迟监控等多种性能调优问题。