渴望技术转型
转换行业的IT小白
有一定技术基础
希望增长经验
接触更广技术面
从事一定年限技术开发
目标突破自我
学习大数据技术
突破职业瓶颈
Linux、Hadoop
Java、Hive、Flume
Kafka等基础框架
充分了解在线教育行业的业务数据体系熟悉在线教育行业的离线指标体系熟悉在线教育行业的实时指标体系
数据采集策略数据建模理论了解认识多种数据仓库技术模块充分掌握多种大数据技术框架的协调应用
数据清洗思路离线数据分析经验实时数据分析经验定时调度
数据可视化接口编写性能优化集群运维任务部署
项目涵盖40多个Shell脚本,6大类用户行为日志数据,25张业务数据原始表格,100多张在线教育大数据表格,100多个在线教育统计指标;
充分调研各大厂数仓建模体系,以阿里巴巴的数据仓库建模理论为最终蓝本,搭建实用且贴近生产实际的数仓建模体系;
应用建模理论,提出可实践性强的数仓搭建理论过程,数据调研→明确数据域→构建业务总线矩阵→维度模型设计→明确统计指标→汇总模型设计→分层构建数仓;
多方参考大厂数仓分层体系,合理数据分层,降低数据耦合度,提高数据分析效率,降低数据计算成本。
实战式数据模拟策略,模拟生成全面的原始数据,针对真实数据执行数据采集工作;
采用Flume采集用户行为日志数据,适配组件全面调研,给出详细贴近实战的配置文件,自定义采集组件,解决时间戳零点漂移,优化小文件存储带来问题,提供更多实战经验;
采用流行数据采集框架DataX采集业务数据,提供详细配置文件及脚本解读,掌握更多脚本编写技巧;
采用Maxwell监控业务数据变动情况,做到更实时更准确的变动数据采集,灵活使用Maxwell框架,全面掌握使用技巧;
真实数据ETL实操,掌握如何对原始数据进行清洗、脱敏、数据分类、整合;
基于业务总线矩阵构建数据仓库DWD层,完成事务型事实表、周期型事实表、累积快照事实表搭建和数据装载;
基于业务总线矩阵构建数据仓库DIM层,针对缓慢变化维度,构建拉链表;
基于指标体系分析构建DWS层,将相同粒度、统计周期的派生指标整合统计为宽表,提高计算结果复用性;
安装部署受各大厂欢迎的DolphinScheduler工作流调度系统,实现数据仓库搭建全流程定时自动化调度以及故障自动邮件告警;
采用SuperSet对调度采集至RDBMS数据库中的结果数据进行多图表、仪表盘可视化展示;
采用Echarts,结合SpringBoot对结果数据进行可视化展示,充分掌握数据展示接口编写流程;
基于企业级数据仓库的海量数据计算业务,对CPU配置、内存分配、任务提交、任务执行计划等方面进行全面的性能调优;
项目涵盖几十个Flink实时计算任务、几十个实时计算指标、上万行实时开发代码。
参照大厂实际数仓建模理论,分层构建实时数据仓库,ODS层、DIM层、DWD层、DWS层、ADS层,分层计算,数据分流,提高效率,降低耦合度;
使用HBase+Phoenix的组合存储DIM层维度数据,大大提高响应速度;
使用Flink CDC结合MySQL动态配置表,动态获取维度表配置,实现数据动态自动分流;
采用Redis进行旁路缓存,提高响应速度,并使用Flink提供的异步IO进行优化;
提供针对多种场景的双流Join解决方案,深入分析各种解决方案的优劣,培养问题解决能力;
灵活运用Flink的状态编程实现数据去重,计算去重类指标;
对所有指标计算需求提供基于Table API和Flink SQL的两种解决方案,满足不同企业开发需求,培养多角度开发能力;
使用FlinkCEP技术实现不同用户行为模式的识别,完成用户跳出行为的筛选;
采用Doris存储最终宽表数据,大大提高数据查询效率,并为用户提供即席查询、可视化报表展示的多样可能性;
采用SpringBoot编写数据展示接口对接SugarBI实现数据可视化大屏展示,熟练掌握数据展示接口的编写流程
详细讲解生产环境中会产生的反压问题,对反压原因、反压定位、反压处理进行详细分解;
多角度分析大数据分析中常见的数据倾斜问题,提供详尽的问题定位策略和多种解决方案;
详细讲解生产环境中常见的故障:非法配置异常、Java 堆空间异常、直接缓冲存储器异常、元空间异常、网络缓冲区数量不足、超出容器内存异常、Checkpoint 失败、Checkpoint 慢、Kafka动态发现分区、Watermark不更新、依赖冲突、超出文件描述符限制、脏数据导致数据转发失败等,令学员在短时间内掌握生产环境中常见到、难解决的开发难题,迅速增长经验,提升能力。