IT小白向大数据领域迈进
掌握实用技能
增长经验
搭建完善的项目
接触广泛技术面
学习前沿技术
突破职业瓶颈
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基础框架
熟练使用Hudi
充分掌握数据湖概念与构建流程
熟练应用数仓建模理论
熟练掌握Hudi与其他大数据框架的集成
采用当前大厂非常流行的Hudi和Flink框架,实现湖仓一体架构;
多方参考大厂数仓分层体系,合理数据分层,降低数据耦合度,提高数据分析效率,降低数据计算成本。
采用Flink CDC监控业务数据变动情况,做到更实时更准确的变动数据采集。
采用Flume采集用户行为日志数据,适配组件全面调研,给出详细贴近实战的配置文件,自定义采集组件,解决时间戳零点漂移,优化小文件存储带来问题,提供更多实战经验;
真实数据ETL实操,掌握如何对原始数据进行清洗、脱敏、数据分类、整合;
使用Hudi集成Hive、Flink,FlinkSQL完成分层计算,HiveCatalog管理元数据;
ODS层、DWD层、DIM层、DWS层和ADS层之间采用Flink流式处理,省去了离线数仓中的调度环节,真正做到湖仓一体。
采用SuperSet对调度采集至RDBMS数据库中的结果数据进行多图表、仪表盘可视化展示;
分析总结项目搭建过程中遇到的问题,增加开发经验,提升实战问题解决能力。