渴望技术转型
转换行业的IT小白
有一定技术基础
希望增长经验
接触更广技术面
从事一定年限技术开发
目标突破自我
学习大数据技术
突破职业瓶颈
Linux、Hadoop
Java、Hive
Flume、Kafka
等基础框架
能了解数据仓库建模理论充分熟悉电商行业数据分析指标体系快速掌握多种大数据技术框架
数据分析建模理论数据清洗数据采集了解认识多种数据仓库技术模块
定时调度邮件报警可视化图表数据质量监控性能调优集群运维
项目涵盖40多个Shell脚本,5大类用户行为日志数据,34张业务数据原始表格,100多张电商大数据表格,100多个电商统计指标;
充分调研各大厂数仓建模体系,以阿里巴巴的数据仓库建模理论为最终蓝本,搭建最实用、最贴近生产实际、最能广泛应用的数仓建模体系;
应用建模理论,提出可实践性强的数仓搭建理论过程,数据调研 → 明确数据域 → 构建业务总线矩阵 → 维度模型设计 → 明确统计指标 → 汇总模型设计 → 分层构建数仓;
多方参考大厂数仓分层体系,合理数据分层,降低数据耦合度,提高数据分析效率,降低数据计算成本;
基于五大主题指标,分析统计100余个指标,构建ADS层;
采用Flume采集用户行为日志数据,适配组件广泛调研,给出详细贴近实战的配置文件,自定义采集组件,解决时间戳零点漂移,优化小文件存储带来问题,提供更多实战经验;
采用最新流行数据采集框架DataX采集业务数据,提供详细配置文件及脚本解读,掌握更多脚本编写技巧;
安装部署受各大厂欢迎的DolphinScheduler,最流行的工作流调度系统,实现数据仓库搭建全流程定时自动化调度以及故障自动邮件告警;
基于业务总线矩阵构建数据仓库DIM层,针对缓慢变化维度,构建拉链表;
基于指标体系分析构建DWS层,将相同粒度、统计周期的派生指标整合统计为宽表,提高计算结果复用性;
基于业务总线矩阵构建数据仓库DWD层,完成事务型事实表、周期型事实表、累积快照事实表搭建和数据装载;
真实数据ETL实操,掌握如何对原始数据进行清洗、脱敏、数据分类、整合;
采用SuperSet对调度采集至RDBMS数据库中的结果数据进行多图表、仪表盘可视化展示;
采用Echart,结合SpringBoot对结果数据进行可视化展示,充分掌握数据展示接口编写流程;
基于企业级数据仓库的海量数据计算业务,对CPU配置、内存分配、任务提交、任务执行计划等方面进行广泛性能调优;
分析总结项目搭建过程中遇到的问题,增加开发经验,提升实战问题解决能力;
采用Maxwell监控业务数据变动情况,做到更实时更准确的变动数据采集,灵活使用Maxwell框架,掌握使用技巧。