IT小白向大数据领域迈进
掌握实用技能
增长经验
搭建完善的项目
接触广泛技术面
学习前沿技术
突破职业瓶颈
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基础框架
全面了解新能源车企的数据分析流程
充分熟悉汽车传感器分析的离线指标体系
熟练掌握数据仓库技术框架的协同应用
熟练应用数仓建模理论
项目包含数十个 Shell 脚本、多个传感器日志数据和数十个统计指标。
深入研究各大企业的数据仓库建模体系,并以阿里巴巴的数据仓库建模理论作为基准,构建实用、贴近实际生产且具有广泛应用性的数据仓库建模体系。
根据建模理论,提出强实践性的数据仓库搭建理论过程,包括数据调研、明确数据域、构建业务总线矩阵、维度模型设计、明确统计指标、汇总模型设计和分层构建数据仓库。
参考大型企业的数据仓库分层体系,合理划分数据层次,降低数据耦合度,提高数据分析效率并降低数据计算成本。
采用实战式数据模拟策略,生成全面的原始数据,并针对实际数据进行数据采集。
使用 Flume 收集传感器日志数据,深入研究适配组件,提供详细的实战配置文件,自定义采集组件,解决时间戳漂移和优化小文件存储问题,分享更多实战经验。
采用当前流行的数据采集框架 DataX 收集业务数据,提供详细的配置文件和脚本解读,掌握更多脚本编写技巧。
真实数据ETL实践,学会对原始数据进行清洗、脱敏、数据分类和整合。
基于业务总线矩阵,构建数据仓库的DWD层,完成事务型事实表、周期型事实表和累积快照事实表的搭建与数据装载。
通过Hive窗口的灵活运用从日志数据中提取关键业务过程,构建相应的事实表,为下游分析做准备。
为连续型度量构建相应的周期快照事实表,为下游统计提供便利。
根据业务总线矩阵,构建数据仓库的 DIM 层,并针对缓慢变化维度构建拉链表。
依据指标体系分析,构建 DWS 层,整合相同粒度、统计周期的派生指标为宽表,提高计算结果复用性。
基于多个主题的指标,分析统计数十个指标,构建 ADS 层。
安装部署业内主流的工作流调度系统 DolphinScheduler,实现数据仓库搭建全流程定时自动化调度及故障自动邮件告警。
使用 SuperSet 对调度采集至 RDBMS 数据库中的结果数据进行多图表、仪表盘可视化展示。
采用 Echarts 结合 SpringBoot 对结果数据进行可视化展示,充分掌握数据展示接口编写流程。
针对企业级数据仓库的海量数据计算业务,基于对任务执行计划等的分析全面优化 CPU 配置、内存分配等,提升任务提交性能。