IT小白向大数据领域迈进
掌握实用技能
增长经验
搭建完善的项目
接触广泛技术面
学习前沿技术
突破职业瓶颈
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基础框架
深入了解金融审批业务流程
学会构建金融行业的数据处理平台
充分掌握多种大数据技术框架的协调应用
熟练应用数仓建模理论
包含数十个Shell脚本,涉及若干业务数据原始表格及几十张金融审批大数据表格和几十个金融审批统计指标。
根据完整的数仓建模体系,提出实践性强的数仓搭建理论过程,进行建模流程分析。
参考多方大厂的数仓分层体系,合理数仓分层,降低数据的耦合度,提高数据分析效率,同时降低数据计算成本。
采用实战式数据模拟策略,模拟生成金融审批行业的原始业务员数据,针对真实数据执行数据采集工作。
采用流行数据采集框架DataX采集业务数据,提供详细配置文件及脚本解读,掌握更多脚本编写技巧。
采用Maxwell监控业务数据变动情况,做到更实时更准确的变动数据采集。
进行真实数据ETL实操,掌握如何对原始数据进行清洗、脱敏、数据分类和整合。
基于业务总线矩阵构建数据仓库DWD层,完成周期型快照事实表和累积型快照事实表的搭建和数据装载。
基于业务总线矩阵构建数据仓库DIM层。
基于指标体系分析构建DWS层,将相同粒度、统计周期的派生指标整合统计为宽表,提高计算结果复用性。
安装部署DolphinScheduler,实现数据仓库搭建全流程定时自动化调度以及故障自动邮件告警。
采用SuperSet对调度采集至RDBMS数据库中的结果数据进行多图表、仪表盘可视化展示。
针对企业级数据仓库的海量数据计算业务,进行全面的性能调优,包括CPU配置、内存分配、任务提交和任务执行计划等方面。