IT小白向大数据领域迈进
掌握实用技能
增长经验
搭建完善的项目
接触广泛技术面
学习前沿技术
突破职业瓶颈
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基础框架
深入了解医疗问诊业务流程
学会构建医疗问诊行业的数据处理平台
充分掌握多种大数据技术框架的协调应用
熟练应用数仓建模理论
该项目涉及数十个Shell脚本、若干业务数据表格和数十张医疗问诊大数据表格,以及几十个医疗问诊统计指标。
基于数仓建模理论,该项目执行完整的数仓搭建过程,包括数据调研、明确数据域、构建业务总线矩阵、设计维度模型、明确统计指标、设计汇总模型以及分层构建数仓。
数仓分层合理化,降低了数据之间的耦合度,提高了数据分析效率,同时也降低了数据计算成本。
该项目采用实战式数据模拟策略,模拟生成全面的原始数据,并进行了真实数据采集工作。
采用了流行数据采集框架DataX采集业务数据,并提供详细的配置文件和脚本解读,以帮助掌握更多的脚本编写技巧。
该项目使用Maxwell监控业务数据变动情况,实现了更实时、更准确的数据采集,灵活使用Maxwell框架,全面掌握使用技巧。
该项目进行了真实数据ETL实践,掌握了如何对原始数据进行清洗、脱敏、分类和整合等技术。
基于业务总线矩阵构建了数据仓库DWD层,完成了周期型快照事实表和累积型快照事实表的搭建和数据装载。
基于业务总线矩阵构建了数据仓库DIM层。
基于指标体系分析构建了DWS层,将相同粒度、统计周期的派生指标整合统计为宽表,提高计算结果复用性。
安装部署了广受欢迎的工作流调度系统DolphinScheduler,实现了数据仓库搭建全流程的定时自动化调度,同时还可进行故障自动邮件告警。
采用SuperSet对从RDBMS数据库中调度采集的结果数据进行了多种图表和仪表盘的可视化展示。
针对企业级数据仓库的海量数据计算业务,进行了全面的性能调优,包括CPU配置、内存分配、任务提交和任务执行计划等方面,以提高数据计算效率。