尚硅谷线上问诊离线数仓项目

本套项目教程以线上问诊为基础业务,真实还原了线上问诊平台对于用户数据的分析和统计,并以大屏展示的方法呈现数据分析的结果。

项目共分四大部分:数仓建模原理介绍、数仓模型搭建、DolphinScheduler全流程调度、SuperSet可视化大屏展示,以线上问诊采集项目为前置基础,使用线上问诊采集项目的基础架构,将数据导入数仓中,对数据进行系统化的分析计算,最终得到指标需求结果。

微信图片_20230808150548.jpg

项目中使用的框架包括:Hadoop、Hive、Spark、Kafka、Flume、Flink-CDC、Datax、DolphinScheduler、SuperSet等。通过本套视频教程的学习,你将彻底了解数仓建模理论体系,深入认识线上问诊平台的业务理论体系!

教程目录

001.数据采集课程内容介绍
002.数据仓库的概念
003.数据仓库的架构
004.项目需求分析
005.技术选型
006.系统数据流程设计
007.框架版本的选择
008.服务器的选型
009.集群规模
010.集群规模设计
011.业务数据说明
012.虚拟机安装配置
013.集群分发脚本
014.安装JDK
015.环境变量配置说明
016.查看进程脚本
017.安装Hadoop-配置集群
018.安装Hadoop-配置历史服务器
019.Hadoop群起脚本
020.HDFS存储多目录
021.集群数据均衡
022.Hadoop参数调优
023.安装ZooKeeper
024.ZooKeeper启动脚本
025.ZooKeeper常用指令
026.安装Kafka
027.Kafka群起脚本
028.Kafka常用指令-topic相关
029.Kafka常用指令-生产者和消费者相关
030.Flume安装与项目经验
031.安装MySQL
032.模拟生成数据
033.客户端连接异常问题
034.Maxwell简介
035.MySQL原理
036.安装Maxwell
037.Maxwell启动脚本
038.Maxwell数据同步
039.同步策略
040.数据同步工具
041.DataX简介和框架设计
042.DataX运行流程
043.DataX调度思路
044.DataX与Sqoop的对比
045.DataX安装
046.将数据从MySQL导入到HDFS-TableMode模式
047.将数据从MySQL导入到HDFS-QuerySQL模式
048.DataX传参
049.将数据从HDFS导入到MySQL
050.DataX优化
051.DataX配置文件生成
052.全量表数据同步脚本
053.Flume配置01
054.Flume配置02
055.增量表首日同步
056.Flume启动停止脚本
057.安装Hive
058.在线就诊数仓项目简介
059.数仓的概念
060.数仓架构
061.建模的意义
062.ER模型
063.维度模型
064.事实表介绍
065.事务型事实表概述
066.事务型事实表的设计流程
067.事务型事实表的不足
068.事务型事实表的不足
069.周期型快照事实表的概念
070.周期型快照事实表设计与事实类型
071.累积型快照事实表
072.维度表设计
073.规范化与反规范化
074.全量快照维度表
075.拉链表
076.多值维度
077.多值属性
078.数据仓库的分层
079.数仓的构建流程
080.数据调研
081.明确数据域
082.业务总线矩阵
083.明确统计指标
084.维度模型与汇总模型设计
085.Hive引擎简介
086.Hive on Spark兼容性说明
087.搭建Hive on Spark
088.ApplicationMaster资源比例调整
089.DataGrip使用
090.模拟产生数据
091.Hive常见问题和解决方案
092.ODS层设计要点
093.全量表建表
094.复杂数据类型回顾
095.Json数据建表
096.增量表建表
097.ODS数据加载脚本
098.维度表建模理论回顾
099.DIM层设计要点
100.医生维度表建表
101.医生维度表数据加载
102.医院维度表建表和数据加载
103.药品维度表建表和数据加载
104.患者维度表建表和数据加载
105.用户维度表建表和数据加载
106.DIM层数据加载脚本
107.事实表建模理论回顾
108.DWD层设计要点
109.问诊事务型事实表建表
110.问诊事实表首日数据加载
111.问诊事实表每日数据加载
112.问诊支付成功事实表建表和首日加载
113.问诊支付成功事实表每日数据加载
114.处方开单事实表建表和首日数据加载
115.处方开单事实表每日数据加载
116.处方支付成功事实表建表和首日数据加载
117.处方支付成功事实表每日数据加载
118.医生注册事实表建表和首日数据加载
119.医生注册事实表每日数据加载
120.用户注册事实表建表和数据加载
121.患者登记事实表建表和数据加载
122.用户评价事实表建表和数据加载
123.DWD首日数据加载脚本
124.DWD每日数据加载脚本
125.DWS设计要点
126.医院患者性别年龄段问诊最近1日汇总表
127.医院患者性别年龄段问诊支付成功最近1日汇总表
128.医院患者性别年龄段处方开单最近1日汇总表
129.医院患者性别年龄段处方开单支付成功最近1日汇总表
130.医生粒度问诊最近1日汇总表
131.DWS 1d首日数据加载脚本
132.DWS 1d每日数据加载脚本
133.交易域医院患者性别年龄段粒度问诊最近n日汇总表
134.交易域医院患者性别年龄段粒度问诊支付成功最近n日汇总表
135.交易域医院患者性别年龄段粒度处方开单最近n日汇总表
136.交易域医院患者性别年龄段粒度处方开单支付成功最近n日汇总表
137.交易域医生粒度问诊最近n日汇总表
138.DWS nd数据加载脚本
139.交易域医生粒度问诊历史至今汇总表
140.互动域医院用户粒度用户评价历史至今汇总表
141.互动域医院粒度用户评价历史至今汇总表
142.DWS td首日数据加载脚本
143.DWS td每日数据加载脚本
144.ADS层设计要点
145.交易综合统计
146.各医院交易统计
147.各性别患者交易统计
148.各年龄段患者交易统计
149.医生变动统计
150.用户变动统计
151.评价综合统计
152.各医院评价统计
153.ADS数据加载脚本
154.MySQL建库建表
155.将数据从HDFS导入到MySQL演示
156.生成DataX配置文件
157.ADS导数据到MySQL脚本
158.DolphinScheduler简介
159.DolphinScheduler部署说明
160.安装DolphinScheduler
161.安全中心配置
162.定义工作流与执行工作流
163.定时调度
164.局部参数
165.全局参数
166.参数传递
167.参数的优先级
168.内置参数
169.引用依赖资源
170.告警通知
171.失败重试
172.生成新数据
173.数仓工作流调度
174.Superset简介
175.安装Superset
176.Superset启动脚本
177.Superset可视化
178.教程总结