接踵而至 | 尚硅谷大数据物流项目发布
经过长期的精心打磨,仔细推演,隆重推出大数据物流项目!本套教程堪称物流行业大数据处理的重磅之作,项目借助真实物流行业的海量业务数据,构建了完整的数据采集、分析、处理、展示通道,严格遵循主流数据仓库建模理论,搭建了高效率、高组织性、高可实施性的数仓架构体系。
教程共分三大部分:采集系统、离线数仓、实时数仓。项目拥有完善的离线指标体系和实时指标体系,各指标体系均进行了完整的指标拆解与分析,形成了庞大的指标网络。涵盖30多个Shell脚本,30多张业务数据原始表格,100多张数仓分层表,分析展示了上百个离线指标、几十个实时指标。
项目采用FlinkCDC和DataX作为数据采集工具,灵活设计数据采集策略,将采集来的数据同时服务于离线数仓和实时数仓。结合阿里巴巴成熟的数仓构建实践,总结出一套数仓建模理论体系,并梳理出通用的数仓建模步骤。分别使用Hive和Flink构建离线数仓和实时数仓,采用了流行的任务流调度系统DolphinScheduler。
视频目录
001.项目概述
002.数仓概念-数仓简介
003.数仓概念-数仓总体介绍
004.数仓概念-项目需求分析
005.数仓概念-技术选型考虑因素
006.具体功能选型
007.数仓概念-系统数据流程
008.数仓概念-框架版本的选择
009.数仓概念-具体版本号选择
010.数仓概念-服务器选型
011.数仓概念-集群规模
012.数仓概念-集群资源规划
013.业务数据采集-物流业务简介
014.业务数据采集-物流业务数据
015.业务数据采集-阿里云准备(备选)
016.业务数据采集-虚拟机环境准备
017.业务数据采集-克隆三台服务器
018.业务数据采集-集群同步脚本
019.业务数据采集-免密登录配置
020.业务数据采集-安装JDK
021.业务数据采集-Linux环境变量说明
022.业务数据采集-查看集群所有进程脚本
023.业务数据采集-Zookeeper安装
024.业务数据采集-Zookeeper启停脚本
025.业务数据采集-Hadoop-HA安装(上)
026.业务数据采集-Hadoop-HA安装(中)
027.业务数据采集-Hadoop-HA安装(下)
028.业务数据采集-Hadoop-HA启停脚本
029.业务数据采集-Hadoop项目经验
030.业务数据采集-Kafka安装
031.用户行为数据采集-Kafka启停脚本
032.业务数据采集-Flume安装
033.业务数据采集-MySQL安装
034.业务数据采集-模拟数据
035.业务数据采集-EZDML建模工具
036.业务数据采集-数据同步策略概述
037.业务数据采集-数据同步策略选择
038.业务数据采集-数据同步策略选择
039.业务数据采集-DataX简介
040.业务数据采集-DataX调度决策思路
041.业务数据采集-DataX与Sqoop对比
042.业务数据采集-DataX部署
043.业务数据采集-同步MySQL数据到HDFS(案例一)
044.业务数据采集-同步MySQL数据到HDFS(案例二)
045.业务数据采集-同步HDFS数据到MySQL(案例三)
046.业务数据采集-DataX传参
047.业务数据采集-Datax的SplitPK切割原理
048.业务数据采集-DataX的HdfsWriter的Null值存储问题
049.业务数据采集-DataX参数调优
050.业务数据采集-Flink-CDC简介
051.业务数据采集-启用MySQL Binlog
052.业务数据采集-DataStreamAPI实现FlinkCDC
053.业务数据采集-FlinkCDC集群提交
054.业务数据采集-FlinkSQL实现FlinkCDC
055.业务数据采集-Datax配置一键生成
056.业务数据采集-全量表数据同步脚本
057.业务数据采集-增量同步Flink-CDC配置
058.业务数据采集-增量同步Flink-CDC集群模式提交
059.业务数据采集-增量同步Flume通道分析
060.业务数据采集-增量同步Flume配置
061.业务数据采集-增量同步Flume拦截器配置
062.业务数据采集-增量同步Flume启停脚本
063.业务数据采集-Hive安装
064.物流数仓项目课程介绍
065.数仓课程内容介绍
066.数仓的概念
067.数仓架构01
068.数仓架构02
069.数据仓库建模的意义
070.ER模型介绍01
071.ER模型介绍02
072.维度模型介绍
073.事实表介绍
074.事务型事实表设计流程
075.事务型事实表不足01
076.事务型事实表不足02
077.周期快照事实表
078.事实类型
079.累积快照事实表
080.维度表介绍与设计
081.规范化与反规范化
082.全量快照维度表
083.拉链表
084.多值维度
085.多值属性
086.数据仓库的分层规划
087.数仓的构建流程
088.数据调研
089.明确数据域
090.构建业务总线矩阵
091.明确统计指标
092.维度模型设计
093.汇总模型设计
094.hive引擎简介
095.hive on spark兼容性说明
096.hive on spark搭建
097.调整ApplicationMaster资源比例
098.hive中文乱码问题
099.datagrip使用
100.模拟生成数据
101.ods层设计要点
102.全量表建表
103.json数据第一种建表方式
104.hive复杂数据类型回顾
105.json数据第二种建表方式
106.ods层部分表字段不显示问题
107.增量表建表
108.ods层数据加载脚本
109.dim层设计要点
110.小区维度表建表
111.小区维度表数据加载
112.机构维度表建表和数据加载
113.地区维度表建表和数据加载
114.快递员维度表建表
115.快递员维度表数据加载
116.班次维度表建表和数据加载
117.司机维度表建表和数据加载
118.卡车维度表建表和数据加载
119.用户维度表建表和首日数据加载
120.用户维度表每日数据加载
121.用户地址维度表建表和首日加载
122.用户地址表每日数据加载
123.dim层首日数据加载脚本
124.dim层每日数据加载脚本
125.dwd层设计要点
126.下单事实建表
127.下单事实表数据加载逻辑
128.下单事实表首日数据加载
129.下单事实表每日数据加载
130.交易域运单累积快照事实表建表和首日加载
131.运单累积快照事实表每日数据加载
132.取消运单事实表建表和首日数据加载
133.取消运单事实表每日数据加载
134.支付成功事实表建表和首日数据加载
135.支付成功事实表每日数据加载
136.揽收事实表建表和首日数据加载
137.揽收事实表每日数据加载
138.发单事实表建表和首日数据加载
139.发单事实表每日数据加载
140.转运完成事实表建表和首日加载
141.转运完成事实表每日数据加载
142.派送成功事实表建表和首日加载
143.派送成功事实表每日数据加载
144.签收事实表建表和首日加载
145.签收事实表每日数据加载
146.运输完成事实表建表和首日加载
147.运输完成事实表每日数据加载
148.入库事实表建表和首日加载
149.入库事实表每日数据加载
150.分拣事实表建表和数据加载
151.出库事实表建表和数据加载
152.dwd首日数据加载脚本
153.dwd每日数据加载脚本
154.指标体系回顾
155.dws建表逻辑
156.机构货物类型下单最近1日汇总表
157.转运站粒度揽收最近1日汇总表首日数据加载
158.转运站粒度揽收最近1日汇总表每日数据加载
159.发单最近1日汇总表
160.机构卡车类别运输最近1日汇总表
161.转运站粒度派生成功最近1日汇总表
162.机构粒度分拣最近1日汇总表
163.dws 1d表首日数据加载脚本
164.dws 1d表每日数据加载脚本
165.机构货物类型粒度下单最近N日汇总表
166.转运站粒度揽收最近N日汇总表
167.发单最近N日汇总表
168.班次粒度运输最近N日汇总表
169.班次粒度运输最近N日汇总表城市获取问题
170.转运站粒度派生成功最近N日汇总表
171.转运站粒度分拣最近N日汇总表
172.dws nd表数据加载脚本
173.发单历史至今汇总表
174.转运完成历史至今汇总表
175.dws td表首日数据加载脚本
176.dws td表每日数据加载脚本
177.运单相关统计
178.运输相关统计
179.历史至今运单统计
180.运单综合统计
181.各类型货物运单统计
182.城市分析
183.机构分析
184.班次分析
185.线路分析
186.司机分析
187.卡车分析
188.快递综合统计
189.各省份快递统计
190.各城市快递统计
191.各机构快递统计
192.ads数据加载脚本
193.mysql建表
194.hdfs导数据到Mysql案例
195.datax导数据配置文件模板
196.datax导ads数据到mysql
197.dolphinscheduler简介
198.dolphinscheduler部署说明
199.dolphinscheduler安装
200.dolphinscheduler启动停止脚本说明
201.安全中心配置
202.配置工作流
203.工作流调度
204.参数
205.参数优先级
206.引用依赖资源
207.告警
208.恢复失败
209.生成数据
210.上传脚本到资源中心
211.数仓工作流调度执行
212.superset安装
213.superset启动停止脚本
214.可视化
215.项目总结
216.课程介绍
217.基础_数仓相关概念
218.基础_实时架构以及和离线架构的对比
219.基础_建模理论
220.基础_数仓构建流程
221.基础_前置组件准备
222.ODS_IDEA开发环境搭建
223.ODS_开发思路分析
224.ODS_环境准备以及检查点设置
225.ODS_使用FlinkCDC读取MySQL数据基本实现
226.ODS_封装获取执行环境的方法
227.ODS_封装获取MySqlSource的方法
228.ODS_读取数据并进行ETL操作
229.ODS_将流的数据写到kafka主题中
230.ODS_在ODS主类中抽取流程实现方法
231.ODS_ODS整体测试以及问题解决
232.DIM_DIM层基本实现思路分析
233.DIM_配置表的准备
234.DIM_开发思路分析
235.DIM_从kafka主题中读取数据
236.DIM_类型转换以及属性过滤
237.DIM_使用FlinkCDC读取配置表数据
238.DIM_HbaseAPI介绍
239.DIM_封装Hbase工具类并提供建表方法
240.DIM_hbase维度表的提取创建
241.DIM_广播配置流
242.DIM_关联两条流并抽取专门的类处理流中数据
243.DIM_处理广播流数据
244.DIM_通过Debug方式调试广播流处理流程
245.DIM_处理主流数据基本实现以及字段过滤
246.DIM_处理主流数据补充字段
247.DIM_在open方法中预加载配置信息
248.DIM_封装向Hbase写入数据的方法
249.DIM_将维度数据写到Hbase表中代码实现
250.DIM_维度数据写到Hbase测试以及Kafka一致性问题说明
251.DIM_维度处理总结
252.DIM_维度处理执行流程总结
253.DWD_需求分析
254.DWD_运单业务分流分析
255.DWD_分区、分组、分流以及FlinkCDC采集数据时间问题
256.DWD_开发思路分析
257.DWD_运单业务对应的事实表实体类准备
258.DWD_从kafka主题中读取数据
259.DWD_按照order_id分组以及标签创建泛型擦除问题
260.DWD_运单和明细关联思路分析
261.DWD_状态的声明以及初始化
262.DWD_订单明细数据分流的处理
263.DWD_订单数据分流的处理
264.DWD_将不同流的数据写到kafka主题
265.DWD_订单业务相关事实表整体测试
266.DWD_物流域运输完成事实表需求分析
267.DWD_开发思路分析
268.DWD_从kafka主题中读取数据
269.DWD_过滤出运输完成数据
270.DWD_对过滤出的数据进行时间处理以及脱敏
271.DWD_运输完成事实表测试以及总结
272.DWD_中转业务流程分流思路分析
273.DWD_中转域相关实体类封装
274.DWD_构造者设计模式
275.DWD_中转域事实表开发思路分析
276.DWD_从kafka主题中读取中转数据
277.DWD_将入库数据放到主流
278.DWD_将分拣数据放到分拣侧输出流
279.DWD_将出库数据放到出库侧输出流
280.DWD_中转域相关事实表测试
281.DWS_DWS介绍
282.DWS_中转域机构粒度分拣聚合统计思路分析
283.DWS_机构粒度分拣聚合开发思路分析
284.DWS_从kafka主题中读取分拣数据
285.DWS_将流中数据转换为分拣统计实体类
286.DWS_Builder注解导致构造方法失效问题说明
287.DWS_Watermark的指定以及事件时间字段提取
288.DWS_开窗思路分析
289.DWS_滚动时间窗口底层源码分析
290.DWS_开启一天窗口偏移问题解决
291.DWS_自定义触发器
292.DWS_聚合计算
293.DWS_聚合测试
294.DWS_封装根据主键获取维度数据的方法
295.DWS_补充主键属性
296.DWS_封装根据外键获取维度数据的方法
297.DWS_维度关联基本实现
298.DWS_旁路缓存思路分析
299.DWS_封装获取Jedis的工具类
300.DWS_旁路缓存思路再次梳理
301.DWS_旁路缓存代码实现
302.DWS_旁路缓存优化测试
303.DWS_封装从Redis中清除缓存数据的方法
304.DWS_清除缓存流程分析
305.DWS_在配置表中补充外键字段以及主流数据处理流程回顾
306.DWS_处理主流数据时传递清除Redis缓存需要的数据
307.DWS_DimSinkFunction中清除Redis缓存代码以及测试
308.DWS_同步和异步介绍
309.DWS_封装获取线程池对象的工具类
310.DWS_异步维度关联的实现
311.DWS_抽取发送请求进行维度关联的类以及模板方法设计模式
312.DWS_关联机构表获取城市id
313.DWS_关联地区维度表获取相关维度
314.DWS_将流中数据写到CK基本实现
315.DWS_抽取操作Clickhouse的工具类
316.DWS_通用的给问号占位符赋值方法
317.DWS_物化视图以及常用聚合函数组合符
318.DWS_在CK中创建基础表以及物化视图
319.DWS_将流中数据写到CK表整体测试
320.DWS_机构粒度分拣聚合统计总结
321.DWS_货物类型粒度订单聚合统计思路分析
322.DWS_货物类型粒度订单聚合统计代码实现
323.DWS_货物类型粒度订单聚合统计写到CK测试
324.DWS_机构粒度订单聚合统计思路分析
325.DWS_机构粒度订单聚合统计代码实现
326.DWS_机构粒度订单聚合统计写到CK测试
327.DWS_物流域转运完成实现以及Watermark触发定时器执行问题
328.DWS_物流域发单数统计整体实现
329.DWS_物流域机构粒度派送成功聚合统计整体实现
330.DWS_物流域机构粒度揽收聚合统计整体实现
331.DWS_物流域运输完成统计思路分析
332.DWS_物流域运输完成统计开发思路分析
333.DWS_物流域运输完成聚合代码实现
334.DWS_物流域运输完成统计维度关联实现
335.DWS_物流域运输完成统计测试
336.ADS需求分析
337.ADS_Spring开发基本概念介绍
338.ADS_SpringBoot开发环境搭建
339.ADS_Sugar申请
340.ADS_文档和指标体系对应关系
341.ADS_当日下单总金额Mapper层代码开发
342.ADS_当日下单总金额Service以及Controller层代码开发
343.ADS_内网穿透介绍以及在Sugar上展示总金额
344.ADS_当日省份分拣数统计整体实现
345.ADS_当日下单总金额执行流程分析
346.ADS_当日下单总金额实时展示
347.ADS_打包部署前的环境准备
348.ADS_打包部署到服务器整体测试
349.ADS_物流实时数仓总结