接踵而至 | 尚硅谷大数据物流项目发布

经过长期的精心打磨,仔细推演,隆重推出大数据物流项目!本套教程堪称物流行业大数据处理的重磅之作,项目借助真实物流行业的海量业务数据,构建了完整的数据采集、分析、处理、展示通道,严格遵循主流数据仓库建模理论,搭建了高效率、高组织性、高可实施性的数仓架构体系。

 

教程共分三大部分:采集系统、离线数仓、实时数仓。项目拥有完善的离线指标体系和实时指标体系,各指标体系均进行了完整的指标拆解与分析,形成了庞大的指标网络。涵盖30多个Shell脚本,30多张业务数据原始表格,100多张数仓分层表,分析展示了上百个离线指标、几十个实时指标。

 

项目采用FlinkCDC和DataX作为数据采集工具,灵活设计数据采集策略,将采集来的数据同时服务于离线数仓和实时数仓。结合阿里巴巴成熟的数仓构建实践,总结出一套数仓建模理论体系,并梳理出通用的数仓建模步骤。分别使用Hive和Flink构建离线数仓和实时数仓,采用了流行的任务流调度系统DolphinScheduler。

 

 

视频目录

001.项目概述

002.数仓概念-数仓简介

003.数仓概念-数仓总体介绍

004.数仓概念-项目需求分析

005.数仓概念-技术选型考虑因素

006.具体功能选型

007.数仓概念-系统数据流程

008.数仓概念-框架版本的选择

009.数仓概念-具体版本号选择

010.数仓概念-服务器选型

011.数仓概念-集群规模

012.数仓概念-集群资源规划

013.业务数据采集-物流业务简介

014.业务数据采集-物流业务数据

015.业务数据采集-阿里云准备(备选)

016.业务数据采集-虚拟机环境准备

017.业务数据采集-克隆三台服务器

018.业务数据采集-集群同步脚本

019.业务数据采集-免密登录配置

020.业务数据采集-安装JDK

021.业务数据采集-Linux环境变量说明

022.业务数据采集-查看集群所有进程脚本

023.业务数据采集-Zookeeper安装

024.业务数据采集-Zookeeper启停脚本

025.业务数据采集-Hadoop-HA安装(上)

026.业务数据采集-Hadoop-HA安装(中)

027.业务数据采集-Hadoop-HA安装(下)

028.业务数据采集-Hadoop-HA启停脚本

029.业务数据采集-Hadoop项目经验

030.业务数据采集-Kafka安装

031.用户行为数据采集-Kafka启停脚本

032.业务数据采集-Flume安装

033.业务数据采集-MySQL安装

034.业务数据采集-模拟数据

035.业务数据采集-EZDML建模工具

036.业务数据采集-数据同步策略概述

037.业务数据采集-数据同步策略选择

038.业务数据采集-数据同步策略选择

039.业务数据采集-DataX简介

040.业务数据采集-DataX调度决策思路

041.业务数据采集-DataX与Sqoop对比

042.业务数据采集-DataX部署

043.业务数据采集-同步MySQL数据到HDFS(案例一)

044.业务数据采集-同步MySQL数据到HDFS(案例二)

045.业务数据采集-同步HDFS数据到MySQL(案例三)

046.业务数据采集-DataX传参

047.业务数据采集-Datax的SplitPK切割原理

048.业务数据采集-DataX的HdfsWriter的Null值存储问题

049.业务数据采集-DataX参数调优

050.业务数据采集-Flink-CDC简介

051.业务数据采集-启用MySQL Binlog

052.业务数据采集-DataStreamAPI实现FlinkCDC

053.业务数据采集-FlinkCDC集群提交

054.业务数据采集-FlinkSQL实现FlinkCDC

055.业务数据采集-Datax配置一键生成

056.业务数据采集-全量表数据同步脚本

057.业务数据采集-增量同步Flink-CDC配置

058.业务数据采集-增量同步Flink-CDC集群模式提交

059.业务数据采集-增量同步Flume通道分析

060.业务数据采集-增量同步Flume配置

061.业务数据采集-增量同步Flume拦截器配置

062.业务数据采集-增量同步Flume启停脚本

063.业务数据采集-Hive安装

064.物流数仓项目课程介绍

065.数仓课程内容介绍

066.数仓的概念

067.数仓架构01

068.数仓架构02

069.数据仓库建模的意义

070.ER模型介绍01

071.ER模型介绍02

072.维度模型介绍

073.事实表介绍

074.事务型事实表设计流程

075.事务型事实表不足01

076.事务型事实表不足02

077.周期快照事实表

078.事实类型

079.累积快照事实表

080.维度表介绍与设计

081.规范化与反规范化

082.全量快照维度表

083.拉链表

084.多值维度

085.多值属性

086.数据仓库的分层规划

087.数仓的构建流程

088.数据调研

089.明确数据域

090.构建业务总线矩阵

091.明确统计指标

092.维度模型设计

093.汇总模型设计

094.hive引擎简介

095.hive on spark兼容性说明

096.hive on spark搭建

097.调整ApplicationMaster资源比例

098.hive中文乱码问题

099.datagrip使用

100.模拟生成数据

101.ods层设计要点

102.全量表建表

103.json数据第一种建表方式

104.hive复杂数据类型回顾

105.json数据第二种建表方式

106.ods层部分表字段不显示问题

107.增量表建表

108.ods层数据加载脚本

109.dim层设计要点

110.小区维度表建表

111.小区维度表数据加载

112.机构维度表建表和数据加载

113.地区维度表建表和数据加载

114.快递员维度表建表

115.快递员维度表数据加载

116.班次维度表建表和数据加载

117.司机维度表建表和数据加载

118.卡车维度表建表和数据加载

119.用户维度表建表和首日数据加载

120.用户维度表每日数据加载

121.用户地址维度表建表和首日加载

122.用户地址表每日数据加载

123.dim层首日数据加载脚本

124.dim层每日数据加载脚本

125.dwd层设计要点

126.下单事实建表

127.下单事实表数据加载逻辑

128.下单事实表首日数据加载

129.下单事实表每日数据加载

130.交易域运单累积快照事实表建表和首日加载

131.运单累积快照事实表每日数据加载

132.取消运单事实表建表和首日数据加载

133.取消运单事实表每日数据加载

134.支付成功事实表建表和首日数据加载

135.支付成功事实表每日数据加载

136.揽收事实表建表和首日数据加载

137.揽收事实表每日数据加载

138.发单事实表建表和首日数据加载

139.发单事实表每日数据加载

140.转运完成事实表建表和首日加载

141.转运完成事实表每日数据加载

142.派送成功事实表建表和首日加载

143.派送成功事实表每日数据加载

144.签收事实表建表和首日加载

145.签收事实表每日数据加载

146.运输完成事实表建表和首日加载

147.运输完成事实表每日数据加载

148.入库事实表建表和首日加载

149.入库事实表每日数据加载

150.分拣事实表建表和数据加载

151.出库事实表建表和数据加载

152.dwd首日数据加载脚本

153.dwd每日数据加载脚本

154.指标体系回顾

155.dws建表逻辑

156.机构货物类型下单最近1日汇总表

157.转运站粒度揽收最近1日汇总表首日数据加载

158.转运站粒度揽收最近1日汇总表每日数据加载

159.发单最近1日汇总表

160.机构卡车类别运输最近1日汇总表

161.转运站粒度派生成功最近1日汇总表

162.机构粒度分拣最近1日汇总表

163.dws 1d表首日数据加载脚本

164.dws 1d表每日数据加载脚本

165.机构货物类型粒度下单最近N日汇总表

166.转运站粒度揽收最近N日汇总表

167.发单最近N日汇总表

168.班次粒度运输最近N日汇总表

169.班次粒度运输最近N日汇总表城市获取问题

170.转运站粒度派生成功最近N日汇总表

171.转运站粒度分拣最近N日汇总表

172.dws nd表数据加载脚本

173.发单历史至今汇总表

174.转运完成历史至今汇总表

175.dws td表首日数据加载脚本

176.dws td表每日数据加载脚本

177.运单相关统计

178.运输相关统计

179.历史至今运单统计

180.运单综合统计

181.各类型货物运单统计

182.城市分析

183.机构分析

184.班次分析

185.线路分析

186.司机分析

187.卡车分析

188.快递综合统计

189.各省份快递统计

190.各城市快递统计

191.各机构快递统计

192.ads数据加载脚本

193.mysql建表

194.hdfs导数据到Mysql案例

195.datax导数据配置文件模板

196.datax导ads数据到mysql

197.dolphinscheduler简介

198.dolphinscheduler部署说明

199.dolphinscheduler安装

200.dolphinscheduler启动停止脚本说明

201.安全中心配置

202.配置工作流

203.工作流调度

204.参数

205.参数优先级

206.引用依赖资源

207.告警

208.恢复失败

209.生成数据

210.上传脚本到资源中心

211.数仓工作流调度执行

212.superset安装

213.superset启动停止脚本

214.可视化

215.项目总结

216.课程介绍

217.基础_数仓相关概念

218.基础_实时架构以及和离线架构的对比

219.基础_建模理论

220.基础_数仓构建流程

221.基础_前置组件准备

222.ODS_IDEA开发环境搭建

223.ODS_开发思路分析

224.ODS_环境准备以及检查点设置

225.ODS_使用FlinkCDC读取MySQL数据基本实现

226.ODS_封装获取执行环境的方法

227.ODS_封装获取MySqlSource的方法

228.ODS_读取数据并进行ETL操作

229.ODS_将流的数据写到kafka主题中

230.ODS_在ODS主类中抽取流程实现方法

231.ODS_ODS整体测试以及问题解决

232.DIM_DIM层基本实现思路分析

233.DIM_配置表的准备

234.DIM_开发思路分析

235.DIM_从kafka主题中读取数据

236.DIM_类型转换以及属性过滤

237.DIM_使用FlinkCDC读取配置表数据

238.DIM_HbaseAPI介绍

239.DIM_封装Hbase工具类并提供建表方法

240.DIM_hbase维度表的提取创建

241.DIM_广播配置流

242.DIM_关联两条流并抽取专门的类处理流中数据

243.DIM_处理广播流数据

244.DIM_通过Debug方式调试广播流处理流程

245.DIM_处理主流数据基本实现以及字段过滤

246.DIM_处理主流数据补充字段

247.DIM_在open方法中预加载配置信息

248.DIM_封装向Hbase写入数据的方法

249.DIM_将维度数据写到Hbase表中代码实现

250.DIM_维度数据写到Hbase测试以及Kafka一致性问题说明

251.DIM_维度处理总结

252.DIM_维度处理执行流程总结

253.DWD_需求分析

254.DWD_运单业务分流分析

255.DWD_分区、分组、分流以及FlinkCDC采集数据时间问题

256.DWD_开发思路分析

257.DWD_运单业务对应的事实表实体类准备

258.DWD_从kafka主题中读取数据

259.DWD_按照order_id分组以及标签创建泛型擦除问题

260.DWD_运单和明细关联思路分析

261.DWD_状态的声明以及初始化

262.DWD_订单明细数据分流的处理

263.DWD_订单数据分流的处理

264.DWD_将不同流的数据写到kafka主题

265.DWD_订单业务相关事实表整体测试

266.DWD_物流域运输完成事实表需求分析

267.DWD_开发思路分析

268.DWD_从kafka主题中读取数据

269.DWD_过滤出运输完成数据

270.DWD_对过滤出的数据进行时间处理以及脱敏

271.DWD_运输完成事实表测试以及总结

272.DWD_中转业务流程分流思路分析

273.DWD_中转域相关实体类封装

274.DWD_构造者设计模式

275.DWD_中转域事实表开发思路分析

276.DWD_从kafka主题中读取中转数据

277.DWD_将入库数据放到主流

278.DWD_将分拣数据放到分拣侧输出流

279.DWD_将出库数据放到出库侧输出流

280.DWD_中转域相关事实表测试

281.DWS_DWS介绍

282.DWS_中转域机构粒度分拣聚合统计思路分析

283.DWS_机构粒度分拣聚合开发思路分析

284.DWS_从kafka主题中读取分拣数据

285.DWS_将流中数据转换为分拣统计实体类

286.DWS_Builder注解导致构造方法失效问题说明

287.DWS_Watermark的指定以及事件时间字段提取

288.DWS_开窗思路分析

289.DWS_滚动时间窗口底层源码分析

290.DWS_开启一天窗口偏移问题解决

291.DWS_自定义触发器

292.DWS_聚合计算

293.DWS_聚合测试

294.DWS_封装根据主键获取维度数据的方法

295.DWS_补充主键属性

296.DWS_封装根据外键获取维度数据的方法

297.DWS_维度关联基本实现

298.DWS_旁路缓存思路分析

299.DWS_封装获取Jedis的工具类

300.DWS_旁路缓存思路再次梳理

301.DWS_旁路缓存代码实现

302.DWS_旁路缓存优化测试

303.DWS_封装从Redis中清除缓存数据的方法

304.DWS_清除缓存流程分析

305.DWS_在配置表中补充外键字段以及主流数据处理流程回顾

306.DWS_处理主流数据时传递清除Redis缓存需要的数据

307.DWS_DimSinkFunction中清除Redis缓存代码以及测试

308.DWS_同步和异步介绍

309.DWS_封装获取线程池对象的工具类

310.DWS_异步维度关联的实现

311.DWS_抽取发送请求进行维度关联的类以及模板方法设计模式

312.DWS_关联机构表获取城市id

313.DWS_关联地区维度表获取相关维度

314.DWS_将流中数据写到CK基本实现

315.DWS_抽取操作Clickhouse的工具类

316.DWS_通用的给问号占位符赋值方法

317.DWS_物化视图以及常用聚合函数组合符

318.DWS_在CK中创建基础表以及物化视图

319.DWS_将流中数据写到CK表整体测试

320.DWS_机构粒度分拣聚合统计总结

321.DWS_货物类型粒度订单聚合统计思路分析

322.DWS_货物类型粒度订单聚合统计代码实现

323.DWS_货物类型粒度订单聚合统计写到CK测试

324.DWS_机构粒度订单聚合统计思路分析

325.DWS_机构粒度订单聚合统计代码实现

326.DWS_机构粒度订单聚合统计写到CK测试

327.DWS_物流域转运完成实现以及Watermark触发定时器执行问题

328.DWS_物流域发单数统计整体实现

329.DWS_物流域机构粒度派送成功聚合统计整体实现

330.DWS_物流域机构粒度揽收聚合统计整体实现

331.DWS_物流域运输完成统计思路分析

332.DWS_物流域运输完成统计开发思路分析

333.DWS_物流域运输完成聚合代码实现

334.DWS_物流域运输完成统计维度关联实现

335.DWS_物流域运输完成统计测试

336.ADS需求分析

337.ADS_Spring开发基本概念介绍

338.ADS_SpringBoot开发环境搭建

339.ADS_Sugar申请

340.ADS_文档和指标体系对应关系

341.ADS_当日下单总金额Mapper层代码开发

342.ADS_当日下单总金额Service以及Controller层代码开发

343.ADS_内网穿透介绍以及在Sugar上展示总金额

344.ADS_当日省份分拣数统计整体实现

345.ADS_当日下单总金额执行流程分析

346.ADS_当日下单总金额实时展示

347.ADS_打包部署前的环境准备

348.ADS_打包部署到服务器整体测试

349.ADS_物流实时数仓总结