流式数据湖平台—Paimon视频教程

Apache Paimon是一个流数据湖平台,是Streaming实时计算能力和Lakehouse新架构优势的结合,具有高速数据摄取、变更日志跟踪和高效的实时分析能力。



Paimon最早是由 Flink社区内部孵化而来,原名 Flink Table Store(简称FTS),是Flink的子项目。2023年3月12日,捐赠给Apache软件基金会后,改名为Apache Paimon。



本套教程内容涵盖Paimon的核心特点:统一批处理和流处理、数据湖能力、各种合并引擎、变更日志生成、丰富的表类型、模式演化等。内容讲解基于各个软件的新版本:Paimon 0.5 SNAPSHOT、Flink 1.17.0、Hive 3.1.3、Spark 3.3.1。

 

微信图片_20230725145942.png

 

教程目录

01.Paimon课程介绍
02.Paimon概述_简介
03.Paimon概述_核心特性
04.Paimon概述_基本概念
05.Paimon概述_文件布局
06.集成Flink_环境准备
07.集成Flink_环境准备_解决依赖冲突
08.集成Flink_Catalog_文件系统
09.集成Flink_Catalog_Hive&初始化文件
10.集成Flink_DDL_创建管理表
11.集成Flink_DDL_管理表_CTAS和表属性
12.集成Flink_DDL_外部表和临时表
13.集成Flink_DDL_修改表&修改列&修改水印
14.集成Flink_DML_插入&覆盖数据
15.集成Flink_DML_更新&删除数据
16.集成Flink_DML_Merge Into的理解
17.集成Flink_DML_Merge Into案例练习
18.集成Flink_DQL_批量查询_时间旅行和增量查询
19.集成Flink_DQL_流式查询_时间旅行&注意细节
20.集成Flink_DQL_流式查询_ConsumerID功能&查询优化
21.集成Flink_查看系统表
22.集成Flink_维表Join
23.集成Flink_CDC_功能介绍
24.集成Flink_CDC_MySQL同步表演示
25.集成Flink_CDC_MySQL整库同步演示
26.集成Flink_CDC_Kafka数据准备
27.集成Flink_CDC_Kafka同步表演示
28.集成Flink_CDC_Kafka整库同步演示
29.集成Flink_CDC_支持的schema变更
30.集成Flink_进阶使用_写入性能
31.集成Flink_进阶使用_读取性能
32.集成Flink_进阶使用_多Writer并发写入&部分列更新&独立Compaction
33.集成Flink_进阶使用_表管理
34.集成Flink_进阶使用_缩放Bucket
35.集成Flink_文件操作理解
36.集成Hive_演示
37.集成Spark_环境准备&Catalog
38.集成Spark_DDL_建表
39.集成Spark_DDL_修改表
40.集成Spark_插入数据&查询数据
41.集成Spark_查询系统表