熟悉Linux、Hadoop、Hive、Flume、Kafka
Spark、Springboot、Flink、Vue等基础框架
以一个数据平台的搭建为切入点,了解数据治理的相关业务知识
通过获取Hive元数据,实现元数据的查询、血缘查询、数据治理等等
深度了解DolphinScheduler,实现对数仓的调度管理 ,并整合其底层数据实现一定的数据治理和质量监控
深度了解StreamX, 实现实时数仓的调度管理
学习数据质量监控的设计与实现
学习以评分绩效方式对数据治理各个方便的管控
采集并分析Hive元数据;
DolphinScheduler的使用及底层元数据整合;
StreamX的使用及底层元数据整合;
Neo4j实现数仓血缘管理;
利用Debezium实现接多种数据源的采集;
利用Presto实现即席查询;
设计并实现自定义数据质量监控;
设计并实现动态数据治理评分;
对接多种预警平台,包括企业号、微信、语言通话;
通过Vue.js 和 Echarts实现可视化及图表展示。