任务调度系统的后起之秀——DolphinScheduler(二)

Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。

一、快速上手

1、使用admin用户登录,密码是dophinscheduler123,创建队列。

任务调度系统的后起之秀——DolphinScheduler(二)

 

2、创建租户,创建租户前要确保HDFS的根目录下所属者都是hdfs,与DS配置文件保持一致,否则会创建失败。

任务调度系统的后起之秀——DolphinScheduler(二)

 

3、创建普通用户。

任务调度系统的后起之秀——DolphinScheduler(二)

 

4、创建告警组。

任务调度系统的后起之秀——DolphinScheduler(二)

 

5、创建token令牌。

任务调度系统的后起之秀——DolphinScheduler(二)

 

6、退出账号,切换test用户。

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

7、创建项目。

任务调度系统的后起之秀——DolphinScheduler(二)

 

8、点击项目名称,进入项目首页,创建工作流。

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

9、创建三个简单的工作任务,执行简单输出,输出hello world。

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

10、选中箭头,将节点进行连接,建立任务间的执行顺序,点击保存,设置DAG图名称。

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

11、测试,上线,需要先点击上线,再点击执行,执行前需要配置一些参数。

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

12、执行完成之后,查看是否成功和日志。

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

二、资源中心

资源中心用于上传文件和udf函数,所有上传的文件和资源都会被存储到hdfs上(在安装时配置了相关参数),将jar包上传上去,用于后面测试。

任务调度系统的后起之秀——DolphinScheduler(二)

 

三、Spark节点

1、创建hdfs(需要和hdf路径上的owner对应)租户。

任务调度系统的后起之秀——DolphinScheduler(二)

 

2、创建atguigu用户。

任务调度系统的后起之秀——DolphinScheduler(二)

 

3、切换成atguigu用户,在项目管理中新创建项目test-project。

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

4、在新建的项目中创建新的工作流,在工作流创建画布上选择spark节点图标,创建spark任务,使用我们事先已经上传到资源中心的jar包,配置必要的参数。

任务调度系统的后起之秀——DolphinScheduler(二)

 

5、以此类推,分别创建出dwd层、dws层和ads层的任务流,并使用箭头连接,确定三个任务的先后执行顺序。

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

6、上线、执行,进行测试。

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

7、执行完成后,可以查看甘特图和日志等信息。

任务调度系统的后起之秀——DolphinScheduler(二)

 

任务调度系统的后起之秀——DolphinScheduler(二)

 

四、创建HIve数据源

1、点击数据源中心,点击创建数据源。

任务调度系统的后起之秀——DolphinScheduler(二)

 

2、选择数据源类型是HIVE/IMPALA,并配置必要参数。

任务调度系统的后起之秀——DolphinScheduler(二)
想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习。