Airflow是一个以编程方式编写,安排和监视工作流的平台。
使用Airflow将工作流编写任务的有向无环图(DAG)。Aiflow计划程序在遵循指定的依赖项同时在一组工作线程上执行任务。丰富的命令实用程序使在DAG上执行复杂的调度变得轻而易举。丰富的用户界面使查看生产中正在运行的管道,监视进度以及需要时对问题进行故障排除变得容易。
具有以下特点
Dynamic:Airflow配置需要使用Python,允许动态生产管道。这允许编写可动态。这允许编写可动态实例化管道的代码;
Extensible:轻松定义自己的运算符,执行程序并扩展库,使其适合于您的的环境;
Elegant:Airlfow是精简的,使用功能强大的Jinja模板引擎,将脚本参数化内置于Airflow的核心中;
Scalable:Airflow具有模板块架构,并使用消息队列来安排任意数量的工作任务。
1、安装环境准备
环境准备:
阿里云服务器,centos7.5系统,Python2.7.5,Pip 20.3.1,openssl1.02(重要)

如上所示,hadoop101,hadoop102,hadoop103为hadoop集群,airflow节点部署airlfow。
python、pip、openssl版本如下:



2、升级PIP
若PIP版本不满足20.3.1,以如下方式升级:
[root@airflow~]# pip install --upgrade pip [root@airflow~]# pip -V pip20.3.1 from /usr/lib/python2.7/site-packages/pip (python 2.7) [root@airflow~]# pip install --upgrade setuptools
3、安装Miniconda
conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等,Miniconda包括Conda、Python。
此外,我们不需要如此多的工具包,故选择MiniConda。
1)下载Miniconda(Python3版本)
下载地址:
https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
[root@airflow~]# mkdir /opt/software [root@airflow~]# cd /opt/software/ [root@airflowsoftware]# wgethttps://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
2)安装Miniconda
[root@airflowsoftware]# bash Miniconda3-latest-Linux-x86_64.sh
(1)在安装过程中,出现以下提示时,可以指定安装路径
(2)出现以下字样,即为安装完成

3)加载环境变量配置文件,使之生效
[root@airflowsoftware]# source ~/.bashrc
Miniconda安装完成后,每次打开终端都会激活其默认的base环境,我们可通过以下命令,禁止激活默认base环境。
[root@airflowsoftware]# conda config --set auto_activate_base false
3、安装Python3.7.4
1)配置conda国内镜像
[root@airflow~]# conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free [root@airflow~]# conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main [root@airflow~]# conda config --set show_channel_urls yes [root@airflow~]# conda create --name python3 python=3.7.4
说明:conda环境管理常用命令
创建环境:conda create -n env_name
查看所有环境:conda info –envs
删除一个环境:conda remove -n env_name –all
2)激活python3环境
[root@airflow~]# conda activate python3 (python3)[root@airflow ~]# python -V Python3.7.4
3)退出python3环境
(python3)[root@airflow ~]# conda deactivate [root@airflow~]# python -V Python2.7.5
4、安装Airflow
(1)安装airflow,先切换到python3环境
[root@airflow~]# conda activate python3 (python3)[root@airflow ~]# cd /opt/software/ (python3)[root@airflow software]# pip install "apache-airflow==1.10.14"
(2)初始化airflow
(python3)[root@airflow software]# airflow db init
(3)查看版本
(python3)[root@airflow software]# airflow version 1.10.14
(4)airflow安装好存放路径
(python3)[root@airflow airflow]# pwd /root/airflow
(5)启动airflow web服务,启动后浏览器访问http://airflow:8080
(python3)[root@airflow airflow]# airflow webserver -p 8080 -D

(2)启动airflow调度
(python3)[root@airflow airflow]# airflow scheduler -D
以上,安装完成。
想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习。
上一篇: Spark Task级调度_大数据培训
下一篇: Airflow教程——使用Airflow实现简单的工作流调度