尚硅谷大数据技术之Flume第1章 Flume概述

1.1 Flume概念

Flume是一种分布式,可靠和可用的服务,用于高效收集,聚合和移动大量日志数据。 它具有基于流数据流的简单灵活的架构。 它具有可靠的可靠性机制和许多故障转移和恢复机制的强大和容错能力。 它使用一个简单的可扩展数据模型,允许在线分析应用程序。 

Flume是Cloudera公司开发的用于实时收集服务器(apache/ngnix等)日志数据的框架,Flume很多时候和storm以及spark streaming等流式处理框架结合使用。

1.2 Flume组成架构

 Agent

具有字节有效载荷和可选的一组字符串属性的数据流的单元。 Flume代理(Agent)是一个(JVM)进程,它承载事件从外部源传递到下一个目标(跳)的组件。 是Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。
Agent 就是一个java进程,Agent主要有3个部分组成,Source、Channel、Sink。

 


本教程由尚硅谷教育大数据研究院出品,如需转载请注明来源,欢迎大家关注尚硅谷公众号(atguigu)了解更多。