Flume概念小结一

Flume概念总结一

Flume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力

Flume提供了从console（控制台）、RPC（Thrift-RPC）、text（文件）、tail（UNIX tail）、syslog（syslog日志系统，支持TCP和UDP等2种模式），exec（命令执行）等数据源上收集数据的能力。

    其中，收集数据有2种主要工作模式，如下：
    Push Sources：外部系统会主动地将数据推送到Flume中，如RPC、syslog。
    Polling Sources：Flume到外部系统中获取数据，一般使用轮询的方式，如text和exec。

Flume的数据接受方，可以是console（控制台）、text（文件）、dfs（HDFS文件）、RPC（Thrift-RPC）和syslogTCP（TCP syslog日志系统）等。

source和sink对应。Source和sink强调发送、接受方的特性（如数据格式、编码等)

agent和collector关注功能。

Flume采用了多Master的方式。为了保证配置数据的一致性，Flume引入了ZooKeeper，用于保存配置数据，ZooKeeper本身可保证配置数据的一致性和高可用，另外，在配置数据发生变化时，ZooKeeper可以通知Flume Master节点。
Flume Master间使用gossip协议同步数据。

下面简要分析Flume如何支持Reliability、Scalability、Manageability和Extensibility。

Reliability：Flume提供3中数据可靠性选项，包括End-to-end、Store on failure和Best effort。其中End-to-end使用了磁盘日志和接受端Ack的方式，保证Flume接受到的数据会最终到达目的。Store on failure在目的不可用的时候，数据会保持在本地硬盘。和End-to-end不同的是，如果是进程出现问题，Store on failure可能会丢失部分数据。Best effort不做任何QoS保证。

Scalability：Flume的3大组件：collector、master和storage tier都是可伸缩的。需要注意的是，Flume中对事件的处理不需要带状态，它的Scalability可以很容易实现。

Manageability：Flume利用ZooKeeper和gossip，保证配置数据的一致性、高可用。同时，多Master，保证Master可以管理大量的节点。

Extensibility：基于Java，用户可以为Flume添加各种新的功能，如通过继承Source，用户可以实现自己的数据接入方式，实现Sink的子类，用户可以将数据写往特定目标，同时，通过SinkDecorator，用户可以对数据进行一定的预处理。

安装： http://www.tech126.com/flume/ 高飞鸟

http://linuxjcq.blog.51cto.com/3042600/763362

外部博客：

http://blog.****.net/azhao_dn/article/details/6968209 竹叶青

http://www.cnblogs.com/zhangmiao-chp/archive/2011/05/18/2050461.html 张淼

相关推荐