kafka：各组件概念

摘要

kafka主要由Scala和Java编写，broker启动后可以直接用jps -l查看到是kafka进程。kafka是一种高吞吐量的分布式发布订阅消息系统，组件参数都比较多。

总体组件

kafka的组件主要有：Kafka Cluster(zookeeper和kafka broker组成)、Producer、Consumer、Connector、Stream，总体架构图如下：

Kafka Cluster：kafka集群，主要由zookeeper和broker组成。

broker：kafka服务代理节点，它就是我们在kafka官网下载安装包配置启动后的服务。单机只需启动一个broker，集群需要多个broker启动，broker启动都需要连接zookeeper在里面注册信息，因此无论单机还是集群，都需要先启动zookeeper。

zookeeper：主要用于维护kafka broker的元数据信息，比如zookeeper的/brokers/ids 路径下有各kafka节点的broker.id。

producer：生产者，主要通过kefka客户端api给kafka发送消息。

consumer：消费者，主要通过kefka客户端api消费kafka的消息。

connector：连接器，可以将kafka直连数据库，比如，kafka可以通过connectors直连mysql和elasticsearch，将mysql的数据直接通过kafka导入到es中，中间不需要开发生产消费代码。

stream：流处理，通过流处理API可以实时对kafka的消息进行处理，比如将一个主题的消息处理后发送到另一个主题。

消息相关组件

topic：主题，用于存储一类消息，生产和消费者都以主题为容器发送和消费消息的。一个主题有多个分区，每个分区存储着消息。

partition：分区，为了加大吞吐量，每个主题在kafka内部维护了多个队列(分区)，消息最终是存在分区下的。

key：消息键，当发送消息，不指定分区且key不为空时，相同key的消息会被发送到同一分区。分区默认策略就是对key进行hash，而key为空则轮询分配分区。

value：消息信息，该值一般保存具体的业务消息。

consumer gourp：消费组，多个消费者的组ID一致时，主题的分区会分配给同组下的消费者进行消费。即同组消费者只会消费主题下不同分区的消息，不会消费相同的消息。

offset：偏移量，当前分区的消费偏移量，记录消费者消费的最新消息的索引。

高可用相关组件

controller：控制节点，集群中的一个broker作为leader来管理整个集群。若leader挂掉，则会重新选举出新leader。

replication：副本，每个partition分区可以设置多个副本，副本之间数据一致，相当于备份。

leader：以上分区的副本中，只有一个为leader，可以读写消息。

fllower：以上分区的副本中，除了leader，都为fllower，功能只有一个，从leader拉取消息，不参与生产和消费，仅仅是备份。消费者只能获取leader分区的消息。只有leader挂掉，才会从fllower里选举出leader。