您的位置:首页 > 其它

深入理解kafka:核心设计与原理实践-1.初始Kafka

2019-12-29 22:21 176 查看

Kafka起初是由Linkedin公司采用 Scala 语言开发的一个多分区,多副本且基于Zookeeper协调的分布式消息系统,现己被捐献给 Apache 基金会。目前Kafka已经定位为一个分布式流式处理平台,它以高吞吐,可持久化,可水平扩展,支持流数据处理等多种特性而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera,Storm,Spark,Flink ,等都支持与Kafka集成。Kafka之所以受到越来越受青睐,与它所“扮”的大角色是分不开的。

  • 消息系统:Kafka 和传统的消息系统(也称作消息中间件)都具备系统解稿、冗余存储、流量峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时, Kafka还提供了大多数消息系统难以实现的消息序性保障及回溯消费的功能。
  • 存储系统:Kafka把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险也正是得益于Kafka的消息持久化功能和多副本机制我们可以把Kafka作为长期的数据存储系统来使用,只需要把对应的数据保留策略设置为“永久”或启用主题的日志压缩功能即可。
  • 流式处理平台:Kafka不仅为每个流行的流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理类库,比如窗口、连接、变换和聚合等各类操作。
  • 1.1基本概念 一个典型的 Kafka 体系架构包括若干 Producer、若干 Broker 、若干 Consumer ,以及一个Zookeeper集群,如下图所示。其中ZooKeeper是Kafka用来负责集群元数据的管理、控制器的选举 操作的。Producer将消息发送到Broker,Broker负责将收到的消息存储到磁盘中,而Consumer负责从Broker订阅并消费消息。
  • 整个Kafka体系结构中引入了以下3个术语。
  • (1)Producer:生产者,也就是发送消息的一方。生产者负责创建消息 然后将其投递到Kafka中。
  • (2)Consumer:消费者,也就是接收消息的一方。消费者连接到Kafka上并接收消息,进而进行相应的业务逻辑处理。
  • (3)Broker:服务代理节点,对于Kafka而言,Broke可以简单地看作一个独立的Kafka服务节点或Kafka服务实例。大多数情况下也可以将Broker看作一台Kafka服务器,前提是这台服务器上只部署了一个Kafka实例。一个或多个Broker组成了一个Kafka集群。一般而言,我们更习惯使用首字母小写的broker来表示服务代理节点。 在Kafka中还有两个特别重要的概念一主题(Topic)与分区(Partition)。Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到Kafka集群中的每一条消息都要指定一个主题),而消费者负责订阅主题并进行消费。
  • 主题是一个逻辑上的概念,它还可以细分为多个分区,一个分区只属于单个主题,很多时候也会把分区称为主题分区(Topic-Partition)。同一主题下的不同分区包含的消息是不同的,分区在存储层面可以看作一个可追加的日志(Log)文件,消息在被追加到分区日志,文件的时候都会分配一个特定的偏移量(offset)。offset是消息在分区中的唯一标识,Kafka通过它来保证消息在分区内的顺序性,不过offset并不跨越分区,也就是说,Kafka保证的是分区有序而不是主题有序。 如下图所示,主题中有个分区,消息被顺序追加到每个分区日志文件的尾部。Kafka中的分区可以分布在不同的服务器(broker)上,也就是说,一个主题可以横跨多个broker,以此来提供比单个broker更强大的性能。

  • 每一条消息被发送到broker之前,会根据分区规则选择存储到哪个具体的分区如果分区规则设定得合理,所有的消息都可以均匀地分配到不同的分区中。如果一个主题只对应一个文件,那么这个文件所在的机器将会成为这个主题的性能瓶颈,而分区解决了这个问题。在创建主题的时候可以通过指定的参数来设置分区的个数,当然也可以在主题创建完成之后去修改分区的数量,通过增加分区的数量可以实现水平扩展。
  • Kafka为分区引入了多副本Replica机制,通过增加副本数量可以提升容灾能力。同一分区的不同副本中保存的是相同的消息(在同一时刻,副本之间并非完全一样)副本之间是"一主多从"的关系,其中leader副本负处理读写请求,follower副本只负责与leader副本的消息同步。副本处于不同的broker,当leader副本出现故障时,从follower副本中重新选举新的leader副本对外提供服务。Kafka通过多副本机制实现了故障的自动转移,当 Kafka 集群中某个broker失效时仍然能保证服务可用。
  • 通过多副本机制实现了故障的自动转移,当Kafka集群中某个broker失效时仍然能保证服务可用。如下图所示Kafka集群中有4个broker,某个主题中有3个分区,且副本因子(即副本个数)也为3,如此每个分区便有1个leader副本和2个follower副本。生产者和消费者只与leader副本进行交互,而follower副本只负责消息的同步,很多时候follower副本中的消息相对leader副本而言会有一定的滞后。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Kafka
相关文章推荐