Kafka 0.10 安装及使用
2017-01-22 21:56
267 查看
1总体说明
笔记本:i5第六代,16G内存,256G固态硬盘使用VirtualBox5.0.22建立3台虚拟机。
2主机规化
主机名 | IP | 用途 |
master | 192.168.56.101 | |
slave1 | 192.168.56.102 | |
slave2 | 192.168.56.103 |
3目录规化
组件 | 目录 | 说明 |
JDK | /usr/java/jdk1.8.0_92 | ln-s/usr/java/jdk1.8.0_92/usr/java/default |
zookeeper | /opt/zookeeper | |
kafka | /opt/kafka | |
各输出目录的根 | /var/kafka/ /var/zookeeper/ | |
4端口规化
端口 | 说明 |
9092 | |
2888 | ZooKeeper,如果是Leader,用来监听Follower的连接 |
3888 | ZooKeeper,用于Leader选举 |
2181 | ZooKeeper,用来监听客户端的连接 |
5操作系统配置
5.1OS安装
l使用CentOS6.5版l磁盘划分:
/boot500MBext4bootpartition#迫使主分区
swap2GBswap#与物理内存一样大
/剩余空间ext4#迫使主分区
/data1sda所有空间ext4
/data2sdb所有空间ext4
l安装软件:sysstat,httpd,tftp-server,ntp
启动sysstat:/etc/init.d/sysstatstart
设置sysstat自启动:checkfigsysstaton
l安装pssh:
wget
tarzxfpssh-2.3.1.tar.gz
cdpssh-2.3.1
pythonsetup.pyinstall
pssh多主机并行运行命令
pscp传输文件到多个hosts,他的特性和scp差不多
pslurp从多台远程机器拷贝文件
pnukekill远程机器的进程
pslurp从远程主机考本文件到本地
prsync使用rsync协议从本地计算机同步到远程主机
5.2配置SSH免密登陆
原理:[b]就是我把我的公钥放到你的[/b]authorized_keys里面,然后我就可以ssh无密码登录你了5.2.1配置规则
uNameNode能免密码登录所有的DataNodeuSecondaryNameNode能免密码登录所有的DataNode
uNameNode能免密码登录自己
uSecondaryNameNode能免密码登录自己
uNameNode能免密码登录SecondaryNameNode
uSecondaryNameNode能免密码登录NameNode
uDataNode能免密码登录自己
uDataNode不需要配置免密码登录NameNode、SecondaryNameNode和其它DataNode。
5.2.2配置步骤
l在master(NameNode)上执行:cd~
ssh-keygen-trsa#一路回车。
cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys
sshlocalhost#验证本机无密码登陆
sshmaster#验证本机无密码登陆
foripin`seq12`;doscp~/.ssh/authorized_keysroot@slave$ip:~/keys.master;done
l在slave1(SecondaryNameNode,DataNode)上执行:
cd~
ssh-keygen-trsa
cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys
sshlocalhost#验证本机无密码登陆
sshslave1#验证本机无密码登陆
cat~/keys.master>>~/.ssh/authorized_keys#实现master免密码登陆slave1
scp~/.ssh/id_rsa.pub
root@slave2:~/keys.slave1
scp~/.ssh/id_rsa.pub
root@master:~/keys.slave1
到master主机上执行:cat~/keys.slave1>>~/.ssh/authorized_keys
l在slave2(DataNode)上执行:
cd~
ssh-keygen-trsa
cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys
sshlocalhost#验证本机无密码登陆
sshslave2#验证本机无密码登陆
cat~/keys.master>>~/.ssh/authorized_keys
cat~/keys.slave1>>~/.ssh/authorized_keys
l免密码登陆验证
master(NN)登录所有节点
slave1(SNN)登录所有的DataNode(slave2)
slave1(SNN)登录NameNode(master)
5.3系统配置
每台主机执行以下操作:1.修改hosts,增加各个主机
echo"#clusterhosts">>/etc/hosts
echo"192.168.56.101master">>/etc/hosts
echo"192.168.56.102slave1">>/etc/hosts
echo"192.168.56.103slave2">>/etc/hosts
cat/etc/hosts
foripin`seq12`;doscp/etc/hostsroot@slave$ip:/etc;done
2.定义其他节点主机列表文件
cd~
vihdp-other-hosts
slave1
slave2
该文件是为了使用pssh进行批量操作用。文件内容为每行一个主机名字。
之后,可使用类似如下命令从master主机上批量在其他主机上执行命令:
例如:pssh-hhdp-other-hosts"mkdir-p/hadoop/test"
3.修改OS参数,如关闭防火墙,增加打开文件数等
l修改主机名
cat/etc/sysconfig/network#看看主机名字是否正确,不对则修改
servicenetworkrestart
l#关闭iptables.
serviceiptablesstop
serviceiptablesstatus
chkconfigiptablesoff
chkconfig--list|grepiptables
pssh-hhdp-other-hosts"serviceiptablesstop;chkconfigiptablesoff"
#两个命令中间用分号;以实现连续执行,即使有错也会继续。
#如果每个命令被&&号分隔,那么这些命令会一直执行下去,如果中间有错误的命令存在,则不再执行后面的命令。
l#关闭selinux.
vi/etc/selinux/config
SELINUX=disabled
l#关闭透明大页
vi/etc/rc.local
iftest-f/sys/kernel/mm/transparent_hugepage/enabled;then
echonever>/sys/kernel/mm/transparent_hugepage/enabled
fi
iftest-f/sys/kernel/mm/transparent_hugepage/defrag;then
echonever>/sys/kernel/mm/transparent_hugepage/defrag
fi
l#让机器尽量使用物理内存。如果设置成0,则意味着只使用物理内存。
echo"vm.swappiness=10">>/etc/sysctl.conf
l#最大打开文件数据和最大进程数limits.conf每台机器都修改
vi/etc/security/limits.conf#添加下面的内容
*-nofile65535
*-nproc65535
l每台机器重启:reboot
l检查修改效果:
/usr/sbin/sestatus-v#如果SELinuxstatus参数为enabled即为开启状态
或者使用:getenforce,也可检查SELinux的状态
#如果输出结果为[always]表示透明大页启用了。[never]表示禁用、[madvise]表示
cat/sys/kernel/mm/transparent_hugepage/enabled,defrag
cat/proc/sys/vm/swappiness#应该是10
ulimit-a#应该是65535
5.4NTP配置
lNTP服务器(master)配置vi/etc/ntp.conf
server127.127.1.0
fudge127.127.1.0stratum10
restrict192.168.56.0255.255.255.0nomodifynotrap
chkconfigntpdon
servicentpdstart
ntpstat#show:synchronisedtolocalnetatstratum11
l其他主机配置
vi/etc/ntp.conf
servermaster
servicentpdstart
chkconfigntpdon
crontab-e
*/10****/usr/sbin/ntpdate-umaster&>/var/log/ntpdate-cron.log
#每10分钟同步一次,'&'开始是为了调试用
10分钟后,各主机上执行:ntpstat,看是否同步了
如果机器重启了,slave上执行ntpstat,显示未同步,运行一次:servicentpdrestart,再执行ntpstat,就显示同步了。不知道这个怎么搞好
6JAVA安装
l在master上安装JAVArpm-ivhjdk8.rpm
echo"exportJAVA_HOME=/usr/java/default">>/etc/profile
echo"exportCLASSPATH=.:$JAVA_HOME/lib/tools.jar">>/etc/profile
echo"exportPATH=$JAVA_HOME/bin:$PATH">>/etc/profile
source/etc/profile
gtarcfjava.gz/usr/java/
foripin`seq12`;doscpjava.gzroot@slave$ip:/usr;done
foripin`seq12`;doscp/etc/profileroot@slave$ip:/etc;done
rmjava.gz
java-version#检验
l在其他各主机上安装JAVA
cd/usr
gtarxfjava.gz
rmjava.gz
java-version#检验
7Kafka安装
7.1安装zookeeper
1.tarzxvfzookeeper-3.4.8.tar.gz2.cpzookeeper/conf/zoo_sample.cfgzookeeper/conf/zoo.cfg
3.编辑zoo.cfg
ü修改:dataDir=/var/zookeeper/datadir
ü添加:dataLogDir=/var/zookeeper/logsdir
ü添加:
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888
4.分发到其他节点
tarcfzookeeper-done.tarzookeeper-3.4.8
foripin`seq12`;doscp/hadoop/zookeeper-done.tarroot@slave$ip:/hadoop;done
分别解压缩即可。
5.在各节点上创建ZK的目录:数据文件和日志存放目录
1)mkdir-p/var/zookeeper/datadir/var/zookeeper/logsdir
2)pssh-h~/hdp-other-hosts"mkdir-p/var/zookeeper/datadir/var/zookeeper/logsdir"
6.编辑各节点的myid值
echo1>/var/zookeeper/datadir/myid
pssh-Hroot@slave1"echo2>/var/zookeeper/datadir/myid"
pssh-Hroot@slave2"echo3>/var/zookeeper/datadir/myid"
或者使用下面循环代替上面的两句:
foripin`seq12`;dopssh-Hroot@slave$ip"echo$[$ip+1]>/var/zookeeper/datadir/myid";done
7.启动
zkServer.shstart:这个命令使得zk服务进程在后台进行[/code]
zkServer.shstart-foreground:在前台中运行
zkServer.shprint-cmd:可以查看zookeeper启动的各个参数,包括java路径等,也可以便于查找问题。
运行日志在zookeeper安装目录下的zookeeper.out。另外要注意的是,zookeeper重启会自动清除zookeeper.out日志,所以如果出错要注意先备份这个文件。
看了下zkServer.sh的代码,这个zookeeper.out实际上是nohup的输出。
研究了下bin/zkServer.sh和conf/log4j.properties,发现zookeeper其实是有日志相关的输出的配置,只要定义相关的变量就可以了。
主要是ZOO_LOG_DIR和ZOO_LOG4J_PROP这两个环境变量:
如果是连接同一台主机上的zk进程,那么直接运行bin/目录下的zkCli.cmd(Windows环境下)或者zkCli.sh(Linux环境下),即可连接上zk。
直接执行zkCli.cmd或者zkCli.sh命令默认以主机号127.0.0.1,端口号2181来连接zk,如果要连接不同机器上的zk,可以使用-server参数,例如:
zkCli.sh-server192.168.229.160:2181,192.168.229.161:2181,192.168.229.162:2181
7.2安装Kafka
1.解压tar2.修改配置文件:config/server.properties
übroker.id=1(另外几台机器依次设置为2,3,)
ülog.dirs=/var/kafka/kfklogs(日志地址,kafka的topic以及数据文件存放位置)
üzookeeper.connect=master:2181,slave1:2181,slave2:2181
ülisteners=PLAINTEXT://ip:9092:监听列表(以逗号分隔)。hostname如果设置为0.0.0.0则绑定所有的网卡地址;如果hostname为空则绑定默认的网卡。如果没有配置则默认为java.net.InetAddress.getCanonicalHostName()
üauto.create.topics.enable=false免得程序中写错了topic名字时被自动创建了
üdelete.topic.enable可以物理上删除一个topic
注意:broker级的配置参数(也就是server.properties),可以由topic级别的覆写。
nserver.properties参数说明
#############################ServerBasics#############################
#唯一标识一个broker.
broker.id=1
#############################SocketServerSettings#############################
#绑定服务监听的地址和端口,要填写hostname-i出来的地址,否则可能会绑定到127.0.0.1,producer可能会发不出消息
listeners=PLAINTEXT://172.23.8.144:9092
#broker对producers和consumers服务的地址和端口,如果没有配置,使用listeners的配置,本文没有配置该项
#advertised.listeners=PLAINTEXT://your.host.name:9092
#处理网络请求的线程数
num.network.threads=3
#处理磁盘I/O的线程数
num.io.threads=8
#socketserver的发送buffer大小(SO_SNDBUF)
socket.send.buffer.bytes=102400
#socketserver的接收buffer大小(SO_RCVBUF)
socket.receive.buffer.bytes=102400
#一个请求的最大size,用来保护防止oom
socket.request.max.bytes=104857600
#############################LogBasics#############################
#存放日志和消息的目录,可以是用逗号分开的目录,同样不推荐使用/tmp
log.dirs=/usr/local/services/kafka/kafka-logs
#每个topic默认partitions的数量,数量较大表示消费者可以有更大的并行度。
num.partitions=2
#Thenumberofthreadsperdatadirectorytobeusedforlogrecoveryatstartupandflushingatshutdown.
#ThisvalueisrecommendedtobeincreasedforinstallationswithdatadirslocatedinRAIDarray.
num.recovery.threads.per.data.dir=1
#日志的过期时间,超过后被删除,单位小时
log.retention.hours=168
#一个日志文件最大大小,超过会新建一个文件
log.segment.bytes=1073741824
#根据过期策略检查过期文件的时间间隔,单位毫秒
log.retention.check.interval.ms=300000
#############################Zookeeper#############################
#Zookeeper的连接配置,用逗号隔开,也可以用172.23.8.59:2181/kakfa这样的方式指定kafka数据在zk中的根目录
zookeeper.connect=172.23.8.144:2181,172.23.8.179:2181,172.23.8.59:2181
#连接zk的超时时间
zookeeper.connection.timeout.ms=6000
7.3启动kafka
先启动各台机器上的zookeeper:bin/zkServer.shstart日志就在zookeeper的根目录下的zoo.out
然后在每台机器上都启动Kafka:
nohupbin/kafka-server-start.shconfig/server.properties>kfk.out&
tail-f-n500kfk.out
停止kafka,在每台机器上执行:bin/kafka-server-stop.sh
7.4单机伪集群
因为server.properties就是一个broker的配置,所以,复制几份不同名字的server.properties,并修改broker.id,listeners,port,log.dirs,即可实现单机伪集群。注意:listeners中的端口号必须与port的值一致。
然后,在单机上,用“bin/kafka-server-start.sh每个server.properties”,依次启动即可。
7.5使用Kafka
l创建topicbin/kafka-topics.sh--create--zookeeperlocalhost:2181--replication-factor2--partitions6--topictest01
upartitions:表示创建了一个有6个分区的topic
如果有三台机器(Broker)的话,每台机器上会随机两个目录:如test01-1,test01-3。
ureplication-factor:表示该topic需要在不同的broker中保存几份
以上设置为2,因此,某两个broker上会有相同的两个目录:test01-1(其中一个是备份)。
所以,以上命令,由于是6个分区、2个备份、3台机器,所以,每台机器上有4个目录。
u创建topic参数可以设置一个或多个--config"Property(属性)"
bin/kafka-topics.sh–create...--configmax.message.bytes=64000--configflush.messages=1
l修改topic
使用—alter替换—create,即可修改。
使用--alter--topicmy-topic--deleteConfigmax.message.bytes,即可删除某个参数。
l查看topic
看列表:bin/kafka-topics.sh--list--zookeeperlocalhost:2181
看属性:bin/kafka-topics.sh--describe--zookeeperlocalhost:2181--topictest01
nLeader:如果有多个broker保存同一个topic,那么同时只能有一个Broker负责该topic的读写,其它的Broker作为实时备份。负责读写的Broker称为Leader.
每个Replication集合中的Partition都会选出一个唯一的Leader,所有的读写请求都由Leader处理。其他Replicas从Leader处把数据更新同步到本地。
nReplicas:表示该topic的0分区在1号和2号broker中保存
nIsr:表示当前有效的broker,Isr是Replicas的子集
现在,杀掉一个broker(模拟此点的崩溃):kill-9PID即可。再看属性:
会发现Leader已经进行了切换,而且,当前有效的broker中,3已经不存在了。
仔细看前后两张图,可以知道,因为3没了,所以,原来Leader为3的分区,就使用了Replicas中的备选,所以,分区1的Leader由3变成了2,而分区4的Leader由3变成了1。
l发送一个消息
bin/kafka-console-producer.sh--broker-listlocalhost:9092--topictest01
每输入一行,就是一条消息
l消费消息
bin/kafka-console-consumer.sh--bootstrap-server192.168.56.101:9092--topictest01--from-beginning
任意一台机器上执行以上命令,即可看到消息。
l批量构造大量消息
bin/kafka-verifiable-producer.sh--topictest01--max-messages20--broker-listlocalhost:9092
l删除Topic
bin/kafka-topics.sh--delete--zookeeperlocalhost:2181--topictest01
如果kafaka启动时加载的配置文件中server.properties没有配置delete.topic.enable=true,那么此时的删除并不是真正的删除,而是把topic标记为:markedfordeletion。
删除kafka存储目录(server.properties文件log.dirs配置)相关topic目录。
7.6Kafka注意事项
listeners一定要配置成为IP地址;如果配置为localhost或服务器的hostname,在使用Java发送数据时就会抛出异常:org.apache.kafka.common.errors.TimeoutException:BatchExpired。因为在没有配置advertised.host.name的情况下,Kafka并没有像官方文档宣称的那样改为广播我们配置的host.name,而是广播了主机配置的hostname。远端的客户端并没有配置hosts,所以自然是连接不上这个hostname的。消费者线程数必须是小等于topic的partition分区数;可以通过命令:
./kafka-topics.sh--describe--zookeeper"172.16.49.173:2181"--topic"producer_test"命令来查看分区的情况。
kafka会根据partition.assignment.strategy指定的分配策略来指定线程消费那些分区的消息;没有单独配置该项即是采用的默认值range策略(按照阶段平均分配)。比如分区有10个、线程数有3个,则线程1消费0,1,2,3,线程2消费4,5,6,线程3消费7,8,9。另外一种是roundrobin(循环分配策略),官方文档中写有使用该策略有两个前提条件的,所以一般不要去设定。
props.put(“auto.offset.reset”,“smallest”)是指定从最小没有被消费offset开始;如果没有指定该项则是默认的为largest,这样的话该consumer就得不到生产者先产生的消息。
使用NewConsumerAPI
Propertiesprops=newProperties(); //brokerServer(kafka)ip地址,不需要把所有集群中的地址都写上,可是一个或一部分 props.put("bootstrap.servers","172.16.49.173:9092"); //设置consumergroupname,必须设置 props.put("group.id",a_groupId); //设置自动提交偏移量(offset),由auto.commit.interval.ms控制提交频率 props.put("enable.auto.commit","true"); //偏移量(offset)提交频率 props.put("auto.commit.interval.ms","1000"); //设置使用最开始的offset偏移量为该group.id的最早。如果不设置,则会是latest即该topic最新一个消息的offset //如果采用latest,消费者只能得道其启动后,生产者生产的消息 props.put("auto.offset.reset","earliest"); //设置心跳时间 props.put("session.timeout.ms","30000"); //设置key以及value的解析(反序列)类 props.put("key.deserializer","org.apache.kafka.common.serialization.StringDeserializer"); props.put("value.deserializer","org.apache.kafka.common.serialization.StringDeserializer"); KafkaConsumer<String,String>consumer=newKafkaConsumer<>(props); //订阅topic consumer.subscribe(Arrays.asList("topic_test")); while(true){ //每次取100条信息 ConsumerRecords<String,String>records=consumer.poll(100); for(ConsumerRecord<String,String>record:records) System.out.printf("offset=%d,key=%s,value=%s",record.offset(),record.key(),record.value()); } |
auto.offset.reset:如果想获得消费者启动前生产者生产的消息,则必须设置为earliest;如果只需要获得消费者启动后生产者生产的消息,则不需要设置该项
enable.auto.commit(默认值为true):如果使用手动commitoffset则需要设置为false,并再适当的地方调用consumer.commitSync(),否则每次启动消费折后都会从头开始消费信息(在auto.offset.reset=earliest的情况下);
官方对于consumer与partition的建议
1.如果consumer比partition多,是浪费,因为kafka的设计是在一个partition上是不允许并发的,所以consumer数不要大于partition数
2.如果consumer比partition少,一个consumer会对应于多个partitions,这里主要合理分配consumer数和partition数,否则会导致partition里面的数据被取的不均匀。最好partiton数目是consumer数目的整数倍,所以partition数目很重要,比如取24,就很容易设定consumer数目
3.如果consumer从多个partition读到数据,不保证数据间的顺序性,kafka只保证在一个partition上数据是有序的,但多个partition,根据你读的顺序会有不同
4.增减consumer,broker,partition会导致rebalance,所以rebalance后consumer对应的partition会发生变化
5.High-level接口中获取不到数据的时候是会block的
replication-factor副本:replicationfactor控制消息保存在几个broker(服务器)上,一般情况下等于broker的个数。
查看topic属性:bin/kafka-topics.sh--zookeeperzk1:2181--describe--topictopicname
8Kafka开发
8.1Producer
KafkaProducer是一个发送record到KafkaCluster的客户端API。这个类线程安全的。在应用程序中,通常的作法是:所有发往一个KafkaCluster的线程使用同一个Producer对象.。如果需要给多个Cluster发送消息,则需要使用多个Producer。样例代码:
Propertiesproperties=newProperties(); properties.put("bootstrap.servers","192.168.56.101:9092"); properties.put("acks","all"); properties.put("retries",0); properties.put("batch.size",16384); properties.put("linger.ms",1); properties.put("buffer.memory",33554432); properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer"); KafkaProducer<String,String>producer=newKafkaProducer<String,String>(properties); ProducerRecord<String,String>pducerRecord=newProducerRecord<String,String>(TOPIC,message); producer.send(pducerRecord,newCallBack(){......}); |
8.1.1ProducerRecord
Producer要发送的消息记录类是ProducerRecord。看它的源码可知;一条ProducerRecord通常包括5个字段:
ltopic:指定该record发往哪个topic下。[Required]
lpartition:指定该record发到哪个partition中。[Optional]
lkey:一个key。[Optional]
lvalue:记录人内容。[Required]
ltimestamp:时间戳。[Optional]
如果用户指定了partition,那么就发往用户指定的partition。如果用户没有指定partition,那么就会根据key来决定放到哪个partition,如果key也没有指定,则由producer随机选取一个partition。
在Producer端,如果用户指定了timestamp,则record使用用户指定的时间,如果用户没有指定,则会使用producer端的当前时间。在broker端,如果配置了时间戳采用createtime方式,则使用producer传给Broker的record中的timestramp时间,如果指定为logappendtime,则在broker写入到Log文件时会重写该时间。
8.1.2send
新版本(0.10)里面的send函数是一个异步函数,用户线程调用send方法是将record放到BufferPool中缓存,并根据batch.size和linger.ms等参数来批量提交。执行流程是:1.由interceptorchain对ProducerRecord做发送前的处理
拦截器接口是:ProducerInterceport,用户可以自定义自己的拦截器实现。
该拦截器链,在Producer对象初始化时初始化,之后不会再变了。所以呢,拦截器链中的拦截器都是公用的,如果要自定义拦截器的话,这个是需要注意的。
nProducerInterceptor有两个方法:
1)onSend:KafkaProducer#send调用时就会执行此方法。
2)onAcknowledgement:发送失败,或者发送成功(broker通知producer代表发送成功)时都会调用该方法。
2.阻塞方式获取到brokercluster上brokercluster的信息
采用RPC方式获取到的broker信息,由一个MetaData类封装。它包括了brokercluster的必要信息,譬如有:所有的broker信息(id\host\port等)、所有的topic名称、每一个topic对于的partition情况(id、leadernode、replicanodes、ISRnodes等)。
虽然该过程是阻塞的,但并不是每发送一个record都会通过RPC方式来获取的。Metadata会在Producer端缓存,只有在record中指定的topic不存在时、或者MetaData轮询周期到时才会执行。
3.对record中key、value进行序列化
内置了基于String、Integer、Long、Double、Bytes、ByteBuffer、ByteArray的序列化工具。
4.为record设置partition属性
前面说过,创建ProducerRecord时,partition是Optional的。所以如果用户创建record时,没有指定partition属性,则由partition计算工具(Partitioner接口)来计算出partition。这个计算方式可以自定义。KafkaProducer提供了内置的实现:
ü如果提供了Key值,会根据key序列化后的字节数组的hashcode进行取模运算。
ü如果没有提供key,则采用迭代方式(其实取到的值并非完美的迭代,而是类似于随机数)。
5.校验record的长度是否超出阈值
MAX_REQUEST_SIZE_CONFIG=”max.request.size”
BUFFER_MEMORY_CONFIG=”buffer.memory”
超出任何一项就会抛出异常。
6.为record设置timestamp
如果用户创建ProducerRecord时没有指定timestamp,设置为producer的当前时间。
其实在javaclient中,设计了一个Time接口,专门用于设置这个时间的。内置了一个实现SystemTime,这里将recordtimestamp设置为当前时间,就是由SystemTime来完成的。所以如果希望在kafkaproducerjavaclient中使用其它的时间,可以自定义Time的实现。
这个时间戳有什么要注意的,比如producer和kafkaserver在两台机器上,时间不同步,会对后续有什么影响吗?
7.将该record压缩后放到BufferPool中
这一步是由RecordAccumulator来完成的。RecordAccumulator中为每一个topic维护了一个双端队列Deque<RecordBatch>,队列中的元素是RecordBatch(RecordBatch则由多个record压缩而成)。RecordAccumulator要做的就是将record压缩后放到与之topic关联的那个Deque的最后面。
在将record放到Deque中最后一个RecordBatch中的逻辑为:如果最后一个recordbatch可以放的下就放,放不下就新建一个RecordBatch。
RecordBatch实际上是存储于BufferPool中,所以这个过程实际上是把record放在BufferPool中。在创建BufferPool之初,会指定BufferPool的总大小,BufferPool中每一个RecordBatch的大小等等配置。
8.唤醒发送模块
执行到上一步时,KafkaProducer#sender的处理基本算是完毕。这个一步的目的就是唤醒NIOSelector。
此外,在上述步骤2~8,不论哪一步出现问题,都会抛出异常。而抛出异常时,就会被KafkaProducer捕获到,然后交由Sensor(传感器)进行处理。而Sensor通常会调用第1步中提到的interceptorchain执行onAcknowledgement告知用户。
8.1.3send函数的发送调度处理
KafkaProducer#sender只是将record放到BufferPool中,并没有将record发出去,而发送调度,则是由另外一个线程(Sender)来完成的。Sender的执行过程如下:
1.取出就绪的record
这一步是检查要发送的record是否就绪:根据KafkaProducer维护的Metadata检查要每一个record要发往的Leadernode是否存在。如果有不存在的,就设置为需要更新,并且这样的record认为还未就绪。以保证可以发到相关partition的leadernode。
2.取出RecordBatch,并过滤掉过期的RecordBatch
对于过期的RecordBatch,会通过Sensor通知Interceptor发送失败。
3.为要发送的RecordBatch创建请求
一个RecordBatch一个ClientRequest。
4.保留请求并发送
把请求对象保留到一个inFlightRequest集合中。这个集合中存放的是正在发送的请求,是一个topic到Deque的Map。当发送成功,或者失败都会移除。
5.处理发送结果
如果发送失败,会尝试retry。并由Sensor调度Interceptor。
如果发送成功,会由Sensor调度Interceptor。
8.1.4Producer实现总结
从上述处理流程中,可以看到在javaclient中的一些设计:1.InterceptorChain:可以做为用于自定义插件的接口。
2.MetaData:producer不按需以及定期的发送请求获取最新的Cluster状态信息。Producer根据这个信息可以直接将recordbatch发送到相关partition的Leader中。也就是在客户端完成Loadbalance。
3.Partitioner:分区选择工具,选择发送到哪些分区,结合Metadata,完成Loadbalance。
4.RecordBatch:在客户端对record压缩进RecordBatch,然后一个RecordBatch发一次。这样可以减少IO操作的次数,提高性能。
5.异步方式发送:提高用户应用性能。
8.1.5Producer配置说明
lbootstrap.servers用于配置cluster中borker的host/port对。可以配置一项或者多项,不需要将cluster中所有实例都配置上。因为它后自动发现所有的broker。
如果要配置多项,格式是:host1:port1,host2:port2,host3:port3….
lkey.serializer、value.serializer
配置序列化类名。指定的这些类都要实现Serializer接口。
lacks
为了确保messagerecord被broker成功接收。KafkaProducer会要求Borker确认请求(发送RecordBatch的请求)完成情况。
对于message接收情况的确认,KafkaBroker支持了三种情形:1、不需要确认;2)leader接收到就确认;3)等所有可用的follower复制完毕进行确认。可以看出,这三种情况代表不同的确认粒度。在JavaProducerClient中,对三种情形都做了支持,上述三种情形分别对应了三个配置项:0、1、-1。其实还有一个值是all,它其实就是-1。
KafkaProducerJavaClient是如何支持这三种确认:
1)在为RecordBatch创建请求时,acks的值会被封装为请求头的一部分。
2)发送请求后(接收到Broker响应前),立即判断是否需要确认该请求是否完成(即该RecordBatch是否被Broker成功接收),判断依据是acks的值是否是0。如果是0,即不需要进行确认。那么就认定该请求成功完成。既然认定是成功,那么就不会进行retry了。
如果值不是0,就要等待Broker的响应了。根据响应情况,来判断请求是否成功完成。
该配置项默认值是1,即leader接收后就响应。
lbuffer.memory
BufferPoolSize,也就是等待发送的Record的空间大小。默认值是:33554432,即32MB。
配置项的单位是byte,范围是:[0,….]
lcompression.type
Kafka提供了多种压缩类型,可选值有4个:none,gzip,snappy,lz4。默认值是none。
lretries
当一个RecordBatch发送失败时,就会重新改善以确保数据完成交付。该配置设置了重试次数,值范围[0,Integer.Max]。如果是0,即便失败,也不会进行重发。
如果允许重试(即retries>0),但max.in.flight.requests.per.connection没有设置成1。这种情况下,就可能会出现records的顺序改变的现象。例如:一个prodcuderclient的sender线程在一次轮询中,如果有两个recordbatch都要发送到同步一个partition中,此时它们肯定是发往同一个broker的,并且是用的同一个TCPconnection。如果出现RecordBatch1先发,但是发送失败,RecordBatch2紧接着RecordBatch1发送,它是发送成功的。然后RecordBatch1会进行重发。这样一来,就出现了broker接收到的顺序是RecordBatch2先于RecordBatch1的情况。
lbatch.size
RecordBatch的最大容量。默认值是16384(16KB)。
lssl.key.password
Keystore文件中私钥的密码。可选的。
lssl.keystore.location
Keystore文件的位置。可选的。
lssl.keystore.password
Keystore文件的密码。可选的。
lssl.truststore.location
Truststore文件的位置。可选的。
lssl.truststore.password
Truststore文件的密码。可选的。
lclient.id
逻辑名,client给broker发请求是会用到。默认值是:””。
lconnections.max.idle.ms
Connection的最大空闲时间。默认值是540000(9min)
llinger.ms
Socket:solinger。延迟。默认值:0,即不延迟。
lmax.block.ms
当需要的metadata未到达之前(例如要发送的record的topic,在Client中还没有相关记录时),执行KafkaProducer#send时,内部处理会等待MetaData的到达。这是个阻塞的操作。为了防止无限等待,设置这个阻塞时间是必要的。范围:[0,Long.MAX]
lmax.request.size
最大请求长度,在将record压缩到RecordBatch之前会进行校验。超过这个大小会抛出异常。
lpartitioner.class
用于自定义partitioner算法。默认值是:
org.apache.kafka.clients.producer.internals.DefaultPartitioner
lreceive.buffer.byte
TCPreceiverbuffer的大小。取值范围:[-1,…]。这个配置项的默认值是32768(即32KB)。
如果设置为-1,则会采用操作系统的默认值。
lrequest.timeout.ms
最大请求时长。因为发起请求后,会等待broker的响应,如果超过这个时间就认为请求失败。
ltimeout.ms
这个时间配置的是follower到leader的ack超时时间。这个时间和producer发送的请求的网络无关。
lblock.on.buffer.full
当bufferPool用完后,如果client还在使用KafkaProducer发送record,要么是BufferPool拒绝接收,要么是抛出异常。
这个配置是默认值是flase,也就是当bufferpool满时,不会抛出BufferExhaustException,而是根据max.block.ms进行阻塞,如果超时抛出TimeoutExcpetion。
如果这个属性值是true,则会把max.block.ms值设置为Long.MAX。另外该配置为true时,metadata.fetch.time.ms将不会生效了。
linterceptor.class
自定义拦截器类。默认情况下没有指定任何的interceptor。
lmax.in.flight.requests.per.connection
每个连接中处于发送状态的请求数的最大值。默认值是5。范围是[1,Integer.MAX]
lmetric.reporters
MetricReporter的实现类。默认情况下,会自动的注册JmxReporter。
lmetrics.num.samples
计算metric时的采样数。默认值是2。范围:[1,Integer.MAX]
lmetrics.sample.window.ms
采样的时间窗口。默认值是30000(30s)。范围:[0,Long.MAX]
如果我的kafka集群已经开始运行了2个小时,有一个消费程序在持续的处理着消息。
8.2Consumer
相关文章推荐
- Kafka 之 中级
- Linux下Kafka单机安装配置方法(图文)
- Kafka 常用命令行详细介绍及整理
- Kafka使用入门教程第1/2页
- kafka队列模型
- Logstash 与Elasticsearch整合使用示例
- 大数据实验室(大数据基础培训)——Kafka的安装、配置及基础使用
- 大数据实验室(大数据基础培训)——概要
- Kafka(一)Kafka初识
- kafka-manager 的编译和使用(附安装包)
- Kafka源码调试环境搭建
- Kafka代码走读-LogManager
- Kafka+Log4j实现日志集中管理
- Kafka深度解析
- Kafka设计解析(三)- Kafka High Availability (下)
- kafka+storm初探
- storm集群 + kafka单机性能测试
- flume、kafka、storm常用命令