您的位置:首页 > 其它

20171006Zookeeper/Kafka学习总结

2017-10-06 17:03 295 查看
Zookeeper是一个分布式应用程序提供高性能协调服务的工具集合。

ZooKeeper本质上是一个分布式的小文件存储系统。原本是Apache Hadoop的一个组件,现在被拆分为一个Hadoop的独立子项目,在HBase(Hadoop的另外一个被拆分出来的子项目,用于分布式环境下的超大数据量的DBMS)中也用到了ZooKeeper集群。 

Hadoop,使用Zookeeper的事件处理确保整个集群只有一个NameNode,存储配置信息等.

  HBase,使用Zookeeper的事件处理确保整个集群只有一个HMaster,察觉HRegionServer联机和宕(dàng)机,存储访问控制列表等。

  

ZooKeeper节点Znode

ZooKeeper目录树中每一个节点对应一个Znode。每个Znode维护着一个属性结构,它包含着版本号(dataVersion),时间戳(ctime,mtime)等状态信息。ZooKeeper正是使用节点的这些特性来实现它的某些特定功能。每当Znode的数据改变时,他相应的版本号将会增加。每当客户端检索数据时,它将同时检索数据的版本号。并且如果一个客户端执行了某个节点的更新或删除操作,他也必须提供要被操作的数据版本号。如果所提供的数据版本号与实际不匹配,那么这个操作将会失败。

Znode是客户端访问ZooKeeper的主要实体,它包含以下几个特征:

(1)Watches

客户端可以在节点上设置watch(我们称之为监视器)。当节点状态发生改变时(数据的增、删、改)将会触发watch所对应的操作。当watch被触发时,ZooKeeper将会向客户端发送且仅发送一条通知,因为watch只能被触发一次。

(2)数据访问

ZooKeeper中的每个节点存储的数据要被原子性的操作。也就是说读操作将获取与节点相关的所有数据,写操作也将替换掉节点的所有数据。另外,每一个节点都拥有自己的ACL(访问控制列表),这个列表规定了用户的权限,即限定了特定用户对目标节点可以执行的操作。

(3)节点类型

ZooKeeper中的节点有两种,分别为临时节点和永久节点。节点的类型在创建时即被确定,并且不能改变。

  ZooKeeper的临时节点:该节点的生命周期依赖于创建它们的会话。一旦会话结束,临时节点将被自动删除,当然可以也可以手动删除。另外,需要注意是,ZooKeeper的临时节点不允许拥有子节点。

  ZooKeeper的永久节点:该节点的生命周期不依赖于会话,并且只有在客户端显示执行删除操作的时候,他们才能被删除。

(4)顺序节点(唯一性的保证)

当创建Znode的时候,用户可以请求在ZooKeeper的路径结尾添加一个递增的计数。这个计数对于此节点的父节点来说是唯一的,它的格式为“%10d”(10位数字,没有数值的数位用0补充,例如“0000000001”)。当计数值大于232-1时,计数器将溢出。

org.apache.zookeeper.CreateMode中定义了四种节点类型,分别对应:

PERSISTENT:永久节点

EPHEMERAL:临时节点

PERSISTENT_SEQUENTIAL:永久节点、序列化

EPHEMERAL_SEQUENTIAL:临时节点、序列化

ZooKeeper数据模型[/b]

ZooKeeper拥有一个层次的命名空间,这个和分布式的文件系统非常相似。不同的是ZooKeeper命名空间中的Znode,兼具文件和目录两种特点。既像文件一样维护着数据、元信息、ACL、时间戳等数据结构,又像目录一样可以作为路径标识的一部分,并可以具有子znode。用户对znode具有增、删、改、查等操作(权限允许的情况下)。

znode具有原子性操作,每个znode的数据将被原子性地读写,读操作会读取与znode相关的所有数据,写操作会一次性替换所有数据。zookeeper并没有被设计为常规的数据库或者大数据存储,相反的是,它用来管理调度数据,比如分布式应用中的配置文件信息、状态信息、汇集位置等等。这些数据的共同特性就是它们都是很小的数据,通常以KB为大小单位。zooKeeper的服务器和客户端都被设计为严格检查并限制每个znode的数据大小至多1M,当时常规使用中应该远小于此值。

Zonde由路径标注,ZooKeeper中被表示成有反斜杠分割的Unicode字符串,如同Unix中的文件路径。路径必须是绝对的,因此他们必须由反斜杠来字符开头。除此以外,他们必须是唯一的,也就是说每一个路径只有一个表示,因此这些路径不能改变。ZooKeeper的数据结构, 与普通的文件系统极为类似.



图中的每个节点称为一个znode. 每个znode由3部分组成:

1.stat:此为状态信息, 描述该znode的版本, 权限等信息.

2.data:与该znode关联的数据.

3.children:该znode下的子节点.



ZooKeeper部署-单机模式

zoo.cfg配置





重要命令

[hadoop@centos-1 zookeeper-3.4.5-cdh4.3.0]$ bin/./zkServer.sh start

JMX enabled by default

Using config: /export/home/tools/zookeeper-3.4.5-cdh4.3.0/bin/../conf/zoo.cfg

Starting zookeeper … STARTED

[hadoop@centos-2 zookeeper-3.4.5-cdh4.3.0]$ bin/./zkServer.sh status

JMX enabled by default

Using config: /export/home/tools/zookeeper-3.4.5-cdh4.3.0/bin/../conf/zoo.cfg

Mode: standalone

[hadoop@centos-1 zookeeper-3.4.5-cdh4.3.0]$ bin/./zkServer.sh start

JMX enabled by default

Using config: /export/home/tools/zookeeper-3.4.5-cdh4.3.0/bin/../conf/zoo.cfg

Starting zookeeper … STARTED

[hadoop@centos-2 zookeeper-3.4.5-cdh4.3.0]$ bin/./zkServer.sh status

JMX enabled by default

Using config: /export/home/tools/zookeeper-3.4.5-cdh4.3.0/bin/../conf/zoo.cfg

Mode: leader

[hadoop@centos-2 zookeeper-3.4.5-cdh4.3.0]$ bin/./zkServer.sh status

JMX enabled by default

Using config: /export/home/tools/zookeeper-3.4.5-cdh4.3.0/bin/../conf/zoo.cfg

Mode: follower

Zookeeper使用场景

分布式独占锁



分布式读写锁



分布式队列-FIFO



分布式队列-SyncQueue



默认值递增



安装mvn

1、获取代码

git clone https://github.com/DeemOpen/zkui.git

2、构建并安装程序

cd zkui/ #yum install -y maven #mvn clean install

3、修改配置文件

cp config.cfg target/ #cd target/ #vim config.cfg

serverPort=9090     #指定端口
zkServer=xxxx:2181,xxxx:2181
userSet = {"users": [{ "username":"admin" , "password":"admin","role": "ADMIN" },{ "username":"appconfig" , "password":"appconfig","role": "USER" }]}


4、启动程序至后台

nohup java -jar zkui-2.0-SNAPSHOT-jar-with-dependencies.jar &

5、用浏览器访问

http://xxxx:9090

Kafka

kafka是由LinkedIn开发,主要是用来处理Linkedin的大面积活跃数据流处理(activity stream). 此类的数据经常用来反映网站的一些有用的信息,比如PV,页面展示给哪些用户访问,用户搜索什么关键字最多,这类信息经常被log到文件里,然后线下且周期性的去分析这些数据。现在这种用户活跃数据已经成为互联网公司重要的一部分,所以必须构建一个更轻量且更精炼的基础架构。

活跃数据 使用案列

分析一下用户行为(pageviews),以便我能设计出更好的广告位。

快速的统计用户投票,点击。

对用户的搜索关键词进行统计,分析出当前的流行趋势。

防止用户对网站进行无限制的抓取数据,以及超限制的使用API,辨别垃圾。

对网站进行全方位的实时监控,从而得到实时有效的性能数据,并且及时的发成警告。

批量的导入数据到数据仓库,对数据进行离线分析,从而得到有价值的商业信息。(0.6可以直接将数据导入Hadoop)

活跃数据的特点

高流量的活跃数据是无法确定其大小的,因为他可能随时的变化,比如商家可能促销,节假日打折,突然又冒出一个跳楼价等等。所有的数据可能是数量级的往上递增。 传统日志分析方式都是需要离线,而且操作起来比较复杂,根本无法满足实时的分析。另一方面,现有的消息队列系统只能达到近似实时的分析,因为无法消费大量的持久化在队列系统上的信息。Kafka的目标就是能够成为一个高效的队列平台,无论是处理离线的信息还是在线的信息。

Kafka集群



消息存储设计



设计特点

消息保存在磁盘,O(1)时间复杂度

不使用内存?使用磁盘缓存

消费状态保存在消费客户端

可以保存足够大的未处理消息
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: