Kafka架构设计:分布式发布订阅消息系统
2015-07-07 16:27
375 查看
【http://www.oschina.net/translate/kafka-design】(较长:很详细的讲解)
【我们为什么要搭建该系统】
用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的基础。
作为多种类型的数据管道(data pipeline)和消息系统使用。
活动流数据是所有站点在对其网站使用情况做报表时要用到的数据中最常规的部分。活动数据包括页面访问量(page view)、被查看内容方面的信息以及搜索情况等内容。这种数据通常的处理方式是先把各种活动以日志的形式写入某种文件,然后周期性地对这些文件进行统计分析。
运营数据指的是服务器的性能数据(CPU、IO使用率、请求时间、服务日志等等数据)。运营数据的统计方法种类繁多。
【活动流数据的特点】
这种由不可变(immutable)的活动数据组成的高吞吐量数据流代表了对计算能力的一种真正的挑战,因其数据量很容易就可能会比网站中位于第二位的数据源的数据量大10到100倍。
传统的日志文件统计分析对报表和批处理这种离线处理的情况来说,是一种很不错且很有伸缩性的方法;但是这种方法对于实时处理来说其时延太大,而且还具有较高的运营复杂度。另一方面,现有的消息队列系统(messaging and queuing system)却很适合于在实时或近实时(near-real-time)的情况下使用,但它们对很长的未被处理的消息队列的处理很不给力,往往并不将数据持久化作为首要的事情考虑。这样就会造成一种情况,就是当把大量数据传送给Hadoop这样的离线系统后, 这些离线系统每个小时或每天仅能处理掉部分源数据。Kafka的目的就是要成为一个队列平台,仅仅使用它就能够既支持离线又支持在线使用这两种情况。
Kafka支持非常通用的消息语义(messaging semantics)。尽管我们这篇文章主要是想把它用于活动处理,但并没有任何限制性条件使得它仅仅适用于此目的。
更多内容,未完待续...
【我们为什么要搭建该系统】
用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的基础。
作为多种类型的数据管道(data pipeline)和消息系统使用。
活动流数据是所有站点在对其网站使用情况做报表时要用到的数据中最常规的部分。活动数据包括页面访问量(page view)、被查看内容方面的信息以及搜索情况等内容。这种数据通常的处理方式是先把各种活动以日志的形式写入某种文件,然后周期性地对这些文件进行统计分析。
运营数据指的是服务器的性能数据(CPU、IO使用率、请求时间、服务日志等等数据)。运营数据的统计方法种类繁多。
【活动流数据的特点】
这种由不可变(immutable)的活动数据组成的高吞吐量数据流代表了对计算能力的一种真正的挑战,因其数据量很容易就可能会比网站中位于第二位的数据源的数据量大10到100倍。
传统的日志文件统计分析对报表和批处理这种离线处理的情况来说,是一种很不错且很有伸缩性的方法;但是这种方法对于实时处理来说其时延太大,而且还具有较高的运营复杂度。另一方面,现有的消息队列系统(messaging and queuing system)却很适合于在实时或近实时(near-real-time)的情况下使用,但它们对很长的未被处理的消息队列的处理很不给力,往往并不将数据持久化作为首要的事情考虑。这样就会造成一种情况,就是当把大量数据传送给Hadoop这样的离线系统后, 这些离线系统每个小时或每天仅能处理掉部分源数据。Kafka的目的就是要成为一个队列平台,仅仅使用它就能够既支持离线又支持在线使用这两种情况。
Kafka支持非常通用的消息语义(messaging semantics)。尽管我们这篇文章主要是想把它用于活动处理,但并没有任何限制性条件使得它仅仅适用于此目的。
更多内容,未完待续...
相关文章推荐
- 建“项目”与建”网站“的小错误
- 网站设计知识论
- Dubbo架构设计详解
- 软件架构的数据流总结(一)
- Cordova 4 架构学习 定义启动界面Splash和图标
- EasyDarwin开源平台直播架构
- EasyDarwin开源平台直播架构
- Hadoop HDFS 架构设计
- MySQL高可用之MHA的搭建
- 为了提高性能和高可用性,看看大公司如何开发和部署前端代码
- LVS+KeepAlived,RabbitMQ高可用负载均衡 推荐
- IIS网站本机可以访问,局域网其他机器无法访问
- 软件架构的控制流总结
- android手机web网站拨打电话几种方式
- 网站高并发 大流量访问的处理及解决方法
- 网站引用天气预报
- 浅谈web应用的负载均衡、集群、高可用(HA)解决方案
- css sprite技术 – 减少网站图片请求次数
- 关于软件系统架构的联想(一)
- Link 定制网站收藏夹图标