数据采集阶段技术对比(flume,kafka,sqoop)
2018-09-06 11:38
1231 查看
数据采集技术
数据收集架构
Kafka架构图
集群由zookeeper管理
Kafka的特点:
1. 磁盘存储
2. 高吞吐率(每秒几十万条消息)
3. 分布式架构,能对消息进行分析
4. 将数据并行加载到hadoop分区
Flume 架构图
1. agent:就是将数据源的数据发送给collector
2. Collector:将数据源汇总给storage
3. Storage :存储数据
4. Master管理整个集群
Flume设计目标
可靠性:就是发生故障自动转移,当发生节点故障了,会传到其他节点,日志数据不会丢失
End-to-end:agent数据,当我们的数据传送成功后,就删除。如果传送是失败了,就重新发送
Store on failure:
Best effort
Sqoop 架构图
常见日志收集系统对比
阅读更多
相关文章推荐
- 大数据技术--kafka和flume的对比
- Sqoop Flume 数据采集引擎
- 大数据技术应用(一) 应用Flume+HBase采集和存储日志数据
- 模拟nginx+flume数据采集+Kafka集群
- Flume和Kafka完成实时数据的采集
- 大数据技术-数据采集-Flume.logstash等
- 2016年大数据Spark“蘑菇云”行动之spark streaming消费flume采集的kafka数据Directf方式
- flume采集数据到kafka和hive
- flume实现kafka到hdfs实时数据采集 - 有负载均衡策略
- Flume和Kafka完成实时数据的采集
- 大数据技术学习笔记之网站流量日志分析项目:Flume日志采集系统1
- HADOOP离线分析+实时分析框架使用技术框架Hadoop+Flume+Kafka+Storm+Hive+Sqoop+mysql/oracle
- 大数据_数据采集引擎(Sqoop和Flume)
- 实战Apache-Flume采集DB数据到kafka
- flume + Kafka采集数据 超简单
- 大数据Spark“蘑菇云”行动第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战 项目!!!大项目!!!超大型大数据项目!!!
- Flume+Kafka+Zookeeper搭建大数据日志采集框架
- Flume和Kafka的整合完成实时数据采集
- 开源数据采集组件比较: scribe、chukwa、kafka、flume
- 3.数据采集 - 文件内容断点续采[flume1.6 + kafka0.10.2.0]