hadoop MapReduce HDFS 应用场景
2015-10-29 00:00
176 查看
摘要: hadoop MapReduce HDFS 计算 存储 应用场景
Hadoop从存储上来说,是类似于冗余磁盘阵列(RAID)的存储方式,将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System);从计算上来说,它通过MapReduce模型,将大数据的计算分发到多台计算机上完成,再将结果合并,减少计算的时间。
Hadoop适合于:
1、超大数据的计算;
2、一次写入、多次读取的模式;
3、可以跑在普通的硬件上。
Hadoop不适合:
1、低延迟的数据访问,它是为高数据吞吐量应用优化的;
若要处理一些用户要求时间比较短的低延迟应用请求,HDFS不适合。它是为了处理大型数据集分析任务的,主要是为达到高的数据吞吐量而设计的。这就可能要求以高延迟作为代价【以时间来换取空间】。目前补充的方案是:使用HBase,通过上层数据管理项目来尽可能弥补这个不足。
2、大量的小文件
Hadoop客户端需要和namenode进行交互,而namenode中存放的是datanode的文件属性,且都是在内存中,如果小文件过多,namenode是存放不了的;
3、多用户写入,任意修改文件。
Hadoop适合于一次计算,多次读取的场景,如搜索引擎,只支持随机读取不支持随机写入,如Hadoop和Lucene的集成就不能够直接集成,因为Lucene支持随机写入。
Hadoop从存储上来说,是类似于冗余磁盘阵列(RAID)的存储方式,将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System);从计算上来说,它通过MapReduce模型,将大数据的计算分发到多台计算机上完成,再将结果合并,减少计算的时间。
Hadoop适合于:
1、超大数据的计算;
2、一次写入、多次读取的模式;
3、可以跑在普通的硬件上。
Hadoop不适合:
1、低延迟的数据访问,它是为高数据吞吐量应用优化的;
若要处理一些用户要求时间比较短的低延迟应用请求,HDFS不适合。它是为了处理大型数据集分析任务的,主要是为达到高的数据吞吐量而设计的。这就可能要求以高延迟作为代价【以时间来换取空间】。目前补充的方案是:使用HBase,通过上层数据管理项目来尽可能弥补这个不足。
2、大量的小文件
Hadoop客户端需要和namenode进行交互,而namenode中存放的是datanode的文件属性,且都是在内存中,如果小文件过多,namenode是存放不了的;
3、多用户写入,任意修改文件。
Hadoop适合于一次计算,多次读取的场景,如搜索引擎,只支持随机读取不支持随机写入,如Hadoop和Lucene的集成就不能够直接集成,因为Lucene支持随机写入。
相关文章推荐
- 58同城网站的一些想法
- APACHE如何里一个站点绑定多个域名?用ServerAlias
- Tomcat ShutDown出现 Insufficient space for shared memory file:
- nginx实现防盗链配置方法介绍
- nginx服务器防sql注入/溢出攻击/spam及禁User-agents
- 开启Nginx的gzip压缩功能详解
- nginx中针对目录进行IP限制
- nginx上传目录配置,禁止执行权限
- linux中不可忽视的date命令
- Front-end Developer Handbook
- linux xargs详解
- 【OpencCV】基于傅立叶变换和霍夫变化的文本倾斜校正
- php 使用apache中的ab进行页面压力测试
- linux svn源代码安装
- Centos7中未知显示器设置屏幕分辨率
- centos LAMP第四部分mysql操作 忘记root密码 skip-innodb 配置慢查询日志 mysql常用操作 mysql常用操作 mysql备份与恢复 第二十二节课
- linux程序包管理之rpm
- (转)每天一个Linux命令(6):mv
- Linux进程间通信(IPC)编程实践(0) 进程间通信简述和PV原语
- 如何从Windows远程上传文件到Linux(例如CentOS 7)