Hadoop的一些认识--------我与Hadoop不得不说的故事
2016-03-02 14:09
204 查看
1、首先Hadoop是什么?
Hadoop是一个分布式计算的解决方案.。(从一个大的方向来讲)
Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+
Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。 (从开发人员的角度来看)
2、为什么要了解Hadoop?
从hadoop能做什么,进行阐述。hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)
这些大公司都是会利用这些东西如果不知道 那么做为一个行业的开发者有点落伍了。
3、如何学习Hadoop呢?
推荐一些Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive,
Chukwa,Mahout, Zookeeper, Avro, Ambari,新增加的项目包括, Hcatalog,YARN, 等等。
4、优点
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong
Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop是一个分布式计算的解决方案.。(从一个大的方向来讲)
Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+
Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。 (从开发人员的角度来看)
2、为什么要了解Hadoop?
从hadoop能做什么,进行阐述。hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)
这些大公司都是会利用这些东西如果不知道 那么做为一个行业的开发者有点落伍了。
3、如何学习Hadoop呢?
推荐一些Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive,
Chukwa,Mahout, Zookeeper, Avro, Ambari,新增加的项目包括, Hcatalog,YARN, 等等。
4、优点
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong
Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
相关文章推荐
- 【inode】Linux服务器inode索引节点用满原因以及解决方法
- Apache 欢迎页面也可访问到,文件目录下的其他文件却访问不到
- linux ls -l命令结果含义解析
- 用OpenSSL编写SSL,TLS程序 - Win32版
- codeforces 632E. Thief in a Shop fft
- 树形结构 DropDownList
- linux的iptables设置---防火墙
- Tomcat的项目发布路径
- linux加快串口速度的方法。linux读写不卡机的方法,linux串口接收注意事项,串口窍门,串口加速方法,
- 《Linux下的一些重要文件及目录详解》
- EF架构~CodeFirst模型下的数据初始化
- Docker推出了Docker云,给大家介绍下哈!
- Centos 6.7设置静态IP方法与eth1问题解决
- linux开启远程链接数据库
- Mahout和Hadoop:机器学习的基本原理
- Linux内核工程导论——linux学习和职业曲线(初学者,中级,高级都可参考)
- redhat nginx 启动脚本
- linux 学习点二 (grep\find ,路径、linux虚拟机安装)
- 如何做好架构之识别问题
- 提升用户体验之A/B测试(5)——linux安装python(pip)插件