您的位置:首页 > 运维架构

【每周一译】如何为你即将搭建的hadoop集群选择硬件

2013-09-16 10:11 288 查看
此翻译纯属个人爱好,由于水平所限,翻译质量可能较低。网络上可能存在其它翻译版本,原文地址:http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/

英文标题:How-to: Select the Right Hardware for Your New Hadoop Cluster

翻译正文:

对于我们的Cloudera用户来说,当他们在使用Apache Hadoop搭建集群的时候,首先提出的问题就是如何为这个集群选择合适的硬件。

尽管Hadoop是被设计运行在计算机行业标准的硬件上的,而推荐一份理想的集群配置并不和陈述一张硬件列表那么简单。选择一套对于给定工作负载的hadoop集群并能提供最优性能平衡并且经济的硬件,是需要测试并确定的。(比如,IO密集型的hadoop集群将需要更多的投资。)

在这篇博客里面,你将能学习到一些工作量评估在硬件选择上所扮演的关键角色。你同样也会学习到在实际当中hadoop管理员所面对的各种各样的需要考虑的因素。

存储与计算的结合

在过去的十年当中,很多IT组织已经在刀片机和SANs(Storage Area Networds存储区域网络)这些领域建立了标准,来满足他们的网格和计算密集型任务。然而,这个模型对于很多标准的应用很有意义,诸如web服务器、app服务器、小型结构化数据库和数据传输,对基础设施的要求随着数据的规模和用户数的增长而发生着变化。web服务器现在有了缓存层,数据库通过本地磁盘已经实现了大规模的并行化,数据交换相对于本地已经能够推送更多的数据。

硬件供应商建立了创新的体系来满足这些要求,包括数据存储刀片,SAS(Serial Attached SCS)交换器,外部SATA数据和大容量机架单元。然而,hadoop是基于新的能够使数据交换最小化的存储和处理复杂数据。与依赖于SAN来实现大规模数据存储和可靠性来将数据移动到刀片上的一个容器内进行处理所不同,hadoop处理大规模数据并保证数据存储的可靠性是在软件层实现的。

Hadoop通过集群中的负载平衡服务器将数据进行分发,并使用复制策略来保证数据可靠性和容错性。因为数据是被分发到有计算能力的节点,数据的处理可以被直接发送到存储有数据的节点。由于hadoop集群中每一台机器存储着需要处理的数据,这些机器需要被配置成技能满足数据存储又能处理数据的要求。

(未完)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  hadoop集群 硬件