大数据技术的事件处理上应该如何选择Linux服务器?
2015-11-07 20:44
627 查看
大数据技术的事件处理上应该如何选择Linux服务器?
大数据技术的事件处理,在系统资源使用上,需要很强的计算能力,如何选择Linux服务器?希望获得:通用方法
关注问题7
回答8
评论
8 回答
按赞同排序按时间排序
loveryue
软件开发工程师 , IBM
晓黎
赞同了此回答
正如您所说,确实要根据场景来判断。
目前整体来看,大数据无论采用MR或者Spark,都牵扯到了,大量的迭代计算和suffling,对CPU有很高的要求。所以,从硬件选型来看,首先,CPU的计算能力最为重要,这也是为什么Power8 的Linux的服务器在MR或者SPARK上有很好的表现。
其次,对于批处理方面的计算,可以把CPU的多线程的特征关闭,以减少CPU调度上的开销。
还有,就是考虑CPU到cahce,CPU到内存,CPU到IO的内部带宽通道,这好比高速公路,路越宽,通行能力越强。
最后,IO还是要考虑的,MR的suffing落盘,Spark的可落可不落,所以多个磁盘驱动器也很重要。
所以,Power8的linux服务器是大数据的领先服务器。
1
天前
赞同1
评论
humidy
信息分析/架构师 , 某公司
xijiehaiqing
赞同了此回答
作为一个Hadoop管理员或架构师,集群实现的实战部分从决定需要使用哪一种硬件,以及需要的硬件数量开始。但是在这之前有一些必要的问题需要得到解答。这些问题中有集群设计相关的,像集群需要存储多少的数据,数据的增长率是多少,主要的数据访问模式是什么,集群是不是用于预定的任务调度,是不是一个用于数据分析探索的多用户环境?
同时,一些集群为了更好的用于专门的特定工作,需要在硬件方面专门的考虑一些因数。当规划使用数百台服务器的时候,关于硬件的初始决定和总体布局将会极大的影响集群的性能、稳定性和相关费用。
问模式是什么,集群是不是用于预定的任务调度,是不是一个用于数据分析探索的多用户环境?
总所周知,组成Hadoop集群的服务器有很多种类型。比如主控节点,如NameNode,Secondary NameNode和JobTracker;工作节点被称为DataNodes;除了核心的Hadoop组件服务器,通常我们会部署一些辅助服务器,如网关(Gateways)、Hue服务器以及Hive元服务器。
因为这些类型的服务器在集群中的角色不同,所以对于硬件规格和可靠性的要求也不同。接下来我们会讨论DataNode、NameNode、Jobtracker不同节点的不同硬件需求和选择。
辅助服务器,如网关(Gateways)、Hue服务器以及Hive元服务器。
1
天前
赞同1
评论
zv8912000
系统架构师 , 电信行业
事件处理要看需求应用场景,
如果应用场景并发较多,计算少,则需要采用高内存,如计算用户的最后的浏览页面;
如果应用场景并发少,但计算复杂,则需要采用高CPU。如计算用户的访问页面有哪些偏好
1
天前
赞同
评论
月光无寒
系统工程师 , 新疆电信
首先,如果纯存储型的,配置可以不高。如果带计算的,也相应配合提升cpu。如果是spark.起步内存建议还是128G。存储部分,可以考虑增加几块ssd。关键还是看应用和资金,有钱的话适当超前一点,运行也能稳定不少。
答案包含:具体解决, 原理分析 • 1
天前
赞同
评论
xuyanhui
信息分析/架构师 , 58同城大数据
目前来说,传统的互联网公司,硬件配置,主要是4*12的SATA盘,196G内存,32Core的服务器,结合各种应用场景不同,硬件配置也会不一样,既要考虑服务器的性价比,又要兼容各种业务需求,
1
天前
赞同
评论
zv8912000
系统架构师 , 电信行业
hadoop的宗旨虽然是蚂蚁吃大象,但不是说要把老虎和狼拆成蚂蚁的大小再吃大象。这个单机性价比对应业务性能需要通过实际测试才能得出。一般来说,2.2主频和2.6主频在实际业务场景可能但进城差一半效果,所以提升主频不乏也是优秀考虑之一。
1
天前
赞同
评论
zv8912000
系统架构师 , 电信行业
实际业务测试,会发现高主频才会带来海量数据的性价比。CPU配比内存槽位,最终硬盘个数相关。
同时,hadoop在硬盘上追求的不是大容量,而是适当,一个2TSATA盘,如果坏了,需要6个小时同步,这样集群大了总会有坏硬盘,就会导致系统常年在恢复数据与缓慢运行间挣扎。所以高CPU,多磁盘,把节点配满才是最佳选择。
1
天前
赞同
评论
wang_feng
软件架构设计师 , 威海市商业银行
linux服务器部署的集群,是不是要考虑一下数据的增长量,一般PC server的更换年限是3到5年,如果数据量增长不是特别快,计算量也不是特别大,在服务器选择方面考虑稳定性是优先选择。
答案包含:注意事项 • 1
天前
相关文章推荐
- Linux内核模块--笔记
- Spark 入门之一:CentOS 6.5 下Spark 1.4 的安装以及配置
- 了解 Linux內核架構 (2)
- Linux的硬链接和软链接
- Linux有问必答: 当使用代理服务器连接互联网时如何安装 Ubuntu 桌面版
- linux php install gd
- Linux 基金会联合谷歌微软推出“开放 API 战略”
- 发现针对 Linux 服务器和代码库的勒索软件
- 发现针对 Linux 服务器和代码库的勒索软件
- linux文件与目录管理
- Linux学习笔记
- centos+scala2.11.4+hadoop2.3+spark1.3.1环境搭建
- linux主机通过ssh远程连接linux 系统的vps
- linux 线程栈
- Linux的原子操作与同步机制
- linux下安装opencv并生成opencv-java,即linux下用java调用opencv
- linux下奇怪的“重名”文件
- Linux内核模块编程-字符设备驱动
- 使用 C++11 编写 Linux 多线程程序
- linux常用命令locate,which,whereis,grep