大数据平台安装测试(1)centos7.1 docker mesos tachyon hadoop (myriad? yarn?)spark hbase speaksql 选型分析
2015-12-08 10:55
756 查看
在下大数据的新手,该系列文章会记录我所有的思考和遇到的问题,
公司的需求大概是一个数据包是1.5-3g左右,生成大概6g以下的中间数据。初步可能需要1000-10000个数据包进行综合分析(字串系列比较),生成报告输出到外网mysql数据库。
配置大概是
至强e5 2630v3 *2
华硕z10pa
recc 32g *2(或4。先上2条,看效果)
硬盘4t*n
1.系统 centos7.1 一直再用centos ,感觉还好,用就用比较新的把 反正不是7.0,bug应该少些吧
2.docker这个是后加上去的,具体没用过,按照网上的说法这个是哥打包器,或者说是微型虚拟机,即不分隔系统的虚拟机。对系统迭代有好处。我又是新手配置和程序方面可能反复调试。
3.mesos 和 yarn一直在犹豫,没看过他们的代码,看了一些总属性的文章,感觉他们最大的区别是生态系统的兼容性(这个真没用过所以是人云亦云),mesos有更多的服务器管理功能,而yarn更倾向于hadoop2.x的数据引擎,据说mesos的问题是可能出现资源饿死,而jvm据说是内存清理有问题。其实2者功能是有交叉的,所以他们会冲突。本来打算直接mesos了,后来看到出了myriad的插件可以让2者协调工作,还在apache的孵化器中。
4.myriad 尝鲜体验一下,因为公司刚开始大数据计划,数据量小,服务器少,船小好掉头,后面我会就myriad出个测试,实际评测一下。
5.spark内存集群管理系统,tez和spark的功能类似,最后还是选择了spark,原因1.用spark的企业较多。原因2.it厂商支持spark的多一些,人气旺。
6.tachyon内存文件系统。结合spark使用的,主要用来存储无需长期保持的中间文件。据说新版本可以用ssd当次级文件系统,这样的缓存体系就更好了,内存-》内存文件-》ssd->hdfs
7.数据库方面考虑是hbase. 用spark sql或直接api调用hbase。
各位看官如果有什么想法希望多多指教!我尽量快速回复。谢谢。
最近公司需要跑大数据,网上找来各种文章分析,平台结构基本定型公司的需求大概是一个数据包是1.5-3g左右,生成大概6g以下的中间数据。初步可能需要1000-10000个数据包进行综合分析(字串系列比较),生成报告输出到外网mysql数据库。
配置大概是
至强e5 2630v3 *2
华硕z10pa
recc 32g *2(或4。先上2条,看效果)
硬盘4t*n
1.系统 centos7.1 一直再用centos ,感觉还好,用就用比较新的把 反正不是7.0,bug应该少些吧
2.docker这个是后加上去的,具体没用过,按照网上的说法这个是哥打包器,或者说是微型虚拟机,即不分隔系统的虚拟机。对系统迭代有好处。我又是新手配置和程序方面可能反复调试。
3.mesos 和 yarn一直在犹豫,没看过他们的代码,看了一些总属性的文章,感觉他们最大的区别是生态系统的兼容性(这个真没用过所以是人云亦云),mesos有更多的服务器管理功能,而yarn更倾向于hadoop2.x的数据引擎,据说mesos的问题是可能出现资源饿死,而jvm据说是内存清理有问题。其实2者功能是有交叉的,所以他们会冲突。本来打算直接mesos了,后来看到出了myriad的插件可以让2者协调工作,还在apache的孵化器中。
4.myriad 尝鲜体验一下,因为公司刚开始大数据计划,数据量小,服务器少,船小好掉头,后面我会就myriad出个测试,实际评测一下。
5.spark内存集群管理系统,tez和spark的功能类似,最后还是选择了spark,原因1.用spark的企业较多。原因2.it厂商支持spark的多一些,人气旺。
6.tachyon内存文件系统。结合spark使用的,主要用来存储无需长期保持的中间文件。据说新版本可以用ssd当次级文件系统,这样的缓存体系就更好了,内存-》内存文件-》ssd->hdfs
7.数据库方面考虑是hbase. 用spark sql或直接api调用hbase。
相关文章推荐
- docker-ovs遇到的问题以及解决办法
- ovs-dkcker 转载
- docker使用ovs跨主机互联
- Docker 使用openvswitch 跨主机互联转载螃蟹博客
- 自已创建Docker Base Image
- docker centos7 安装ssh
- docker centos7 源码安装MySQL-5.7
- Docker日志自动化: ElasticSearch、Logstash、Kibana以及Logspout
- Docker 相关记录
- Docker 基础学习(一)
- docker 仓库
- Docker的第一印象
- docker mac
- Day 21:Docker 入门教程
- 用docker搭建公司内部的gitlab 和 wiki
- Docker跨主机通信:桥接方式和路由方式
- Docker启动报错 symbol dm_task_get_info_with_deferred_remove, version Base not defined
- 验证docker的Redis镜像也存在未授权访问漏洞
- Java工程师如何在Docker上进行开发
- setup_docker_network.sh