您的位置：首页 > 运维架构 > Docker

大数据平台安装测试（1）centos7.1 docker mesos tachyon hadoop (myriad? yarn?)spark hbase speaksql 选型分析

2015-12-08 10:55 756 查看

在下大数据的新手，该系列文章会记录我所有的思考和遇到的问题，

各位看官如果有什么想法希望多多指教！我尽量快速回复。谢谢。

最近公司需要跑大数据，网上找来各种文章分析，平台结构基本定型

公司的需求大概是一个数据包是1.5-3g左右，生成大概6g以下的中间数据。初步可能需要1000-10000个数据包进行综合分析（字串系列比较），生成报告输出到外网mysql数据库。

配置大概是

至强e5 2630v3 *2

华硕z10pa

recc 32g *2(或4。先上2条，看效果)

硬盘4t*n

1.系统 centos7.1 一直再用centos ，感觉还好，用就用比较新的把反正不是7.0，bug应该少些吧

2.docker这个是后加上去的，具体没用过，按照网上的说法这个是哥打包器，或者说是微型虚拟机，即不分隔系统的虚拟机。对系统迭代有好处。我又是新手配置和程序方面可能反复调试。

3.mesos 和 yarn一直在犹豫，没看过他们的代码，看了一些总属性的文章，感觉他们最大的区别是生态系统的兼容性（这个真没用过所以是人云亦云），mesos有更多的服务器管理功能，而yarn更倾向于hadoop2.x的数据引擎，据说mesos的问题是可能出现资源饿死，而jvm据说是内存清理有问题。其实2者功能是有交叉的，所以他们会冲突。本来打算直接mesos了，后来看到出了myriad的插件可以让2者协调工作，还在apache的孵化器中。

4.myriad 尝鲜体验一下，因为公司刚开始大数据计划，数据量小，服务器少，船小好掉头，后面我会就myriad出个测试，实际评测一下。

5.spark内存集群管理系统，tez和spark的功能类似，最后还是选择了spark，原因1.用spark的企业较多。原因2.it厂商支持spark的多一些，人气旺。

6.tachyon内存文件系统。结合spark使用的，主要用来存储无需长期保持的中间文件。据说新版本可以用ssd当次级文件系统，这样的缓存体系就更好了，内存-》内存文件-》ssd->hdfs

7.数据库方面考虑是hbase. 用spark sql或直接api调用hbase。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航