搭建spark-hadoop集群
2014-11-22 17:27
330 查看
1\下载工程
wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.3.0/hadoop-2.3.0.tar.gz
wget http://mirror.bit.edu.cn/apache/spark/spark-1.1.0/spark-1.1.0-bin-hadoop2.3.tgz
机器之间无密码登陆通信
在A、B、C机器上生成公私钥: ssh-keygen -t rsa -f ~/.ssh/id_rsa
将A机器的 ~/.ssh/id_rsa.pub 覆盖 B C 机器的~/.ssh/authorized_keys文件即可,A机器即可免登陆到BC机器上。
2、安装Scala
sudo mkdir /usr/lib/scala
tar -zxf scala-2.10.4.tgz
sudo mv scala-2.10.4 /usr/lib/scala/
vim ~/.bashrc 编辑 添加Scala全局声明:export SCALA_HOME=/usr/lib/scala/scala-2.10.4
修改生效:source ~/.bashrc
测试: scala -version
3、配置hadoop
ABC 三台机器vi etc/hadoop/core-site.xml
添加:
<property>
<name>fs.default.name</name>
<value>hdfs://10.232.132.130:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/netboy/hadoop/hadoop-2.3.0/tmp</value>
</property>
ABC 三台机器: vim etc/hadoop/hdfs-site.xml
添加:
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/netboy/hadoop/hadoop-2.3.0/tmp/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/netboy/hadoop/hadoop-2.3.0/tmp/hdfs/data</value>
</property>
配置masters和slaves:
vi etc/hadoop/masters
vi etc/hadoop/slaves
通过master是Hadoop集群文件系统格式化:
在master上: 执行 hadoop namenode -format
在master上启动集群:
sh sbin/start-all.sh
4、 配置spark
vim ~/.bashrc 编辑 添加spark全局声明:export SPARK_HOME=/home/netboy/spark/spark-1.1.0-bin-hadoop2.3
mv conf/spark-env.sh.template conf/spark-env.sh
vi conf/spark-env.sh
vi conf/spark-defaults.conf
5、启动 使用单机单核模式
../bin/spark-submit --class "com.netboy.spark.demo.SimpleApp" --master local[1]
使用 spark的自身集群模式启动
../bin/spark-submit --class "com.netboy.spark.demo.SimpleApp" --master spark://10.**.**.189:7077
具体可以参看wiki http://spark.apache.org/docs/1.0.2/
wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.3.0/hadoop-2.3.0.tar.gz
wget http://mirror.bit.edu.cn/apache/spark/spark-1.1.0/spark-1.1.0-bin-hadoop2.3.tgz
机器之间无密码登陆通信
在A、B、C机器上生成公私钥: ssh-keygen -t rsa -f ~/.ssh/id_rsa
将A机器的 ~/.ssh/id_rsa.pub 覆盖 B C 机器的~/.ssh/authorized_keys文件即可,A机器即可免登陆到BC机器上。
2、安装Scala
sudo mkdir /usr/lib/scala
tar -zxf scala-2.10.4.tgz
sudo mv scala-2.10.4 /usr/lib/scala/
vim ~/.bashrc 编辑 添加Scala全局声明:export SCALA_HOME=/usr/lib/scala/scala-2.10.4
修改生效:source ~/.bashrc
测试: scala -version
3、配置hadoop
ABC 三台机器vi etc/hadoop/core-site.xml
添加:
<property>
<name>fs.default.name</name>
<value>hdfs://10.232.132.130:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/netboy/hadoop/hadoop-2.3.0/tmp</value>
</property>
ABC 三台机器: vim etc/hadoop/hdfs-site.xml
添加:
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/netboy/hadoop/hadoop-2.3.0/tmp/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/netboy/hadoop/hadoop-2.3.0/tmp/hdfs/data</value>
</property>
配置masters和slaves:
vi etc/hadoop/masters
vi etc/hadoop/slaves
通过master是Hadoop集群文件系统格式化:
在master上: 执行 hadoop namenode -format
在master上启动集群:
sh sbin/start-all.sh
4、 配置spark
vim ~/.bashrc 编辑 添加spark全局声明:export SPARK_HOME=/home/netboy/spark/spark-1.1.0-bin-hadoop2.3
mv conf/spark-env.sh.template conf/spark-env.sh
vi conf/spark-env.sh
vi conf/spark-defaults.conf
5、启动 使用单机单核模式
../bin/spark-submit --class "com.netboy.spark.demo.SimpleApp" --master local[1]
使用 spark的自身集群模式启动
../bin/spark-submit --class "com.netboy.spark.demo.SimpleApp" --master spark://10.**.**.189:7077
具体可以参看wiki http://spark.apache.org/docs/1.0.2/
相关文章推荐
- Ubuntu上搭建hadoop和spark集群
- Hadoop-2.6.0+Zookeeper-3.4.6+Spark-1.5.0+Hbase-1.1.2+Hive-1.2.0集群搭建
- Hadoop2.6.0上的spark1.5.2集群搭建
- Centos7 下 spark1.6.1_hadoop2.6 分布式集群环境搭建
- hadoop、spark、zookeeper、hive集群搭建脚本
- Spark集群搭建——Hadoop2.4.1集群搭建
- 联想ThinkPad S3-S440虚拟机安装,ubuntu安装,Hadoop(2.7.1)详解及WordCount运行,spark集群搭建
- Centos 7 搭建hadoop-2.6.0和spark1.6.0完全分布式集群教程 (最小化配置)
- 搭建分布式Hadoop2.6.0和Spark1.6.0集群
- 搭建大数据处理集群(Hadoop,Spark,Hbase)
- spark1.3.0-hadoop2.4集群环境搭建(Standalone)
- Hadoop2.2.0 HA高可用分布式集群搭建(hbase,hive,sqoop,spark)
- hadoop集群的搭建脚本及构思(N):一个简化的Hadoop+Spark on Yarn集群快速搭建
- Spark 1.4集群搭建(Hadoop2.6)
- Hadoop2.2 + spark1.0 在ubuntu 上搭建分布式集群
- Hadoop+Spark+Zookeeper 集群搭建
- hadoop spark 大数据集群环境搭建(一)
- docker1.7 搭建spark1.4.0-hadoop2.6集群
- spark 1.5、hadoop 2.7 集群环境搭建
- Spark实战(2)----hadoop集群框架搭建