您的位置:首页 > 运维架构

Spark核心源码分析与开发实战(1)-----------SSH hadoop spark集群部署

2017-09-20 15:38 465 查看
Spark安装和集群部署:

1.搭建Hadoop分布式集群

2.Spark安装和集群部署

3.测试Spark集群

二台机器,一台机器作为Master结点,另外一台作为Slaves结点

步骤1: 

Master---台式机  JDK 1.8.0_121-b13  

Slaves---HP笔记本 JDK 1.8.0_73-b02

配置SSH免密码登录:http://book.51cto.com/art/201211/363775.htm    可参考


ubuntu下安装、启动和卸载SSH 
 可参http://blog.csdn.net/qq_30770095/article/details/53516594

Hadoop的Master和Slave结点之间的通信,以及Spark的Master和Slave结点之间的通信,都是通过SSH来完成的。

Linux简化权限问题:sudo -s进入root用户权限模式

ls -a   -a是它的选项,是all的意思,就是显示所有的,包括隐藏的(就是文件名以点开头的,如
.test)

linux删除文件夹命令rm
-rf 目录名字


linux
解压 tgz


tar -xvf file.tar //解压 tar包

tar -xzvf file.tar.gz //解压tar.gz

tar -xjvf file.tar.bz2   //解压 tar.bz2

tar -xZvf file.tar.Z   //解压tar.Z

unrar e file.rar //解压rar

unzip file.zip //解压zip

tgz跟tar.gz是一样的 

tar zxvf XX.tar.gz 即可


Linux如何查看JDK的安装路径 echo $JAVA_HOME

(1)在第一台机器上 完成SSH的在线安装 apt-get install ssh   安装完成后,在终端输入/etc/init.d/ssh start启动服务

(2)SSH 设置免密码登录,生成私钥和工钥。

HP笔记本SSH一直启动不了的解决方法---------------http://blog.csdn.net/xtj332/article/details/40626557

Ubuntu环境下SSH的安装及使用 可参考http://blog.csdn.net/netwalk/article/details/12952051   【重要】

私钥公钥: ssh-keygen -t rsa -P ''    书上不对

linux查看网络地址 ifconfig

Ubuntu13.10安装SSH,以及配置多台电脑之间无密码登陆 可参考 http://blog.chinaunix.net/uid-28996519-id-3984571.html

permission denied, please try again:  http://blog.csdn.net/rznice/article/details/49360893

SSH登录了另外一台电脑,如何退出  exit

Linux下查看文件的属性ls -l查看详细的属性

------------------------------------------------------------------------------------------------  免密登录搞定

(3)安装Hadoop和搭建Hadoop分布式集群

1.安装Hadoop
http://www.linuxidc.com/Linux/2015-01/112029.htm
Hadoop 2.6.5

配置/.bashrc       vim .bashrc

2. 配置Hadoop分布式集群

1.修改主机名, 配置主机名和IP对应关系

PING CTRL+C

PNIG -C 3 www.baidu.com 就代表ping 3 次

2.在hadoop的目录下用mkdir命令创建namenode和datanode目录:tmp hdfs hdfs/name hdfs/data

http://www.linuxidc.com/Linux/2015-02/113486.htm[重要]

3.修改SparkMaster的配置文件

3.1 修改core-site.xml文件

hadoop的dfs.replication  
  

replication指的是副本数,这里设置的是冗余副本数为2
3.2 修改mapred-site.xml

3.3 修改hdfs-site.xml

(4) 测试hadoop分布式集群

--------------------------------------------------------------hadoop分布式集群搭建完成。

Spark安装和集群部署

1.安装Scala

Scala:Scala是一门多范式的编程语言,一种类似java的编程语言[1]  ,设计初衷是实现可伸缩的语言[2]  、并集成面向对象编程函数式编程的各种特性。

Scala选哪个版本?Spark选哪个版本?1.5.1---对应起来

scala-2.11.4
http://blog.csdn.net/infovisthinker/article/details/50011699  scale eclipse IDE

~/.bashrc   ---------------------

PATH 在那里设置 /etc/environment.   复制到.bashrc中

ctrl+C  退出scala

java设置默认JDK ----http://www.360doc.com/content/15/0807/15/2795334_490120031.shtml  或者 把正确的1.8.0_73的路径直接写到.bashrc中。

--------------------------------------------------------------------------------------在两台机器上,也就是SparkMaster  SparkWorker1 上测试Scala都没有问题--------------------------------------

安装Spark和集群部署
http://www.cnblogs.com/lijingchn/p/5573898.html  [参考]

spark-shell    http://blog.csdn.net/sunflower_cao/article/details/26708797 [参考]


spark shell如何退出  exit  

ctrl+C.

----------------------------------------------------------- spark集群部署成功


Spark集群测试


1.通过Spark提供的示例LocalPi测试Spark集群-------------------通过

正确的命令是 ./run-example LocalPi

2.通过Spark shell测试Spark集群

http://www.cnblogs.com/onetwo/p/5424377.html

http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html#put    ------可具体看 copyFromLocal这条命令


关闭Hadoop集群也是在Master节点上执行:
sbin/stop-dfs.sh
sbin/stop-yarn.sh


百度搜“搭建HADOOP+Spark集群的方法”-------------------------可参考

理论部分:------------------《深入云计算Hadoop源代码分析》---看--了解  2017.9.24--------------------买个便签条--LINUX指令积累

copyFromLocal 

要查看HDFS

命令如下:

hadoop fs -ls /

hadoop fs -ls /miao/     miao是我新建立的 那也就是说都传上去了

-----------------------------------------------------------------------------------------------------------------------------------

百度搜  “ 


hadoop2.6.5配置

”    ---------------------------------------提示是具体进行配置的时候,最好是能时间上对起来。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐