您的位置：首页 > 运维架构 > Shell

spark shell编程基础知识

2016-05-10 17:33 666 查看

shell编程提供对spark api最简单，也是最直接的调用。

支持两种脚本语言：scala、python。

启动shell编程: ./bin/spark-shell.sh

执行顺序是：spark-shell-->spark-submit-->spark-class

spark-shell启动时，最好启动hadoop.

最好启动master、slaves，这样能通过http://localhost:8080 webUI查看

附其它hadoop程序的webUI查看端口号

port 8088: cluster and all applications

port 50070: Hadoop NameNode

port 50090: Secondary NameNode

port 50075: DataNode

注意事项：

spark-shell在一次开关机过程中，不能多次启动。

否则，在下次启动时，容易失败。出现比如SparkContext初始化失败、sqlContext失败、sql失败、以及java.net.BindException: 无法指定Service 'sparkDriver' failed。

spark-shell启动时，master、slaves可以不启动。这样spark程序作为一个单进程在本地跑（我的理解）。

spark-shell启动时，hadoop的dfs可以不启动，即jps查看时，看不到namenode、datanode。如果文件地址在dfs上，就需要启动hadoop了。

shell运行例子：val textFile = sc.textFile("file:////usr/local/spark/README.md")。能成功。

如果文件在dfs上，命令形如：scala> val textFile = sc.textFile("hdfs://127.0.0.1:9000/user/hadoop/input/invertedIndexFile1.txt")。运行也能成功。

运行玩的结果，可以写入dfs文件，也可写回本地。

写到dfs：scala> counts.saveAsTextFile("hdfs://127.0.0.1:9000/user/hadoop/input/")

写到本地：scala> counts.saveAsTextFile("file:///home/hadoop/111")。注意，111和input是文件夹。

其他知识：

各个webUIt查看端口

参考文章

1、http://spark.apache.org/docs/latest/quick-start.html（官方文档）

2、http://blog.csdn.net/god_wot/article/details/50634975

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark

相关文章推荐

新的分享

章节导航