您的位置:首页 > 运维架构 > Linux

Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上

2017-07-06 18:36 1056 查看
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上

1、首先安装Java 、Scala,然后下载spark-2.1.0-bin-hadoop2.7.tar.gz和hadoop-2.7.3.tar.gz并解压

2、分别在环境变量中添加JAVA_HOME、HADOOP_HOME、SPARK_HOME(scala在安装时会自动配置环境变量,所以在此不用考虑),截图如下:







3、配置好环境变量以后,需要下载Hadoop的hadoop.dll和winutils.exe.zip(我这里以Hadoop 2.7.3为例)(参考链接:http://download.csdn.net/detail/chenxf10/9621093),把下载之后的bin目录下的文件复制到E:\hadoop-2.7.3\bin。

4、之后就可以在IDEA中运行成功一个简单的SparkPi程序了。如图:

(1)、现在IDEA中安装scala和Python:





(2)、新建一个scala工程(或者Python工程),以scala为例:



新建工程目录如下:



(3)导入jar包,并设置本地local运行模式





(4)然后在spark-2.1.0-bin-hadoop2.7.tar.gz解压包的目录下的examples下面scala的SparkPi.scala这个实例代码运行:





整个windows下就运行完成了。

注:在windows 下Pycharm + Spark + PySpark运行,步骤如下:

前面环境变量已完成,只需要以下几个步骤:

(1)、首先把E:\spark-2.1.0-bin-hadoop2.7\python目录下的pyspark文件夹复制到python安装目录(我以我自己的为主,具体按照自己安装目录来)E:\Anaconda2\Lib\site-packages下面。

(2)、之后新建一个SparkPython工程,然后在Pycharm中加入如下配置文件(注意:在IDEA中也需要把spark-2.1.0-bin-hadoop2.7目录下的jar包导入)如图所示:



(3)、接着运行spark-2.1.0-bin-hadoop2.7下面的Python实例代码(还是以SparkPi为例):



运行可能还是会报错,如果报一下错误,
No module named py4j.protocol
,则只需要启动cmd,然后使用pip install py4j,在运行就成功了。



总结:以上就是整个windows上面搭建Spark的过程,分别使用Python和Scala运行Spark成功。因在Linux上搭建的集群,远程使用idea编程程序多有不便,故可现在windows上面单机本地调试,没问题再提交到集群运行。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐