您的位置:首页 > 编程语言 > Java开发

用Scala推荐的Eclipse作为IDE开发Spark 1.5.1的程序

2015-11-24 14:05 423 查看
为了配合另外一篇文章,自己折腾了一下把在Spark shell里写的程序弄到IDE里面开发。搜了一遍,搞通了,自己写一下笔记,已备后查。

Scala自己推荐的IDE有两个,一个是iDEA,另外一个是Eclipse。iDEA要付费,所以没工夫去买,用Eclipse很久了,就直接上手来搞。基本的东西就不细讲了,百度一下Spark+Scala就会出现很多。这里只留我自己环境搭建的基本的信息。大致步骤如下:

1. 去Scala官网上下一个它搞好的Scala IDE build of Eclipse SDK环境。

Scala IDE build of Eclipse SDK

Build id: 4.1.0-vfinal-20150704-2326-Typesafe

(c) LAMP/EPFL and Typesafe for Scala IDE and associated plugins

The Scala IDE for Eclipse provides an integrated environment for creating Scala programs.
Visit http://scala-ide.org/[/code] 
这个环境是Eclipse Luna 4.3.0,里面已经包括了Scala的SDK,不用再单独安装插件了。

2. 去下载一个Spark的安装tar.gz包,将其中的lib目录解压开,主要是为了拿到Spark的jar包,例如spark-assembly-1.5.1-hadoop2.6.0.jar

3. 新建一个Scala Project,然后在新Project上点右键,选“Build Path” 》“Configure Build Path”。在Libraries 表单里,点"Add External JARs...",然后选择上一步里解开的那个Spark的jar包,再OK。这样Scala项目里面就可以正常import Spark的类了。

搜到的还有一些推荐使用Scala Sheet之类的,都是为Scala语言准备的,不是专门针对Spark的,就没啥必要了。目前还没搜到直接在Eclipse IDE里面把Spark程序集成到某个Spark环境的方法,都还是要:先Export成一个jar包,然后copy到Spark的环境机器上,再用spark-submit命令来运行的。还没有类似Hadoop的那种可以直接在本机Eclipse里面发送MR程序到远端集成的hadoop环境里运行的方法。还是很不方便,希望以后可以有。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: