Kettle(Pentaho DataIntegration) 安装Hadoop-2.2.0插件
2014-02-26 10:32
295 查看
1 安装前的准备工作
1.1 Pentaho Data Integration
当前的CE 版本Pentaho Data Integration 是5.0.1,下载地址:http://www.pentaho.com/download/。你也可以尝试企业版EE,这里不做介绍了。下载完成后,压缩到指定的目录下。
1.2 Hadoop 2.2.0
下载最新稳定版本的Hadoop 2.2.0,下载地址:
https://hadoop.apache.org/releases.html
2 安装步骤
2.1 配置 PID Hadoop插件
进入hadoop-configurations目录下,复制chd42,并重命名为hadoop-2.2.0,并且清空client目录下的jar包。完成后,将Hadoop安装目录下share目录下的所有jar包复制到client目录下,包括hadoop
lib下jar包。清除client同级别的jar中的protobuf-java-2.4.0.jar使用protobuf-java-2.5.0.jar替代。
2.2 添加配置
将hadoop的安装目录下的配置文件复制到PID的插件hadoop-2.2.0 下,hadoop安装路径etc/hadoop/,重要的文件包括:core-site.xml,hdfd-site.xml,mapred-site.xml,yarn-site.xml,slaves等,到hadoop-2.2.0目录下。
2.3 修改PID插件的配置文件
在~/data-integration/plugins/pentaho-big-data-plugin目录下,找到plugin.properties文件。修改一行数据:
active.hadoop.configuration=hadoop-2.2.0
3.测试
测试这个配置是否成功,最简单的方法是建立job任务。创建一个job, 添加开始按钮和Hadoocopy File 组件。
点击浏览HDFS文件按钮,弹出框中配置Hadoop链接配置,点击Connect按钮。如果成功的话,下面的面板中会显示HDFS的树形文件结构。
相关文章推荐
- Kettle(Pentaho DataIntegration) 安装Hadoop-2.2.0插件
- Kettle(PentahoDataIntegration)安装Hadoop-2.2.0插件
- Kettle(Pentaho DataIntegration)实现Hadoop-2.2.0 文件复制
- Eclipse 安装Hadoop-2.2.0插件
- 在eclipse上安装hadoop2.2.0插件
- hadoop2.2.0安装中遇到的错误:mapreduce.shuffle set in yarn.nodemanager.aux-services is invalid
- pentaho data integration连接hadoop2.2.0
- Hadoop 2.2.0编译安装
- Hadoop 2.2.0 单节点安装
- Ubuntu 14.04 安装 Hadoop 2.2.0
- Linux下Hadoop Eclipse插件编译安装
- Hadoop2.2.0伪分布式安装及测试笔记
- 干货--安装eclipse-hadoop-plugin插件及HDFS API编程两个遇到的重要错误的解决
- kettle 6.0安装并连接ORACLE,HADOOP CDH5.3.0以及hadoop客户端配置
- centos6.4 32/64位机 hadoop2.2.0集群安装
- Kettle安装Kafka Consumer插件
- hadoop2.2.0在windows上安装
- ubuntu下hadoop eclipse插件编译+windows下eclipse中安装+连接hadoop
- Hadoop2.2.0集群在RHEL6.2下的安装实战
- Hadoop 2.2.0和HBase-0.98 安装snappy