pig使用入门1
2014-06-15 17:27
1291 查看
1、在pig下载的安装包,解压完成了之后,有一个tutorial目录,我们使用里面的数据来开始pig学习。如果tutorial目录下没有存在pigtutorial.tar.gz文件的话,那么需要使用ant来编译出这个文件
如果没有ant,见分类linux下的ant安装
2、进入tutorial目录,执行命令ant
得到pigtutorial.tar.gz
3、使用tar -zxvf pigtutorial.tar.gz 解压
4、上传excite-small.log进入hdfs中
$>hadoop dfs -put excite-smal.log /input
因为使用pig处理的是hdfs中的文件
我们下面将主要分析excite-small.log文件,该文件的数据结构如下:
UserID TimeStamp SearchQuery
5、执行pig进入pig的上下文grunt
6、首先将excite-small.log加载到一个变量(也称之为alias)中,我们将使用该变量来表示这个数据集:
grunt> log = load 'excite-small.log' as (user, time, query);
注意的是这时pig并没有运行该命令,仅仅是解析了该命令,只有到使用dump命令或者是store命令时pig才会真正执行该命令。dump命令将打印出这个变量的内容,store命 令将变量所代表的内容保存到一个文件中。
7、 grunt> describe log; 查看结构(语句都以; 结束)
8、如果我们想要查看该log文件的前4行的话:
grunt> lmt = limit log 4;
grunt> dump lmt;(打印)
注意:如果出现:Unable to open iterator for alias a,请检查hadoop是否仍处于safemode状态,如果是,退出这个状态。
如果没有ant,见分类linux下的ant安装
2、进入tutorial目录,执行命令ant
得到pigtutorial.tar.gz
3、使用tar -zxvf pigtutorial.tar.gz 解压
4、上传excite-small.log进入hdfs中
$>hadoop dfs -put excite-smal.log /input
因为使用pig处理的是hdfs中的文件
我们下面将主要分析excite-small.log文件,该文件的数据结构如下:
UserID TimeStamp SearchQuery
5、执行pig进入pig的上下文grunt
6、首先将excite-small.log加载到一个变量(也称之为alias)中,我们将使用该变量来表示这个数据集:
grunt> log = load 'excite-small.log' as (user, time, query);
注意的是这时pig并没有运行该命令,仅仅是解析了该命令,只有到使用dump命令或者是store命令时pig才会真正执行该命令。dump命令将打印出这个变量的内容,store命 令将变量所代表的内容保存到一个文件中。
7、 grunt> describe log; 查看结构(语句都以; 结束)
8、如果我们想要查看该log文件的前4行的话:
grunt> lmt = limit log 4;
grunt> dump lmt;(打印)
注意:如果出现:Unable to open iterator for alias a,请检查hadoop是否仍处于safemode状态,如果是,退出这个状态。
相关文章推荐
- 大数据学习——数据处理工具Pig入门使用
- pig使用入门2
- pig使用入门3-UDF的使用
- PHP-Web应用程序开发:使用模板(入门)
- .Net中的反射使用入门
- Eclipse使用入门(2)
- Eclipse入门:使用指南
- ClearCase使用入门--step by step(序)
- 使用DriverStudio开发WDM设备驱动程序入门
- .Net中的反射使用入门
- Eclipse使用入门
- JSP开发入门(一)----安装好你的机器来使用JSP
- Eclipse使用入门(一)
- Toad 使用快速入门
- Asp.Net 使用 GDI+ 绘制3D饼图入门篇源码
- Eclipse使用入门(3)
- 入门计划->使用(C++库)ofstream写文件数据
- ClearCase使用入门--step by step(管理篇)
- Ibatis2.0使用说明(一)——入门实例篇[原]
- Eclipse使用入门(三)