您的位置:首页 > 其它

第二章 MapReduce 第一节 气象数据

2016-02-29 11:09 197 查看
气象数据下载

MapReduce是一个数据处理的编程模型。这个模型很简单,但是以程序表达出来并不是那么

简单。HADOOP可以运行各种语文写的Mapreduce程序;本章中,我们研究同样的程序,用

Java,Ruby,Python表达。最重要的是,MapReduce本身就是并行的,它把大数据分析转变为

任何人有足够可支配的机器。MapReduce在大的数据集方面有它的特长,让我们开始吧。

一份气象数据集

在我们的例子中,我们将写一个程序来挖掘气象数据。气象传感器在世界各地每小时收集一

次数据,产生了大量的日志数据,它是使用MapReduce分析的一个好候选,因为我们想要处理

所有的数据,并且数据是半结构化的,面向记录的。

数据格式化

我们使用的数据来自National Climatic Data Center。此数据使用面向行的ASCII格式,每一行

代表一条记录。这个格式支持一组丰富的气象学元素,许多都是可选的或是带有变量数据长度。

简单起见,我们专注于基本元素,如温度,它是一直呈现的,并且是固定宽度。

例2-1例举了一个带有注释的示例行。这行已经被分成多行来显示每一个字段;在真正的文件中,

所有的字段都是在一行的,没有分隔符。



数据文件根据日期和气象站组织。从1901-2001,每一年有一个目录,每个目录包含每一个

气象站的压缩文件。例如,这是1990年的第一个条目:



有成百上千个气象站,所以整个数据集由非常多的小文件组成。处理少一点的相对较大的文件

是更容易并更有效率的,所以数据被处理,每年数据被关联成一个单独文件。(附录C描述了它是

如何被执行的)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: