第二章 MapReduce 第一节 气象数据
2016-02-29 11:09
197 查看
气象数据下载
MapReduce是一个数据处理的编程模型。这个模型很简单,但是以程序表达出来并不是那么
简单。HADOOP可以运行各种语文写的Mapreduce程序;本章中,我们研究同样的程序,用
Java,Ruby,Python表达。最重要的是,MapReduce本身就是并行的,它把大数据分析转变为
任何人有足够可支配的机器。MapReduce在大的数据集方面有它的特长,让我们开始吧。
一份气象数据集
在我们的例子中,我们将写一个程序来挖掘气象数据。气象传感器在世界各地每小时收集一
次数据,产生了大量的日志数据,它是使用MapReduce分析的一个好候选,因为我们想要处理
所有的数据,并且数据是半结构化的,面向记录的。
数据格式化
我们使用的数据来自National Climatic Data Center。此数据使用面向行的ASCII格式,每一行
代表一条记录。这个格式支持一组丰富的气象学元素,许多都是可选的或是带有变量数据长度。
简单起见,我们专注于基本元素,如温度,它是一直呈现的,并且是固定宽度。
例2-1例举了一个带有注释的示例行。这行已经被分成多行来显示每一个字段;在真正的文件中,
所有的字段都是在一行的,没有分隔符。
数据文件根据日期和气象站组织。从1901-2001,每一年有一个目录,每个目录包含每一个
气象站的压缩文件。例如,这是1990年的第一个条目:
有成百上千个气象站,所以整个数据集由非常多的小文件组成。处理少一点的相对较大的文件
是更容易并更有效率的,所以数据被处理,每年数据被关联成一个单独文件。(附录C描述了它是
如何被执行的)
MapReduce是一个数据处理的编程模型。这个模型很简单,但是以程序表达出来并不是那么
简单。HADOOP可以运行各种语文写的Mapreduce程序;本章中,我们研究同样的程序,用
Java,Ruby,Python表达。最重要的是,MapReduce本身就是并行的,它把大数据分析转变为
任何人有足够可支配的机器。MapReduce在大的数据集方面有它的特长,让我们开始吧。
一份气象数据集
在我们的例子中,我们将写一个程序来挖掘气象数据。气象传感器在世界各地每小时收集一
次数据,产生了大量的日志数据,它是使用MapReduce分析的一个好候选,因为我们想要处理
所有的数据,并且数据是半结构化的,面向记录的。
数据格式化
我们使用的数据来自National Climatic Data Center。此数据使用面向行的ASCII格式,每一行
代表一条记录。这个格式支持一组丰富的气象学元素,许多都是可选的或是带有变量数据长度。
简单起见,我们专注于基本元素,如温度,它是一直呈现的,并且是固定宽度。
例2-1例举了一个带有注释的示例行。这行已经被分成多行来显示每一个字段;在真正的文件中,
所有的字段都是在一行的,没有分隔符。
数据文件根据日期和气象站组织。从1901-2001,每一年有一个目录,每个目录包含每一个
气象站的压缩文件。例如,这是1990年的第一个条目:
有成百上千个气象站,所以整个数据集由非常多的小文件组成。处理少一点的相对较大的文件
是更容易并更有效率的,所以数据被处理,每年数据被关联成一个单独文件。(附录C描述了它是
如何被执行的)
相关文章推荐
- Learning Python(10)--input与raw_input
- iOS下的 Fixed + Input 调用键盘的时候fixed无效问题解决方案
- SQL存储过程分页(通用的拼接SQL语句思路实现)
- oracle锁机制
- XML和JSON优缺点
- mongodb远程连接
- android学习之LinearLayout
- 【leetcode】【33】Search in Rotated Sorted Array
- Linux 双机互信
- 字符串逆转StringReverse
- asynctaskdownload
- Android:设置背景色以及theme(主题)设置(一)
- “从人力资源到人力资产”主题分享会圆满结束!
- 步进电机相关基础知识及常见问题(转载)
- 数据结构-Treap
- 47.View the Exhibit and examine the structure of ORD and ORD_ITEMS tables.
- 用了 CSDN 的 markdown 编辑器吐槽下~~
- 首个threejs项目-前端填坑指南
- bootstrap基础学习十一篇
- Hibernate缓存机制