您的位置:首页 > 运维架构

Hadoop之MapReduce—Wordcount扩展

2015-05-23 18:28 267 查看
一、查看所给的数据文件

      Case 1:整个文件可以加载到内存中;

      Case 2:文件太大不能加载到内存中,但<word, count>可以存放到内存中;

      Case 3:文件太大无法加载到内存中,且<word, count>也不行;

二、问题规范化

     将问题范化为:有一批文件(规模为TB级或者 PB级),如何统计这些文件中所有单词出现的次数;

     方案:首先,分别统计每个文件中单词出现次数,然后累加不同文件中同一个单词出现次数;

     典型的MapReduce过程。

三、MapReduce编程模型—WordCount

    


                                                     
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  MapReduce Wordcount