使用MapReduce实现一些经典的案例
2015-05-01 18:10
561 查看
在工作中,很多时候都是用hive或pig来自动化执行mr统计,但是我们不能忘记原始的mr。本文记录了一些通过mr来完成的经典的案例,有倒排索引、数据去重等,需要掌握。
一、使用mapreduce实现倒排索引
倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
之所以称之为倒排索引,是因为文章内的单词反向检索获取文章标识,从而完成巨大文件的快速搜索。搜索引擎就是利用倒排索引来进行搜索的,此外,倒排索引也是Lucene的实现原理。
假设有两个文件,a.txt类容为“hello you hello”,b.txt内容为“hello hans”,则倒排索引后,期望返回如下内容:
View Code
一、使用mapreduce实现倒排索引
倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
之所以称之为倒排索引,是因为文章内的单词反向检索获取文章标识,从而完成巨大文件的快速搜索。搜索引擎就是利用倒排索引来进行搜索的,此外,倒排索引也是Lucene的实现原理。
假设有两个文件,a.txt类容为“hello you hello”,b.txt内容为“hello hans”,则倒排索引后,期望返回如下内容:
p9 785 p3 365 p6 236
View Code
相关文章推荐
- MapReduce初级经典案例实现
- MapReduce初级案例(3):使用MapReduce实现平均成绩
- MapReduce初级经典案例实现
- 使用MapReduce实现寻找共同好友的案例
- Java开发中一些必备经典Eclipse插件以及使用集萃
- Recyclerview的一些个人理解与使用(二)实现一个简单的列表界面
- JNI使用的一些实现
- 在线支付案例--使用易宝第三方支付公司(未实现,待续)
- 使用第三方推送功能变相实现一些即时通讯操作
- 使用Python MrJob的MapReduce实现电影推荐系统
- Android开发,MapBox的使用及部分功能实现(二)----- draw、layer、以及一些杂的知识点
- 矩阵经典题目四:送给圣诞夜的礼品(使用m个置换实现对序列的转变)
- Recyclerview的一些个人理解与使用(四)在界面中实现侧边栏效果
- Recyclerview的一些个人理解与使用(五)Recyclerview的联动,时间选择的实现
- 动态规划算法——C++实现经典案例——初级
- 动态规划算法——C++实现经典案例——中级
- 使用外置js实现对html的页面做一些增删改查的操作
- 财富500强的前10个公司里有8个公司在使用Qt(Qt自己认为的优点是:直觉主义、跨平台、节省时间),以及一些商业案例
- mapreduce实现"浏览该商品的人大多数还浏览了"经典应用
- 移动端IOS使用EasyAr实现非unity(unity)案例介绍