数据挖掘(5):使用mahout做海量数据关联规则挖掘
2015-09-12 10:29
393 查看
http://blog.jobbole.com/90163/
原文出处: fengfenggirl(@也爱数据挖掘) 欢迎分享原创到伯乐头条
上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人)。掌握了关联规则的基本算法和使用,加上分布式关联规则挖掘后,就可以处理基本的关联规则挖掘工作了,实践中只需要把握业务,理解数据便可游刃有余。
骑在大象上的侠士必然需要一头雄纠纠的大象,不过本文不解绍大象hadoop,所以我假定已经安装好了hadoop,关于hadoop的安装,请google。
到Apache官网下载mahout8.0
解压
移动
配置
输入以下内容:
退出用户重新登录,使配置文件生效。输入mahout -version测试是否安装成功。
到http://fimi.ua.ac.be/data/下载一个购物篮数据retail.dat。
上传到hadoop文件系统
-i表示input,-o表示-output,-s表示最小支持度,’[\ ]‘表示以行内的数据以空格分开。
一两分钟后执行完毕,生成的文件被序列化了,直接查看会是乱码,因此需要用mahout还原回来:
输出结果:
这里输出的只是频繁项集,但在此基础上提取关联规则已经不是难事。
原文出处: fengfenggirl(@也爱数据挖掘) 欢迎分享原创到伯乐头条
上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人)。掌握了关联规则的基本算法和使用,加上分布式关联规则挖掘后,就可以处理基本的关联规则挖掘工作了,实践中只需要把握业务,理解数据便可游刃有余。
安装mahout
骑在大象上的侠士必然需要一头雄纠纠的大象,不过本文不解绍大象hadoop,所以我假定已经安装好了hadoop,关于hadoop的安装,请google。到Apache官网下载mahout8.0
解压
数据准备
到http://fimi.ua.ac.be/data/下载一个购物篮数据retail.dat。上传到hadoop文件系统
调用FpGrowth算法
一两分钟后执行完毕,生成的文件被序列化了,直接查看会是乱码,因此需要用mahout还原回来:
相关文章推荐
- Gemfile 详解
- php文件扩展名判断
- angularJS web应用SEO
- 关于美剧的一个网站
- 【视频处理】YUV格式说明
- 数据挖掘(4):使用weka做关联规则挖掘
- 双目立体视觉简单介绍
- SQL EXCEPT INTERSECT
- [Leetcode]Closest Binary Search Tree Value II
- Android中AsyncTask的使用
- hdu-1012 u Calculate e
- 服务器备份百度云
- Asp.net固定功能位充满了零(解决,演示样本)!
- LeetCode_OJ【14】Longest Common Prefix
- 数据挖掘(3):关联规则评价
- Leetcode 3 Longest Substring Without Repeating Characters
- Codeforces #319(Div.2) A. Multiplication Table
- 《剑指offer》第一个只出现一次的字符位置
- 【Java】_ 数组、哈希表、迭代器以及随机数生成器
- 数据挖掘(2):关联规则FpGrowth算法