基于hadoop的社交网络的分析
2015-01-27 17:27
323 查看
昨天终于hadoop的项目验收完成了,终于可以松一口气了,总体还是比较满意的。
首先说一下项目流程,用mapreduce对数据进行预处理,然后用mahout中的聚类算法(kmeans)对数据进行处理,最后用peoplerank对数据进行处理。
根据老师交给我们的数据,包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接
http://snap.stanford.edu/data/egonets-Gplus.html(Google+)
http://snap.stanford.edu/data/egonets-Twitter.html(Twitter)
这里面的Google的人数是大概是100000多,相互之间的映射关系(A->B,就是A关注B,或者A是B的好友)有20W+,Twitter的人数大概是80000多,相互之间的映射关系也有20W+。
对下面的图片做一些解释,横坐标代表拥有好友的数量,纵坐标为拥有该好友数的用户数。这样的分布是符合网络的无标度性。
我是在本地上实现分布式的,在我的机子上开启了两个虚拟机,和使用了其他两个同学的电脑。
然后我们的性能是用ganglia进行检测的,ganglia的安装以及使用我已在之前的一篇博文中已经说过。
这只是其中一张性能分析的图片,估计本地上配置除了问题,所以才导致,master做了所有的工作。
如果有想要程序的朋友,可以在下面留言,我会写出全部的过程,和代码。
首先说一下项目流程,用mapreduce对数据进行预处理,然后用mahout中的聚类算法(kmeans)对数据进行处理,最后用peoplerank对数据进行处理。
根据老师交给我们的数据,包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接
http://snap.stanford.edu/data/egonets-Gplus.html(Google+)
http://snap.stanford.edu/data/egonets-Twitter.html(Twitter)
这里面的Google的人数是大概是100000多,相互之间的映射关系(A->B,就是A关注B,或者A是B的好友)有20W+,Twitter的人数大概是80000多,相互之间的映射关系也有20W+。
对下面的图片做一些解释,横坐标代表拥有好友的数量,纵坐标为拥有该好友数的用户数。这样的分布是符合网络的无标度性。
我是在本地上实现分布式的,在我的机子上开启了两个虚拟机,和使用了其他两个同学的电脑。
然后我们的性能是用ganglia进行检测的,ganglia的安装以及使用我已在之前的一篇博文中已经说过。
这只是其中一张性能分析的图片,估计本地上配置除了问题,所以才导致,master做了所有的工作。
如果有想要程序的朋友,可以在下面留言,我会写出全部的过程,和代码。
相关文章推荐
- [转] X-RIME: 基于Hadoop的开源大规模社交网络分析工具
- 基于hadoop的社交网络三角形计数
- 基于社交网络的情绪化分析III
- 基于Hadoop的社会网络分析工具包X-Rime开源
- 基于社交网络的情绪化分析II
- 腾讯公司数据分析岗位的hadoop工作 线性回归 k-means算法 朴素贝叶斯算法 SpringMVC组件 某公司的广告投放系统 KNN算法 社交网络模型 SpringMVC注解方式
- 基于Hadoop的社会网络分析工具包X-Rime开源
- 腾讯公司数据分析岗位的hadoop工作 线性回归 k-means算法 朴素贝叶斯算法 SpringMVC组件 某公司的广告投放系统 KNN算法 社交网络模型 SpringMVC注解方式
- 基于社交网络的情绪化分析IV
- 简单的社交网络分析(基于R)
- 趋势:基于网络分析的网络管理
- 分析基于ASP.NET的Web网络应用程序开发的平安策略实践
- 朋友圈:一款类似Google+圈子基于手机通讯录的移动社交网络应用
- 第一章 Hadoop启动Shell启动脚本分析--基于hadoop-0.20.2-cdh3u1
- 基于Mix网络的通信系统安全性性能分析
- ns2网络模拟实验,基于NS2的距离向量算法仿真及结果分析 请大侠帮忙啊~~~
- 第一章 Hadoop启动Shell启动脚本分析--基于hadoop-0.20.2-cdh3u1
- 基于T型电阻网络的DA分析
- 基于visual c++之windows核心编程代码分析(47)实现交换网络的QQ号嗅探
- 基于网络分析的故障检测