新浪微博数据挖掘食谱之十五: 爬虫篇 (抓取用户的朋友)
2015-01-11 06:43
330 查看
#!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2015-1-11 @author: beyondzhou @name: crawl_friendship_graph.py ''' # Crawl friendship graph def crawl_friendship_graph(): # import #import json from login import weibo_login from users import crawl_weibo_followers # Access to sina api weibo_api = weibo_login() screen_name = 'beyondzhou8' crawl_weibo_followers(weibo_api, screen_name, depth=1, limit=10) if __name__ == '__main__': crawl_friendship_graph() # Crawl a friendship graph def crawl_weibo_followers(weibo_api, screen_name, limit=1000000, depth=2): from data import save_to_mongo # Resolve the ID for screen_name and start working with IDs for consistency in storage seed_id = str(weibo_api.users.show.get(screen_name=screen_name)['id']) _, next_queue = get_friends_followers_ids(weibo_api, user_id=seed_id, friends_limit=0, followers_limit=limit) # Store a seed_id => _follower_ids mapping in MongoDB save_to_mongo({'followers' : [ _id for _id in next_queue ]}, 'followers_crawl', '{0}-follower_ids'.format(seed_id)) d = 1 while d < depth: d += 1 (queue, next_queue) = (next_queue, []) for fid in queue: follower_ids = get_friends_followers_ids(weibo_api, user_id=fid, friends_limit=0, followers_limit=limit) # Store a fid => follower_ids mapping in MongoDB save_to_mongo({'followers' : [ _id for _id in next_queue ]}, 'followers_crawl', '{0}-follower_ids'.format(fid)) next_queue += follower_ids
相关文章推荐
- 新浪微博数据挖掘食谱之十四: 用户篇 (分析用户的粉丝和朋友)
- 新浪微博数据挖掘食谱之十二: 用户篇 (批量获取用户的粉丝数和朋友数)
- 新浪微博数据挖掘食谱之十一: 用户篇 (批量获取用户信息)
- 新浪微博数据挖掘食谱之十三: 微博篇 (批量获取用户的微博)
- 新浪微博如何挖掘大数据资源为用户带来新价值
- 新浪微博数据挖掘食谱之二: 话题篇 (selenium)
- [python和大数据-1]利用爬虫登录知乎进行BFS搜索抓取用户信息本地mysql分析【PART1】
- 新浪微博爬虫分享(一天可抓取 1300 万条数据)
- 新浪微博如何挖掘大数据资源为用户带来新价值
- 新浪微博爬虫分享(一天可抓取 1300 万条数据)
- 新浪微博如何挖掘大数据资源为用户带来新价值
- 新浪微博数据挖掘食谱之九: 用户篇 (获取转发微博的用户名)
- 新浪微博数据挖掘食谱之四: 保存篇 (json text格式)
- [爬虫]抓取百万知乎用户数据之爬取思路
- 新浪微博如何挖掘大数据资源为用户带来新价值
- 新浪微博数据挖掘食谱之一: 登录篇 (API)
- 新浪微博数据挖掘食谱之七: 查询篇 (查询最流行的微博)
- 新浪微博数据挖掘食谱之八: 查询篇 (查询最流行的微博元素)
- 【入门-R爬虫抓取数据】文本挖掘之数据爬虫
- 简单的PHP爬虫抓取百度贴吧用户数据