Python网络爬虫实战项目大全!
学习Python主要是爬取各种数据,进行数据分析,获得各种有意思的东西。今天我们就来做些Python网络爬虫实战项目,包含微信公号、豆瓣、知乎等网站爬虫,大家也要自己动手练练看呀。
WechatSogou - 微信(http://lib.csdn.net/base/wechat)公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,通过搜狗搜索获取公众号的openid,创建公众号历史消息请求URL,解析出历史消息总量、历史消息总页数、单个历史消息的XML,根据读取到的所有的历史消息XML内容,创建RSS文件。
DouBanSpider - 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。
zhihu_spider - 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo
bilibili-user - Bilibili用户爬虫。总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。
SinaSpider 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。
distribute_crawler - 小说下载分布式爬虫。使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。
CnkiSpider - 中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。
LianJiaSpider - 链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。
scrapy_jingdong - 京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。
QQ-Groups-Spider - QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。
QQSpider - QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。
tbcrawler - 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在mongodb。
如何自学Python爬虫技术(文末有福利)
阅读更多- Python网络爬虫实战项目代码大全
- Python网络爬虫实战项目代码大全(长期更新,欢迎补充)
- Python网络爬虫实战项目代码大全
- JAVA从菜鸟【入门】到新手【实习】一一Python制作的第一个实战项目“网络爬虫”
- Python网络爬虫实战项目大全!
- Java调用python项目实战
- Python Flask 快速构建高性能大型web网站项目实战
- 基于python的直播间接口测试实战 详解结合项目
- 项目实战 python入门到应用
- Python爬虫开发与项目实战——基础爬虫分析
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第3章 爬虫基础知识回顾
- 十个Python练手的实战项目,学会这些Python就基本没问题了
- Python框架 Flask 项目实战教程
- 项目实战_Python.子进程/协程在固件检测更新升级程序中的正确姿势?
- python实战游戏开发——开始游戏项目
- 《从零开始学Python网络爬虫》实战案例目录
- Python网络爬虫与信息提取-Day5-Requests库网络爬取实战
- python十个实战项目
- Python网络爬虫实战项目代码大全
- Python项目实战之下载博客文章