如何自己动手获取大量知乎网民数据?
2018-03-23 10:45
267 查看
前言
去年在接触Java爬虫的时候,接触到了一个关于知乎的爬虫。个人觉得写的非常好,当时抓取的效率和成功率还是特别特别高,现在可能知乎反扒做的更好,这个开源知乎爬虫没之前抓取的那么顺利了。我记得当时在我的i7+8g的机器上爬了将近两天,大概爬取了60多w的数据。当然,实际抓取的用户数据数量肯定比这个多,只是持久化过程不同步而已,也就是抓取的好几个用户可能只有一个存入数据库中。为什么推荐这个项目呢?
如果你自己去阅读这个开源知乎爬虫的源码你会发现它在Ip代理以及多线程的处理上都特别好,适合大家去阅读学习。
这个项目的github地址为:https://github.com/wycm/zhihu-crawler
项目的使用方式
下载
git clone https://github.com/wycm/zhihu-crawler.git 克隆项目到本地或
或关注微信公众号:“Java面试通过手册”
回复:“知乎爬虫”即可获取知乎网民数据+项目源码。
使用
成功导入Maven项目后运行Main.java即可。如果你需要保存到数据库(Mysql)
修改配置文件config.properties然后修改
db.enable = true
再把下面其他参数修改成你的数据库的参数。
相关文章推荐
- CTreeCtrl如何设置和获取自己定义的数据
- 自己动手写web服务器四(web服务器是如何通过压缩数据,web服务器的gzip模块的实现)
- 自己动手写web服务器四(web服务器是如何通过压缩数据,web服务器的gzip模块的实现)
- 转载知乎——如何编写一个获取百度Place API里面POI数据的爬虫
- 自己动手写web服务器四(web服务器是如何通过压缩数据,web服务器的gzip模块的实现)
- jsp中如何将表单中获取的内容通过自己声明的变量插入到数据表中
- 当POST没有建名时如何获取POST的数据(APP发送字符串)(仅供自己笔记)
- 【产品进阶】自己如何获取数据+分析数据
- 如何自己动手实现 KVO
- DIY“物联网”——自己动手处理传感器数据
- 自己动手写个ORM实现(4) 关于反射DataRow数据记录到实体性能的优化
- swing——combobox如何获取数据库数据并显示
- Caffe学习系列(23):如何将别人训练好的model用到自己的数据上
- 【QTP学习笔记 1 】下拉框数据随机选择,日期输入,如何获取动态的对话框
- 关于extjs4如何获取grid修改后的数据的问题
- jquery用ajax方式从后台获取json数据后如何将内容填充到下拉列表
- 自己动手获取网站访客qq号码(转)
- 如何获取新浪微博数据
- 【转载】如何从 Windows Phone 的陀螺仪传感器获取数据
- 流媒体基本要点简述:如何在H264数据中获取PTS?