爬虫笔记
编写爬虫一般有三种方法:
1. 通过网站的API搜索信息,这是最快最准的。
2. 拼凑url请求,自己解析。
3. 爬网页解析,最笨最慢最不稳定的方法。
N多方法,最好使用API,最不好就爬网页。
共有31款Java 网络爬虫开源软件,网址:http://www.oschina.net/project/tag/64/spider?lang=19&os=0&sort=view&p=1,其中Nutch和Heritrix比较流行
jsoup
http://tieba.baidu.com/p/2114471038
java开源web爬虫简介
http://www.open-open.com/68.htm
webmagic 0.2.0 发布,Java垂直爬虫框架
http://www.oschina.net/news/43130/webmagic-0-2-0
搜狗微信API
抓取微信号信息
http://weixin.sogou.com/weixinjs?query=微信号
http://weixin.sogou.com/weixinjs?query=微信号&page=2
抓取文章
http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=“+biz+”&uin=”+uin+”&key=”+key+”&f=json”;
头像接口:
http://img01.sogoucdn.com/app/a/100520090/oIWsFtzcKVfiAn9vIn-RC5vPURho
二维码接口:
http://img03.sogoucdn.com/app/a/100520105/nJB0eyHE6x_UhzAYn8W4
版权声明:本文为博主原创文章,未经博主允许不得转载。
- Python爬虫实践笔记(四)
- 爬虫笔记(10/6)--------CSVFeedSpider
- Python爬虫:Xpath语法笔记
- 爬虫学习笔记01-爬去猫眼电影TOP100榜单
- 学习笔记Python爬虫之Scrapy《二》
- python爬虫笔记-day3
- python 爬虫开发环境笔记
- Python的爬虫的笔记
- python爬虫笔记-day6
- python爬虫笔记 --------scrapy框架(2)
- Python爬虫学习笔记二:百度贴吧网页图片抓取
- Python爬虫学习笔记Day2
- python爬虫笔记
- Python-爬虫学习笔记(一)
- Python爬虫入门笔记(序)
- Python爬虫笔记----爬虫技术入门(1)
- 爬虫笔记二
- node.js学习笔记之koa框架和简单爬虫练习
- 【python爬虫学习笔记】07 股票数据定向爬虫实例