Webmagic爬虫--②爬自己的CSDN博客列表
2017-11-24 15:23
405 查看
1.创建Maven项目,添加依赖
2.PageProcessor代码
3.看控制台,貌似还可以涨访问量哈哈
<dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version> </dependency>
2.PageProcessor代码
package com.xt; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.processor.PageProcessor; /** * Created by XT on 2017/11/24. */ public class MyCSND implements PageProcessor { //http://blog.csdn.net/weixin_35852328/article/list/1 public static final String URL_LIST = "http://blog\\.csdn\\.net/weixin_35852328/article/list/\\d{1}"; //http://blog.csdn.net/weixin_35852328/article/details/78144353 public static final String URL_POST = "http://blog\\.csdn\\.net/weixin_35852328/article/details/\\d{8}"; private static int count = 0; private Site site = Site .me() .setDomain("blog.csdn.net") .setRetryTimes(3).setSleepTime(100); public void process(Page page) { //列表页 if (page.getUrl().regex(URL_LIST).match()) { page.addTargetRequests(page.getHtml().xpath("//span[@class=link_title]/a/@href").all()); page.addTargetRequests(page.getHtml().links().regex(URL_LIST).all()); //文章页 } else { count++; page.putField("title", page.getHtml().xpath("//span[@class='link_title']/a/text()")); page.putField("view", page.getHtml().xpath("//span[@class='link_view']/text()")); page.putField("date", page.getHtml().xpath("//span[@class='link_postdate']/text()")); } } public Site getSite() { return site; } public static void main(String[] args) { long startTime, endTime; System.out.println("开始爬取..."); startTime = System.currentTimeMillis(); Spider.create(new MyCSND()).addUrl("http://blog.csdn.net/weixin_35852328/article/list/2").thread(5).run(); endTime = System.currentTimeMillis(); System.out.println("爬取结束,耗时约" + ((endTime - startTime) / 1000) + "秒,抓取了" + count + "条记录"); } }
3.看控制台,貌似还可以涨访问量哈哈
相关文章推荐
- 基于WebMagic写的一个入门级CSDN博客爬虫
- 基于WebMagic的CSDN博客爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- Python3爬虫之二网页解析【爬取自己CSDN博客信息】
- 爬虫小白之————爬取csdn博客列表页面
- Java开源爬虫框架WebCollector爬取CSDN博客
- CSDN爬虫(二)——博客列表分页爬虫+数据表设计
- springboot使用webmagic框架来抓取自己的博客信息
- Java网络编程(一) - Java网页爬虫 - 爬取自己的CSDN博客标题和阅读数(附源码)
- WebMagic(三)----抓取CSDN博客通过JDBC保存到数据库中去
- 好用的java爬虫框架webmagic爬取CSDN
- WebMagic(三)----抓取CSDN博客通过JDBC保存到数据库中去
- Webmagic爬虫--①初入门
- 自己动手编写CSDN博客备份工具-blogspider之源码分析(1)
- 【CSDN】博客栏目如何自己编辑(HTML)
- csdn博客利用github打造自己的专属域名
- 在CSDN上开通博客,是自己的一个开始