采集糗事百科的爬虫源码
2016-06-04 00:00
10 查看
摘要: 采集糗事百科的爬虫源码
源码如下,大家可以拷贝到神箭手云爬虫(http://www.shenjianshou.cn/)上直接运行:
源码如下,大家可以拷贝到神箭手云爬虫(http://www.shenjianshou.cn/)上直接运行:
var configs = { domains: ["www.qiushibaike.com"], scanUrls: ["http://www.qiushibaike.com/"], contentUrlRegexes: ["http://www\\.qiushibaike\\.com/article/\\d+"], fields: [ { name: "content", selector: "//*[@id='single-next-link']", required: true }, { name: "author", selector: "//div[contains(@class,'author')]//h2" } ] }; var crawler = new Crawler(configs); crawler.start();
相关文章推荐
- 从源码安装Mysql/Percona 5.5
- Python3写爬虫(四)多线程实现数据爬取
- Scrapy的架构介绍
- 爬虫笔记
- dedecms采集过滤常用代码集合
- 浅析Ruby的源代码布局及其编程风格
- 基于C#实现网页爬虫
- Nodejs爬虫进阶教程之异步并发控制
- asp.net 抓取网页源码三种实现方法
- PHP+HTML+JavaScript+Css实现简单爬虫开发
- JS小游戏之仙剑翻牌源码详解
- JS小游戏之宇宙战机源码详解
- jQuery源码分析之jQuery中的循环技巧详解
- 本人自用的global.js库源码分享
- java中原码、反码与补码的问题分析
- ASP.NET使用HttpWebRequest读取远程网页源代码
- php采集速度探究总结(原创)
- phpphp图片采集后按原路径保存图片示例
- asp代理采集的核心函数代码
- perl 采集入库脚本分享