您的位置:首页 > 其它

采集糗事百科的爬虫源码

2016-06-04 00:00 10 查看
摘要: 采集糗事百科的爬虫源码

源码如下,大家可以拷贝到神箭手云爬虫(http://www.shenjianshou.cn/)上直接运行:

var configs = {
domains: ["www.qiushibaike.com"],
scanUrls: ["http://www.qiushibaike.com/"],
contentUrlRegexes: ["http://www\\.qiushibaike\\.com/article/\\d+"],
fields: [
{
name: "content",
selector: "//*[@id='single-next-link']",
required: true
},
{
name: "author",
selector: "//div[contains(@class,'author')]//h2"
}
]
};
var crawler = new Crawler(configs);
crawler.start();
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息